PDF-Text-Extraktion
Syntax
$input.pdf2txt()
Beschreibung
Extrahiert den Text aus einem gegebenen PDF-Dokument. Bei einem gescannten PDF wird Text über eine OCR-Software extrahiert. Das Ergebnis kann dann gegebenenfalls ungenau oder fehlerhaft sein.
Die Funktion verwendet externe Tools, die gegebenenfalls auf dem Applikationsserver installiert werden müssen: pdf2txt
für einfache Text-Extraktion, pdftoppm
zur Bild-Generierung als Vorbereitung für OCR, und tesseract
für den OCR-Prozess von gescannten Dokumenten.
Parameter
Name | Typ | Beschreibung | Pflicht | Default |
---|---|---|---|---|
input | Binärdaten im PDF-Format | Das zu konvertierende Dokument. | ja | - |
Rückgabewert
Typ: Zeichenkette
Der aus dem PDF extrahierte Text.