PDF-Text-Extraktion

Syntax

	$input.pdf2txt()

Beschreibung

Extrahiert den Text aus einem gegebenen PDF-Dokument. Bei einem gescannten PDF wird Text über eine OCR-Software extrahiert. Das Ergebnis kann dann gegebenenfalls ungenau oder fehlerhaft sein.

Die Funktion verwendet externe Tools, die gegebenenfalls auf dem Applikationsserver installiert werden müssen: pdf2txt für einfache Text-Extraktion, pdftoppm zur Bild-Generierung als Vorbereitung für OCR, und tesseract für den OCR-Prozess von gescannten Dokumenten.

Parameter

Name Typ Beschreibung Pflicht Default
input Binärdaten im PDF-Format Das zu konvertierende Dokument. ja -

Rückgabewert

Typ: Zeichenkette

Der aus dem PDF extrahierte Text.