Extrahieren Sie Text aus PDF- und Bilddateien

Haben Sie ein PDF-Dokument, aus dem Sie den gesamten Text extrahieren möchten? Was ist mit Bilddateien eines gescannten Dokuments, das Sie in bearbeitbaren Text konvertieren möchten? Dies sind einige der häufigsten Probleme, die ich am Arbeitsplatz bei der Arbeit mit Dateien gesehen habe.

In diesem Artikel werde ich über verschiedene Möglichkeiten sprechen, wie Sie versuchen können, Text aus einem PDF oder einem Bild zu extrahieren. Ihre Extraktionsergebnisse variieren je nach Art und Qualität des Texts in der PDF-Datei oder im Bild. Außerdem variieren die Ergebnisse je nach verwendetem Werkzeug. Probieren Sie daher möglichst viele der unten aufgeführten Optionen aus, um die besten Ergebnisse zu erzielen.

Extrahieren Sie Text aus Bild oder PDF

Der einfachste und schnellste Weg, um zu beginnen, ist einen Online-PDF-Text-Extraktor-Service zu versuchen. Diese sind normalerweise kostenlos und können Ihnen genau das geben, wonach Sie suchen, ohne etwas auf Ihrem Computer installieren zu müssen. Hier sind zwei, die ich mit sehr guten bis hervorragenden Ergebnissen verwendet habe:

AuszugPDF

Auszugpdf

AuszugPDF ist ein kostenloses Tool, um Bilder, Texte und Schriften aus einer PDF-Datei zu erhalten. Die einzige Einschränkung ist, dass die maximale Größe für die PDF-Datei 10 MB beträgt. Das ist ein bisschen klein; Wenn Sie also eine größere Datei haben, probieren Sie einige der folgenden Methoden aus. Wählen Sie Ihre Datei und klicken Sie dann auf Datei senden Taste. Die Ergebnisse sind normalerweise sehr schnell und Sie sollten eine Vorschau des Textes sehen, wenn Sie auf die Registerkarte Text klicken.

Text herunterladen

Es ist auch ein netter zusätzlicher Vorteil, dass es auch Bilder aus der PDF-Datei extrahiert, nur für den Fall, dass Sie diese benötigen! Alles in allem funktioniert das Online-Tool gut, aber ich habe ein paar PDF-Dokumente gefunden, die mir lustige Ergebnisse liefern. Der Text ist gut extrahiert, aber aus irgendeinem Grund wird es einen Zeilenumbruch nach jedem Wort haben! Kein großes Problem für eine kurze PDF-Datei, aber sicherlich ein Problem für Dateien mit viel Text. Wenn Ihnen das passiert, versuchen Sie das nächste Werkzeug.

Online-OCR

Online-OCR Gewöhnlich tendiert es dazu, für die Dokumente zu arbeiten, die mit ExtractPDF nicht richtig konvertiert wurden. Daher ist es eine gute Idee, beide Dienste auszuprobieren, um zu sehen, welche die bessere Ausgabe liefert. Online-OCR hat auch einige schönere Funktionen, die für jeden mit einer großen PDF-Datei, die nur Text auf nur wenigen Seiten und nicht das gesamte Dokument konvertieren muss, nützlich sein können.

Das erste, was Sie tun möchten, ist weitermachen und ein kostenloses Konto erstellen. Es ist ein bisschen nervig, aber wenn Sie das kostenlose Konto nicht erstellen, konvertiert es nur teilweise Ihr PDF und nicht das gesamte Dokument. Anstatt nur ein 5-MB-Dokument hochladen zu können, können Sie bis zu 100 MB pro Datei mit einem Konto hochladen.

online okr

Wählen Sie zunächst eine Sprache und dann die Art der Ausgabeformate, die Sie für die konvertierte Datei wünschen. Sie haben ein paar Optionen und Sie können mehrere auswählen, wenn Sie möchten. Unter Mehrseitiges Dokument , können Sie auswählen Seitenzahlen und wählen Sie dann nur die Seiten aus, die Sie konvertieren möchten. Dann wählen Sie die Datei und klicken Sie auf Konvertieren !

online ocr docs

Nach der Konvertierung gelangen Sie in den Bereich Dokumente (sofern Sie angemeldet sind), in dem Sie sehen können, wie viele freie Seiten Sie noch haben und Links zum Herunterladen Ihrer konvertierten Dateien. Es sieht so aus, als ob Sie nur 25 Seiten pro Tag kostenlos haben. Wenn Sie mehr brauchen, müssen Sie entweder etwas warten oder mehr Seiten kaufen.

Online-OCR hat meine PDF-Dateien hervorragend konvertiert, da das tatsächliche Layout des Textes beibehalten werden konnte. In meinem Test habe ich ein Word-Dokument verwendet, das Aufzählungszeichen, verschiedene Schriftgrößen usw. verwendet und es in ein PDF konvertiert hat. Dann habe ich Online-OCR verwendet, um es wieder in Word-Format zu konvertieren, und es war ungefähr 95% das gleiche wie das Original. Das ist ziemlich beeindruckend für mich.

Wenn Sie ein Bild in Text konvertieren möchten, kann Online OCR das ebenso einfach durchführen wie das Extrahieren von Text aus PDF-Dateien.

Kostenlose Online-OCR

Da wir über Bild-zu-Text-OCR gesprochen haben, möchte ich noch eine gute Webseite erwähnen, die wirklich gut auf Bildern funktioniert. Kostenlose Online-OCR war sehr gut und sehr genau beim Extrahieren von Text aus meinen Testbildern. Ich habe ein paar Fotos von Seiten von Büchern, Broschüren usw. aus meinem iPhone gemacht und war überrascht, wie gut es den Text konvertieren konnte.

kostenlos online okr

Wählen Sie Ihre Datei und klicken Sie dann auf die Schaltfläche Hochladen. Auf dem nächsten Bildschirm gibt es einige Optionen und eine Vorschau des Bildes. Sie können es zuschneiden, wenn Sie das ganze nicht OCR wollen. Klicken Sie dann einfach auf den OCR-Button und Ihr konvertierter Text erscheint unter der Bildvorschau. Es hat auch keine Einschränkungen, was wirklich nett ist.

Zusätzlich zu den Online-Diensten gibt es zwei Freeware-PDF-Konverter, die ich erwähnen möchte, falls Sie Software benötigen, die lokal auf Ihrem Computer ausgeführt wird, um die Konvertierungen durchzuführen. Bei Online-Diensten benötigen Sie immer eine Internetverbindung, und das ist möglicherweise nicht für alle möglich. Allerdings stellte ich fest, dass die Qualität der Conversions aus den Freeware-Programmen deutlich schlechter war als die der Websites.

A-PDF Text Extraktor

A-PDF Text Extraktor ist eine Freeware, die ziemlich gut Texte aus PDF-Dateien extrahiert. Sobald Sie es heruntergeladen und installiert haben, klicken Sie auf die Schaltfläche Öffnen, um Ihre PDF-Datei auszuwählen. Klicken Sie dann auf Text extrahieren, um den Prozess zu starten.

apdf Extraktor

Sie werden nach einem Speicherort gefragt, an dem die Textausgabedatei gespeichert werden soll. Anschließend wird mit dem Extrahieren begonnen. Sie können auch auf die Schaltfläche klicken Möglichkeit Mit dieser Schaltfläche können Sie nur bestimmte Seiten zum Extrahieren und den Extraktionstyp auswählen. Die zweite Option ist interessant, weil sie den Text in verschiedenen Layouts extrahiert und es lohnt sich, alle drei zu testen, um herauszufinden, welche die beste Ausgabe liefert.

PDF2Text Pilot

PDF2Text Pilot macht einen guten Job, Text zu extrahieren. Es hat keine Optionen; Sie fügen einfach Dateien oder Ordner hinzu, konvertieren und hoffen auf das Beste. Es funktionierte gut auf einigen PDFs, aber für die Mehrheit von ihnen gab es zahlreiche Probleme.

pdf2text

Klicken Sie einfach auf Dateien hinzufügen und dann auf Konvertieren . Sobald die Konvertierung abgeschlossen ist, klicken Sie auf Durchsuchen, um die Datei zu öffnen. Ihr Kilometerstand variiert mit diesem Programm, also erwarten Sie nicht viel.

Es ist auch erwähnenswert, dass Sie, wenn Sie sich in einer Unternehmensumgebung befinden oder von der Arbeit eine Kopie von Adobe Acrobat erhalten, wirklich viel bessere Ergebnisse erzielen können. Acrobat ist natürlich nicht kostenlos, aber es gibt Optionen, um PDF in das Word-, Excel- und HTML-Format zu konvertieren. Es macht auch die beste Arbeit, die Struktur des Originaldokuments beizubehalten und komplizierten Text zu konvertieren.

Loading ..

Recent Posts

Loading ..