Online OCR Service

(14.02.2011) Was gibt es besseres, als wenn man sich nicht um irgendwelche Programme Gedanken machen muss oder gar welche kaufen muss, die man nur gelegentlich mal benötigt. Meist braucht man so ein Programm sowie so gerade dann, wenn man keine Zeit hat oder man braucht es auf einem Rechner, auf dem man nichts installieren kann, darf oder will. Die Lösung ist ein online-Tool. Auch für die Schrifterkennung gibt es schon online verfügbare Tools. Vier dieser Services habe ich mittlerweile gebookmarkt. Einer davon ist leider nicht mehr im Netz. Die anderen drei habe ich mal gegeneinander antreten lassen. Hier die Ergebnisse:

Einen klaren Testsieger gibt es nicht. Je nach Quelle war mal der eine oder der andere besser.

Für reinen Text (auch mehrspaltig) würde ich onlineocr.net empfehlen. Die Texterkennung funktioniert gut. Zeilenumbrüche werden entfernt. Leider werden die Trennzeichen nicht mit entfernt. Das Ergebnis kann direkt aus dem Browser kopiert werden und es steht eine Dateidownload zur Verfügung. Die Texterkennung ist begrenzt, auf eine (bzw. die erste) Seite pro Upload und auf 15 Seiten pro Stunde.

Auf Platz zwei der reinen Texterkennung landet free-ocr.com - gute Erkennungsrate, aber nicht ganz so gut wie onlineocr.

Schlusslicht ist newocr.com. Dafür kann dieses Tool mehrseitige pdf umwandeln. Das Zerlegen in mehrere Seiten entfällt also.

Fazit: Die Texterkennung funktioniert, auch mit verschiedensprachigen Texten. Man kann die Sprache des Dokumentes vorher festlegen. Eine Nachbearbeitung der Texte ist in allen Fällen erforderlich. Das geht aber auf jeden Fall schneller, als die Texte abzutippen.

Der zweite Test wurde mit einer Seite Programmcode durchgeführt – ebenfalls zweispaltig.

Bestes Ergebnis bei der Zeichenerkennung lieferte wieder onlineocr.net. Allerdings wurde nicht erkannt, dass es sich um 2 Spalten handelte. Somit war das an sich gute Ergebnis unbrauchbar!

Das beste brauchbare Ergebnis lieferte free-ocr. Die Spalten wurden erkannt.. Allerdings liegt die Erkennungsquote deutlich niedriger als bei onlineocr.net.

Schlusslicht ist auch hier newocr.com mit der schlechtesten Zeichenerkennung. Immerhin wurden die Spalten richtig erkannt.

Update 1

(05.12.2011) Angeregt durch einen Leserkommentar mit einem weiteren Tipp bezüglich Online-OCR-Diensten, habe ich die drei bereits getesteten erneut getestet und auch die empfohlene Seite getestet.

Auf zwei Seiten scheint sich einiges getan zu haben. Die Ergebnisse sind natürlich stark von der Quelle abhängig. Leider habe ich auch nicht mehr die alten Seiten, mit denen der erste Test statt gefunden hatte. Getestet wurde diesmal eine Seite Code-Listing aus einer alten Computerzeitung (3 Spaltig) und eine Seite Text (2 Spaltig) mit Bild.

Das neue Ranking sieht so aus:

1. Platz (überraschenderweise sowohl für Code also auch für Text): onlineocr.net

2. Platz (auch für mehrseitige Vorlagen, hier hat sich ganz deutlich einiges getan): newocr.com

3. Platz (und im vergleich zu den anderen beiden schon recht deutlich abgeschlagen): free-ocr.com

Sollte jemand noch weitere online-Services zum OCR kennen, immer her damit – zumindest wenn die Erkennungsquote nicht grottig ist…

Schreib was...

Kommentar von Peter |

Hi, hier gibts noch einen online OCR Service: http://www.djvu-pdf.com/online-ocr-service.php

Antwort von Robert

Vielen Dank für den Tipp.

Leider können keine PDFs geOCRed werden und die Erkennungsquote bleibt weit hinter den anderen drei. Schade.

Kommentar von Sarah Reinhardt |

Ich benutze meistens http://ocr.online, da dies der einzige Service ist, der mehrseitige PDFs bearbeitet.

Antwort von Robert

Es ist sicher ein Zufall, dass Sie sich mit dem Betreiber des von Ihnen empfolenen Diesnstes einen Nachnamen teilen :)

Mehrseitige PDFs kann auch newocr.com.

Ich werde Ihren Dienst demnächst mal testen und berichten...

Bitte addieren Sie 4 und 4.