Optische Zeichenerkennung

Optische Zeichenerkennung (Abkürzung oft OCR von englisch Optical Character Recognition) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.

Ursprünglich gab es dazu eigene OCR-Schriften, die z. B. für das Bedrucken von Scheckformularen verwendet wurden. Dabei wurden die OCR-A und OCR-B für gedruckte Schriften verwendet, während die OCR-H für handgeschriebene Zeichen galt. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. Diese Geräte setzten sich aber gegenüber Barcodelesern nur in Teilbereichen durch, da einerseits die Fehlerhäufigkeit viel größer war, die Leser aber teurer waren.

Die gestiegenen Leistungen moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten.

Ein Text, der eingescannt wird, liegt zunächst nur wie ein ganz normales Bild als Rastergrafik vor.

Das hat vor allem zwei Nachteile:

  1. es braucht viel Speicherplatz,
  2. es kann nicht mit einer Textverarbeitung oder einem Editor weiterverarbeitet werden.

OCR Programme wandeln die eingelesene Bild-Datei in eine Textdatei um. Diese kann dann mit Schreibprogrammen wie OpenOffice.org Writer oder MS Word weiterbearbeitet werden.

Vielen Scannern liegt mittlerweile OCR und Scan-Software bei.

Programme