Reconnaissance optique de caractères

Un logiciel de reconnaissance optique de caractères ou OCR (abréviation pour le terme anglais optical character recognition) permet de récupérer un texte imprimé et de le mettre dans un fichier qui pourra alors être exploité.

On part alors de l'image scannée d'une page (document imprimé, feuillet dactylographié, etc.) dont on veut récupérer le texte. L'image ainsi numerisée doit être assez contrastée pour que le programme discerne facilement les caractères. Certains logiciels comportent en outre une interface pour l'acquisition numérique de l'image.

Le principe du programme est de lire le document et, grâce à des bibliothèques de formes, détecter les caractères afin d'en faire correspondre la forme au caractère attendu. De plus, des dictionnaires permettent de récupérer certaines erreurs puisque le logiciel se basera alors sur des mots existants pour faire ses comparaisons. De plus, certains logiciels vont tenter de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voire rebâtir les tableaux.

Table of contents
1 Quelques logiciels de reconnaissance optique de caractères

Quelques logiciels de reconnaissance optique de caractères

Solutions commerciales

Solutions open source