![]() Dans cet article, nous présentons principalement une approche de la numérisation et de l'OCR de documents ayant un contenu textuel arabe de faible qualité, ce qui garantit une précision élevée et constante. Le résultat de l'expérience a ensuite été appliqué à plus d'un million d’extraits, le corpus du projet CEDEJ, et a donné des résultats cohérents. ![]() Chaque échantillon a été scanné dans différentes résolutions et modes de couleur, pour produire un ensemble de 180 échantillons (six versions de chaque extrait), puis transmis aux logiciels d’OCR pour évaluer leur précision de reconnaissance. Notre jeu de données se compose de 30 extraits de presse qui représentent différentes qualités, en termes de fond d'image, de taille de texte et d'autres effets dus à l'âge et au stockage des documents papier. Nous décrivons l'approche du développement de l'ensemble de données, ainsi que l'effet des différentes spécifications des images, sur la précision de l'OCR. Contrairement à d'autres tentatives similaires, nous avons développé notre propre ensemble de données pour étudier les meilleures spécifications et outils afin de réaliser la plus grande précision dans le projet d'archives de presse égyptiennes du Centre d'Études et de Documentation Économiques, Juridiques et Sociales (CEDEJ). Our approach is based on evaluating OCR suites performance against different image capturing and manipulation specifications.Ĭet article évalue trois systèmes commerciaux de reconnaissance optique de caractères (OCR) pour la numérisation des archives de presse : Sakhr Automatic Reader (AR) version 11.2 gold Abbyy FineReader (FR) version 12 et NovoVerus (NV) version 4.2.0 dans un contexte de dégradation de la qualité du texte. In this paper, we mainly introduce an approach to digitize and OCR documents having low quality Arabic textual content, which guarantees high and consistent accuracy. Then, we replicated the procedure that produced the highest consistent OCR accuracy on more than one million press-clips, the corpus of the CEDEJ project, and evaluated its results. Each sample was scanned in different resolutions and color modes, to produce a set of 180 samples (six versions of each press-clip), then fed to the OCR suites, to evaluate its recognition accuracy. Our dataset consists of 30 press-clips that represent different qualities, in terms of image background, text size and other effects due to age and storage. We describe the approach of developing the dataset, as well as the effect of different image specifications on the OCR accuracy. In contrast to other similar attempts, we developed our own dataset to study the best specifications and tools in order to realize highest accuracy in the Egyptian press archive project of the Centre d'Études et de Documentation Économiques, Juridiques et Sociales (CEDEJ). This paper evaluates three commercial Arabic Optical Character Recognition (OCR) systems: Sakhr Automatic Reader (AR) version 11.2 gold Abbyy FineReader (FR) version 12 and NovoVerus (NV) version 4.2.0 for the digitization of press archives having degraded text quality.
0 Comments
Leave a Reply. |
AuthorWrite something about yourself. No need to be fancy, just an overview. ArchivesCategories |