Les chercheurs développent un modèle OCR universel pour la prochaine génération de reconnaissance de texte

Résumé

Les scientifiques ont développé un nouveau modèle universel de reconnaissance optique de caractères (OCR) appelé GOT (General OCR Theory). Dans leur document de recherche, ils définissent également l’ère de l’OCR 2.0, qui vise à combiner les atouts des systèmes OCR traditionnels et des grands modèles de langage.

Selon les chercheurs, un modèle OCR 2.0 se caractérise par une architecture uniforme de bout en bout et des besoins en ressources inférieurs à ceux des LLM. Néanmoins, il doit être polyvalent et ne pas se contenter de reconnaître du texte brut.

GOT se compose d’un encodeur d’images avec environ 80 millions de paramètres et d’un décodeur vocal avec 500 millions de paramètres. L’encodeur compresse efficacement les images d’une résolution de 1 024 x 1 024 pixels en jetons, que le décodeur convertit en texte pouvant contenir jusqu’à 8 000 caractères.

GOT crée des formules, des notes de musique et plus encore modifiables

GOT peut reconnaître et convertir une variété d’informations visuelles en texte modifiable, comme le texte de scènes et de documents en anglais et en chinois, les formules mathématiques et chimiques, les notes de musique, les formes géométriques simples et les diagrammes et leurs composants tels que les titres et les étiquettes d’axe.

Publicité

LE DÉCODEUR Newsletter

Les actualités importantes de l’IA directement dans votre boîte de réception e-mail.

✓ 1x par semaine

✓ gratuit

✓ Peut être annulé à tout moment

Afin d’accélérer la formation et d’économiser les ressources informatiques, les chercheurs ont initialement formé uniquement l’encodeur aux tâches de reconnaissance de texte selon un processus en trois étapes.

Ils ont ensuite ajouté le Qwen-0.5B d’Alibaba comme décodeur, puisque le petit modèle peut gérer relativement de nombreuses langues différentes, et ont optimisé l’ensemble du modèle avec des données synthétiques plus diversifiées.

Organigramme : architecture de modèle GOT à trois niveaux avec encodeur de vision, couche linéaire et modèles de langage pour la technologie OCR 2.0.Le diagramme illustre l’architecture à trois niveaux du modèle GOT (General OCR Theory), qui combine les systèmes OCR traditionnels avec de grands modèles de langage. | Image : Wei et coll.

Partager l’article

Recommandez notre article

Diviser

Enfin, seul le décodeur a été affiné pour permettre des fonctions supplémentaires telles que la reconnaissance de régions d’image, le traitement d’images haute résolution et la reconnaissance de documents multipages. GOT peut également conserver la mise en forme du document.

Trois pages de livre en chinois avec reconnaissance OCR et texte extrait en dessous, montrant la conservation du format sur plusieurs pages.Le système peut capturer et traiter des structures de documents complexes sur plusieurs pages. Il peut extraire du texte formaté, des titres et même des images de différentes pages et les convertir en une forme numérique structurée. | Image : Wei et coll.

L’architecture modulaire permet une expansion flexible

Selon les chercheurs, grâce à sa structure modulaire et à sa formation sur les données synthétiques, GOT peut être étendu de manière flexible pour inclure de nouvelles fonctionnalités sans avoir à recycler l’intégralité du modèle.

Pour générer les données de formation, les chercheurs ont utilisé des outils de rendu tels que LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib et Pyecharts. Ils l’ont utilisé pour convertir les sources de texte collectées en millions de paires image-texte.

Recommandation

démo gratuite ainsi que le Code les chercheurs ont mis à disposition sur Hugging Face.

#Les #chercheurs #développent #modèle #OCR #universel #pour #prochaine #génération #reconnaissance #texte

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.