Résumé
Les scientifiques ont développé un nouveau modèle universel de reconnaissance optique de caractères (OCR) appelé GOT (General OCR Theory). Dans leur document de recherche, ils définissent également l’ère de l’OCR 2.0, qui vise à combiner les atouts des systèmes OCR traditionnels et des grands modèles de langage.
Selon les chercheurs, un modèle OCR 2.0 se caractérise par une architecture uniforme de bout en bout et des besoins en ressources inférieurs à ceux des LLM. Néanmoins, il doit être polyvalent et ne pas se contenter de reconnaître du texte brut.
GOT se compose d’un encodeur d’images avec environ 80 millions de paramètres et d’un décodeur vocal avec 500 millions de paramètres. L’encodeur compresse efficacement les images d’une résolution de 1 024 x 1 024 pixels en jetons, que le décodeur convertit en texte pouvant contenir jusqu’à 8 000 caractères.
GOT crée des formules, des notes de musique et plus encore modifiables
GOT peut reconnaître et convertir une variété d’informations visuelles en texte modifiable, comme le texte de scènes et de documents en anglais et en chinois, les formules mathématiques et chimiques, les notes de musique, les formes géométriques simples et les diagrammes et leurs composants tels que les titres et les étiquettes d’axe.
Publicité
LE DÉCODEUR Newsletter
Les actualités importantes de l’IA directement dans votre boîte de réception e-mail.
✓ 1x par semaine
✓ gratuit
✓ Peut être annulé à tout moment
Afin d’accélérer la formation et d’économiser les ressources informatiques, les chercheurs ont initialement formé uniquement l’encodeur aux tâches de reconnaissance de texte selon un processus en trois étapes.
Ils ont ensuite ajouté le Qwen-0.5B d’Alibaba comme décodeur, puisque le petit modèle peut gérer relativement de nombreuses langues différentes, et ont optimisé l’ensemble du modèle avec des données synthétiques plus diversifiées.
Le diagramme illustre l’architecture à trois niveaux du modèle GOT (General OCR Theory), qui combine les systèmes OCR traditionnels avec de grands modèles de langage. | Image : Wei et coll.
Partager l’article
Recommandez notre article
Diviser
Enfin, seul le décodeur a été affiné pour permettre des fonctions supplémentaires telles que la reconnaissance de régions d’image, le traitement d’images haute résolution et la reconnaissance de documents multipages. GOT peut également conserver la mise en forme du document.
Le système peut capturer et traiter des structures de documents complexes sur plusieurs pages. Il peut extraire du texte formaté, des titres et même des images de différentes pages et les convertir en une forme numérique structurée. | Image : Wei et coll.
L’architecture modulaire permet une expansion flexible
Selon les chercheurs, grâce à sa structure modulaire et à sa formation sur les données synthétiques, GOT peut être étendu de manière flexible pour inclure de nouvelles fonctionnalités sans avoir à recycler l’intégralité du modèle.
Pour générer les données de formation, les chercheurs ont utilisé des outils de rendu tels que LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib et Pyecharts. Ils l’ont utilisé pour convertir les sources de texte collectées en millions de paires image-texte.
Recommandation
Cet aperçu montre le processus depuis les sources de texte jusqu’aux outils de rendu et aux résultats visuels. Il illustre comment divers formats d’entrée tels que les codes .tex ou SMILES peuvent être convertis en formules mathématiques complexes, structures chimiques, figures géométriques et diagrammes à l’aide d’outils spécialisés. | Image : Wei et coll.
Dans les expériences des chercheurs, GOT a bien performé sur diverses tâches OCR. Il a obtenu les meilleures notes lors de la reconnaissance de texte dans des documents et des scènes. De plus, il a même surpassé les modèles spécialisés et les grands modèles de langage en matière de reconnaissance de diagrammes.
Des formules chimiques complexes aux notations musicales en passant par les visualisations de données, OCR 2.0 peut capturer avec précision divers formats et les convertir en formats lisibles par machine. Cela ouvre de nouvelles possibilités de traitement et d’analyse automatisés dans les domaines de la science, de la musique et de l’analyse des données. | Image : Wei et coll.
Un démo gratuite ainsi que le Code les chercheurs ont mis à disposition sur Hugging Face.
#Les #chercheurs #développent #modèle #OCR #universel #pour #prochaine #génération #reconnaissance #texte