Molmo d’AI2 montre que l’open source peut égaler et surpasser les modèles multimodaux fermés

L’opinion commune est que des entreprises comme Google, OpenAI et Anthropic, avec des réserves de trésorerie illimitées et des centaines de chercheurs de haut niveau, sont les seules à pouvoir créer un modèle de base de pointe. Mais comme l’une d’entre elles célèbrement notéils « n’ont pas de douves » — et AI2 l’a montré aujourd’hui avec la sortie de Boucheun modèle d’IA multimodal qui correspond le mieux à leurs attentes tout en étant petit, gratuit et véritablement open source.

Pour être clair, Molmo (modèle de langage ouvert multimodal) est un moteur de compréhension visuelle, pas un chatbot à service complet comme ChatGPT. Il n’a pas d’API, il n’est pas prêt pour l’intégration en entreprise et il ne recherche pas sur le Web pour vous ou pour ses propres besoins. Vous pouvez le considérer comme la partie de ces modèles qui voit une image, la comprend et peut la décrire ou répondre à des questions à son sujet.

Molmo (disponible en variantes à 72B, 7B et 1B paramètres), comme d’autres modèles multimodaux, est capable d’identifier et de répondre à des questions sur presque toutes les situations ou objets du quotidien. Comment fonctionne cette cafetière ? Combien de chiens sur cette image ont la langue tirée ? Quelles options de ce menu sont végétaliennes ? Quelles sont les variables de ce diagramme ? C’est le genre de tâche de compréhension visuelle que nous avons vu démontrée avec différents niveaux de succès et de latence depuis des années.

Ce qui est différent, ce ne sont pas nécessairement les capacités de Molmo (que vous pouvez voir dans la démo ci-dessous, ou tester ici), mais comment y parvenir.

La compréhension visuelle est un domaine vaste, qui va du comptage des moutons dans un champ à la prédiction de l’état émotionnel d’une personne, en passant par la synthèse d’un menu. Il est donc difficile de la décrire, et encore moins de la tester quantitativement, mais comme l’a expliqué le président d’AI2, Ali Farhadi, lors d’un événement de démonstration au siège de l’organisation de recherche à Seattle, on peut au moins montrer que deux modèles ont des capacités similaires.

« Une chose que nous montrons aujourd’hui, c’est qu’ouvert est égal à fermé », a-t-il déclaré, « et petit est désormais égal à grand. » (Il a précisé qu’il voulait dire ==, signifiant équivalence, et non identité ; une distinction subtile que certains apprécieront.)

Une constante dans le développement de l’IA est que « plus c’est gros, mieux c’est ». Plus il y a de données d’entraînement, plus il y a de paramètres dans le modèle résultant et plus il y a de puissance de calcul pour les créer et les exploiter. Mais à un moment donné, il est littéralement impossible d’augmenter la taille de l’IA : il n’y a pas assez de données pour le faire, ou les coûts et les temps de calcul deviennent si élevés qu’ils deviennent contre-productifs. Il faut simplement se contenter de ce que l’on a, ou mieux encore, faire plus avec moins.

Farhadi a expliqué que Molmo, bien qu’il soit à égalité avec des modèles comme GPT-4o, Gemini 1.5 Pro et Claude-3.5 Sonnet, pèse (selon les meilleures estimations) environ un dixième de leur poids. Et il se rapproche de leur niveau de capacité avec un modèle qui est un dixième de que.

Crédits image : AI2

« Il existe des dizaines de benchmarks différents sur lesquels les gens se basent pour évaluer les performances. Je n’aime pas ce jeu, scientifiquement parlant… mais je devais montrer un chiffre aux gens », a-t-il expliqué. « Notre plus grand modèle est un petit modèle, 72B, qui surpasse les GPT, Claudes et Geminis sur ces benchmarks. Encore une fois, prenez-le avec des pincettes ; est-ce que cela signifie qu’il est vraiment meilleur qu’eux ou non ? Je ne sais pas. Mais au moins pour nous, cela signifie que ce modèle joue le même jeu. »

Si vous voulez essayer de le résoudre, n’hésitez pas à consulter la démo publiquequi fonctionne également sur mobile. (Si vous ne souhaitez pas vous connecter, vous pouvez actualiser ou faire défiler vers le haut et « modifier » l’invite d’origine pour remplacer l’image.)

Le secret est d’utiliser moins de données, mais de meilleure qualité. Au lieu de s’entraîner sur une bibliothèque de milliards d’images dont la qualité ne peut pas être contrôlée, décrite ou dédupliquée, AI2 a organisé et annoté un ensemble de seulement 600 000. Évidemment, c’est encore beaucoup, mais comparé à six milliards, c’est une goutte d’eau dans l’océan – une fraction de pour cent. Bien que cela laisse de côté un peu de données de longue traîne, leur processus de sélection et leur méthode d’annotation intéressante leur donnent des descriptions de très haute qualité.

Intéressant comment ? Eh bien, ils montrent aux gens une image et leur demandent de la décrire – à voix haute. Il s’avère que les gens parlent de choses différemment de la façon dont ils les écrivent, et cela produit des résultats non seulement précis, mais aussi conversationnels et utiles. Les descriptions d’images qui en résultent, produites par Molmo, sont riches et pratiques.

La meilleure preuve en est sa nouvelle capacité, unique depuis quelques jours au moins, à « pointer » les parties pertinentes des images. Lorsqu’on lui a demandé de compter les chiens sur une photo (33), il a mis un point sur chacun de leurs visages. Lorsqu’on lui a demandé de compter les langues, il a mis un point sur chaque langue. Cette spécificité lui permet d’effectuer toutes sortes de nouvelles actions zero-shot. Et surtout, cela fonctionne également sur les interfaces Web : sans regarder le code du site Web, le modèle comprend comment naviguer sur une page, soumettre un formulaire, etc. (Rabbit a récemment présenté quelque chose de similaire pour sa r1, qui sortira la semaine prochaine.)

Crédits image : AI2

Alors pourquoi tout cela est-il important ? Des modèles sortent pratiquement tous les jours. Google vient d’en annoncer quelques-uns. OpenAI organise une journée de démonstration. Perplexity taquine constamment quelque chose ou autre. Meta fait la promotion de la version Llama, quelle qu’elle soit.

« Nous ciblons les chercheurs, les développeurs, les développeurs d’applications, les personnes qui ne savent pas comment gérer ces problèmes. [large] « Nous avons un principe clé pour cibler un public aussi large, celui que nous défendons depuis un certain temps : le rendre plus accessible », a déclaré Farhadi. « Nous publions tout ce que nous avons fait. Cela comprend les données, le nettoyage, les annotations, la formation, le code, les points de contrôle, l’évaluation. Nous publions tout ce que nous avons développé. »

Il a ajouté qu’il s’attend à ce que les gens commencent immédiatement à construire avec cet ensemble de données et ce code – y compris les rivaux aux poches profondes, qui s’accaparent toutes les données « accessibles au public », c’est-à-dire tout ce qui n’est pas défini. (« Qu’ils le mentionnent ou non, c’est une toute autre histoire », a-t-il ajouté.)

Le monde de l’IA évolue rapidement, mais les géants se retrouvent de plus en plus engagés dans une course au moins-disant, abaissant les prix au strict minimum tout en levant des centaines de millions pour couvrir les coûts. Si des capacités similaires sont disponibles dans des options open source gratuites, la valeur offerte par ces entreprises peut-elle vraiment être aussi astronomique ? À tout le moins, Molmo montre que, même si la question de savoir si l’empereur a des vêtements reste ouverte, il n’a certainement pas de douves.

#Molmo #dAI2 #montre #lopen #source #peut #égaler #surpasser #les #modèles #multimodaux #fermés

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.