Google DeepMind est sorti PaliGemma 2une famille de modèles de langage vision (VLM). PaliGemma 2 est disponible en trois tailles différentes et trois résolutions d’image d’entrée et atteint des performances de pointe sur plusieurs tests de langage de vision.
PaliGemma 2 est une mise à jour du PaliGemma famille, sorti en 2024. Il utilise le même Encodeur vision SigLIP-So400m comme le PaliGemma original, mais passe au Gemma 2 LLM. La famille PaliGemma 2 contient neuf modèles différents, combinant des tailles LLM de paramètres 2B, 9B et 27B avec des encodeurs de vision d’une résolution de 224, 448 et 896 pixels carrés. L’équipe de recherche a évalué PaliGemma 2 sur divers critères, où elle a établi de nouveaux records de pointe, notamment la reconnaissance optique de caractères (OCR), la reconnaissance de structures moléculaires et la génération de rapports de radiographie. Selon Google :
Nous sommes incroyablement excités de voir ce que vous créez avec PaliGemma 2. Rejoignez la communauté dynamique Gemma, partagez vos projets sur le Gemmaverse et continuons à explorer ensemble le potentiel illimité de l’IA. Vos commentaires et contributions sont inestimables pour façonner l’avenir de ces modèles et stimuler l’innovation dans le domaine.
PaliGemma 2 est une combinaison d’un encodage d’image SigLIP-So400m pré-entraîné et d’un LLM Gemma 2. Cette combinaison est ensuite pré-entraînée sur un exemple d’ensemble de données multimodal 1B. Outre les modèles de base pré-entraînés, Google a également publié des variantes affinées sur le Descriptions des images connectées et contrastées (DOCCI), une collection d’images et les descriptions détaillées correspondantes. Les variantes affinées peuvent générer des légendes d’images longues et détaillées, qui sont des « phrases plus factuelles » que celles produites par d’autres VLM.
L’équipe a également évalué les performances et la vitesse d’inférence pour les versions quantifiées du modèle fonctionnant sur un CPU au lieu d’un GPU. La réduction des poids du modèle d’une quantification complète de 32 bits à une quantification de précision mixte n’a montré “aucune différence de qualité pratique”.
Dans une discussion de Hacker News sur le modèle, un utilisateur a écrit:
Paligemma s’avère facile à former et utile pour le réglage fin. Son principal inconvénient était de ne pas pouvoir gérer plusieurs images sans être en partie recyclé. Cette nouvelle version ne semble pas prendre en charge plusieurs images en entrée à la fois. Qwen2vl le fait. Ceci est généralement utile pour la vision RAG.
Glenn Cameron, membre de l’équipe Gemma, a écrit à propos de PaliGemma 2 sur X. En réponse à une question sur son utilisation pour contrôler un robot chirurgien, Cameron a dit:
Je pense qu’on pourrait apprendre à générer des commandes de robot. Mais je ne lui ferais pas confiance pour des tâches à enjeux aussi élevés… Notez que le nom du modèle est PaLM (Pathways Language Model). Le « Pa » en PaliGemma signifie « Pathways ». Il porte ce nom car il poursuit la gamme de modèles PaLI (Pathways Language and Image) en combinaison avec la famille de modèles de langage Gemma.
Le PaliGemma 2 modèles de base ainsi que versions affinées et un script pour le réglage fin le modèle de base est disponible sur Huggingface. Huggingface héberge également un site Web démo de réponses visuelles aux questions d’un modèle PaliGemma 2 affiné.
#Google #lance #famille #modèles #langage #vision #PaliGemma