Les chercheurs de NVIDIA ont introduit LLaMA-Mailleune approche révolutionnaire qui étend les grands modèles de langage (LLM) pour générer et interpréter des données de maillage 3D dans un cadre unifié basé sur du texte. LLaMA-Mesh tokenise les maillages 3D sous forme de texte brut, permettant l’intégration transparente des informations spatiales et textuelles.
L’innovation principale de LLaMA-Mesh réside dans son approche de tokenisation des données de maillage 3D. Les coordonnées des sommets et les définitions des faces d’un maillage 3D sont représentées sous forme de texte brut, permettant aux LLM existants de traiter ces informations sans nécessiter un vocabulaire étendu. Cette méthode intègre des modalités texte et 3D, permettant au modèle à la fois de générer des maillages 3D et de les comprendre dans un cadre conversationnel.
- Générez des maillages 3D à partir de descriptions textuelles.
- Combinez des sorties entrelacées de texte et de maillages 3D.
- Interpréter et raisonner sur les structures de maillage 3D existantes.
LLaMA-Mesh atteint un niveau de qualité de génération de maillage comparable aux modèles spécifiquement conçus pour cette tâche tout en préservant ses capacités de génération de texte. Son cadre prend en charge des applications pratiques dans le design, l’architecture et d’autres domaines nécessitant un raisonnement spatial.
Malgré ses promesses, certains utilisateurs ont signalé des domaines dans lesquels l’approche pourrait être améliorée. András Csányi, ingénieur logiciel, remarqué sur Twitter :
Hmmm, ça a l’air bien. Mais pour l’utiliser, il faut un langage de commande prévisible. C’est vraiment fastidieux de se battre avec le LLM qui exclut aléatoirement les détails que je fournis.
Dans Le fil de discussion de Redditcette approche a été reconnue pour son potentiel à améliorer les capacités de raisonnement spatial de l’IA. L’utilisateur de Reddit, DocWafflez, a noté que la compréhension de l’espace 3D est cruciale pour l’AGI.
Un autre utilisateur mis en évidence applications potentielles :
Vous pourriez également intégrer cela dans le cadre du raisonnement, par exemple pour certaines questions de raisonnement spatial (pour lesquelles les LLM sont généralement mauvais), vous pourriez leur faire représenter la scène de manière 3D simplifiée, coder le comportement des agents dans la scène, observer les résultats. , prenez des captures d’écran et utilisez l’analyse de la vision pour produire des résultats plus précis.
UN démo de LLaMA-Mesh est disponible sur Hugging Face, démontrant ses capacités avec une limite de jetons de 4096 en raison de contraintes informatiques. Bien que cette limite puisse entraîner une génération de maillage incomplète, le modèle complet prend en charge jusqu’à 8 000 jetons et peut être exécuté localement pour des fonctionnalités étendues.
Ce travail met en évidence une étape importante pour combler le fossé entre le traitement du langage naturel et la compréhension des données spatiales. Les chercheurs ont rendu LLaMA-Mesh disponible sur GitHubavec des outils et de la documentation pour une exploration plus approfondie.
#LLaMAMesh #percée #NVIDIA #dans #lunification #génération #maillage #des #modèles #langage