Microsoft Research dévoilé rStar-Mathun cadre qui démontre la capacité des petits modèles de langage (SLM) à atteindre des capacités de raisonnement mathématique comparables, et dans certains cas supérieures, à des modèles plus grands comme o1-mini d’OpenAI. Ceci est accompli sans avoir besoin de modèles plus avancés, ce qui représente une nouvelle approche pour améliorer les capacités d’inférence de l’IA.
Au cœur de rStar-Math se trouve une méthode connue sous le nom de Monte Carlo Tree Search (MCTS), qui permet aux SLM de s’engager dans un raisonnement itératif étape par étape. Ce processus est guidé par un modèle de récompense, également basé sur un SLM, qui évalue la qualité des étapes intermédiaires et affine les chemins de raisonnement. Grâce à un processus d’auto-évolution, rStar-Math améliore continuellement ses modèles et la qualité de ses données d’entraînement.
- Synthèse de données CoT augmentée par code : cette méthode utilise les déploiements MCTS pour générer des trajectoires de raisonnement avec des étapes intermédiaires vérifiées. L’exécution du code Python valide ces étapes, garantissant des données d’entraînement de haute qualité.
- Modèle de préférence de processus (PPM) : au lieu de s’appuyer sur des annotations de récompense bruyantes, rStar-Math utilise les valeurs Q des déploiements MCTS pour créer des paires de préférences pour l’entraînement du PPM. Cette approche améliore la capacité du modèle à évaluer efficacement la qualité des étapes.
- Cadre d’auto-évolution : sur quatre itérations, rStar-Math entraîne progressivement de meilleurs modèles de politique et de récompense, à partir d’un ensemble de données de 747 000 problèmes mathématiques et générant des données de plus en plus raffinées pour les futurs cycles de formation.
rStar-Math a été évalué sur plusieurs critères de raisonnement mathématique, démontrant des améliorations notables des performances SLM. Par exemple, le Qwen2.5-Math-7B le modèle s’est amélioré de 58,8 % à 90,0 % de précision sur le benchmark MATH, dépassant les performances de Le modèle o1-preview d’OpenAI de 4,5%. Sur le Olympiade de mathématiques des États-Unis (AIME)rStar-Math a atteint un taux de réussite de 53,3 %, résolvant en moyenne 8 problèmes sur 15.
En réponse à l’approche, un membre de la communauté remarqué:
Très impressionnant, j’adore la simplicité d’utiliser les valeurs Q comme annotations ! Vous mentionnez 64 trajectoires comme une sorte de limite de saturation, est-ce exact ou n’avez-vous tout simplement pas essayé d’étendre encore plus cette approche ?
Li Lyna Zhangl’un des papierles auteurs, clarifié:
Merci! Sur des tests mathématiques difficiles tels que AIME, les performances sont presque saturées avec 64 trajectoires. En mathématiques au niveau collégial, les performances continuent de s’améliorer régulièrement ; cependant, nous n’avons pas dépassé 64 en raison de l’augmentation du coût de recherche. Nous pensons que les performances de l’AIME peuvent être encore améliorées en synthétisant des problèmes mathématiques supplémentaires au niveau de l’Olympiade afin d’améliorer à la fois le modèle politique et le modèle de récompense du processus. Nous laissons cela comme notre travail futur.
rStar-Math est disponible en tant que projet open source sur GitHub sous licence MIT. Cela permet aux chercheurs et aux ingénieurs d’explorer et d’utiliser le cadre permettant d’évaluer et d’améliorer les capacités de raisonnement mathématique des systèmes d’IA.
#Microsoft #Research #dévoile #rStarMath #faire #progresser #raisonnement #mathématique #dans #les #petits #modèles #langage