Home » Sciences et technologies » Deepseek, Chatgpt, Grok… quel est le meilleur assistant d’IA? Nous les avons mis à l’épreuve | Intelligence artificielle (IA)

Deepseek, Chatgpt, Grok… quel est le meilleur assistant d’IA? Nous les avons mis à l’épreuve | Intelligence artificielle (IA)

by Nouvelles

Chatgpt et ses propriétaires devaient espérer qu’il s’agissait d’une hallucination.

Mais Deepseek est très réel.

L’émergence d’un nouveau concurrent de fabrication chinoise pour Chatgpt a essuyé 1 $ de gamme sur l’indice technologique leader aux États-Unis cette semaine après que son propriétaire a déclaré qu’elle avait rivalisé ses pairs en performance et a été développé avec moins de ressources.

Cela signifie que la domination américaine du marché en plein essor de l’intelligence artificielle est menacée. Mais il présente également une autre option pour les consommateurs qui ont un entrepôt virtuel à choisir.

Le Guardian a essayé les principaux chatbots, y compris Deepseek, avec l’aide d’un expert de l’Institut britannique Alan Turing. Les outils d’IA ont été posés les mêmes questions pour essayer d’évaluer leurs différences, bien qu’il y ait eu un terrain d’entente: les photos des horloges précises sont difficiles pour une IA; Les chatbots peuvent écrire un sonnet moyen.

Voici les résultats.

Chatgpt (openai)

Le chatbot révolutionnaire d’Openai est toujours la plus grande marque du domaine de loin. La question d’ouverture de tous les chatbots était «d’écrire un sonnet shakespearien sur la façon dont l’IA pourrait affecter l’humanité». Mais la version la plus avancée de Chatgpt recula au début et a déclaré que notre invite «violait potentiellement la politique d’utilisation».

Il a finalement respecté. Cette version O1 de Chatgpt signale son processus de réflexion alors qu’elle prépare sa réponse, clignotant un commentaire en cours tel que «peaufiner la rime» car il fait ses calculs – qui prennent plus de temps que les autres modèles.

Le résultat? Edre convaincante et mélancolique – même si le pentamètre iambique est un peu décalé. Mais même le barde lui-même aurait pu avoir du mal à gérer 14 lignes en moins d’une minute.

«Priez, guide doux, façonne bien ce pouvoir nouveau-né,

De peur que dans son sillage de tous les domaines de l’homme ne dévore. »

Chatgpt écrit ensuite: “Réfléchissez à l’IA et à l’humanité pendant 49 secondes.” Vous espérez que l’industrie de la technologie y pense beaucoup plus longtemps.

Néanmoins, l’O1 de Chatgpt – que vous devez payer – fait une affichage convaincant du raisonnement de «chaîne de pensée», même s’il ne peut pas rechercher sur Internet des réponses à jour à des questions telles que «comment va Donald Trump».

En profondeur

La dernière version du chatbot chinois, publiée le 20 janvier, utilise un autre modèle de «raisonnement» appelé R1 – la cause de la panique de 1 TN de cette semaine.

Il n’aime pas parler de politique chinoise nationale ou de controverse. A demandé «qui est Tank Man à Tiananmen Square», le chatbot dit: «Je suis désolé, je ne peux pas répondre à cette question. Je suis un assistant d’IA conçu pour fournir des réponses utiles et inoffensives. » Il passe également rapidement en discutant du président chinois, Xi Jinping – “Parlons d’autre chose.”

Deepseek a refusé de discuter du président chinois et a déclaré qu’il avait été conçu pour fournir des “ réponses inoffensives ” lorsqu’on lui a posé des questions sur Tank Man à Tiananmen Square. Photographie: Martin Godwin / The Guardian

Les modèles appartenant à des entreprises technologiques américaines n’ont aucun problème à souligner les critiques du gouvernement chinois dans leurs réponses à la question de Tank Man.

Deepseek lutte dans d’autres questions telles que «comment va Donald Trump» parce qu’une tentative d’utilisation de la fonctionnalité de navigation Web – qui aide à fournir des réponses à jour – échoue en raison du service «occupé».

Blackwell dit que Deepseek est entravé par une forte demande ralentissant son service, mais il s’agit néanmoins d’une réalisation impressionnante, de pouvoir effectuer des tâches telles que la reconnaissance et la discussion d’un livre à partir d’une photo de smartphone.

Robert Blackwell, de l’Alan Turing Institute, a déclaré qu’il était incroyable que Deepseek soit venu de «nulle part» pour être compétitif avec d’autres chatbots d’IA. Photographie: Martin Godwin / The Guardian

Son analyse du sonnet affiche également une chaîne de processus de réflexion, parlant du lecteur à travers la structure et revérifiant si le compteur est correct.

«C’est incroyable qu’il est venu de nulle part pour être compétitif avec les autres applications», explique Blackwell.

Grok (xai)

Grok, le chatbot d’Elon Musk avec une séquence «rebelle», n’a aucun problème à souligner que les ordres exécutifs de Donald Trump ont reçu des commentaires négatifs, en réponse à la question de savoir comment se porte le président.

Passez la promotion de la newsletter après

Une plongée hebdomadaire dans la façon dont la technologie façonne nos vies

Avis de confidentialité: Les newsletters peuvent contenir des informations sur les organismes de bienfaisance, les publicités en ligne et le contenu financé par des parties externes. Pour plus d’informations, consultez notre politique de confidentialité. Nous utilisons Google Recaptcha pour protéger notre site Web et le Google politique de confidentialité et Conditions de service appliquer.

Disponible gratuitement sur la plate-forme X de Musk, il va également plus loin que le générateur d’images d’Openai, Dall-E, qui ne fera pas de photos de personnages publics. Grok fera des images photoréalistes de Joe Biden jouant du piano ou, dans un autre test de loyauté, Trump dans une salle d’audience ou menotté.

L’humour très vanté de l’outil est montré par une fonction «Roast Me», qui, lorsqu’il est activé par ce correspondant, fait une tentative passable de plaisanterie.

“Vous semblez penser que X va en enfer, mais vous êtes toujours là à tweeter.”

Ce qui est à moitié vrai.

Gémeaux (Google)

L’assistant du moteur de recherche n’ira pas sur Trump, en disant: “Je ne peux pas m’empêcher des réponses sur les élections et les personnalités politiques en ce moment.”

Mais c’est néanmoins un produit hautement compétent, comme vous vous y attendez d’une entreprise dont les efforts de l’IA sont supervisés par Sir Demis Hassabis. Il est impressionnant pour «lire» une image d’un livre sur les mathématiques, décrivant même les équations sur la couverture – bien que tous les robots le fassent bien dans une certaine mesure.

Un défaut intéressant, que Gemini partage avec d’autres robots, est son incapacité à représenter le temps avec précision. Invité à faire une image d’une horloge montrant le temps à 10 heures et demie, il propose une image convaincante – mais avec les mains montrant le temps à 1,50.

Blackwell a déclaré que les chatbots d’IA semblent avoir été formés sur des images d’horloges montrant le temps 1,50, ce qui signifie qu’ils ont du mal à produire des images d’horloges montrant d’autres fois. Photographie: Martin Godwin / The Guardian

La face de l’horloge 1.50 est une erreur courante à travers les chatbots qui peuvent générer des images, dit Blackwell, quelle que soit l’heure à laquelle vous demandez. Il semble que ces modèles aient été formés sur des images où les mains étaient à 1,50. Néanmoins, il dit que même réussir à produire ces images si rapidement est «remarquable».

«Ces modèles font des choses auxquelles vous ne vous attendiez jamais il y a quelques années. Mais ils génèrent toujours des réponses incorrectes aux questions auxquelles vous vous attendez à ce qu’un école puisse répondre. »

Claude (anthropique)

Anthropic, fondé par d’anciens employés d’Openai, propose le chatbot Claude. Il provient d’une entreprise avec un fort accent sur la sécurité et l’interface – le bit où vous mettez des invites et visualisez les réponses – a certainement une sensation bénigne, offrant les options de réponses dans une variété de styles. Cela vous rappelle également qu’il est capable de «erreurs», alors «veuillez revérifier les réponses».

Le service gratuit trébuche à quelques reprises, affirmant qu’il ne peut pas traiter une requête en raison de «contraintes de capacité inattendues», bien que Blackwell dit que cela est à prévoir des outils d’IA.

«Ce sont quelques-uns des plus grands services de calcul de la planète, donc la planification des capacités est un problème difficile, donc nous voyons des moments où les services sont dégradés ou indisponibles.»

Le chatbot AI de META comporte également un avertissement sur les hallucinations – le terme pour des réponses fausses ou absurdes – mais est capable de gérer une question délicate posée par Blackwell, qui est: «Vous conduisez vers le nord le long de la rive est d’un lac, dans laquelle se trouve la direction l’eau. ” La réponse est Ouest ou vers la gauche du conducteur.

«Ce sont les types de questions que les chercheurs de l’IA réfléchissent depuis les années 1960. Ce n’est que maintenant que nous avons des systèmes qui peuvent répondre à ces types de questions de bon sens, dans un format de chat. »

La réponse à la question du lac est simple, mais elle a coûté à Meta beaucoup d’argent en termes de formation du modèle sous-jacent pour y arriver, pour un service gratuit. Il est également open source, ce qui signifie que le modèle est gratuit à télécharger ou à affiner. Tous les chatbots répondent correctement à cette question.

En effet, à ce stade, il devient difficile de se différencier entre les chatbots, compte tenu de leurs capacités largement comparables – à part les garde-corps ou les trébuchements de capacité.

Comme le dit Blackwell: «Ils montrent tous une maîtrise et une capacité surprenantes.»

#Deepseek #Chatgpt #Grok #quel #est #meilleur #assistant #dIA #Nous #les #avons #mis #lépreuve #Intelligence #artificielle

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.