Pas de modèles GPT bien sûr. Ceux-ci sont spécifiques à OpenAI. Autres modèles LLM.
Je l’ai en effet construit spécifiquement. J’ai aussi un PC de jeu avec 4090, mais je ne voulais pas l’utiliser pour ça. J’utilise une Radeon VII Pro, que j’ai trouvée neuve ici dans la montre de prix à 289 euros. Juste chez MeGekko. Malheureusement je n’en ai acheté qu’1 à l’époque, je suis un peu déçu maintenant car il n’est plus disponible. Possède 16 Go de mémoire HBM2 avec une bande passante mémoire de 1 To/s, identique à celle du 4090 ! Parce que c’est l’une des choses les plus importantes avec les LLM, il est presque aussi rapide que le 4090. Avec Llama 3.1 8b, il est très rapide à condition de limiter le contexte. De toute façon, je ne peux pas utiliser le contexte complet car le contexte est extrêmement « coûteux » en termes de mémoire. Après 40 000 tokens, les 16 Go sont déjà pleins. Cela s’explique en partie par le fait qu’Ollama ne quantifie pas actuellement le contexte. Cependant, cela est en cours d’élaboration, il y a un demande de tirage soumis. Le ‘backend’ llama.cpp le supporte déjà donc je pense qu’il sera bientôt intégré. Avec Q8 (8 bit int) vous pourrez rapidement atteindre 80 000 tokens avec 16 Go.
Maintenant, je dois dire que tout n’est pas pris en charge sur Radeon. De nombreux logiciels ne prennent en charge que CUDA (et souvent Metal pour Apple) mais pas ROCm (l’homologue d’AMD à CUDA). Par exemple certains logiciels de génération d’images. Mais cela ne m’intéresse pas vraiment. Il a été un peu plus difficile de le faire fonctionner avec ROCm, mais une fois opérationnel, il fonctionne parfaitement. Et j’en ai tout simplement eu bien plus pour mon argent qu’avec une GeForce.
Il contient également un Ryzen 2600 que je traînais et 64 Go de RAM. La consommation au repos est de 50W. Un peu élevé, mais comme j’avais encore tout le matériel sauf la carte vidéo, ce n’est pas si mal car j’ai beaucoup économisé avec ça. De plus, je n’ai jamais vraiment fait l’effort d’optimiser cela (l’électricité coûte ici environ 14c le kWh TTC). Lors d’une requête cela peut aller vers 350W.
Je l’ai lié à diverses applications mobiles, Firefox, Home Assistant (pour le contrôle vocal), Openwebui et sillytavern. Le serveur exécute également Whisper (intégré à openwebui) et Piper pour TTS. Je n’utilise pas les meilleures options TTS car elles nécessitent le GPU et je préfère les garder exclusives à LLM pour les garder rapides. De plus, Piper fonctionne assez bien et est même rapide sur un Raspberry, donc tout va bien sur un tel serveur.
Vous pouvez utiliser Python pour développer des « outils » simples dans OpenWebUI (et il y en a beaucoup disponibles en téléchargement !) que le LLM peut utiliser de sa propre initiative, et ainsi rechercher des informations en direct ou effectuer des actions. Malheureusement, l’appeler ne fonctionne pas très bien (souvent, il n’utilise pas l’outil et hallucine la réponse). C’est l’une des choses que j’espère que Llama 4 améliorera.
Ce que j’aimerais en ce moment, ce sont des satellites vocaux pour pouvoir leur parler directement. De préférence même sans Home Assistant, car via OpenWebUI, je peux utiliser les recherches Google (via SearXNG, que j’avais déjà exécuté de toute façon !) et d’autres outils. Mais je n’ai pas encore trouvé de bon moyen. J’ai déjà quelques Raspberry Pi Zero W 2 prêts et des cartes ReSpeaker pour une dizaine d’euros.
PS : je n’utilise pas encore Llama 3.2 car ollama ne supporte pas les modèles 11b. De plus, le LLM n’y a pas été amélioré, seule la reconnaissance d’image a été ajoutée et ce n’est d’ailleurs pas quelque chose que j’utilise souvent. Ensuite je préfère garder la mémoire libre pour plus de contexte.
Je laisse toujours le même modèle dans la mémoire du GPU, car changer de modèle prend quelques secondes et cela s’ajoute au temps de réponse. Le temps de réponse est assez rapide si vous gardez le contexte court. Parce qu’il doit également être entièrement chargé en tant que magasin de valeurs de clés étendu (plusieurs gigaoctets pour un contexte volumineux).
J’ai toujours un compte chez OpenAI avec de l’argent dedans. Je peux choisir en toute transparence entre mon propre serveur et ChatGPT depuis OpenWebUI, et je peux même envoyer la requête aux deux en même temps et comparer le résultat si je le souhaite ! Mais pour la plupart des choses, ma configuration actuelle est assez bonne et souvent même meilleure car ChatGPT est très censuré. Mais cela dépend de l’utilisation que vous en faites. Un petit modèle est moins adapté comme « source d’information », mais c’est quelque chose pour lequel je préfère utiliser une combinaison avec un moteur de recherche.
[Reactie gewijzigd door Llopigat op 1 november 2024 01:03]
#Meta #sortira #Llama #début #lannée #prochaine #Pro #Actualités