Liste des 20 meilleurs modèles de LLM (juin 2024)

Les LLM, modèles de langage de grande taille, sont pré-entraînés sur de grands ensembles de données et utilisent le traitement du langage naturel pour effectuer des tâches linguistiques telles que la génération de texte, la complétion de code, la paraphrase, et plus encore.

La sortie initiale de ChatGPT a déclenché l’adoption rapide de l’IA générative, ce qui a conduit à des innovations dans les modèles de langage de grande taille et à la croissance de l’industrie.

En fait, 92 % des entreprises du Fortune 500 ont commencé à utiliser l’IA générative dans leurs flux de travail.

À mesure que l’adoption continue de croître, il en va de même pour l’industrie des LLM. Le marché mondial des modèles de langage de grande taille devrait passer de 6,5 milliards de dollars en 2024 à 140,8 milliards de dollars d’ici 2033.

Voici une liste des 20 meilleurs LLM disponibles en juin 2024.

Nom du LLMDéveloppeurDate de sortieAccèsParamètres
GPT-4oOpenAI13 mai 2024APIInconnu
Claude 3Anthropic14 mars 2024APIInconnu
Grok-1xAI4 novembre 2023Open-Source314 milliards
Mistral 7BMistral AI27 septembre 2023Open-Source7,3 milliards
PaLM 2Google10 mai 2023Open-Source340 milliards
Falcon 180BTechnology Innovation Institute6 septembre 2023Open-Source180 milliards
Stable LM 2Stability AI19 janvier 2024Open-Source1,6 milliard, 12 milliards
Gemini 1.5Google DeepMind2 février 2024APIInconnu
Llama 3Meta AI18 avril 2024Open-Source8 milliards, 70 milliards
Mixtral 8x22BMistral AI10 avril 2024Open-Source141 milliards
Inflection-2.5Inflection AI10 mars 2024PropriétaireInconnu
JambaAI21 Labs29 mars 2024Open-Source52 milliards
Command RCohere11 mars 2024Les deux35 milliards
GemmaGoogle DeepMind21 février 2024Open-Source2 milliards, 7 milliards
Phi-3Microsoft23 avril 2024Les deux3,8 milliards
XGen-7BSalesforce3 juillet 2023Open-Source7 milliards
DBRXDatabricks’ Mosaic ML27 mars 2024Open-Source132 milliards
PythiaEleutherAI13 février 2023Open-Source70 millions à 12 milliards
SoraOpenAI15 février 2024 (annoncé)APIInconnu
Alpaca 7BStanford CRFM13 mars 2023Open-Source7 milliards

1. GPT-4o

Développeur : OpenAI

Date de sortie : 13 mai 2024

Nombre de paramètres : Inconnu

Qu’est-ce que c’est ? GPT-4o est le modèle de langage le plus récent et le plus avancé d’OpenAI, succédant à GPT-4, GPT-3.5 et GPT-3. OpenAI affirme que GPT-4o est 50 % moins cher que GPT-4 tout en étant deux fois plus rapide pour générer des tokens. Ce modèle multimodal inclut des capacités de texte, image, vidéo et voix regroupées en un seul package.

La plus grande amélioration de GPT-4o est la fonction Voice-to-Voice, qui améliorera les temps de réponse d’entrée à une moyenne de 320 millisecondes (comparé à quelques secondes avec GPT-4). Cette fonctionnalité devrait être lancée dans les semaines à venir.

2. Claude 3

Développeur : Anthropic

Date de sortie : 14 mars 2024

Nombre de paramètres : Inconnu

Qu’est-ce que c’est ? Claude 3 est le dernier modèle de langage d’Anthropic, qui inclut Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Claude est sans doute le plus grand concurrent de GPT-4 et ChatGPT, traitant jusqu’à 200 000 tokens (150 000 mots) comparé aux capacités de 32 000 tokens de GPT-4.

Vous aimerez aussi :   IntraParis : Simplifiez la gestion de vos dossiers RH à la Mairie de Paris

Amazon a investi plus de 4 milliards de dollars dans Anthropic, portant la valorisation de la startup à 15 milliards de dollars. L’application mobile Claude a également été lancée en mai 2024.

3. Grok-1

Développeur : xAI

Date de sortie : 4 novembre 2023

Nombre de paramètres : 314 milliards

Qu’est-ce que c’est ? Créé par la startup d’intelligence artificielle d’Elon Musk, xAI, Grok-1 est actuellement le plus grand LLM open-source à ce jour avec 314 milliards de paramètres. Grok s’intègre directement avec X (Twitter), et les utilisateurs doivent payer un abonnement X Premium+ pour y accéder.

En raison de la taille du modèle, Grok utilise une architecture mixture-of-experts (MoE) qui n’utilise que 25 % de ses poids pour tout token d’entrée donné afin de maximiser l’efficacité de calcul.

4. Mistral 7B

Développeur : Mistral AI

Date de sortie : 27 septembre 2023

Nombre de paramètres : 7,3 milliards

Qu’est-ce que c’est ? Mistral 7B est un modèle de langage open-source avec 32 couches, 32 têtes d’attention et huit têtes clé-valeur. Malgré son nombre réduit de paramètres, il a surpassé la famille des modèles Llama 2 dans presque toutes les mesures, y compris la compréhension de la lecture, les mathématiques, la programmation, etc.

Mistral 7B est publié sous une licence Apache 2.0. Les clients sont libres de le télécharger localement, de le déployer sur le cloud ou de l’exécuter sur HuggingFace. La startup basée à Paris est proche de sécuriser une nouvelle levée de fonds de 600 millions de dollars qui valoriserait l’entreprise à 6 milliards de dollars.

5. PaLM 2

Développeur : Google

Date de sortie : 10 mai 2023

Nombre de paramètres : 340 milliards

Qu’est-ce que c’est ? PaLM 2 est un modèle de langage avancé développé par Google. Successeur du modèle de langage Pathways original (PaLM), il est entraîné sur 3,6 billions de tokens (comparé à 780 milliards) et 340 milliards de paramètres (comparé à 540 milliards). PaLM 2 a été initialement utilisé pour alimenter le premier chatbot d’IA générative de Google, Bard (rebaptisé Gemini en février 2024).

6. Falcon 180B

Développeur : Technology Innovation Institute (TII)

Date de sortie : 6 septembre 2023

Nombre de paramètres : 180 milliards

Qu’est-ce que c’est ? Développé et financé par le Technology Innovation Institute, le Falcon 180B est une version améliorée du précédent LLM Falcon 40B. Il dispose de 180 milliards de paramètres, ce qui est 4,5 fois plus grand que les 40 milliards de paramètres de Falcon 40B.

En plus de Falcon 40B, il surpasse également d’autres grands modèles de langage comme GPT-3.5 et LLaMA 2 sur des tâches telles que le raisonnement, la réponse aux questions et la programmation. En février 2024, le Technology Innovation Institute (TII) basé aux Émirats arabes unis a engagé 300 millions de dollars de financement pour la Falcon Foundation.

7. Stable LM 2

Développeur : Stability AI

Date de sortie : 19 janvier 2024

Nombre de paramètres : 1,6 milliard et 12 milliards

Qu’est-ce que c’est ? Stability AI, les créateurs du modèle de texte en image Stable Diffusion, sont les développeurs derrière Stable LM 2. Cette série de modèles de langage de grande taille inclut Stable LM 2 12B (12 milliards de paramètres) et Stable LM 2 1.6B (1,6 milliard de paramètres). Lancé en avril 2024, le modèle 12B plus grand surpasse des modèles comme LLaMA 2 70B sur des benchmarks clés malgré sa taille beaucoup plus petite.

Vous aimerez aussi :   Devenez un Directeur Artistique accompli avec la formation en ligne Studi

8. Gemini 1.5

Développeur : Google DeepMind

Date de sortie : 2 février 2024

Nombre de paramètres : Inconnu

Qu’est-ce que c’est ? Gemini 1.5 est le modèle de langage de nouvelle génération de Google, offrant une amélioration significative par rapport à son prédécesseur, Gemini 1.0. Bien qu’il soit seulement disponible pour des tests préliminaires, Gemini 1.5 Pro offre une fenêtre contextuelle de un million de tokens (1 heure de vidéo, 700 000 mots ou 30 000 lignes de code), la plus grande à ce jour comparée aux autres LLM et chatbots. Cette amélioration est 35 fois plus grande que celle de Gemini 1.0 Pro et dépasse le précédent record de 200 000 tokens détenu par Claude 2.1 d’Anthropic.

9. Llama 3

Développeur : Meta AI

Date de sortie : 18 avril 2024

Nombre de paramètres : 8 milliards et 70 milliards

Qu’est-ce que c’est ? Llama 3 est la dernière version dans la série des modèles de langage autoregressifs de Meta. Les versions 70B et 8B ont surpassé d’autres modèles open-source tels que Mistral 7B et Gemma 7B de Google sur les benchmarks MMLU, de raisonnement, de codage et de mathématiques. Le modèle Llama 3 en open-source peut être utilisé gratuitement en accédant au chatbot Meta AI.

Les clients peuvent toujours accéder à son prédécesseur, Llama 2, disponible en trois versions : 7 milliards, 13 milliards et 70 milliards de paramètres. Meta prévoit de lancer une version Llama 3 plus grande de 400 milliards de paramètres plus tard cette année.

10. Mixtral 8x22B

Développeur : Mistral AI

Date de sortie : 10 avril 2024

Nombre de paramètres : 141 milliards

Qu’est-ce que c’est ? Mixtral 8x22B est le modèle de langage de grande taille le plus avancé de Mistral AI. Ce modèle sparse Mixture-of-Experts (SMoE) a un total de 141 milliards de paramètres, mais n’utilise que 39 milliards de paramètres actifs pour améliorer le ratio performance/coût du modèle.

La startup a également récemment lancé Mistral Large, une alternative à ChatGPT qui se classe deuxième derrière GPT-4 parmi les LLM basés sur API.

11. Inflection-2.5

Développeur : Inflection AI

Date de sortie : 10 mars 2024

Nombre de paramètres : Inconnu

Qu’est-ce que c’est ? Inflection-2.5 est le dernier modèle de langage de grande taille (LLM) développé par Inflection AI pour alimenter son assistant conversationnel, Pi. Des améliorations significatives ont été apportées, car le modèle atteint actuellement plus de 94 % des performances moyennes de GPT-4 tout en n’ayant que 40 % des FLOPs d’entraînement. En mars 2024, la startup soutenue par Microsoft a atteint plus d’un million d’utilisateurs actifs quotidiens sur Pi.

12. Jamba

Développeur : AI21 Labs

Date de sortie : 29 mars 2024

Nombre de paramètres : 52 milliards

Qu’est-ce que c’est ? AI21 Labs a créé Jamba, le premier modèle de langage de grande taille de production de style Mamba au monde. Il intègre la technologie SSM avec des éléments d’un modèle transformateur traditionnel pour créer une architecture hybride. Le modèle est efficace et hautement évolutif, avec une fenêtre contextuelle de 256K et un support de déploiement de 140K context sur un seul GPU.

13. Command R

Développeur : Cohere

Date de sortie : 11 mars 2024

Nombre de paramètres : 35 milliards

Qu’est-ce que c’est ? Command R est une série de LLM évolutifs de Cohere qui supportent dix langues et une longueur de contexte de 128 000 tokens (environ 100 pages de texte). Ce modèle excelle principalement dans la génération augmentée par récupération, les tâches liées au code comme les explications ou les réécritures, et le raisonnement. En avril 2024, Command R+ a été lancé pour soutenir des charges de travail plus importantes et fournir un support en entreprise réel.

Vous aimerez aussi :   Le transport électrique : une révolution silencieuse

14. Gemma

Développeur : Google DeepMind

Date de sortie : 21 février 2024

Nombre de paramètres : 2 milliards et 7 milliards

Qu’est-ce que c’est ? Gemma est une série de modèles de langage open-source légers développés et publiés par Google DeepMind. Les modèles Gemma sont construits avec une technologie similaire aux modèles Gemini, mais Gemma est limité aux entrées et sorties de texte uniquement. Les modèles ont une fenêtre contextuelle de 8 000 tokens et sont disponibles en tailles de 2 milliards et 7 milliards de paramètres.

15. Phi-3

Développeur : Microsoft

Date de sortie : 23 avril 2024

Nombre de paramètres : 3,8 milliards

Qu’est-ce que c’est ? Classifié comme un petit modèle de langage (SLM), Phi-3 est la dernière version de Microsoft avec 3,8 milliards de paramètres. Malgré sa taille plus petite, il a été entraîné sur 3,3 billions de tokens de données pour rivaliser avec les performances de Mistral 8x7B et GPT-3.5 sur les benchmarks MT-bench et MMLU.

À ce jour, Phi-3-mini est le seul modèle disponible. Cependant, Microsoft prévoit de lancer les modèles Phi-3-small et Phi-3-medium plus tard cette année.

16. XGen-7B

Développeur : Salesforce

Date de sortie : 3 juillet 2023

Nombre de paramètres : 7 milliards

Qu’est-ce que c’est ? XGen-7B est un modèle de langage de grande taille développé par Salesforce avec 7 milliards de paramètres et une fenêtre contextuelle de 8 000 tokens. Le modèle a été entraîné sur 1,37 trillion de tokens provenant de diverses sources, telles que RedPajama, Wikipedia, et le propre ensemble de données Starcoder de Salesforce.

Salesforce a publié deux versions open-source, une fenêtre contextuelle de 4 000 et 8 000 tokens, hébergées sous une licence Apache 2.0.

17. DBRX

Développeur : Databricks’ Mosaic ML

Date de sortie : 27 mars 2024

Nombre de paramètres : 132 milliards

Qu’est-ce que c’est ? DBRX est un modèle de langage open-source construit par Databricks et l’équipe de recherche Mosaic ML. L’architecture mixture-of-experts a 36 milliards (sur un total de 132 milliards) de paramètres actifs pour une entrée donnée. DBRX dispose de 16 experts et en choisit 4 lors de l’inférence, fournissant 65 fois plus de combinaisons d’experts par rapport à des modèles similaires comme Mixtral et Grok-1.

18. Pythia

Développeur : EleutherAI

Date de sortie : 13 février 2023

Nombre de paramètres : 70 millions à 12 milliards

Qu’est-ce que c’est ? Pythia est une série de 16 modèles de langage de grande taille développés et publiés par EleutherAI, un laboratoire de recherche en IA à but non lucratif. Il existe huit tailles de modèles différentes : 70M, 160M, 410M, 1B, 1,4B, 2,8B, 6,9B, et 12B. Grâce à la licence open-source de Pythia, ces LLMs servent de modèle de base pour des LLMs affinés et suivant des instructions comme Dolly 2.0 de Databricks.

19. Sora

Développeur : OpenAI

Date de sortie : 15 février 2024 (annoncé)

Nombre de paramètres : Inconnu

Qu’est-ce que c’est ? Le dernier développement d’OpenAI est Sora, un modèle de texte en vidéo qui combine les LLMs et l’IA générative pour transformer des invites textuelles en vidéos réalistes d’une durée maximale de 60 secondes. Le modèle utilise une architecture de transformateur qui opère sur des « patchs spatio-temporels » de données vidéo et image plutôt que sur des tokens de texte comme d’autres LLMs. Aucune date de sortie officielle pour Sora n’a été annoncée, mais OpenAI prévoit de l’ouvrir au public fin 2024.

20. Alpaca 7B

Développeur : Stanford CRFM

Date de sortie : 27 mars 2024

Nombre de paramètres : 7 milliards

Qu’est-ce que c’est ? Alpaca est un modèle de langage de 7 milliards de paramètres développé par une équipe de recherche de Stanford et affiné à partir du modèle LLaMA 7B de Meta. Les utilisateurs remarqueront que bien qu’il soit beaucoup plus petit, Alpaca a des performances similaires à text-DaVinci-003 (ChatGPT 3.5). Cependant, Alpaca 7B est disponible à des fins de recherche, et aucune licence commerciale n’est disponible.

Conclusion

Le paysage des modèles de langage de grande taille évolue rapidement, avec de nouvelles avancées et innovations qui émergent à un rythme sans précédent.

Des modèles compacts comme Phi-3 et Alpaca 7B aux architectures de pointe comme Jamba et DBRX, le domaine des LLMs repousse les limites de ce qui est possible en traitement du langage naturel (NLP).

Nous tiendrons cette liste régulièrement à jour avec de nouveaux modèles.