Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
0.9 €
par million de tokens en entrée
4 €
par million de tokens en sortie
21 €
par million de tokens de raisonnement
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.

Modèles de grande taille

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

26 tokens/seconde

Llama 3.3 70B

Modèle multilingue de pointe développé par Meta, conçu pour exceller dans le dialogue naturel, le raisonnement complexe et la compréhension nuancée des instructions.
Combinant une efficacité remarquable avec des ressources computationnelles réduites, ce modèle offre des capacités multilingues étendues couvrant 8 langues majeures (anglais, français, allemand, espagnol, italien, portugais, hindi et thaï). Sa fenêtre contextuelle de 60 000 tokens permet l'analyse approfondie de documents complexes et de conversations longues, tout en maintenant une cohérence globale exceptionnelle. Optimisé pour minimiser les biais et les réponses problématiques.
17 tokens/seconde

Qwen3 235B

Modèle très volumineux de la nouvelle génération Qwen3, offrant des capacités étendues pour les tâches les plus complexes.
Fait partie de la série Qwen3. Ce modèle de 235 milliards de paramètres est conçu pour exceller dans les tâches de raisonnement profond, de génération de code complexe, et de compréhension nuancée sur de vastes contextes. Supporte plus de 100 langues et intègre des modes de pensée hybrides.
12 tokens/seconde

DeepSeek-R1 671B

Modèle extrêmement volumineux de DeepSeek AI, conçu pour le summum du raisonnement et de la génération.
DeepSeek-R1 671B représente l'un des plus grands modèles ouverts, destiné aux tâches de raisonnement les plus ardues et à la génération de texte d'une qualité exceptionnelle.
20 tokens/seconde

Gemma 3 27B

Modèle révolutionnaire de Google offrant un équilibre optimal entre puissance et efficacité, avec un rapport performance/coût exceptionnel pour les applications professionnelles exigeantes.
Doté d'une efficacité matérielle inégalée, ce modèle intègre des capacités multimodales natives et excelle dans la performance multilingue sur plus de 140 langues. Sa fenêtre contextuelle impressionnante de 120 000 tokens en fait le choix idéal pour l'analyse de documents très volumineux, la recherche documentaire, et toute application nécessitant la compréhension de contextes étendus. Son architecture optimisée permet un déploiement flexible sans compromettre la qualité des résultats.
106 tokens/seconde

Qwen3 30B-A3B FP8

Modèle MoE FP8 (3B activés) nouvelle génération, avec modes de pensée hybrides et capacités agentiques avancées.
Version FP8 du modèle MoE Qwen3 30B-A3B. Intègre un mode "Thinking" pour le raisonnement complexe et un mode "Non-Thinking" rapide. Capacités améliorées en raisonnement, code, maths et agent (outils/MCP). Supporte plus de 100 langues. Idéal pour un équilibre performance/coût optimal.
21 tokens/seconde

DeepSeek-R1 70B

Modèle 70B de DeepSeek AI
DeepSeek-R1 70B est conçu pour des tâches complexes de raisonnement et de génération.
18 tokens/seconde

Qwen2.5-VL 32B

Version la plus puissante de la série Qwen2.5-VL, offrant des capacités de compréhension visuelle et d'agentique de pointe.
Ce modèle vision-langage de 32 milliards de paramètres est conçu pour les tâches les plus exigeantes, combinant une compréhension visuelle profonde avec des capacités de raisonnement avancées pour interagir avec des interfaces graphiques et analyser des documents complexes.
15 tokens/seconde

Qwen2.5-VL 72B

Version la plus puissante de la série Qwen2.5-VL, offrant des capacités de compréhension visuelle et d'agentique de pointe pour les tâches les plus exigeantes.
Ce modèle vision-langage de 72 milliards de paramètres est conçu pour les tâches les plus exigeantes, combinant une compréhension visuelle profonde avec des capacités de raisonnement avancées pour interagir avec des interfaces graphiques et analyser des documents complexes.

Modèles spécialisés

Nos modèles spécialisés sont optimisés pour des tâches spécifiques comme la génération de code, l’analyse d’images ou le traitement de données structurées. Ils offrent un excellent rapport performance/coût pour des cas d’usage ciblés.

68 tokens/seconde

Qwen3 14B

Modèle dense nouvelle génération Qwen3 (14B), offrant des performances équivalentes à Qwen2.5 32B avec une meilleure efficacité.
Fait partie de la série Qwen3, entraîné sur ~36T tokens. Capacités améliorées en raisonnement, code, maths et agent (outils/MCP). Supporte plus de 100 langues et les modes de pensée hybrides.
56 tokens/seconde

Gemma 3 12B

Version intermédiaire du modèle Gemma 3 offrant un excellent équilibre entre performance et efficacité.
Ce modèle de taille moyenne combine performances de haute qualité et efficacité opérationnelle, offrant une grande partie des capacités de son grand frère de 27B paramètres dans un format plus léger. Idéal pour les déploiements nécessitant qualité et rapidité sans les ressources computationnelles des plus grands modèles.
57 tokens/seconde

Gemma 3 4B

Modèle compact de Google offrant d'excellentes performances dans un format léger et économique.
Cette version compacte du modèle Gemma 3 est optimisée pour les déploiements avec contraintes de ressources tout en maintenant des performances remarquables pour sa taille. Son architecture efficiente permet une inférence rapide sur du matériel standard, idéale pour les applications nécessitant réactivité et déploiement à grande échelle. Malgré sa taille réduite, il maintient des capacités multimodales pour traiter à la fois texte et images.
112 tokens/seconde

Gemma 3 1B

Micro-modèle ultra-léger conçu pour les déploiements sur appareils à très faibles ressources.
Ce modèle ultra-compact représente la quintessence de l'efficience, permettant des déploiements dans des environnements extrêmement contraints en ressources. Malgré sa taille minimale, il offre des capacités de base surprenantes pour des tâches textuelles simples à modérées, avec une vitesse d'inférence exceptionnelle. Il prend également en charge l'intégration avec des outils externes via function calling.
4 tokens/seconde

Lucie-7B-Instruct

Modèle causal multilingue open-source (7B), fine-tuné depuis Lucie-7B. Optimisé pour le français.
Fine-tuné sur instructions synthétiques (ChatGPT, Gemma) et prompts customisés. Non optimisé pour code/maths. Entraîné sur contexte 4k mais conserve la capacité du modèle de base pour 32k. Modèle en développement.
35 tokens/seconde

Mistral Small 3.1

Modèle compact et réactif de Mistral AI, spécialement conçu pour offrir une assistance conversationnelle fluide et pertinente avec une vitesse de réponse optimale.
Malgré sa taille modérée, ce modèle affiche une performance remarquable qui rivalise avec celle de nombreux modèles propriétaires bien plus volumineux. Son architecture ingénieusement optimisée facilite le déploiement local sur des infrastructures variées. Intégrant des capacités multimodales natives, il peut traiter à la fois du texte et des images sans recourir à des systèmes externes. Sa licence Apache 2.0 offre une flexibilité maximale pour les déploiements commerciaux et les personnalisations, en faisant un choix idéal pour les entreprises soucieuses d'équilibrer performance et contraintes légales.
35 tokens/seconde

Mistral Small 3.2

Mise à jour mineure de Mistral Small 3.1, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 3.2 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste. Pour les autres aspects, ses performances sont équivalentes ou légèrement supérieures à la version 3.1.
50 tokens/seconde

Mistral Small 3.2

Mise à jour mineure de Mistral Small 3.1, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 3.2 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste. Pour les autres aspects, ses performances sont équivalentes ou légèrement supérieures à la version 3.1.
64 tokens/seconde

DeepCoder

Modèle IA open source (14B) par Together AI & Agentica, alternative crédible aux modèles propriétaires pour la génération de code.
Performances remarquables en génération de code et raisonnement algorithmique (60.6% LiveCodeBench Pass@1, 1936 Codeforces, 92.6% HumanEval+). Entraîné via RL (GRPO+) avec allongement progressif du contexte (32k -> 64k). Projet transparent (code, dataset, logs ouverts). Permet l'intégration de capacités avancées de génération de code sans dépendre de solutions propriétaires.
48 tokens/seconde

Granite 3.2 Vision

Modèle compact révolutionnaire d'IBM spécialisé dans la vision par ordinateur, capable d'analyser et comprendre directement les documents visuels sans recourir à des technologies OCR intermédiaires.
Ce modèle compact réalise l'exploit remarquable d'égaler les performances de modèles bien plus volumineux sur un large éventail de tâches de compréhension visuelle. Sa capacité à interpréter directement le contenu visuel des documents - textes, tableaux, graphiques et diagrammes - sans passer par une étape d'OCR traditionnelle représente une avancée significative en termes d'efficacité et de précision. Cette approche intégrée réduit considérablement les erreurs de reconnaissance et permet une compréhension plus contextuelle et plus nuancée du contenu visuel.
30 tokens/seconde

Granite 3.3 8B

Modèle Granite 8B fine-tuné par IBM pour un raisonnement et un suivi d'instructions améliorés, avec un contexte de 128k tokens.
Cette version 8B du modèle Granite 3.3 offre des gains significatifs sur les benchmarks génériques (AlpacaEval-2.0, Arena-Hard) et des améliorations en mathématiques, codage et suivi d'instructions. Il supporte 12 langues, le Fill-in-the-Middle (FIM) pour le code, le mode "Thinking" pour la réflexion structurée, et l'appel de fonctions. Licence Apache 2.0. Idéal pour les tâches générales et l'intégration dans des assistants IA.
45 tokens/seconde

Granite 3.3 2B

Modèle Granite 2B fine-tuné par IBM, optimisé pour le raisonnement et le suivi d'instructions, avec un contexte de 128k tokens.
Version compacte de Granite 3.3 (2B paramètres) offrant les mêmes améliorations en raisonnement, instruction-following, mathématiques et codage que la version 8B. Supporte 12 langues, le Fill-in-the-Middle (FIM), le mode "Thinking", et l'appel de fonctions. Licence Apache 2.0. Excellent choix pour des déploiements légers nécessitant de longues capacités contextuelles et de raisonnement.
25 tokens/seconde

Magistral 24B

Le premier modèle de raisonnement de Mistral AI, excellant dans le raisonnement spécifique au domaine, transparent et multilingue.
Idéal pour une utilisation générale nécessitant un traitement de pensée plus long et une meilleure précision. Utile pour la recherche juridique, la prévision financière, le développement de logiciels et la narration créative. Résout les défis en plusieurs étapes où la transparence et la précision sont essentielles.
74 tokens/seconde

Granite 3.1 MoE

Modèle innovant d'IBM utilisant l'architecture Mixture-of-Experts (MoE) pour offrir des performances exceptionnelles tout en optimisant drastiquement l'utilisation des ressources computationnelles.
L'architecture MoE (Mixture-of-Experts) de ce modèle constitue une avancée significative dans l'optimisation des modèles de langage, permettant d'atteindre des performances comparables à celles de modèles bien plus volumineux tout en maintenant une empreinte mémoire considérablement réduite. Cette approche innovante active dynamiquement uniquement les parties pertinentes du réseau pour chaque tâche spécifique, assurant ainsi une efficacité énergétique et computationnelle remarquable sans compromis sur la qualité des résultats.
60 tokens/seconde

cogito:14b

Modèle de Deep Cogito spécialement conçu pour exceller dans les tâches de raisonnement profond et de compréhension contextuelle nuancée, idéal pour les applications analytiques sophistiquées.
Doté d'excellentes capacités de raisonnement logique et de compréhension sémantique approfondie, ce modèle se distingue par sa capacité à saisir les subtilités et les implications dans des textes complexes. Sa conception privilégie la cohérence du raisonnement et la précision analytique, le rendant particulièrement adapté aux applications nécessitant une analyse minutieuse et contextuelle des informations. Sa taille modérée permet un déploiement flexible tout en maintenant des performances de haute qualité sur un large éventail de tâches analytiques exigeantes.
32 tokens/seconde

Cogito 32B

Version avancée du modèle Cogito offrant des capacités de raisonnement et d'analyse considérablement amplifiées, conçue pour les applications les plus exigeantes en matière d'intelligence artificielle analytique.
Cette version étendue du modèle Cogito pousse encore plus loin les capacités de raisonnement et de compréhension, offrant une profondeur d'analyse inégalée pour les applications les plus complexes. Sa conception architecturale sophistiquée lui permet d'aborder des raisonnements multi-étapes avec rigueur et précision, tout en maintenant une cohérence globale remarquable. Idéal pour les applications critiques nécessitant une intelligence artificielle capable d'un raisonnement nuancé et d'une compréhension contextuelle approfondie comparable aux analyses d'experts humains dans des domaines spécialisés.
18 tokens/seconde

Qwen3 32B

Modèle puissant de la nouvelle génération Qwen3, offrant des capacités avancées en raisonnement, code, et agentique, avec un contexte étendu.
Fait partie de la série Qwen3, entraîné sur un vaste corpus de données. Ce modèle de 32 milliards de paramètres est conçu pour exceller dans les tâches complexes, supporter plus de 100 langues et intégrer des modes de pensée hybrides pour une meilleure performance.
35 tokens/seconde

QwQ-32B

Modèle de 32 milliards de paramètres amélioré par apprentissage par renforcement (RL) pour exceller dans le raisonnement, le codage, les mathématiques et les tâches d'agent.
Ce modèle utilise une approche RL innovante avec des récompenses basées sur les résultats (vérificateurs de précision pour les maths, exécution de code pour le codage) et un entraînement multi-étapes pour améliorer les capacités générales sans dégrader les performances spécialisées. Il intègre des capacités d'agent pour utiliser des outils et adapter son raisonnement. Licence Apache 2.0.
62 tokens/seconde

DeepSeek-R1 14B

Version compacte et efficiente du modèle DeepSeek-R1, offrant un excellent compromis entre performance et légèreté pour les déploiements nécessitant flexibilité et réactivité.
Représentant un équilibre optimal entre performance et efficacité, cette version compacte du modèle DeepSeek-R1 conserve les principales qualités de raisonnement et d'analyse de son homologue plus volumineux, tout en permettant un déploiement plus léger et plus flexible. Sa conception soigneusement optimisée assure des résultats de qualité sur un large éventail de tâches, tout en minimisant les exigences en ressources computationnelles. Cette combinaison en fait le choix idéal pour les applications nécessitant un déploiement agile sans compromis majeur sur les capacités fondamentales.
33 tokens/seconde

DeepSeek-R1 32B

Version intermédiaire du modèle DeepSeek-R1 offrant un équilibre stratégique entre les capacités avancées de la version 70B et l'efficience de la version 14B, pour une polyvalence et performance optimales.
Cette version intermédiaire du modèle DeepSeek-R1 combine intelligemment puissance et efficacité, proposant des performances significativamente améliorées par rapport à la version 14B tout en maintenant une empreinte plus légère que la version 70B. Cette position stratégique dans la gamme en fait une option particulièrement intéressante pour les déploiements nécessitant des capacités de raisonnement avancées sans les exigences matérielles des plus grands modèles. Sa polyvalence lui permet d'exceller sur un large éventail de tâches, de l'analyse de texte à la génération de contenu structuré.
55 tokens/seconde

Cogito 3B

Version compacte du modèle Cogito, optimisée pour le raisonnement sur des appareils à ressources limitées.
Offre les capacités de raisonnement de la famille Cogito dans un format très léger (3 milliards de paramètres), idéal pour les déploiements embarqués ou les environnements CPU.

Granite Embedding

Modèle d'embedding ultra-léger d'IBM pour la recherche sémantique et la classification.
Conçu pour générer des représentations vectorielles denses de texte, ce modèle est optimisé pour l'efficacité et la performance dans les tâches de similarité sémantique, de clustering et de classification. Sa taille réduite le rend idéal pour les déploiements à grande échelle.

Granite 3 Guardian 2B

Modèle compact d'IBM spécialisé dans la sécurité et la conformité, détectant les risques et les contenus inappropriés.
Version légère de la famille Guardian, entraînée pour identifier et filtrer les contenus nuisibles, les biais et les risques de sécurité dans les interactions textuelles. Offre une protection robuste avec une faible empreinte computationnelle. Contexte limité à 8k tokens.

Granite 3 Guardian 8B

Modèle d'IBM spécialisé dans la sécurité et la conformité, offrant des capacités avancées de détection des risques.
Modèle de taille intermédiaire de la famille Guardian, fournissant une analyse de sécurité plus approfondie que la version 2B. Idéal pour les applications nécessitant une surveillance rigoureuse du contenu et une conformité stricte.
162 tokens/seconde

Qwen 2.5 0.5B

Micro-modèle ultra-léger de la famille Qwen 2.5, conçu pour une efficacité maximale sur appareils contraints.
Le plus petit modèle de la série Qwen 2.5, offrant des capacités de base en traitement de langage avec une empreinte minimale. Idéal pour les tâches très simples sur des appareils IoT ou mobiles.
102 tokens/seconde

Qwen 2.5 1.5B

Modèle très compact de la famille Qwen 2.5, offrant un bon équilibre performance/taille pour les déploiements légers.
Modèle légèrement plus grand que la version 0.5B, offrant des capacités améliorées tout en restant très efficace. Convient aux applications mobiles ou embarquées nécessitant un peu plus de puissance.
61 tokens/seconde

Qwen 2.5 14B

Modèle polyvalent de taille moyenne de la famille Qwen 2.5, bon équilibre performance/ressources.
Offre de solides capacités multilingues et de compréhension générale dans un format 14B. Convient à une large gamme d'applications nécessitant un modèle fiable sans les exigences des très grands modèles.
31 tokens/seconde

Qwen 2.5 32B

Modèle puissant de la famille Qwen 2.5, offrant des capacités avancées en compréhension et génération.
Version 32B de Qwen 2.5, fournissant des performances accrues par rapport à la version 14B, notamment en raisonnement et en suivi d'instructions complexes, tout en restant plus léger que le modèle 72B.
64 tokens/seconde

Qwen 2.5 3B

Modèle compact et efficace de la famille Qwen 2.5, adapté aux tâches générales sur ressources limitées.
Offre un bon compromis entre les capacités des modèles 1.5B et 14B. Idéal pour les applications nécessitant une bonne compréhension générale dans un format léger et rapide.
112 tokens/seconde

Qwen3 0.6b

Modèle compact et efficace de la famille Qwen3, adapté aux tâches générales sur ressources limitées.
Offre un bon compromis entre les capacités des modèles ultra-compacts et les modèles plus grands. Idéal pour les applications nécessitant une bonne compréhension générale dans un format léger et rapide.
88 tokens/seconde

Qwen3 1.7b

Modèle très compact de la famille Qwen3, offrant un bon équilibre performance/taille pour les déploiements légers.
Modèle légèrement plus grand que la version 0.6B, offrant des capacités améliorées tout en restant très efficace. Convient aux applications mobiles ou embarquées nécessitant un peu plus de puissance.
49 tokens/seconde

Qwen3 4b

Modèle compact de la famille Qwen3 offrant d'excellentes performances dans un format léger et économique.
Cette version compacte du modèle Qwen3 est optimisée pour les déploiements avec contraintes de ressources tout en maintenant des performances remarquables pour sa taille. Son architecture efficiente permet une inférence rapide sur du matériel standard.
33 tokens/seconde

Qwen3 8b

Modèle Qwen3 8B offrant un bon équilibre entre performance et efficacité pour les tâches générales.
Version 8B de Qwen3, offrant des capacités améliorées en raisonnement, code, maths et agent. Supporte plus de 100 langues et les modes de pensée hybrides.
65 tokens/seconde

Qwen2.5-VL 3B

Modèle Vision-Langage compact, solution performante pour l'IA en périphérie (edge AI).
Qwen2.5-VL est le nouveau modèle phare vision-langage de Qwen, marquant une avancée significative par rapport à Qwen2-VL. Caractéristiques clés - Compréhension visuelle (objets communs, textes, graphiques, icônes, mises en page). Capacités d'agent visuel (raisonnement, direction dynamique d'outils pour utilisation d'ordinateur/téléphone). Localisation visuelle précise (boîtes englobantes, points, sorties JSON stables). Génération de sorties structurées (factures, formulaires, tableaux). Le Qwen2.5-VL-3B surpasse même la version 7B de Qwen2-VL.
35 tokens/seconde

Qwen2.5-VL 7B

Modèle Vision-Langage performant, surpassant GPT-4o-mini sur certaines tâches.
Qwen2.5-VL est le nouveau modèle phare vision-langage de Qwen, marquant une avancée significative par rapport à Qwen2-VL. Caractéristiques clés - Compréhension visuelle (objets communs, textes, graphiques, icônes, mises en page). Capacités d'agent visuel (raisonnement, direction dynamique d'outils pour utilisation d'ordinateur/téléphone). Localisation visuelle précise (boîtes englobantes, points, sorties JSON stables). Génération de sorties structurées (factures, formulaires, tableaux). Le Qwen2.5-VL-7B-Instruct surpasse GPT-4o-mini dans plusieurs tâches et est particulièrement performant pour la compréhension de documents et de diagrammes.
21 tokens/seconde

Foundation-Sec-8B

Modèle de langage spécialisé pour la cybersécurité, optimisé pour l'efficacité.
Modèle Foundation-Sec-8B (Llama-3.1-FoundationAI-SecurityLLM-base-8B) basé sur Llama-3.1-8B, pré-entraîné sur un corpus cybersécurité. Conçu pour la détection de menaces, l'évaluation de vulnérabilités, l'automatisation de la sécurité, etc. Optimisé pour le déploiement local. Contexte de 16k tokens.
45 tokens/seconde

devstral 24B

Devstral est un LLM agentique pour les tâches d'ingénierie logicielle.
Devstral est un LLM agentique pour les tâches d'ingénierie logicielle. Il excelle dans l'utilisation d'outils pour explorer les bases de code, modifier plusieurs fichiers et alimenter les agents d'ingénierie logicielle. Il est affiné à partir de Mistral Small 3.1, disposant ainsi d'une longue fenêtre contextuelle allant jusqu'à 128k tokens.
30 tokens/seconde

Cogito 8B

Modèle de taille intermédiaire de la famille Cogito, offrant un bon équilibre entre les capacités de raisonnement et l'efficacité.
Cette version 8B se positionne entre les modèles compacts et les modèles plus larges, offrant des capacités de raisonnement robustes pour une large gamme d'applications analytiques sans nécessiter les ressources des modèles plus grands.
31 tokens/seconde

Llama 3.1 8B

Modèle de base de la famille Llama 3.1, offrant des performances solides pour sa taille.
Basé sur l'architecture Llama 3.1, ce modèle 8B est un excellent point de départ pour des tâches générales, offrant une bonne qualité de génération et de compréhension dans un format efficace.
71 tokens/seconde

Phi-4 Reasoning 14B

Modèle de la famille Phi de Microsoft, spécialisé dans le raisonnement complexe et les mathématiques.
Ce modèle est spécifiquement entraîné pour exceller dans les tâches qui nécessitent un raisonnement logique en plusieurs étapes, ce qui le rend particulièrement performant pour les problèmes de mathématiques, de logique et de codage.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Modèles de grande taille
Llama 3.3 70B Meta 70B 60000
Qwen3 235B Qwen Team 235B 60000
DeepSeek-R1 671B DeepSeek AI 671B 16000
Gemma 3 27B Google 27B 120000
Qwen3 30B-A3B FP8 Qwen Team 30B-A3B 32000
DeepSeek-R1 70B DeepSeek AI 70B 32000
Qwen2.5-VL 32B Qwen Team 32B 120000
Qwen2.5-VL 72B Qwen Team 72B 128000
Modèles spécialisés
Qwen3 14B Qwen Team 14B 32000
Gemma 3 12B Google 12B 120000
Gemma 3 4B Google 4B 120000
Gemma 3 1B Google 1B 32000
Lucie-7B-Instruct OpenLLM-France 7B 32000
Mistral Small 3.1 Mistral AI 24B 120000
Mistral Small 3.2 Mistral AI 24B 120000
Mistral Small 3.2 Mistral AI 24B 120000
DeepCoder Agentica x Together AI 14B 32000
Granite 3.2 Vision IBM 2B 16384
Granite 3.3 8B IBM 8B 60000
Granite 3.3 2B IBM 2B 120000
Magistral 24B Mistral AI 24B 40000
Granite 3.1 MoE IBM 3B 32000
cogito:14b Deep Cogito 14B 32000
Cogito 32B Deep Cogito 32B 32000
Qwen3 32B Qwen Team 32B 40000
QwQ-32B Qwen Team 32B 32000
DeepSeek-R1 14B DeepSeek AI 14B 32000
DeepSeek-R1 32B DeepSeek AI 32B 32000
Cogito 3B Deep Cogito 3B 32000
Granite Embedding IBM 278M 512 N.C.
Granite 3 Guardian 2B IBM 2B 8192 N.C.
Granite 3 Guardian 8B IBM 8B 32000 N.C.
Qwen 2.5 0.5B Qwen Team 0.5B 32000
Qwen 2.5 1.5B Qwen Team 1.5B 32000
Qwen 2.5 14B Qwen Team 14B 32000
Qwen 2.5 32B Qwen Team 32B 32000
Qwen 2.5 3B Qwen Team 3B 32000
Qwen3 0.6b Qwen Team 0.6B 32000
Qwen3 1.7b Qwen Team 1.7B 32000
Qwen3 4b Qwen Team 4B 32000
Qwen3 8b Qwen Team 8B 32000
Qwen2.5-VL 3B Qwen Team 3.8B 128000
Qwen2.5-VL 7B Qwen Team 7B (8.3B) 128000
Foundation-Sec-8B Foundation AI — Cisco 8B 16384
devstral 24B Mistral AI & All Hands AI 24B 120000
Cogito 8B Deep Cogito 8B 32000
Llama 3.1 8B Meta 8B 32000
Phi-4 Reasoning 14B Microsoft 14B 32000
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique, maintien du contexte sur l'ensemble de la conversation et compréhension des spécificités linguistiques
Modèles recommandés
  • Llama 3.3
  • Mistral Small 3.1
  • Qwen 2.5
  • Granite 3.3

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec maintien du contexte sur l'ensemble du texte, extraction d'informations clés, génération de résumés pertinents et réponse à des questions spécifiques sur le contenu
Modèles recommandés
  • Gemma 3
  • DeepSeek-R1
  • Granite 3.3

Programmation et développement

Génération et optimisation de code dans multiples langages, débogage, refactoring, développement de fonctionnalités complètes, compréhension des implémentations algorithmiques complexes et création de tests unitaires
Modèles recommandés
  • DeepCoder
  • QwQ
  • DeepSeek-R1
  • Granite 3.3
  • Devstral

Analyse visuelle

Traitement direct d'images et documents visuels sans pré-traitement OCR, interprétation de diagrammes techniques, graphiques, tableaux, dessins et photos avec génération d'explications textuelles détaillées du contenu visuel
Modèles recommandés
  • Granite 3.2 Vision
  • Mistral Small 3.1
  • Gemma 3
  • Qwen2.5-VL

Sécurité et conformité

Applications nécessitant des capacités spécifiques en matière de sécurité ; filtrage de contenu sensible, traçabilité des raisonnements, vérification RGPD/HDS, minimisation des risques, analyse des vulnérabilités et respect des réglementations sectorielles
Modèles recommandés
  • Granite Guardian
  • Granite 3.3
  • Devstral
  • Mistral Small 3.1
  • Magistral 24b
  • Foundation-Sec-8B

Déploiements légers et embarqués

Applications nécessitant une empreinte minimale en ressources, déploiement sur appareils à capacité limitée, inférence en temps réel sur CPU standard et intégration dans des systèmes embarqués ou IoT
Modèles recommandés
  • Gemma 3
  • Granite 3.1 MoE
  • Granite Guardian
  • Granite 3.3
Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.