Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
0.9 €
par million de tokens en entrée
4 €
par million de tokens en sortie
21 €
par million de tokens de raisonnement
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.

Modèles de grande taille

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

28 tokens/seconde

Llama 3.3 70B

Modèle multilingue de pointe développé par Meta, conçu pour exceller dans le dialogue naturel, le raisonnement complexe et la compréhension nuancée des instructions.
Combinant une efficacité remarquable avec des ressources computationnelles réduites, ce modèle offre des capacités multilingues étendues couvrant 8 langues majeures (anglais, français, allemand, espagnol, italien, portugais, hindi et thaï). Sa fenêtre contextuelle de 60 000 tokens permet l'analyse approfondie de documents complexes et de conversations longues, tout en maintenant une cohérence globale exceptionnelle. Optimisé pour minimiser les biais et les réponses problématiques.
67 tokens/seconde

Gemma 3 27B

Modèle révolutionnaire de Google offrant un équilibre optimal entre puissance et efficacité, avec un rapport performance/coût exceptionnel pour les applications professionnelles exigeantes.
Doté d'une efficacité matérielle inégalée, ce modèle intègre des capacités multimodales natives et excelle dans la performance multilingue sur plus de 140 langues. Sa fenêtre contextuelle impressionnante de 120 000 tokens en fait le choix idéal pour l'analyse de documents très volumineux, la recherche documentaire, et toute application nécessitant la compréhension de contextes étendus. Son architecture optimisée permet un déploiement flexible sans compromettre la qualité des résultats.
15 tokens/seconde

DeepSeek-R1 70B

Modèle spécialisé de DeepSeek AI conçu pour exceller dans les tâches requérant un raisonnement rigoureux, la résolution de problèmes algorithmiques et la génération de code de haute qualité.
Ce modèle se distingue par ses performances de raisonnement supérieures permettant d'aborder des défis intellectuels complexes avec méthode et précision. Son efficacité opérationnelle accrue optimise les ressources de calcul tout en maintenant des résultats d'exception. Sa polyvalence lui permet d'être appliqué à divers domaines pratiques, des sciences aux affaires, en passant par l'ingénierie. Particulièrement remarquable sont ses capacités mathématiques avancées, idéales pour les applications scientifiques et d'ingénierie nécessitant un traitement quantitatif rigoureux.
81.12 tokens/seconde

Qwen3 30B-A3B FP8

Modèle MoE FP8 (3B activés) nouvelle génération, avec modes de pensée hybrides et capacités agentiques avancées.
Version FP8 du modèle MoE Qwen3 30B-A3B. Intègre un mode "Thinking" pour le raisonnement complexe et un mode "Non-Thinking" rapide. Capacités améliorées en raisonnement, code, maths et agent (outils/MCP). Supporte plus de 100 langues. Idéal pour un équilibre performance/coût optimal.

Modèles spécialisés

Nos modèles spécialisés sont optimisés pour des tâches spécifiques comme la génération de code, l’analyse d’images ou le traitement de données structurées. Ils offrent un excellent rapport performance/coût pour des cas d’usage ciblés.

74 tokens/seconde

Qwen3 14B

Modèle dense nouvelle génération Qwen3 (14B), offrant des performances équivalentes à Qwen2.5 32B avec une meilleure efficacité.
Fait partie de la série Qwen3, entraîné sur ~36T tokens. Capacités améliorées en raisonnement, code, maths et agent (outils/MCP). Supporte plus de 100 langues et les modes de pensée hybrides.
76 tokens/seconde

Gemma 3 12B

Version intermédiaire du modèle Gemma 3 offrant un excellent équilibre entre performance et efficacité.
Ce modèle de taille moyenne combine performances de haute qualité et efficacité opérationnelle, offrant une grande partie des capacités de son grand frère de 27B paramètres dans un format plus léger. Idéal pour les déploiements nécessitant qualité et rapidité sans les ressources computationnelles des plus grands modèles.
58 tokens/seconde

Gemma 3 4B

Modèle compact de Google offrant d'excellentes performances dans un format léger et économique.
Cette version compacte du modèle Gemma 3 est optimisée pour les déploiements avec contraintes de ressources tout en maintenant des performances remarquables pour sa taille. Son architecture efficiente permet une inférence rapide sur du matériel standard, idéale pour les applications nécessitant réactivité et déploiement à grande échelle. Malgré sa taille réduite, il maintient des capacités multimodales pour traiter à la fois texte et images.
43 tokens/seconde

Gemma 3 1B

Micro-modèle ultra-léger conçu pour les déploiements sur appareils à très faibles ressources.
Ce modèle ultra-compact représente la quintessence de l'efficience, permettant des déploiements dans des environnements extrêmement contraints en ressources. Malgré sa taille minimale, il offre des capacités de base surprenantes pour des tâches textuelles simples à modérées, avec une vitesse d'inférence exceptionnelle. Il prend également en charge l'intégration avec des outils externes via function calling.
41 tokens/seconde

Lucie-7B-Instruct

Modèle causal multilingue open-source (7B), fine-tuné depuis Lucie-7B. Optimisé pour le français.
Fine-tuné sur instructions synthétiques (ChatGPT, Gemma) et prompts customisés. Non optimisé pour code/maths. Entraîné sur contexte 4k mais conserve la capacité du modèle de base pour 32k. Modèle en développement.
22 tokens/seconde

Mistral Small 3.1

Modèle compact et réactif de Mistral AI, spécialement conçu pour offrir une assistance conversationnelle fluide et pertinente avec une vitesse de réponse optimale.
Malgré sa taille modérée, ce modèle affiche une performance remarquable qui rivalise avec celle de nombreux modèles propriétaires bien plus volumineux. Son architecture ingénieusement optimisée facilite le déploiement local sur des infrastructures variées. Intégrant des capacités multimodales natives, il peut traiter à la fois du texte et des images sans recourir à des systèmes externes. Sa licence Apache 2.0 offre une flexibilité maximale pour les déploiements commerciaux et les personnalisations, en faisant un choix idéal pour les entreprises soucieuses d'équilibrer performance et contraintes légales.
69 tokens/seconde

DeepCoder

Modèle IA open source (14B) par Together AI & Agentica, alternative crédible aux modèles propriétaires pour la génération de code.
Performances remarquables en génération de code et raisonnement algorithmique (60.6% LiveCodeBench Pass@1, 1936 Codeforces, 92.6% HumanEval+). Entraîné via RL (GRPO+) avec allongement progressif du contexte (32k -> 64k). Projet transparent (code, dataset, logs ouverts). Permet l'intégration de capacités avancées de génération de code sans dépendre de solutions propriétaires.
56 tokens/seconde

Granite 3.2 Vision

Modèle compact révolutionnaire d'IBM spécialisé dans la vision par ordinateur, capable d'analyser et comprendre directement les documents visuels sans recourir à des technologies OCR intermédiaires.
Ce modèle compact réalise l'exploit remarquable d'égaler les performances de modèles bien plus volumineux sur un large éventail de tâches de compréhension visuelle. Sa capacité à interpréter directement le contenu visuel des documents - textes, tableaux, graphiques et diagrammes - sans passer par une étape d'OCR traditionnelle représente une avancée significative en termes d'efficacité et de précision. Cette approche intégrée réduit considérablement les erreurs de reconnaissance et permet une compréhension plus contextuelle et plus nuancée du contenu visuel.
28 tokens/seconde

Granite 3.3 8B

Modèle Granite 8B fine-tuné par IBM pour un raisonnement et un suivi d'instructions améliorés, avec un contexte de 128k tokens.
Cette version 8B du modèle Granite 3.3 offre des gains significatifs sur les benchmarks génériques (AlpacaEval-2.0, Arena-Hard) et des améliorations en mathématiques, codage et suivi d'instructions. Il supporte 12 langues, le Fill-in-the-Middle (FIM) pour le code, le mode "Thinking" pour la réflexion structurée, et l'appel de fonctions. Licence Apache 2.0. Idéal pour les tâches générales et l'intégration dans des assistants IA.
57 tokens/seconde

Granite 3.3 2B

Modèle Granite 2B fine-tuné par IBM, optimisé pour le raisonnement et le suivi d'instructions, avec un contexte de 128k tokens.
Version compacte de Granite 3.3 (2B paramètres) offrant les mêmes améliorations en raisonnement, instruction-following, mathématiques et codage que la version 8B. Supporte 12 langues, le Fill-in-the-Middle (FIM), le mode "Thinking", et l'appel de fonctions. Licence Apache 2.0. Excellent choix pour des déploiements légers nécessitant de longues capacités contextuelles et de raisonnement.
71 tokens/seconde

Granite 3.1 MoE

Modèle innovant d'IBM utilisant l'architecture Mixture-of-Experts (MoE) pour offrir des performances exceptionnelles tout en optimisant drastiquement l'utilisation des ressources computationnelles.
L'architecture MoE (Mixture-of-Experts) de ce modèle constitue une avancée significative dans l'optimisation des modèles de langage, permettant d'atteindre des performances comparables à celles de modèles bien plus volumineux tout en maintenant une empreinte mémoire considérablement réduite. Cette approche innovante active dynamiquement uniquement les parties pertinentes du réseau pour chaque tâche spécifique, assurant ainsi une efficacité énergétique et computationnelle remarquable sans compromis sur la qualité des résultats.
67 tokens/seconde

Cogito 14B

Modèle de Deep Cogito spécialement conçu pour exceller dans les tâches de raisonnement profond et de compréhension contextuelle nuancée, idéal pour les applications analytiques sophistiquées.
Doté d'excellentes capacités de raisonnement logique et de compréhension sémantique approfondie, ce modèle se distingue par sa capacité à saisir les subtilités et les implications dans des textes complexes. Sa conception privilégie la cohérence du raisonnement et la précision analytique, le rendant particulièrement adapté aux applications nécessitant une analyse minutieuse et contextuelle des informations. Sa taille modérée permet un déploiement flexible tout en maintenant des performances de haute qualité sur un large éventail de tâches analytiques exigeantes.
36 tokens/seconde

Cogito 32B

Version avancée du modèle Cogito offrant des capacités de raisonnement et d'analyse considérablement amplifiées, conçue pour les applications les plus exigeantes en matière d'intelligence artificielle analytique.
Cette version étendue du modèle Cogito pousse encore plus loin les capacités de raisonnement et de compréhension, offrant une profondeur d'analyse inégalée pour les applications les plus complexes. Sa conception architecturale sophistiquée lui permet d'aborder des raisonnements multi-étapes avec rigueur et précision, tout en maintenant une cohérence globale remarquable. Idéal pour les applications critiques nécessitant une intelligence artificielle capable d'un raisonnement nuancé et d'une compréhension contextuelle approfondie comparable aux analyses d'experts humains dans des domaines spécialisés.
38 tokens/seconde

QwQ-32B

Modèle de 32 milliards de paramètres amélioré par apprentissage par renforcement (RL) pour exceller dans le raisonnement, le codage, les mathématiques et les tâches d'agent.
Ce modèle utilise une approche RL innovante avec des récompenses basées sur les résultats (vérificateurs de précision pour les maths, exécution de code pour le codage) et un entraînement multi-étapes pour améliorer les capacités générales sans dégrader les performances spécialisées. Il intègre des capacités d'agent pour utiliser des outils et adapter son raisonnement. Licence Apache 2.0.
67 tokens/seconde

DeepSeek-R1 14B

Version compacte et efficiente du modèle DeepSeek-R1, offrant un excellent compromis entre performance et légèreté pour les déploiements nécessitant flexibilité et réactivité.
Représentant un équilibre optimal entre performance et efficacité, cette version compacte du modèle DeepSeek-R1 conserve les principales qualités de raisonnement et d'analyse de son homologue plus volumineux, tout en permettant un déploiement plus léger et plus flexible. Sa conception soigneusement optimisée assure des résultats de qualité sur un large éventail de tâches, tout en minimisant les exigences en ressources computationnelles. Cette combinaison en fait le choix idéal pour les applications nécessitant un déploiement agile sans compromis majeur sur les capacités fondamentales.
37 tokens/seconde

DeepSeek-R1 32B

Version intermédiaire du modèle DeepSeek-R1 offrant un équilibre stratégique entre les capacités avancées de la version 70B et l'efficience de la version 14B, pour une polyvalence et performance optimales.
Cette version intermédiaire du modèle DeepSeek-R1 combine intelligemment puissance et efficacité, proposant des performances significativamente améliorées par rapport à la version 14B tout en maintenant une empreinte plus légère que la version 70B. Cette position stratégique dans la gamme en fait une option particulièrement intéressante pour les déploiements nécessitant des capacités de raisonnement avancées sans les exigences matérielles des plus grands modèles. Sa polyvalence lui permet d'exceller sur un large éventail de tâches, de l'analyse de texte à la génération de contenu structuré.
63 tokens/seconde

Cogito 3B

Version compacte du modèle Cogito, optimisée pour le raisonnement sur des appareils à ressources limitées.
Offre les capacités de raisonnement de la famille Cogito dans un format très léger (3 milliards de paramètres), idéal pour les déploiements embarqués ou les environnements CPU.

Granite Embedding

Modèle d'embedding ultra-léger d'IBM pour la recherche sémantique et la classification.
Conçu pour générer des représentations vectorielles denses de texte, ce modèle est optimisé pour l'efficacité et la performance dans les tâches de similarité sémantique, de clustering et de classification. Sa taille réduite le rend idéal pour les déploiements à grande échelle.

Granite 3 Guardian 2B

Modèle compact d'IBM spécialisé dans la sécurité et la conformité, détectant les risques et les contenus inappropriés.
Version légère de la famille Guardian, entraînée pour identifier et filtrer les contenus nuisibles, les biais et les risques de sécurité dans les interactions textuelles. Offre une protection robuste avec une faible empreinte computationnelle. Contexte limité à 8k tokens.

Granite 3 Guardian 8B

Modèle d'IBM spécialisé dans la sécurité et la conformité, offrant des capacités avancées de détection des risques.
Modèle de taille intermédiaire de la famille Guardian, fournissant une analyse de sécurité plus approfondie que la version 2B. Idéal pour les applications nécessitant une surveillance rigoureuse du contenu et une conformité stricte.
53 tokens/seconde

Qwen 2.5 0.5B

Micro-modèle ultra-léger de la famille Qwen 2.5, conçu pour une efficacité maximale sur appareils contraints.
Le plus petit modèle de la série Qwen 2.5, offrant des capacités de base en traitement de langage avec une empreinte minimale. Idéal pour les tâches très simples sur des appareils IoT ou mobiles.
107 tokens/seconde

Qwen 2.5 1.5B

Modèle très compact de la famille Qwen 2.5, offrant un bon équilibre performance/taille pour les déploiements légers.
Modèle légèrement plus grand que la version 0.5B, offrant des capacités améliorées tout en restant très efficace. Convient aux applications mobiles ou embarquées nécessitant un peu plus de puissance.
68 tokens/seconde

Qwen 2.5 14B

Modèle polyvalent de taille moyenne de la famille Qwen 2.5, bon équilibre performance/ressources.
Offre de solides capacités multilingues et de compréhension générale dans un format 14B. Convient à une large gamme d'applications nécessitant un modèle fiable sans les exigences des très grands modèles.
36 tokens/seconde

Qwen 2.5 32B

Modèle puissant de la famille Qwen 2.5, offrant des capacités avancées en compréhension et génération.
Version 32B de Qwen 2.5, fournissant des performances accrues par rapport à la version 14B, notamment en raisonnement et en suivi d'instructions complexes, tout en restant plus léger que le modèle 72B.
57 tokens/seconde

Qwen 2.5 3B

Modèle compact et efficace de la famille Qwen 2.5, adapté aux tâches générales sur ressources limitées.
Offre un bon compromis entre les capacités des modèles 1.5B et 14B. Idéal pour les applications nécessitant une bonne compréhension générale dans un format léger et rapide.
58 tokens/seconde

Qwen3 0.6b

Modèle compact et efficace de la famille Qwen3, adapté aux tâches générales sur ressources limitées.
Offre un bon compromis entre les capacités des modèles ultra-compacts et les modèles plus grands. Idéal pour les applications nécessitant une bonne compréhension générale dans un format léger et rapide.
84 tokens/seconde

Qwen3 1.7b

Modèle très compact de la famille Qwen3, offrant un bon équilibre performance/taille pour les déploiements légers.
Modèle légèrement plus grand que la version 0.6B, offrant des capacités améliorées tout en restant très efficace. Convient aux applications mobiles ou embarquées nécessitant un peu plus de puissance.
50 tokens/seconde

Qwen3 4b

Modèle compact de la famille Qwen3 offrant d'excellentes performances dans un format léger et économique.
Cette version compacte du modèle Qwen3 est optimisée pour les déploiements avec contraintes de ressources tout en maintenant des performances remarquables pour sa taille. Son architecture efficiente permet une inférence rapide sur du matériel standard.
34 tokens/seconde

Qwen3 8b

Modèle Qwen3 8B offrant un bon équilibre entre performance et efficacité pour les tâches générales.
Version 8B de Qwen3, offrant des capacités améliorées en raisonnement, code, maths et agent. Supporte plus de 100 langues et les modes de pensée hybrides.
24 tokens/seconde

Foundation-Sec-8B

Modèle de langage spécialisé pour la cybersécurité, optimisé pour l'efficacité.
Modèle Foundation-Sec-8B (Llama-3.1-FoundationAI-SecurityLLM-base-8B) basé sur Llama-3.1-8B, pré-entraîné sur un corpus cybersécurité. Conçu pour la détection de menaces, l'évaluation de vulnérabilités, l'automatisation de la sécurité, etc. Optimisé pour le déploiement local. Contexte de 16k tokens.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Modèles de grande taille
Llama 3.3 70B Meta 70B 60000
Gemma 3 27B Google 27B 120000
DeepSeek-R1 70B DeepSeek AI 70B 60000
Qwen3 30B-A3B FP8 Qwen Team 30B-A3B 60000
Modèles spécialisés
Qwen3 14B Qwen Team 14B 60000
Gemma 3 12B Google 12B 120000
Gemma 3 4B Google 4B 120000
Gemma 3 1B Google 1B 32000
Lucie-7B-Instruct OpenLLM-France 7B 32000
Mistral Small 3.1 Mistral AI 24B 60000
DeepCoder Agentica x Together AI 14B 32000
Granite 3.2 Vision IBM 2B 16384
Granite 3.3 8B IBM 8B 60000
Granite 3.3 2B IBM 2B 120000
Granite 3.1 MoE IBM 3B 32000
Cogito 14B Deep Cogito 14B 32000
Cogito 32B Deep Cogito 32B 32000
QwQ-32B Qwen Team 32B 32000
DeepSeek-R1 14B DeepSeek AI 14B 32000
DeepSeek-R1 32B DeepSeek AI 32B 32000
Cogito 3B Deep Cogito 3B 32000
Granite Embedding IBM 278M 32000 N.C.
Granite 3 Guardian 2B IBM 2B 8192 N.C.
Granite 3 Guardian 8B IBM 8B 32000 N.C.
Qwen 2.5 0.5B Qwen Team 0.5B 32000
Qwen 2.5 1.5B Qwen Team 1.5B 32000
Qwen 2.5 14B Qwen Team 14B 32000
Qwen 2.5 32B Qwen Team 32B 32000
Qwen 2.5 3B Qwen Team 3B 32000
Qwen3 0.6b Qwen Team 0.6B 32000
Qwen3 1.7b Qwen Team 1.7B 32000
Qwen3 4b Qwen Team 4B 32000
Qwen3 8b Qwen Team 8B 60000
Foundation-Sec-8B Foundation AI — Cisco 8B 16000
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 jetons par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique, maintien du contexte sur l'ensemble de la conversation et compréhension des spécificités linguistiques
Modèles recommandés
  • Llama 3.3
  • Mistral Small 3.1
  • Qwen 2.5
  • Granite 3.3

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec maintien du contexte sur l'ensemble du texte, extraction d'informations clés, génération de résumés pertinents et réponse à des questions spécifiques sur le contenu
Modèles recommandés
  • Gemma 3
  • DeepSeek-R1
  • Granite 3.3

Programmation et développement

Génération et optimisation de code dans multiples langages, débogage, refactoring, développement de fonctionnalités complètes, compréhension des implémentations algorithmiques complexes et création de tests unitaires
Modèles recommandés
  • DeepCoder
  • QwQ
  • DeepSeek-R1
  • Granite 3.3

Analyse visuelle

Traitement direct d'images et documents visuels sans pré-traitement OCR, interprétation de diagrammes techniques, graphiques, tableaux, dessins et photos avec génération d'explications textuelles détaillées du contenu visuel
Modèles recommandés
  • Granite 3.2 Vision
  • Mistral Small 3.1
  • Gemma 3

Sécurité et conformité

Applications avec exigences strictes de sécurité, traçabilité des raisonnements, vérification RGPD/HDS/SecNumCloud, minimisation des risques, analyse des vulnérabilités et respect des réglementations sectorielles
Modèles recommandés
  • Granite Guardian
  • Granite 3.3
  • Lucie
  • Mistral Small 3.1

Déploiements légers et embarqués

Applications nécessitant une empreinte minimale en ressources, déploiement sur appareils à capacité limitée, inférence en temps réel sur CPU standard et intégration dans des systèmes embarqués ou IoT
Modèles recommandés
  • Gemma 3
  • Granite 3.1 MoE
  • Granite Guardian
  • Granite 3.3
Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.