Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
0.9 €
par million de tokens en entrée
4 €
par million de tokens en sortie
21 €
par million de tokens de raisonnement
0,01 €
par minute audio transcrite *
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.
* toute minute commencée est comptée

Modèles de grande taille

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

140 tokens/seconde

gpt-oss:120b

Modèle de langage open-weight de pointe d'OpenAI, offrant de solides performances avec une licence flexible Apache 2.0.
Un modèle Mixture-of-Experts (MoE) de 120 milliards de paramètres avec environ 5.1 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et un accès complet à la chaîne de pensée.
31 tokens/seconde

llama3.3:70b

Modèle multilingue de pointe développé par Meta, conçu pour exceller dans le dialogue naturel, le raisonnement complexe et la compréhension nuancée des instructions.
Combinant une efficacité remarquable avec des ressources computationnelles réduites, ce modèle offre des capacités multilingues étendues couvrant 8 langues majeures (anglais, français, allemand, espagnol, italien, portugais, hindi et thaï). Sa fenêtre contextuelle de 132 000 tokens permet l'analyse approfondie de documents complexes et de conversations longues, tout en maintenant une cohérence globale exceptionnelle. Optimisé pour minimiser les biais et les réponses problématiques.
24 tokens/seconde

gemma3:27b

Modèle révolutionnaire de Google offrant un équilibre optimal entre puissance et efficacité, avec un rapport performance/coût exceptionnel pour les applications professionnelles exigeantes.
Doté d'une efficacité matérielle inégalée, ce modèle intègre des capacités multimodales natives et excelle dans la performance multilingue sur plus de 140 langues. Sa fenêtre contextuelle impressionnante de 120 000 tokens en fait le choix idéal pour l'analyse de documents très volumineux, la recherche documentaire, et toute application nécessitant la compréhension de contextes étendus. Son architecture optimisée permet un déploiement flexible sans compromettre la qualité des résultats.
84 tokens/seconde

qwen3-coder:30b

Modèle MoE optimisé pour les tâches d'ingénierie logicielle, avec un contexte très long.
Capacités agentiques avancées pour les tâches de génie logiciel, support natif d'un contexte de 250K tokens, pré-entraîné sur 7.5T tokens avec un fort ratio de code, et optimisé par apprentissage par renforcement pour améliorer les taux d'exécution de code.
118 tokens/seconde

qwen3-2507:30b-a3b

Version améliorée du mode non-pensée de Qwen3-30B, avec des capacités générales, une couverture de connaissances et un alignement utilisateur améliorés.
Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Contexte natif de 250k tokens.
59 tokens/seconde

qwen3-next:80b

Modèle Next 80B FP8 de Qwen, optimisé pour les grands contextes et le raisonnement, servi via vLLM (A100).
Variante A3B-Instruct en FP8, configurée avec un contexte jusqu'à 262k tokens, prise en charge du function calling, guided decoding (xgrammar) et spéculative (qwen3_next_mtp). Déployé sur 2×A100 avec vLLM.

qwen3-vl:30b

Modèle multimodal de pointe (Qwen3-VL) offrant une compréhension visuelle exceptionnelle et un raisonnement temporel précis.
Ce modèle Vision-Language intègre des innovations majeures (DeepStack, MRoPE) pour une analyse fine des images et des vidéos. Il excelle dans l'OCR complexe, la détection d'objets, l'analyse de graphiques et le raisonnement spatio-temporel. Son architecture permet une compréhension native du contenu vidéo et une extraction structurée (JSON) précise.

qwen3-vl:32b

Variante haute performance de Qwen3-VL, optimisée pour les tâches de vision les plus exigeantes.
Offre les mêmes capacités avancées que le 30B (DeepStack, MRoPE) avec une capacité de modélisation accrue. Particulièrement performant pour les tâches nécessitant une grande finesse d'analyse visuelle et une compréhension contextuelle profonde. Supporte l'alignement texte-timestamp pour la vidéo.

olmo-3:7b

Modèle "Fully Open" de référence, offrant une transparence totale (données, code, poids) et une efficacité remarquable.
OLMo 3-7B est un modèle dense optimisé pour l'efficacité (2.5x moins de ressources requises que Llama 3.1 8B pour des performances comparables). Il excelle particulièrement en mathématiques et en programmation. Avec sa fenêtre de 65k tokens, il est idéal pour les tâches nécessitant une auditabilité complète.

olmo-3:32b

Le premier modèle de raisonnement entièrement ouvert à cette échelle, rivalisant avec les meilleurs modèles propriétaires.
OLMo 3-32B utilise une architecture avancée (GQA) pour offrir des capacités de raisonnement exceptionnelles. Il se distingue sur les benchmarks complexes (MATH, HumanEvalPlus) et est capable d'exposer son processus de pensée (variante Think). C'est un choix privilégié pour les tâches critiques nécessitant une haute performance et une transparence totale.
26 tokens/seconde

qwen3-2507:235b

Modèle MoE massif de 235 milliards de paramètres, avec seulement 22 milliards actifs, offrant des performances de pointe.
Architecture Mixture-of-Experts ultra-éparse avec 512 experts. Combine la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit. Excelle en mathématiques, codage et raisonnement logique.

Modèles spécialisés

Nos modèles spécialisés sont optimisés pour des tâches spécifiques comme la génération de code, l’analyse d’images ou le traitement de données structurées. Ils offrent un excellent rapport performance/coût pour des cas d’usage ciblés.

embeddinggemma:300m

Modèle d'embedding de pointe de Google, optimisé pour sa taille, idéal pour les tâches de recherche et de récupération sémantique.
Construit sur Gemma 3, ce modèle produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité. Entraîné sur plus de 100 langues, sa petite taille le rend parfait pour les environnements à ressources limitées.
85 tokens/seconde

gpt-oss:20b

Modèle de langage open-weight d'OpenAI, optimisé pour l'efficacité et le déploiement sur du matériel grand public.
Un modèle Mixture-of-Experts (MoE) de 21 milliards de paramètres avec 3.6 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et des capacités d'agent.
77 tokens/seconde

qwen3-2507-think:4b

Modèle Qwen3-4B optimisé pour le raisonnement, avec des performances améliorées sur les tâches logiques, les mathématiques, la science et le code, et un contexte étendu à 250K tokens.
Cette version "Thinking" dispose d'une longueur de pensée accrue, la rendant idéale pour les tâches de raisonnement très complexes. Elle offre également des améliorations générales en suivi d'instructions, utilisation d'outils et génération de texte.
69 tokens/seconde

qwen3-2507:4b

Version mise à jour du mode non-pensée de Qwen3-4B, avec des améliorations significatives des capacités générales, une couverture de connaissances étendue et un meilleur alignement avec les préférences des utilisateurs.
Améliorations notables du suivi d'instructions, du raisonnement logique, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Contexte natif de 250k tokens.

rnj-1:8b

Modèle 8B "Open Weight" spécialisé dans le code, les mathématiques et les sciences (STEM).
RNJ-1 est un modèle dense de 8.3B paramètres entraîné sur 8.4T tokens. Il utilise l'attention globale et YaRN pour offrir un contexte de 32k tokens. Il excelle dans la génération de code (83.5% HumanEval+) et le raisonnement mathématique, surpassant souvent des modèles beaucoup plus grands.

qwen3-vl:2b

Modèle multimodal ultra-compact Qwen3-VL, apportant des capacités de vision avancées sur edge devices.
Malgré sa petite taille, ce modèle intègre les technologies Qwen3-VL (MRoPE, DeepStack) pour offrir une analyse d'image et vidéo surprenante. Idéal pour les applications mobiles ou embarquées nécessitant de l'OCR, de la détection d'objets ou de la compréhension visuelle rapide.

qwen3-vl:4b

Modèle multimodal Qwen3-VL équilibré, offrant de solides performances de vision avec une empreinte réduite.
Excellent compromis entre performance et ressources. Capable d'analyser des documents complexes, des graphiques et des vidéos avec une précision élevée. Supporte l'extraction structurée et le raisonnement visuel.
50 tokens/seconde

devstral:24b

Devstral (24B FP8) est un LLM agentique spécialisé pour l'ingénierie logicielle, co-développé par Mistral AI et All Hands AI.
Déployé en FP8 sur 2xL40S (ia03, ia04). Devstral excelle dans l'utilisation d'outils pour explorer les bases de code, modifier plusieurs fichiers et piloter des agents d'ingénierie. Basé sur Mistral Small 3, il offre des capacités avancées de raisonnement et de codage. Configuré avec les optimiseurs spécifiques Mistral (tokenizer, parser).

devstral-small-2:24b

Seconde itération de Devstral (Small 2), modèle agentique de pointe pour l'ingénierie logicielle, déployé sur Mac Studio avec un contexte massif.
Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Offre des performances proches des modèles >100B pour le code (SWE-bench Verified 68%). Supporte nativement la vision. Déployé avec un contexte étendu de 380k tokens pour traiter des projets entiers.
28 tokens/seconde

granite4-small-h:32b

Modèle MoE (Mixture-of-Experts) d'IBM, conçu comme un "cheval de bataille" pour les tâches d'entreprise quotidiennes, avec une excellente efficacité pour les longs contextes.
Ce modèle hybride (Transformer + Mamba-2) de 32 milliards de paramètres (9B actifs) est optimisé pour les workflows d'entreprise comme les agents multi-outils et l'automatisation du support client. Son architecture innovante réduit de plus de 70% l'utilisation de la RAM pour les longs contextes et les lots multiples.
77 tokens/seconde

granite4-tiny-h:7b

Modèle MoE hybride ultra-efficace d'IBM, conçu pour la faible latence, les applications "edge" et locales, et comme brique de base pour les workflows agentiques.
Ce modèle de 7 milliards de paramètres (1B actifs) combine des couches Transformer et Mamba-2 pour une efficacité maximale. Il réduit l'utilisation de la RAM de plus de 70% pour les longs contextes, le rendant idéal pour les appareils à ressources limitées et les tâches rapides comme le "function calling".
120 tokens/seconde

deepseek-ocr

Modèle OCR spécialisé de DeepSeek, conçu pour une extraction de texte haute précision avec préservation de la mise en forme.
Système OCR en deux étapes (encodeur visuel + décodeur MoE 3B) optimisé pour la conversion de documents en Markdown structuré (tableaux, formules). Nécessite un pré-traitement spécifique (Logits Processor) pour des performances optimales.
24 tokens/seconde

medgemma:27b

MedGemma est un modèle ouvert parmis les plus performants de Google pour la compréhension de textes et d'images médicales, basés sur Gemma 3.
MedGemma est adaptée à des tâches telles que la génération de rapports d'imagerie médicale ou la réponse à des questions en langage naturel sur des images médicales. MedGemma peut être adapté pour des cas d'utilisation nécessitant des connaissances médicales, tels que l'entretien avec les patients, le triage, l'aide à la décision clinique et le résumé. Bien que ses performances de base soient solides, MedGemma n'est pas encore de qualité clinique et nécessitera probablement un affinage supplémentaire. Basé sur l'architecture Gemma 3 (multimodale native), ce modèle 27B intègre un encodeur d'images SigLIP pré-entraîné sur des données médicales. Il supporte un contexte de 128k tokens et est ici en FP16 pour un maximum de précision.
56 tokens/seconde

mistral-small3.2:24b

Mise à jour mineure de Mistral Small 3.1, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 3.2 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste. Pour les autres aspects, ses performances sont équivalentes ou légèrement supérieures à la version 3.1.
88 tokens/seconde

granite3.2-vision:2b

Modèle compact révolutionnaire d'IBM spécialisé dans la vision par ordinateur, capable d'analyser et comprendre directement les documents visuels sans recourir à des technologies OCR intermédiaires.
Ce modèle compact réalise l'exploit remarquable d'égaler les performances de modèles bien plus volumineux sur un large éventail de tâches de compréhension visuelle. Sa capacité à interpréter directement le contenu visuel des documents - textes, tableaux, graphiques et diagrammes - sans passer par une étape d'OCR traditionnelle représente une avancée significative en termes d'efficacité et de précision. Cette approche intégrée réduit considérablement les erreurs de reconnaissance et permet une compréhension plus contextuelle et plus nuancée du contenu visuel.
29 tokens/seconde

magistral:24b

Le premier modèle de raisonnement de Mistral AI, excellant dans le raisonnement spécifique au domaine, transparent et multilingue.
Idéal pour une utilisation générale nécessitant un traitement de pensée plus long et une meilleure précision. Utile pour la recherche juridique, la prévision financière, le développement de logiciels et la narration créative. Résout les défis en plusieurs étapes où la transparence et la précision sont essentielles.
37 tokens/seconde

cogito:32b

Version avancée du modèle Cogito offrant des capacités de raisonnement et d'analyse considérablement amplifiées, conçue pour les applications les plus exigeantes en matière d'intelligence artificielle analytique.
Cette version étendue du modèle Cogito pousse encore plus loin les capacités de raisonnement et de compréhension, offrant une profondeur d'analyse inégalée pour les applications les plus complexes. Sa conception architecturale sophistiquée lui permet d'aborder des raisonnements multi-étapes avec rigueur et précision, tout en maintenant une cohérence globale remarquable. Idéal pour les applications critiques nécessitant une intelligence artificielle capable d'un raisonnement nuancé et d'une compréhension contextuelle approfondie comparable aux analyses d'experts humains dans des domaines spécialisés.

granite-embedding:278m

Modèle d'embedding ultra-léger d'IBM pour la recherche sémantique et la classification.
Conçu pour générer des représentations vectorielles denses de texte, ce modèle est optimisé pour l'efficacité et la performance dans les tâches de similarité sémantique, de clustering et de classification. Sa taille réduite le rend idéal pour les déploiements à grande échelle.

qwen3-embedding:0.6b

Modèle d'embedding compact de la famille Qwen3, optimisé pour l'efficacité.
Le plus petit modèle dense de la famille Qwen3, idéal pour la recherche sémantique rapide.

qwen3-embedding:4b

Modèle d'embedding haute performance de la famille Qwen3.
Offre une meilleure précision sémantique grâce à sa taille accrue.

qwen3-embedding:8b

Modèle d'embedding très haute performance de la famille Qwen3.
Le plus grand modèle d'embedding de la gamme, pour les tâches critiques.

granite3-guardian:2b

Modèle compact d'IBM spécialisé dans la sécurité et la conformité, détectant les risques et les contenus inappropriés.
Version légère de la famille Guardian, entraînée pour identifier et filtrer les contenus nuisibles, les biais et les risques de sécurité dans les interactions textuelles. Offre une protection robuste avec une faible empreinte computationnelle. Contexte limité à 8k tokens.

granite3-guardian:8b

Modèle d'IBM spécialisé dans la sécurité et la conformité, offrant des capacités avancées de détection des risques.
Modèle de taille intermédiaire de la famille Guardian, fournissant une analyse de sécurité plus approfondie que la version 2B. Idéal pour les applications nécessitant une surveillance rigoureuse du contenu et une conformité stricte.

functiongemma:270m

Micro-modèle spécialisé de 270 millions de paramètres, optimisé pour transformer le langage naturel en appels de fonctions structurés sur l'Edge.
Basé sur l'architecture Gemma 3, ce modèle est un expert du "Function Calling". Il est conçu pour être fine-tuné sur des domaines spécifiques, où il peut atteindre une précision remarquable (85%) avec une empreinte mémoire minime. Idéal comme routeur intelligent ou contrôleur d'actions locales.

ministral-3:3b

Modèle compact de pointe de Mistral AI, conçu pour l'efficacité sur les déploiements locaux et edge.
Ministral 3B est un modèle dense optimisé pour l'inférence locale à faible latence. Il offre d'excellentes capacités de raisonnement et de compréhension pour sa taille, tout en étant extrêmement efficace en termes de mémoire et de calcul.

ministral-3:8b

Modèle de taille intermédiaire de la famille Ministral, offrant un équilibre optimal entre performance et ressources.
Ministral 8B apporte des capacités de raisonnement et de compréhension accrues par rapport à la version 3B, tout en restant adapté aux déploiements locaux performants. Il est nativement multimodal.

ministral-3:14b

Le plus puissant de la famille Ministral, conçu pour les tâches complexes sur infrastructure locale.
Ministral 14B offre des performances proches des modèles de classe supérieure dans un format compact. Il excelle dans le raisonnement, le codage et les tâches multilingues complexes, tout en étant déployable localement.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie (modèles de grande taille et modèles spécialisés).
Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Modèles de grande taille
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3-coder:30b Qwen Team 30B 250000
qwen3-2507:30b-a3b Qwen Team 30B 250000
qwen3-next:80b Qwen Team 80B 262144
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
olmo-3:7b AllenAI 7B 65536
olmo-3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B (22B actifs) 130000
Modèles spécialisés
embeddinggemma:300m Google 300M 2048 N.C.
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-2507:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000 N.C.
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
devstral:24b Mistral AI & All Hands AI 24B 120000
devstral-small-2:24b Mistral AI & All Hands AI 24B 380000 N.C.
granite4-small-h:32b IBM 32B (9B actifs) 128000
granite4-tiny-h:7b IBM 7B (1B actif) 128000
deepseek-ocr DeepSeek AI 3B 8192
medgemma:27b Google 27B 128000
mistral-small3.2:24b Mistral AI 24B 128000
granite3.2-vision:2b IBM 2B 16384
magistral:24b Mistral AI 24B 40000
cogito:32b Deep Cogito 32B 32000
granite-embedding:278m IBM 278M 512 N.C.
qwen3-embedding:0.6b Qwen Team 0.6B 8192 N.C.
qwen3-embedding:4b Qwen Team 4B 8192 N.C.
qwen3-embedding:8b Qwen Team 8B 8192 N.C.
granite3-guardian:2b IBM 2B 8192 N.C.
granite3-guardian:8b IBM 8B 32000 N.C.
functiongemma:270m Google 270M 32768 N.C.
ministral-3:3b Mistral AI 3B 250000 N.C.
ministral-3:8b Mistral AI 8B 250000 N.C.
ministral-3:14b Mistral AI 14B 250000 N.C.
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique, maintien du contexte sur l'ensemble de la conversation et compréhension des spécificités linguistiques
Modèles recommandés
  • Llama 3.3
  • Mistral Small 3.2
  • Qwen 3
  • Openai OSS
  • Granite 4

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec maintien du contexte sur l'ensemble du texte, extraction d'informations clés, génération de résumés pertinents et réponse à des questions spécifiques sur le contenu
Modèles recommandés
  • Gemma 3
  • Qwen next
  • Qwen 3
  • Granite 4

Programmation et développement

Génération et optimisation de code dans multiples langages, débogage, refactoring, développement de fonctionnalités complètes, compréhension des implémentations algorithmiques complexes et création de tests unitaires
Modèles recommandés
  • DeepCoder
  • Qwen3 coder
  • Granite 4
  • Devstral

Analyse visuelle

Traitement direct d'images et documents visuels sans pré-traitement OCR, interprétation de diagrammes techniques, graphiques, tableaux, dessins et photos avec génération d'explications textuelles détaillées du contenu visuel
Modèles recommandés
  • deepseek-OCR
  • Mistral Small 3.2
  • Gemma 3
  • Qwen 3 VL

Sécurité et conformité

Applications nécessitant des capacités spécifiques en matière de sécurité ; filtrage de contenu sensible, traçabilité des raisonnements, vérification RGPD/HDS, minimisation des risques, analyse des vulnérabilités et respect des réglementations sectorielles
Modèles recommandés
  • Granite Guardian
  • Granite 4
  • Devstral
  • Mistral Small 3.2
  • Magistral small

Déploiements légers et embarqués

Applications nécessitant une empreinte minimale en ressources, déploiement sur appareils à capacité limitée, inférence en temps réel sur CPU standard et intégration dans des systèmes embarqués ou IoT
Modèles recommandés
  • Gemma 3n
  • Granite 4 tiny
  • Qwen 3 VL (2B)
Contactez nos équipes !
Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.