IA de confiance

Large Language Model as a Service (LLMaaS) - Catalogue des modèles disponibles

Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente

1,8 €

par million de tokens en entrée

8 €

par million de tokens en sortie

8 €

par million de tokens de raisonnement

4 €

par million de tokens de reranking

0,9 €

par million de tokens batch en entrée

4 €

par million de tokens batch en sortie

0,01 €

par minute audio transcrite *

Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.

Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.

* toute minute commencée est comptée

Chat & Raisonnement

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Son contexte de 1M tokens permet l'analyse de documents entiers sans troncature.

Paramètres :

27B

Taille du contexte :

1 000 000

Licence :

Apache 2.0

Efficacité énergétique :

2.78 kWh/Mtoken

Équivalent CO₂ :

63.94 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Grand Contexte

Multilingue

Vision

Raisonnement

Modèle Mixture-of-Experts de 120 milliards de paramètres offrant un raisonnement configurable et un accès complet à la chaîne de pensée. Idéal pour les scénarios nécessitant une licence permissive (Apache 2.0).

Paramètres :

120B

Taille du contexte :

120 000

Licence :

Apache 2.0

Efficacité énergétique :

2.37 kWh/Mtoken

Équivalent CO₂ :

54.51 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

MoE

Agent

Raisonnement

Open-Source

Très Large

Supporte anglais, français, allemand, espagnol, italien, portugais, hindi et thaï. Sa fenêtre de 132k tokens permet l'analyse de documents complexes et de conversations longues.

Paramètres :

70B

Taille du contexte :

132 000

Licence :

LLAMA 3.3 Community Licence

Efficacité énergétique :

13.33 kWh/Mtoken

Équivalent CO₂ :

306.59 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Dialogue

Multilingue

Idéal pour les workflows agentiques, le raisonnement sur contexte long, l'automatisation à fort volume (tickets de support, analyses en masse), l'utilisation d'outils et le RAG.

Paramètres :

120B

Taille du contexte :

1 000 000

Licence :

NVIDIA Community License

Efficacité énergétique :

1.93 kWh/Mtoken

Équivalent CO₂ :

44.39 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Raisonnement

Grand Contexte

Architecture Mixture-of-Experts ultra-éparse combinant la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit.

Paramètres :

235B

Taille du contexte :

200 000

Licence :

Apache 2.0

Efficacité énergétique :

3.97 kWh/Mtoken

Équivalent CO₂ :

91.31 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

MoE

Agent

Raisonnement

Très Large

Version large de la famille Mistral Small. Combine puissance, vitesse et fiabilité avec un contexte étendu. Filtres de sécurité natifs.

Paramètres :

119B

Taille du contexte :

262 144

Licence :

Apache 2.0

Efficacité énergétique :

2 kWh/Mtoken

Équivalent CO₂ :

46 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Vision

Agent

Sécurité

Grand Contexte

Rapide

Version "Thinking" avec une capacité de raisonnement accrue. Combine compacité, vitesse et raisonnement avancé.

Paramètres :

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

2.42 kWh/Mtoken

Équivalent CO₂ :

55.66 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Raisonnement

Grand Contexte

Compact

Rapide

Programmation & Agents

Nos modèles de programmation et d’agents sont spécialement optimisés pour l’ingénierie logicielle agentique, la génération de code à grande échelle et l’automatisation de workflows de développement.

Comprend des dépôts de code entiers grâce à son contexte de 1M tokens. Supporte le raisonnement multi-étapes et la vision (captures d'écran, diagrammes). Optimisé pour les IDE et les pipelines CI/CD.

Paramètres :

35B

Taille du contexte :

1 000 000

Licence :

Apache 2.0

Efficacité énergétique :

2.07 kWh/Mtoken

Équivalent CO₂ :

47.61 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Programmation

Grand Contexte

MoE

Vision

Raisonnement

Excelle dans la génération et l'analyse de code à grande échelle. Conçu pour les tâches d'ingénierie logicielle avancées.

Paramètres :

80B

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

2.29 kWh/Mtoken

Équivalent CO₂ :

52.67 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Programmation

MoE

Grand Contexte

Contexte de 250K tokens avec prise en charge du function calling et du guided decoding.

Paramètres :

80B

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

2.09 kWh/Mtoken

Équivalent CO₂ :

48.07 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Grand Contexte

MoE

Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Supporte nativement la vision. Contexte de 200K tokens.

Paramètres :

24B

Taille du contexte :

200 000

Licence :

Apache 2.0

Efficacité énergétique :

4.23 kWh/Mtoken

Équivalent CO₂ :

97.29 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Programmation

Vision

Open-Source

Grand Contexte

Rapide

Ultra-compact, optimisé pour identifier et formater les appels de fonctions rapidement.

Paramètres :

270M

Taille du contexte :

32 768

Licence :

Google Gemma Terms of Use

Efficacité énergétique :

0.97 kWh/Mtoken

Équivalent CO₂ :

22.31 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Compact

Efficient

Function Calling

Vision & Multimodal

Nos modèles Vision & Multimodal permettent d’analyser des images, des vidéos et des documents visuels. Ils excellent dans l’OCR, la détection d’objets, l’extraction structurée et le raisonnement spatio-temporel.

Excelle dans l'analyse de documents complexes, l'OCR multilingue, le raisonnement spatial 3D et la compréhension de vidéos.

Paramètres :

235B

Taille du contexte :

200 000

Licence :

Apache 2.0

Efficacité énergétique :

5.56 kWh/Mtoken

Équivalent CO₂ :

127.88 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Raisonnement

Grand Contexte

Vision

Intègre des innovations en analyse d'images et vidéos. Excelle dans l'OCR complexe, les graphiques, et l'extraction structurée (JSON).

Paramètres :

30B

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

3.39 kWh/Mtoken

Équivalent CO₂ :

77.97 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Vision

Agent

Grand Contexte

Multimodal

Vidéo

OCR

Excellent compromis entre performance et empreinte. Supporte l'extraction structurée et le raisonnement visuel.

Paramètres :

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

2.34 kWh/Mtoken

Équivalent CO₂ :

53.82 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Vision

Compact

Multimodal

Efficient

Vidéo

OCR

Modèle open-source le plus performant de Google. Function calling natif, compréhension visuelle avancée (OCR, graphiques, documents, UI). Multilingue (35+ langues).

Paramètres :

31B

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

3.77 kWh/Mtoken

Équivalent CO₂ :

86.71 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Agent

Grand Contexte

Vision

Raisonnement

Multilingue

Open-Source

Variante 12B de la famille Gemma 4, offrant un bon compromis entre qualité multimodale et empreinte. Raisonnement avancé, compréhension visuelle (OCR, graphiques, documents, UI) et support multilingue (35+ langues).

Paramètres :

12B

Taille du contexte :

250 000

Licence :

Apache 2.0

Efficacité énergétique :

3.31 kWh/Mtoken

Équivalent CO₂ :

76.13 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Vision

Agent

Grand Contexte

Multimodal

Raisonnement

Multilingue

Embedding

Nos modèles d’embedding transforment le texte en représentations vectorielles pour la recherche sémantique, le clustering et les pipelines RAG (Retrieval-Augmented Generation).

Contexte de 8192 tokens avec trois méthodes de recherche complémentaires.

Paramètres :

567M

Taille du contexte :

8 192

Licence :

MIT

Efficacité énergétique :

0.36 kWh/Mtoken

Équivalent CO₂ :

8.28 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Multilingue

Efficient

Idéal pour le traitement de documents volumineux dans les pipelines RAG.

Paramètres :

Taille du contexte :

40 000

Licence :

Apache 2.0

Efficacité énergétique :

0.57 kWh/Mtoken

Équivalent CO₂ :

13.11 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Grand Contexte

Efficient

Version la plus puissante de la famille d'embedding Qwen3. Idéal pour les tâches exigeantes en compréhension contextuelle.

Paramètres :

Taille du contexte :

40 000

Licence :

Apache 2.0

Efficacité énergétique :

0.57 kWh/Mtoken

Équivalent CO₂ :

13.11 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Grand Contexte

Haute Performance

Excellent compromis entre performance sémantique et rapidité d'exécution.

Paramètres :

0.6B

Taille du contexte :

32 768

Licence :

Apache 2.0

Efficacité énergétique :

0.57 kWh/Mtoken

Équivalent CO₂ :

13.11 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Compact

Efficient

Le plus rapide des modèles d'embedding du catalogue. Idéal pour le clustering et la recherche à haute fréquence.

Paramètres :

278M

Taille du contexte :

512

Licence :

Apache 2.0

Efficacité énergétique :

0.31 kWh/Mtoken

Équivalent CO₂ :

7.13 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Compact

Efficient

Produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité.

Paramètres :

300M

Taille du contexte :

2 048

Licence :

Google Gemma Terms of Use

Efficacité énergétique :

0.35 kWh/Mtoken

Équivalent CO₂ :

8.05 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Embedding

Compact

Sémantique

Efficient

Multilingue

Reranking

Nos modèles de reranking réordonnent les résultats de recherche par pertinence pour affiner la qualité des pipelines RAG. Compatibles avec l’API Cohere.

Compatible SDK Cohere v1/v2. Le relevance_score est un logit brut (l'ordre relatif est garanti). Idéal en complément de la pile RAG (embedding + retrieval + rerank).

Paramètres :

Taille du contexte :

4 096

Licence :

NVIDIA Open Model License

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

Rerank

RAG

Compact

Excellente qualité de réordonnancement grâce à ses 4B paramètres. Idéal pour les pipelines RAG exigeants.

Paramètres :

Taille du contexte :

4 096

Licence :

Apache 2.0

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

Reranker

Performance

Version légère pour les cas d'usage nécessitant une faible latence de reranking.

Paramètres :

0.6B

Taille du contexte :

4 096

Licence :

Apache 2.0

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

Reranker

Compact

Efficient

Complémentaire du modèle d'embedding BGE-M3 pour les pipelines RAG complets.

Paramètres :

335M

Taille du contexte :

512

Licence :

MIT

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

Reranker

Haute Performance

Sécurité

Nos modèles de sécurité sont spécialisés dans la détection de contenus problématiques, la prévention des jailbreaks et la conformité réglementaire (RGPD, HDS). Utilisables en pré-filtre ou post-filtre dans vos workflows.

Version 4.1 (avril 2026). Conçu pour filtrer les contenus sensibles et assurer la conformité RGPD/HDS. Utilisable en pré-filtre ou post-filtre dans vos workflows. Hybrid thinking (reasoning) activé.

Paramètres :

Taille du contexte :

8 192

Licence :

Apache 2.0

Efficacité énergétique :

3.09 kWh/Mtoken

Équivalent CO₂ :

71.07 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Sécurité

Guardrails

Conformité

Filtrage

Mêmes capacités de filtrage que la version 8B avec une empreinte réduite. Idéal pour les workflows à haute fréquence. Hybrid thinking (reasoning) activé.

Paramètres :

Taille du contexte :

8 192

Licence :

Apache 2.0

Efficacité énergétique :

0.65 kWh/Mtoken

Équivalent CO₂ :

14.95 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Sécurité

Guardrails

Compact

Efficient

Traduction

Nos modèles de traduction offrent une haute fidélité sur 55 langues, en respectant la grammaire, les nuances culturelles et les spécificités techniques des documents.

Capture les nuances littéraires et culturelles avec une fidélité exceptionnelle.

Paramètres :

27B

Taille du contexte :

120 000

Licence :

Gemma Terms of Use

Efficacité énergétique :

7.84 kWh/Mtoken

Équivalent CO₂ :

180.32 CO₂e/Mtoken

Tools (Fonctions) :

Vision (images) :

Traduction

Multilingue

Spécialisé

Haute Performance

Audio & Image

Nos modèles Audio & Image permettent la transcription vocale en temps réel (ASR streaming) et la génération d’images à partir de descriptions textuelles, compatibles avec l’API OpenAI.

Fonctionne en mode Realtime via l'endpoint /v1/realtime (WebSocket). Transcrit l'audio en continu.

Paramètres :

Taille du contexte :

32 768

Licence :

Apache 2.0

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

ASR

Audio

Realtime

WebSocket

Supporte les paramètres de taille et nombre d'images. Compatible avec l'écosystème OpenAI.

Paramètres :

16B

Taille du contexte :

N.C.

Licence :

Open Weights

Efficacité énergétique :

N.C.

Équivalent CO₂ :

N.C.

Tools (Fonctions) :

Vision (images) :

Image Generation

Créatif

Multimodal

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie.
Modèle	Editeur	Paramètres	Contexte (tokens)	Efficience énergétique *
Chat & Raisonnement
qwen3.6:27b	Qwen Team	27B	1 000 000
gpt-oss:120b	OpenAI	120B	120 000
llama3.3:70b	Meta	70B	132 000
nemotron-3-super:120b	NVIDIA	120B	1 000 000
qwen3-2507:235b	Qwen Team	235B	200 000
mistral-small4:119b	Mistral AI	119B	262 144
qwen3-2507-think:4b	Qwen Team	4B	250 000
Programmation & Agents
qwen3.6:35b	Qwen Team	35B	1 000 000
qwen-coder-next:80b	Qwen Team	80B	250 000
qwen3-next:80b	Qwen Team	80B	250 000
devstral-small-2:24b	Mistral AI & All Hands AI	24B	200 000
functiongemma:270m	Google	270M	32 768
Vision & Multimodal
qwen3-vl:235b	Qwen Team	235B	200 000
qwen3-vl:30b	Qwen Team	30B	250 000
qwen3-vl:4b	Qwen Team	4B	250 000
gemma4:31b	Google	31B	250 000
gemma4:12b-it-qat	Google	12B	250 000
Embedding
bge-m3:567m	BAAI	567M	8 192
qwen3-embedding:4b	Qwen Team	4B	40 000
qwen3-embedding:8b	Qwen Team	8B	40 000
qwen3-embedding:0.6b	Qwen Team	0.6B	32 768
granite-embedding:278m	IBM	278M	512
embeddinggemma:300m	Google	300M	2 048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2	NVIDIA	1B	4 096	N.C.
qwen3-reranker:4b	Qwen Team	4B	4 096	N.C.
qwen3-reranker:0.6b	Qwen Team	0.6B	4 096	N.C.
bge-reranker-large	BAAI	335M	512	N.C.
Sécurité
granite3-guardian:8b	IBM	8B	8 192
granite3-guardian:2b	IBM	2B	8 192
Traduction
translategemma:27b	Google	27B	120 000
Audio & Image
voxtral	Mistral AI	4B	32 768	N.C.
z-image:16b	Community	16B	N.C.	N.C.

Légende et explication

: Fonctionnalité ou capacité supportée par le modèle

: Fonctionnalité ou capacité non supportée par le modèle

* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)

* Rapide : Modèle capable de générer plus de 50 tokens par seconde

Note sur les mesures de performance

Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique et maintien du contexte

Modèles recommandés

nemotron-3-super:120b
qwen3.6:27b
gpt-oss:120b

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec extraction d'informations clés, résumés et réponses à des questions

Modèles recommandés

nemotron-3-super:120b
qwen3.6:27b
qwen3-2507:235b

Programmation et développement

Génération, optimisation et débogage de code dans multiples langages, refactoring et création de tests

Modèles recommandés

qwen3.6:35b
qwen-coder-next:80b
devstral-small-2:24b
nemotron-3-super:120b

Analyse visuelle

Traitement d'images et documents visuels, OCR, interprétation de graphiques et tableaux

Modèles recommandés

qwen3-vl:235b
gemma4:31b
qwen3-vl:30b

Sécurité et conformité

Filtrage de contenu sensible, détection de jailbreak, conformité RGPD/HDS

Modèles recommandés

granite4.1-guardian:8b
granite3-guardian:8b
granite3-guardian:2b
mistral-small4:119b

Déploiements légers

Applications nécessitant une empreinte minimale, faible latence et faible consommation

RAG (Retrieval-Augmented Generation)

Pipelines complets de recherche sémantique, réordonnancement et génération augmentée par la récupération

Modèles recommandés

bge-m3:567m
nvidia/llama-nemotron-rerank-vl-1b-v2
qwen3.6:27b

Suivez l’évolution de l’offre LLMaaS

Découvrez tous nos papiers de recherche IA

Statut des modèles Nos papiers de recherche

IA de confiance

Chat & Raisonnement

qwen3.6:27b

gpt-oss:120b

llama3.3:70b

nemotron-3-super:120b

qwen3-2507:235b

mistral-small4:119b

qwen3-2507-think:4b

Programmation & Agents

qwen3.6:35b

qwen-coder-next:80b

qwen3-next:80b

devstral-small-2:24b

functiongemma:270m

Vision & Multimodal

qwen3-vl:235b

qwen3-vl:30b

qwen3-vl:4b

gemma4:31b

gemma4:12b-it-qat

Embedding

bge-m3:567m

qwen3-embedding:4b

qwen3-embedding:8b

qwen3-embedding:0.6b

granite-embedding:278m

embeddinggemma:300m

Reranking

nvidia/llama-nemotron-rerank-vl-1b-v2

qwen3-reranker:4b

qwen3-reranker:0.6b

bge-reranker-large

Sécurité

granite3-guardian:8b

granite3-guardian:2b

Traduction

translategemma:27b

Audio & Image

voxtral

z-image:16b

Comparaison des modèles

Cas d'usage recommandés

Dialogue multilingue

Analyse de documents longs

Programmation et développement

Analyse visuelle

Sécurité et conformité

Déploiements légers

RAG (Retrieval-Augmented Generation)