Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.
Chat & Raisonnement
Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.
qwen3.6:27b
gpt-oss:120b
gpt-oss:20b
llama3.3:70b
gemma3:27b
nemotron-3-super:120b
nemotron3-nano:30b
nemotron-cascade:30b
glm-4.7-flash:30b
cogito:32b
olmo-3:32b
olmo-3:7b
qwen3-2507:235b
mistral-small3.2:24b
mistral-small4:119b
ministral-3:14b
ministral-3:8b
ministral-3:3b
qwen3.5:9b
qwen3.5:4b
qwen3.5:0.8b
qwen3:0.6b
qwen3-2507-think:4b
qwen3-omni:30b
Programmation & Agents
Nos modèles de programmation et d’agents sont spécialement optimisés pour l’ingénierie logicielle agentique, la génération de code à grande échelle et l’automatisation de workflows de développement.
qwen3.6:35b
qwen-coder-next:80b
qwen3-next:80b
devstral-small-2:24b
rnj-1:8b
functiongemma:270m
Vision & Multimodal
Nos modèles Vision & Multimodal permettent d’analyser des images, des vidéos et des documents visuels. Ils excellent dans l’OCR, la détection d’objets, l’extraction structurée et le raisonnement spatio-temporel.
qwen3-vl:235b
qwen3-vl:32b
qwen3-vl:30b
qwen3-vl:8b
qwen3-vl:4b
qwen3-vl:2b
gemma4:31b
gemma4:e2b
gemma4:e4b
granite3.2-vision:2b
deepseek-ocr
Embedding
Nos modèles d’embedding transforment le texte en représentations vectorielles pour la recherche sémantique, le clustering et les pipelines RAG (Retrieval-Augmented Generation).
bge-m3:567m
qwen3-embedding:4b
qwen3-embedding:8b
qwen3-embedding:0.6b
granite-embedding:278m
embeddinggemma:300m
Reranking
Nos modèles de reranking réordonnent les résultats de recherche par pertinence pour affiner la qualité des pipelines RAG. Compatibles avec l’API Cohere.
nvidia/llama-nemotron-rerank-vl-1b-v2
qwen3-reranker:4b
qwen3-reranker:0.6b
bge-reranker-large
Sécurité
Nos modèles de sécurité sont spécialisés dans la détection de contenus problématiques, la prévention des jailbreaks et la conformité réglementaire (RGPD, HDS). Utilisables en pré-filtre ou post-filtre dans vos workflows.
granite3-guardian:8b
granite3-guardian:2b
Traduction
Nos modèles de traduction offrent une haute fidélité sur 55 langues, en respectant la grammaire, les nuances culturelles et les spécificités techniques des documents.
translategemma:27b
translategemma:12b
translategemma:4b
Audio & Image
Nos modèles Audio & Image permettent la transcription vocale en temps réel (ASR streaming) et la génération d’images à partir de descriptions textuelles, compatibles avec l’API OpenAI.
voxtral
z-image:16b
Comparaison des modèles
Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.
| Modèle | Editeur | Paramètres | Contexte (k tokens) | Vision | Agent | Raisonnement | Sécurité | Rapide * | Efficience énergétique * |
|---|---|---|---|---|---|---|---|---|---|
| Chat & Raisonnement | |||||||||
| qwen3.6:27b | Qwen Team | 27B | 1000000 | ||||||
| gpt-oss:120b | OpenAI | 120B | 120000 | ||||||
| gpt-oss:20b | OpenAI | 20B | 120000 | ||||||
| llama3.3:70b | Meta | 70B | 132000 | ||||||
| gemma3:27b | 27B | 120000 | |||||||
| nemotron-3-super:120b | NVIDIA | 120B | 1000000 | ||||||
| nemotron3-nano:30b | NVIDIA | 30B | 1000000 | ||||||
| nemotron-cascade:30b | NVIDIA | 30B | 1000000 | ||||||
| glm-4.7-flash:30b | Zhipu AI | 30B | 120000 | ||||||
| cogito:32b | Deep Cogito | 32B | 32000 | ||||||
| olmo-3:32b | AllenAI | 32B | 65536 | ||||||
| olmo-3:7b | AllenAI | 7B | 65536 | ||||||
| qwen3-2507:235b | Qwen Team | 235B | 200000 | ||||||
| mistral-small3.2:24b | Mistral AI | 24B | 128000 | ||||||
| mistral-small4:119b | Mistral AI | 119B | 262144 | ||||||
| ministral-3:14b | Mistral AI | 14B | 250000 | ||||||
| ministral-3:8b | Mistral AI | 8B | 250000 | ||||||
| ministral-3:3b | Mistral AI | 3B | 250000 | ||||||
| qwen3.5:9b | Qwen Team | 9B | 250000 | ||||||
| qwen3.5:4b | Qwen Team | 4B | 250000 | ||||||
| qwen3.5:0.8b | Qwen Team | 0.8B | 250000 | ||||||
| qwen3:0.6b | Qwen Team | 0.6B | 40000 | ||||||
| qwen3-2507-think:4b | Qwen Team | 4B | 250000 | ||||||
| qwen3-omni:30b | Qwen Team | 30B | 32768 | ||||||
| Programmation & Agents | |||||||||
| qwen3.6:35b | Qwen Team | 35B | 1000000 | ||||||
| qwen-coder-next:80b | Qwen Team | 80B | 250000 | ||||||
| qwen3-next:80b | Qwen Team | 80B | 250000 | ||||||
| devstral-small-2:24b | Mistral AI & All Hands AI | 24B | 200000 | ||||||
| rnj-1:8b | Essential AI | 8B | 32000 | ||||||
| functiongemma:270m | 270M | 32768 | |||||||
| Vision & Multimodal | |||||||||
| qwen3-vl:235b | Qwen Team | 235B | 200000 | ||||||
| qwen3-vl:32b | Qwen Team | 32B | 250000 | ||||||
| qwen3-vl:30b | Qwen Team | 30B | 250000 | ||||||
| qwen3-vl:8b | Qwen Team | 8B | 250000 | ||||||
| qwen3-vl:4b | Qwen Team | 4B | 250000 | ||||||
| qwen3-vl:2b | Qwen Team | 2B | 250000 | ||||||
| gemma4:31b | 31B | 250000 | |||||||
| gemma4:e2b | 31B (E2B) | 128000 | |||||||
| gemma4:e4b | 31B (E4B) | 128000 | |||||||
| granite3.2-vision:2b | IBM | 2B | 16384 | ||||||
| deepseek-ocr | DeepSeek AI | 3B | 8192 | ||||||
| Embedding | |||||||||
| bge-m3:567m | BAAI | 567M | 8192 | ||||||
| qwen3-embedding:4b | Qwen Team | 4B | 40000 | ||||||
| qwen3-embedding:8b | Qwen Team | 8B | 40000 | ||||||
| qwen3-embedding:0.6b | Qwen Team | 0.6B | 32768 | ||||||
| granite-embedding:278m | IBM | 278M | 512 | ||||||
| embeddinggemma:300m | 300M | 2048 | |||||||
| Reranking | |||||||||
| nvidia/llama-nemotron-rerank-vl-1b-v2 | NVIDIA | 1B | 4096 | N.C. | |||||
| qwen3-reranker:4b | Qwen Team | 4B | 4096 | N.C. | |||||
| qwen3-reranker:0.6b | Qwen Team | 0.6B | 4096 | N.C. | |||||
| bge-reranker-large | BAAI | 335M | 512 | N.C. | |||||
| Sécurité | |||||||||
| granite3-guardian:8b | IBM | 8B | 8192 | ||||||
| granite3-guardian:2b | IBM | 2B | 8192 | ||||||
| Traduction | |||||||||
| translategemma:27b | 27B | 120000 | |||||||
| translategemma:12b | 12B | 128000 | |||||||
| translategemma:4b | 4B | 128000 | |||||||
| Audio & Image | |||||||||
| voxtral | Mistral AI | 4B | 32768 | N.C. | |||||
| z-image:16b | Community | 16B | N.C. | ||||||
Cas d'usage recommandés
Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.
Dialogue multilingue
- nemotron-3-super:120b
- qwen3.6:27b
- nemotron3-nano:30b
- gpt-oss:120b
Analyse de documents longs
- nemotron-3-super:120b
- qwen3.6:27b
- qwen3-2507:235b
Programmation et développement
- qwen3.6:35b
- qwen-coder-next:80b
- devstral-small-2:24b
- nemotron-3-super:120b
Analyse visuelle
- qwen3-vl:235b
- gemma4:31b
- deepseek-ocr
- qwen3-vl:30b
Sécurité et conformité
- granite3-guardian:8b
- granite3-guardian:2b
- mistral-small4:119b
Déploiements légers
- qwen3.5:0.8b
- qwen3-vl:2b
- ministral-3:3b
RAG (Retrieval-Augmented Generation)
- bge-m3:567m
- nvidia/llama-nemotron-rerank-vl-1b-v2
- qwen3.6:27b