Calcul
Des ressources de calcul performantes et évolutives pour vos charges de travail critiques. Orchestrez vos applications cloud-native avec nos solutions conteneurs modernes.
Découvrez l'offre Calcul
Machines virtuelles
VM Instances
Une solution de machines virtuelles à la demande, flexible et sécurisée, sur une infrastructure mutualisée.
Serveurs dédiés
IaaS OpenSource
Infrastructure virtualisée open source dans un environnement cloud de confiance qualifié SecNumCloud pour une souveraineté technologique complète.
IaaS VMWare
Vos machines virtuelles VMware dans un environnement cloud de confiance qualifié SecNumCloud et certifié HDS.
Bare Metal
Des serveurs dédiés et entièrement personnalisables pour une autonomie totale sur votre infrastructure souveraine.
Containers
PaaS OpenShift
La plateforme unifiée pour créer, moderniser et déployer vos applications à grande échelle dans un cloud souverain.
Managed Kubernetes
Solution d’orchestration de conteneurs managée offrant sécurité, résilience et automatisation avancée sur infrastructure souveraine.
Stockage
Des solutions de stockage adaptables et performantes pour tous vos besoins. Optimisez vos données avec nos solutions bloc et objet hautement disponibles.
Découvrez l'offre Stockage
Stockage
Stockage bloc
La solution de stockage en bloc adaptable pour des performances de stockage optimales dans un cloud souverain.
Stockage objet
La solution de stockage évolutive et économique pour vos données non structurées dans un cloud souverain.
Sauvegarde
Solutions de sauvegarde
Des solutions de sauvegarde différenciées, adaptées à vos enjeux et à vos environnements
Réseau
Des solutions réseau avancées pour connecter et sécuriser vos infrastructures. Déployez vos réseaux privés de manière automatisée et sécurisée.
Découvrez l'offre Réseau
Réseau
Virtual Private Cloud
Déployez et gérez vos réseaux privés de manière 100% automatisée et sécurisée.
Private Backbone
Prenez le contrôle total de votre réseau avec une connectivité de niveau 2 étendue, conçue pour les architectures hybrides et les configurations sur mesure.
Firewall
Managed Firewall
Des solutions de sécurité avancées, pour une isolation complète et une protection renforcée
Hébergement Sec
Housing – Espace Dédié
Un hébergement sécurisé pour vos équipements dans un environnement dédié ou partagé, selon vos besoins.
Sécurité
Des solutions de sécurité avancées pour protéger vos infrastructures critiques. Contrôlez l'accès et défendez-vous contre les menaces en ligne.
Découvrez l'offre Sécurité
Détection
Managed SIEM
Une plateforme centralisée de collecte et de corrélation de logs de sécurité, alliant l'automatisation par IA et des règles de détection avancées (MITRE ATT&CK).
Sovereign SOC
Une offre SOC souveraine opérée 24/7, déployable depuis notre marketplace, sur infrastructure qualifiée SecNumCloud.
Protection
Anti DDoS
Le bouclier contre les attaques en ligne
Bastion
Le contrôle d’accès centralisé et transparent pour une protection robuste de vos infrastructures
Managed KMS
La gestion des clés cryptographiques souveraine, avec racine de confiance matérielle HSM, pour protéger vos données les plus sensibles sur infrastructure SecNumCloud.
IA
Des solutions d'intelligence artificielle pour transformer vos données en insights et accélérer vos processus métier.
Découvrez l'offre IA
IA
LLMaaS
Accédez à des modèles de langage de pointe sur une infrastructure souveraine, qualifiée SecNumCloud et certifiée HDS, pour des applications d’IA performantes et sécurisées.
GPU
Instances GPU NVIDIA pour accélérer vos calculs d’intelligence artificielle et de calcul haute performance dans un cloud souverain.
Data
Des solutions de données pour gérer, analyser et exploiter vos données critiques.
Découvrez l'offre Data
Bases de données
Managed MariaDB
Une base de données relationnelle MariaDB entièrement managée et sauvegarde PITR sur infrastructure souveraine SecNumCloud.
Managed PostGreSQL
La solution de base de données relationnelle entièrement managée sur infrastructure souveraine SecNumCloud
Big Data
Managed Kafka
La plateforme distribuée open-source pour la diffusion de données en continu et en temps réel
Managed File System
Un système de fichiers distribué managé, souverain et haute disponibilité, accessible en NFS et SMB sur infrastructure SecNumCloud.
Management & Gouvernance
Des services d'accompagnement et de support pour vous aider dans votre transformation cloud.
Découvrez l'offre d'accompagnement
Accompagnement
Niveaux de support
Découvrez les 3 niveaux de support pour vous accompagner au mieux selon vos enjeux.
Professional services
De la conception à l’optimisation, Cloud Temple vous accompagne à chaque étape de votre projet.
Gouvernance
Console – API – Provider Terraform
Une interface unique pour visualiser et gérer vos produits et services
Observability
Les métriques de votre infrastructure disponibles dans les standards du marché
Devenir partenaire

Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
1.8 €
par million de tokens en entrée
8 €
par million de tokens en sortie
8 €
par million de tokens de raisonnement
4 €
par million de tokens de reranking
0,01 €
par minute audio transcrite *
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.
* toute minute commencée est comptée

Chat & Raisonnement

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

80 tokens/seconde

qwen3.6:27b

Modèle généraliste de référence avec un contexte natif de 1M tokens. Excelle en raisonnement, suivi d'instructions et multilingue.
Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Son contexte de 1M tokens permet l'analyse de documents entiers sans troncature.
94 tokens/seconde

gpt-oss:120b

Modèle open-weight de pointe d'OpenAI avec raisonnement configurable et chaîne de pensée transparente.
Modèle Mixture-of-Experts de 120 milliards de paramètres offrant un raisonnement configurable et un accès complet à la chaîne de pensée. Idéal pour les scénarios nécessitant une licence permissive (Apache 2.0).
41 tokens/seconde

gpt-oss:20b

Version compacte du modèle OpenAI, optimisée pour l'inférence rapide avec de bonnes capacités de raisonnement.
Modèle Mixture-of-Experts de 21 milliards de paramètres avec 3.6 milliards actifs. Raisonnement configurable et capacités d'agent complètes.
10 tokens/seconde

llama3.3:70b

Modèle multilingue de Meta, excellent en dialogue naturel et compréhension nuancée dans 8 langues.
Supporte anglais, français, allemand, espagnol, italien, portugais, hindi et thaï. Sa fenêtre de 132k tokens permet l'analyse de documents complexes et de conversations longues.
23 tokens/seconde

gemma3:27b

Modèle multimodal de Google avec vision intégrée et support de 140+ langues. Contexte de 120K tokens.
Intègre des capacités multimodales natives (texte + image) et excelle sur plus de 140 langues. Idéal pour l'analyse de documents volumineux et la recherche documentaire.
72 tokens/seconde

nemotron-3-super:120b

Modèle NVIDIA optimisé pour les agents collaboratifs, le raisonnement long et les charges de travail à fort volume. Contexte de 1M tokens.
Idéal pour les workflows agentiques, le raisonnement sur contexte long, l'automatisation à fort volume (tickets de support, analyses en masse), l'utilisation d'outils et le RAG.
160 tokens/seconde

nemotron3-nano:30b

Modèle NVIDIA ultra-rapide (160 t/s) avec raisonnement et function calling. Contexte de 1M tokens.
Excelle dans le function calling, le raisonnement structuré et l'analyse de longs contextes. Combinaison rare de vitesse élevée et de contexte très long.
130 tokens/seconde

nemotron-cascade:30b

Modèle NVIDIA spécialisé dans les mathématiques (médaille d'or IMO 2025) et la décomposition de problèmes. Contexte 1M tokens.
Excelle dans le raisonnement structuré, la résolution de problèmes mathématiques complexes et l'analyse de longs contextes.
88 tokens/seconde

glm-4.7-flash:30b

Modèle rapide avec un excellent équilibre performance/latence pour le raisonnement et l'analyse.
Offre une inférence rapide (88 t/s) avec un contexte de 120k tokens. Particulièrement adapté aux assistants conversationnels nécessitant une faible latence.
21 tokens/seconde

cogito:32b

Modèle de raisonnement analytique avancé, conçu pour la décomposition de problèmes complexes et la vérification logique.
Excelle dans l'analyse multi-factorielle, la démonstration formelle et la minimisation des hallucinations grâce à des mécanismes de vérification logique intégrés.
22 tokens/seconde

olmo-3:32b

Premier modèle de raisonnement entièrement ouvert à cette échelle. Transparence totale (données, code, poids).
Rivalise avec les meilleurs modèles propriétaires sur les benchmarks complexes (MATH, HumanEval+). Capable d'exposer son processus de pensée. Choix privilégié pour la transparence et l'auditabilité.
35 tokens/seconde

olmo-3:7b

Modèle entièrement ouvert et efficient, excellent en mathématiques et programmation avec transparence totale.
Optimisé pour l'efficacité (2.5x moins de ressources que Llama 3.1 8B). Idéal pour les tâches nécessitant une reproductibilité et une auditabilité complètes.
56 tokens/seconde

qwen3-2507:235b

Modèle le plus puissant du catalogue (235B paramètres, 22B actifs). Excelle en mathématiques, codage et raisonnement logique.
Architecture Mixture-of-Experts ultra-éparse combinant la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit.
28 tokens/seconde

mistral-small3.2:24b

Modèle Mistral avec suivi d'instructions amélioré, function calling robuste et capacités vision. Détection de contenus problématiques intégrée.
Excellent suivi d'instructions, moins de répétitions, function calling fiable. Supporte la vision (analyse d'images) et intègre des filtres de sécurité natifs.
100 tokens/seconde

mistral-small4:119b

Modèle Mistral haute performance (119B) avec vision, sécurité intégrée et contexte de 262K tokens. Rapide (100 t/s).
Version large de la famille Mistral Small. Combine puissance, vitesse et fiabilité avec un contexte étendu. Filtres de sécurité natifs.
28 tokens/seconde

ministral-3:14b

Le plus puissant de la famille Ministral, avec raisonnement et codage avancés. Contexte de 250K tokens.
Excelle dans le raisonnement complexe et le codage tout en restant efficient.
40 tokens/seconde

ministral-3:8b

Modèle intermédiaire Ministral avec un excellent compromis performance/vitesse. Contexte de 250K tokens.
Capable de raisonnements complexes tout en restant rapide. Idéal pour les assistants nécessitant réactivité et qualité.
22 tokens/seconde

ministral-3:3b

Modèle compact Mistral, performant malgré sa petite taille. Contexte de 250K tokens.
Performances surprenantes pour les tâches conversationnelles et le raisonnement simple malgré seulement 3B paramètres.
32 tokens/seconde

qwen3.5:9b

Modèle Qwen3.5 intermédiaire avec raisonnement solide et contexte étendu à 250K tokens.
Bon équilibre entre qualité de génération et vitesse d'inférence.
37 tokens/seconde

qwen3.5:4b

Modèle Qwen3.5 compact avec un bon compromis performance/efficacité et contexte de 250K tokens.
Bon candidat pour les assistants et les tâches de raisonnement léger.
16 tokens/seconde

qwen3.5:0.8b

Modèle ultra-léger avec un contexte exceptionnel de 250K tokens — remarquable pour un modèle de cette taille.
Idéal pour les tâches conversationnelles rapides nécessitant un historique très long ou l'analyse de documents volumineux avec une faible empreinte.
46 tokens/seconde

qwen3:0.6b

Micro-modèle ultra-rapide pour les tâches simples et le routage. 40K tokens de contexte.
Idéal comme premier niveau de traitement dans des workflows complexes ou pour des tâches de classification rapide.
55 tokens/seconde

qwen3-2507-think:4b

Modèle compact optimisé pour le raisonnement profond (logique, maths, science, code). Contexte de 250K tokens.
Version "Thinking" avec une capacité de raisonnement accrue. Combine compacité, vitesse et raisonnement avancé.
19 tokens/seconde

qwen3-omni:30b

Modèle omnimodal natif — comprend simultanément le texte, l'image, la vidéo et l'audio.
Supporte les entrées multimodales (texte, image, audio, vidéo) avec des capacités de raisonnement avancées. Note — la sortie audio via API n'est pas encore activée.

Programmation & Agents

Nos modèles de programmation et d’agents sont spécialement optimisés pour l’ingénierie logicielle agentique, la génération de code à grande échelle et l’automatisation de workflows de développement.

121 tokens/seconde

qwen3.6:35b

Leader en ingénierie logicielle agentique (SWE-bench 73.4%). Contexte de 1M tokens, vision et tool calling intégrés.
Comprend des dépôts de code entiers grâce à son contexte de 1M tokens. Supporte le raisonnement multi-étapes et la vision (captures d'écran, diagrammes). Optimisé pour les IDE et les pipelines CI/CD.
97 tokens/seconde

qwen-coder-next:80b

Modèle de pointe pour le code et le raisonnement complexe. Contexte de 250K tokens.
Excelle dans la génération et l'analyse de code à grande échelle. Conçu pour les tâches d'ingénierie logicielle avancées.
67 tokens/seconde

qwen3-next:80b

Modèle polyvalent 80B optimisé pour les grands contextes, le function calling et le raisonnement structuré.
Contexte de 250K tokens avec prise en charge du function calling et du guided decoding.
33 tokens/seconde

devstral-small-2:24b

Modèle agentique de pointe pour l'ingénierie logicielle. Performances proches des modèles >100B pour le code. Vision intégrée.
Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Supporte nativement la vision. Contexte de 200K tokens.
23 tokens/seconde

rnj-1:8b

Modèle spécialisé STEM — excelle en code (83.5% HumanEval+), mathématiques et sciences.
Modèle dense entraîné sur 8.4T tokens. Surpasse souvent des modèles beaucoup plus grands sur les tâches de code et de raisonnement mathématique.
40 tokens/seconde

functiongemma:270m

Micro-modèle spécialisé dans la détection d'appels de fonctions. Idéal comme routeur dans une architecture agentique.
Ultra-compact, optimisé pour identifier et formater les appels de fonctions rapidement.

Vision & Multimodal

Nos modèles Vision & Multimodal permettent d’analyser des images, des vidéos et des documents visuels. Ils excellent dans l’OCR, la détection d’objets, l’extraction structurée et le raisonnement spatio-temporel.

24 tokens/seconde

qwen3-vl:235b

Le modèle multimodal le plus puissant du catalogue. Compréhension visuelle de pointe et raisonnement exceptionnel.
Excelle dans l'analyse de documents complexes, l'OCR multilingue, le raisonnement spatial 3D et la compréhension de vidéos.
17 tokens/seconde

qwen3-vl:32b

Variante haute performance pour les tâches de vision les plus exigeantes. Contexte 250K tokens.
Analyse fine d'images haute résolution, compréhension de scènes dynamiques et alignement texte-timestamp pour la vidéo.
39 tokens/seconde

qwen3-vl:30b

Modèle multimodal performant pour l'OCR, la détection d'objets, l'analyse de vidéos et le raisonnement spatio-temporel.
Intègre des innovations en analyse d'images et vidéos. Excelle dans l'OCR complexe, les graphiques, et l'extraction structurée (JSON).
39 tokens/seconde

qwen3-vl:8b

Modèle vision intermédiaire — bon compromis entre performance et empreinte. Contexte 250K tokens.
Capable d'analyser des documents complexes, graphiques et vidéos avec une précision élevée.
57 tokens/seconde

qwen3-vl:4b

Modèle vision compact et rapide pour l'analyse documentaire et la compréhension vidéo.
Excellent compromis entre performance et empreinte. Supporte l'extraction structurée et le raisonnement visuel.
64 tokens/seconde

qwen3-vl:2b

Modèle vision ultra-compact pour l'OCR rapide, la détection d'objets et les applications embarquées.
Malgré sa petite taille, offre une analyse d'image et vidéo surprenante. Idéal pour les applications mobiles ou embarquées.
59 tokens/seconde

gemma4:31b

Modèle dense multimodal de Google, classé 3e mondial sur Arena AI. Vision avancée, raisonnement et codage. Contexte 250K tokens.
Modèle open-source le plus performant de Google. Function calling natif, compréhension visuelle avancée (OCR, graphiques, documents, UI). Multilingue (35+ langues).
125 tokens/seconde

gemma4:e2b

Variante ultra-rapide (125 t/s) de Gemma 4 avec vision. Excellente efficacité énergétique.
Offre un ratio performances/empreinte exceptionnel. Contexte 128K tokens avec capacités vision complètes.
85 tokens/seconde

gemma4:e4b

Variante de Gemma 4 avec meilleur compromis qualité/vitesse que la version E2B. Vision intégrée.
Meilleure fidélité que la version E2B avec une vitesse toujours élevée. Contexte 128K tokens.
49 tokens/seconde

granite3.2-vision:2b

Modèle vision compact IBM Granite pour l'OCR rapide et l'extraction de données depuis des documents scannés.
Léger mais performant pour l'OCR et l'analyse d'images à faible latence.
84 tokens/seconde

deepseek-ocr

Modèle OCR spécialisé pour l'extraction de texte haute précision avec préservation de la mise en forme (tableaux, formules).
Optimisé pour la conversion de documents en Markdown structuré. Excelle sur les tableaux et formules complexes.

Embedding

Nos modèles d’embedding transforment le texte en représentations vectorielles pour la recherche sémantique, le clustering et les pipelines RAG (Retrieval-Augmented Generation).

171 tokens/seconde

bge-m3:567m

Embedding multilingue de pointe (100+ langues). Supporte les recherches dense, sparse et multi-vectorielle.
Contexte de 8192 tokens avec trois méthodes de recherche complémentaires.

qwen3-embedding:4b

Embedding haute performance avec compréhension sémantique profonde et contexte étendu (40K tokens).
Idéal pour le traitement de documents volumineux dans les pipelines RAG.

qwen3-embedding:8b

Embedding haute capacité avec la meilleure compréhension sémantique de la famille Qwen3. Contexte étendu (40K tokens).
Version la plus puissante de la famille d'embedding Qwen3. Idéal pour les tâches exigeantes en compréhension contextuelle.

qwen3-embedding:0.6b

Embedding ultra-léger et rapide pour la recherche sémantique à faible latence.
Excellent compromis entre performance sémantique et rapidité d'exécution.
196.3 tokens/seconde

granite-embedding:278m

Embedding IBM ultra-compact pour une recherche sémantique à latence minimale.
Le plus rapide des modèles d'embedding du catalogue. Idéal pour le clustering et la recherche à haute fréquence.
175 tokens/seconde

embeddinggemma:300m

Embedding Google multilingue (100+ langues), optimisé pour la recherche et la récupération sémantique.
Produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité.

Reranking

Nos modèles de reranking réordonnent les résultats de recherche par pertinence pour affiner la qualité des pipelines RAG. Compatibles avec l’API Cohere.

nvidia/llama-nemotron-rerank-vl-1b-v2

Modèle de reranking compatible API Cohere (/v1/rerank et /v2/rerank). Ordonne les documents par pertinence vis-à-vis d'une requête.
Compatible SDK Cohere v1/v2. Le relevance_score est un logit brut (l'ordre relatif est garanti). Idéal en complément de la pile RAG (embedding + retrieval + rerank).

qwen3-reranker:4b

Modèle de reranking performant avec une grande capacité de compréhension contextuelle.
Excellente qualité de réordonnancement grâce à ses 4B paramètres. Idéal pour les pipelines RAG exigeants.

qwen3-reranker:0.6b

Modèle de reranking compact et efficace pour le réordonnancement rapide.
Version légère pour les cas d'usage nécessitant une faible latence de reranking.

bge-reranker-large

Modèle de reranking haute performance de la famille BGE, multilingue.
Complémentaire du modèle d'embedding BGE-M3 pour les pipelines RAG complets.

Sécurité

Nos modèles de sécurité sont spécialisés dans la détection de contenus problématiques, la prévention des jailbreaks et la conformité réglementaire (RGPD, HDS). Utilisables en pré-filtre ou post-filtre dans vos workflows.

45 tokens/seconde

granite3-guardian:8b

Modèle de sécurité spécialisé dans la détection de contenus problématiques, le jailbreak et la conformité réglementaire.
Conçu pour filtrer les contenus sensibles et assurer la conformité RGPD/HDS. Utilisable en pré-filtre ou post-filtre dans vos workflows.
60 tokens/seconde

granite3-guardian:2b

Version compacte du modèle de sécurité Granite Guardian pour le filtrage à faible latence.
Mêmes capacités de filtrage que la version 8B avec une empreinte réduite. Idéal pour les workflows à haute fréquence.

Traduction

Nos modèles de traduction offrent une haute fidélité sur 55 langues, en respectant la grammaire, les nuances culturelles et les spécificités techniques des documents.

17 tokens/seconde

translategemma:27b

Traduction haute performance pour 55 langues. Qualité supérieure pour les contenus complexes et techniques.
Capture les nuances littéraires et culturelles avec une fidélité exceptionnelle.
27 tokens/seconde

translategemma:12b

Traduction haute fidélité pour 55 langues avec contexte de 128K tokens.
Respecte la grammaire et les nuances culturelles. Idéal pour les documents longs.
31 tokens/seconde

translategemma:4b

Traduction rapide et efficace pour 55 langues. Idéal pour la localisation en temps réel.
Version compacte avec un excellent rapport vitesse/qualité. Contexte de 128K tokens.

Audio & Image

Nos modèles Audio & Image permettent la transcription vocale en temps réel (ASR streaming) et la génération d’images à partir de descriptions textuelles, compatibles avec l’API OpenAI.

voxtral

Transcription audio en temps réel via WebSocket. Reconnaissance vocale streaming avec faible latence.
Fonctionne en mode Realtime via l'endpoint /v1/realtime (WebSocket). Transcrit l'audio en continu.

z-image:16b

Génération d'images à partir de prompts textuels, compatible API OpenAI /v1/images/generations.
Supporte les paramètres de taille et nombre d'images. Compatible avec l'écosystème OpenAI.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie.
Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Chat & Raisonnement
qwen3.6:27b Qwen Team 27B 1000000
gpt-oss:120b OpenAI 120B 120000
gpt-oss:20b OpenAI 20B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
nemotron-3-super:120b NVIDIA 120B 1000000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-cascade:30b NVIDIA 30B 1000000
glm-4.7-flash:30b Zhipu AI 30B 120000
cogito:32b Deep Cogito 32B 32000
olmo-3:32b AllenAI 32B 65536
olmo-3:7b AllenAI 7B 65536
qwen3-2507:235b Qwen Team 235B 200000
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
ministral-3:14b Mistral AI 14B 250000
ministral-3:8b Mistral AI 8B 250000
ministral-3:3b Mistral AI 3B 250000
qwen3.5:9b Qwen Team 9B 250000
qwen3.5:4b Qwen Team 4B 250000
qwen3.5:0.8b Qwen Team 0.8B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-2507-think:4b Qwen Team 4B 250000
qwen3-omni:30b Qwen Team 30B 32768
Programmation & Agents
qwen3.6:35b Qwen Team 35B 1000000
qwen-coder-next:80b Qwen Team 80B 250000
qwen3-next:80b Qwen Team 80B 250000
devstral-small-2:24b Mistral AI & All Hands AI 24B 200000
rnj-1:8b Essential AI 8B 32000
functiongemma:270m Google 270M 32768
Vision & Multimodal
qwen3-vl:235b Qwen Team 235B 200000
qwen3-vl:32b Qwen Team 32B 250000
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:8b Qwen Team 8B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3-vl:2b Qwen Team 2B 250000
gemma4:31b Google 31B 250000
gemma4:e2b Google 31B (E2B) 128000
gemma4:e4b Google 31B (E4B) 128000
granite3.2-vision:2b IBM 2B 16384
deepseek-ocr DeepSeek AI 3B 8192
Embedding
bge-m3:567m BAAI 567M 8192
qwen3-embedding:4b Qwen Team 4B 40000
qwen3-embedding:8b Qwen Team 8B 40000
qwen3-embedding:0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 512
embeddinggemma:300m Google 300M 2048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2 NVIDIA 1B 4096 N.C.
qwen3-reranker:4b Qwen Team 4B 4096 N.C.
qwen3-reranker:0.6b Qwen Team 0.6B 4096 N.C.
bge-reranker-large BAAI 335M 512 N.C.
Sécurité
granite3-guardian:8b IBM 8B 8192
granite3-guardian:2b IBM 2B 8192
Traduction
translategemma:27b Google 27B 120000
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
Audio & Image
voxtral Mistral AI 4B 32768 N.C.
z-image:16b Community 16B N.C.
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique et maintien du contexte
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec extraction d'informations clés, résumés et réponses à des questions
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmation et développement

Génération, optimisation et débogage de code dans multiples langages, refactoring et création de tests
Modèles recommandés
  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Analyse visuelle

Traitement d'images et documents visuels, OCR, interprétation de graphiques et tableaux
Modèles recommandés
  • qwen3-vl:235b
  • gemma4:31b
  • deepseek-ocr
  • qwen3-vl:30b

Sécurité et conformité

Filtrage de contenu sensible, détection de jailbreak, conformité RGPD/HDS
Modèles recommandés
  • granite3-guardian:8b
  • granite3-guardian:2b
  • mistral-small4:119b

Déploiements légers

Applications nécessitant une empreinte minimale, faible latence et faible consommation
Modèles recommandés
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministral-3:3b

RAG (Retrieval-Augmented Generation)

Pipelines complets de recherche sémantique, réordonnancement et génération augmentée par la récupération
Modèles recommandés
  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b
Suivez l’évolution de l’offre LLMaaS

Découvrez tous nos papiers de recherche IA

 

Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.