Calcul
Des ressources de calcul performantes et évolutives pour vos charges de travail critiques. Orchestrez vos applications cloud-native avec nos solutions conteneurs modernes.
Découvrez l'offre Calcul
Machines virtuelles
VM Instances
Une solution de machines virtuelles à la demande, flexible et sécurisée, sur une infrastructure mutualisée.
Serveurs dédiés
IaaS OpenSource
Infrastructure virtualisée open source dans un environnement cloud de confiance qualifié SecNumCloud pour une souveraineté technologique complète.
IaaS VMWare
Vos machines virtuelles VMware dans un environnement cloud de confiance qualifié SecNumCloud et certifié HDS.
Bare Metal
Des serveurs dédiés et entièrement personnalisables pour une autonomie totale sur votre infrastructure souveraine.
Containers
PaaS OpenShift
La plateforme unifiée pour créer, moderniser et déployer vos applications à grande échelle dans un cloud souverain.
Managed Kubernetes
Solution d’orchestration de conteneurs managée offrant sécurité, résilience et automatisation avancée sur infrastructure souveraine.
Stockage
Des solutions de stockage adaptables et performantes pour tous vos besoins. Optimisez vos données avec nos solutions bloc et objet hautement disponibles.
Découvrez l'offre Stockage
Stockage
Stockage bloc
La solution de stockage en bloc adaptable pour des performances de stockage optimales dans un cloud souverain.
Stockage objet
La solution de stockage évolutive et économique pour vos données non structurées dans un cloud souverain.
Sauvegarde
Solutions de sauvegarde
Des solutions de sauvegarde différenciées, adaptées à vos enjeux et à vos environnements
Réseau
Des solutions réseau avancées pour connecter et sécuriser vos infrastructures. Déployez vos réseaux privés de manière automatisée et sécurisée.
Découvrez l'offre Réseau
Réseau
Virtual Private Cloud
Déployez et gérez vos réseaux privés de manière 100% automatisée et sécurisée.
Private Backbone
Prenez le contrôle total de votre réseau avec une connectivité de niveau 2 étendue, conçue pour les architectures hybrides et les configurations sur mesure.
Firewall
Managed Firewall
Des solutions de sécurité avancées, pour une isolation complète et une protection renforcée
Hébergement Sec
Housing – Espace Dédié
Un hébergement sécurisé pour vos équipements dans un environnement dédié ou partagé, selon vos besoins.
Sécurité
Des solutions de sécurité avancées pour protéger vos infrastructures critiques. Contrôlez l'accès et défendez-vous contre les menaces en ligne.
Découvrez l'offre Sécurité
Sécurité
Anti DDoS
Le bouclier contre les attaques en ligne
Bastion
Le contrôle d’accès centralisé et transparent pour une protection robuste de vos infrastructures
Managed KMS
La gestion des clés cryptographiques souveraine, avec racine de confiance matérielle HSM, pour protéger vos données les plus sensibles sur infrastructure SecNumCloud.
Managed SIEM
Une plateforme centralisée de collecte et de corrélation de logs de sécurité, alliant l'automatisation par IA et des règles de détection avancées (MITRE ATT&CK).
IA
Des solutions d'intelligence artificielle pour transformer vos données en insights et accélérer vos processus métier.
Découvrez l'offre IA
IA
LLMaaS
Accédez à des modèles de langage de pointe sur une infrastructure souveraine, qualifiée SecNumCloud et certifiée HDS, pour des applications d’IA performantes et sécurisées.
GPU
Instances GPU NVIDIA pour accélérer vos calculs d’intelligence artificielle et de calcul haute performance dans un cloud souverain.
Data
Des solutions de données pour gérer, analyser et exploiter vos données critiques.
Découvrez l'offre Data
Bases de données
Managed MariaDB
Une base de données relationnelle MariaDB entièrement managée et sauvegarde PITR sur infrastructure souveraine SecNumCloud.
Managed PostGreSQL
La solution de base de données relationnelle entièrement managée sur infrastructure souveraine SecNumCloud
Big Data
Managed Kafka
La plateforme distribuée open-source pour la diffusion de données en continu et en temps réel
Managed File System
Un système de fichiers distribué managé, souverain et haute disponibilité, accessible en NFS et SMB sur infrastructure SecNumCloud.
Management & Gouvernance
Des services d'accompagnement et de support pour vous aider dans votre transformation cloud.
Découvrez l'offre d'accompagnement
Accompagnement
Niveaux de support
Découvrez les 3 niveaux de support pour vous accompagner au mieux selon vos enjeux.
Professional services
De la conception à l’optimisation, Cloud Temple vous accompagne à chaque étape de votre projet.
Gouvernance
Console – API – Provider Terraform
Une interface unique pour visualiser et gérer vos produits et services
Observability
Les métriques de votre infrastructure disponibles dans les standards du marché
Devenir partenaire

Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
1.8 €
par million de tokens en entrée
8 €
par million de tokens en sortie
8 €
par million de tokens de raisonnement
0,01 €
par minute audio transcrite *
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.
* toute minute commencée est comptée

Modèles de grande taille

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

50 tokens/seconde

gemma4:31b

Modèle dense multimodal de Google, classé 3eme mondial sur Arena AI. Excelle en raisonnement, codage et vision avec un contexte de 250K tokens.
Gemma 4 31B est le modèle open-source le plus performant de Google (Apache 2.0), surpassant des modèles 20× plus grands sur les benchmarks. Il intègre le function calling natif pour les workflows agentiques, et une compréhension visuelle avancée (OCR, graphiques, documents, UI). Son architecture dense de 31B paramètres offre un excellent rapport intelligence/coût. Multilingue (35+ langues), il est optimisé pour l'analyse de documents longs, la génération de code et les agents autonomes.
88 tokens/seconde

glm-4.7-flash:30b

Version Flash du modèle GLM-4.7, optimisée pour la vitesse et l'efficacité.
Offre un excellent équilibre entre performance et latence pour les tâches de raisonnement et d'analyse. Contexte de 120 000 tokens.
19 tokens/seconde

qwen3-omni:30b

Qwen3-Omni 30B est un modèle omnimodal natif, capable de comprendre le texte, l'image, la vidéo et l'audio dans un même flux.
Il supporte les entrées multimodales (Audio/Vidéo) et offre des capacités de raisonnement avancées. Note : La sortie audio via API n'est pas encore activée.
94 tokens/seconde

gpt-oss:120b

Modèle de langage open-weight de pointe d'OpenAI, offrant de solides performances avec une licence flexible Apache 2.0.
Un modèle Mixture-of-Experts (MoE) de 120 milliards de paramètres avec environ 5.1 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et un accès complet à la chaîne de pensée.
14 tokens/seconde

llama3.3:70b

Modèle multilingue de pointe développé par Meta, conçu pour exceller dans le dialogue naturel, le raisonnement complexe et la compréhension nuancée des instructions.
Combinant une efficacité remarquable avec des ressources computationnelles réduites, ce modèle offre des capacités multilingues étendues couvrant 8 langues majeures (anglais, français, allemand, espagnol, italien, portugais, hindi et thaï). Sa fenêtre contextuelle de 132 000 tokens permet l'analyse approfondie de documents complexes et de conversations longues, tout en maintenant une cohérence globale exceptionnelle. Optimisé pour minimiser les biais et les réponses problématiques.
17 tokens/seconde

gemma3:27b

Modèle révolutionnaire de Google offrant un équilibre optimal entre puissance et efficacité, avec un rapport performance/coût exceptionnel pour les applications professionnelles exigeantes.
Doté d'une efficacité matérielle inégalée, ce modèle intègre des capacités multimodales natives et excelle dans la performance multilingue sur plus de 140 langues. Sa fenêtre contextuelle impressionnante de 120 000 tokens en fait le choix idéal pour l'analyse de documents très volumineux, la recherche documentaire, et toute application nécessitant la compréhension de contextes étendus. Son architecture optimisée permet un déploiement flexible sans compromettre la qualité des résultats.
137 tokens/seconde

qwen3.6:35b

Modèle MoE de codage agentique (35B total, 3B actifs par token), leader sur SWE-bench Verified (73.4%). Contexte natif de 1M tokens, vision multimodale et tool calling intégrés.
Qwen3.6-35B-A3B est un Mixture-of-Experts ultra-efficient (ratio 12:1) qui excelle en ingénierie logicielle agentique. Il comprend les dépôts de code entiers grâce à son contexte de 1M tokens, supporte le raisonnement multi-étapes avec préservation du contexte de pensée, et intègre la vision pour analyser des captures d'écran ou diagrammes. Score de 51.5 sur Terminal-Bench 2.0, il est optimisé pour les IDE (Cursor, Continue.dev, VS Code Copilot), les pipelines CI/CD automatisés et la revue de code.
137 tokens/seconde

qwen3.5:35b

Modèle MoE optimisé pour les tâches d'ingénierie logicielle, avec un contexte très long.
Capacités agentiques avancées pour les tâches de génie logiciel, support natif d'un contexte de 1M tokens, pré-entraîné sur 7.5T tokens avec un fort ratio de code, et optimisé par apprentissage par renforcement pour améliorer les taux d'exécution de code.
80 tokens/seconde

qwen3.5:27b

Meilleur modèle généraliste, une couverture de connaissances et un alignement utilisateur améliorés.
Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Contexte natif de 1M tokens.
91 tokens/seconde

qwen-coder-next:80b

Modèle MoE de pointe optimisé pour le code et le raisonnement complexe.
Variante A3B-Coder-Instruct (AWQ 4-bit) configurée avec un contexte de 250k tokens. Excelle dans la génération et l'analyse de code à grande échelle.
67 tokens/seconde

qwen3-next:80b

Modèle Next 80B de Qwen, optimisé pour les grands contextes et le raisonnement.
Variante A3B-Instruct (NVFP4) configurée avec un contexte jusqu'à 250k tokens, prise en charge du function calling et guided decoding.
39 tokens/seconde

qwen3-vl:30b

Modèle multimodal de pointe (Qwen3-VL) offrant une compréhension visuelle exceptionnelle et un raisonnement temporel précis.
Ce modèle Vision-Language intègre des innovations majeures (DeepStack, MRoPE) pour une analyse fine des images et des vidéos. Il excelle dans l'OCR complexe, la détection d'objets, l'analyse de graphiques et le raisonnement spatio-temporel. Son architecture permet une compréhension native du contenu vidéo et une extraction structurée (JSON) précise.
17 tokens/seconde

qwen3-vl:32b

Variante haute performance de Qwen3-VL, optimisée pour les tâches de vision les plus exigeantes.
Offre les mêmes capacités avancées que le 30B (DeepStack, MRoPE) avec une capacité de modélisation accrue. Particulièrement performant pour les tâches nécessitant une grande finesse d'analyse visuelle et une compréhension contextuelle profonde. Supporte l'alignement texte-timestamp pour la vidéo.
35 tokens/seconde

olmo-3:7b

Modèle "Fully Open" de référence, offrant une transparence totale (données, code, poids) et une efficacité remarquable.
OLMo 3-7B est un modèle dense optimisé pour l'efficacité (2.5x moins de ressources requises que Llama 3.1 8B pour des performances comparables). Il excelle particulièrement en mathématiques et en programmation. Avec sa fenêtre de 65k tokens, il est idéal pour les tâches nécessitant une auditabilité complète.
22 tokens/seconde

olmo-3:32b

Le premier modèle de raisonnement entièrement ouvert à cette échelle, rivalisant avec les meilleurs modèles propriétaires.
OLMo 3-32B utilise une architecture avancée (GQA) pour offrir des capacités de raisonnement exceptionnelles. Il se distingue sur les benchmarks complexes (MATH, HumanEvalPlus) et est capable d'exposer son processus de pensée (variante Think). C'est un choix privilégié pour les tâches critiques nécessitant une haute performance et une transparence totale.
64 tokens/seconde

qwen3-2507:235b

Modèle MoE massif de 235 milliards de paramètres, avec seulement 22 milliards actifs, offrant des performances de pointe.
Architecture Mixture-of-Experts ultra-éparse avec 512 experts (GPTQ-Int4-Int8Mix). Combine la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit. Excelle en mathématiques, codage et raisonnement logique.
24 tokens/seconde

qwen3-vl:235b

Le modèle multimodal le plus puissant du catalogue, alliant une compréhension visuelle de pointe à des capacités de raisonnement exceptionnelles.
Ce modèle Vision-Language excelle dans l'analyse approfondie de documents complexes, l'OCR multilingue et le raisonnement sur des contenus visuels et textuels denses.
28 tokens/seconde

ministral-3:14b

Le plus puissant de la famille Ministral, conçu pour les tâches complexes sur infrastructure locale.
Contexte étendu de 250k tokens. Excelle dans le raisonnement complexe et le codage tout en restant efficace.
21 tokens/seconde

cogito:32b

Version avancée du modèle Cogito offrant des capacités de raisonnement et d'analyse considérablement amplifiées, conçue pour les applications les plus exigeantes en matière d'intelligence artificielle analytique.
Conçu pour exceller dans les tâches complexes nécessitant une profondeur d'analyse supérieure, ce modèle se distingue par sa capacité à décomposer des problèmes multidimensionnels et à fournir des réponses structurées et argumentées. Il intègre des mécanismes de vérification logique avancés pour minimiser les hallucinations.
160 tokens/seconde

nemotron3-nano:30b

Modèle NVIDIA optimisé pour le raisonnement complexe et l'utilisation d'outils, avec un contexte de 1M tokens.
Utilise l'architecture Nano V3 en FP8. Excelle dans le function calling, le raisonnement structuré et l'analyse de longs contextes. Contexte de 1M tokens.
130 tokens/seconde

nemotron-cascade:30b

Modèle NVIDIA optimisé pour la décomposition de problèmes mathématiques et l'utilisation d'outils. Médaille d'or 2025 aux Olympiades Internationales de Mathématiques.
Excelle dans le function calling, le raisonnement structuré et l'analyse de longs contextes. Contexte de 1M tokens.
72 tokens/seconde

nemotron-3-super:120b

Des capacités solides d'agent, de raisonnement et de conversation. Optimisé pour les agents collaboratifs et les charges de travail à fort volume.
Idéal pour les workflows agentiques, le raisonnement sur contexte long, les charges de travail à fort volume (ex. automatisation des tickets de support IT), l'utilisation d'outils et le RAG. Contexte de 1M tokens.

Modèles spécialisés

Nos modèles spécialisés sont optimisés pour des tâches spécifiques comme la génération de code, l’analyse d’images ou le traitement de données structurées. Ils offrent un excellent rapport performance/coût pour des cas d’usage ciblés.

22 tokens/seconde

ministral-3:3b

Modèle compact de pointe de Mistral AI, conçu pour l'efficacité sur les déploiements locaux et edge.
Malgré sa petite taille, ce modèle offre des performances surprenantes pour les tâches conversationnelles et le raisonnement simple. Idéal pour les appareils mobiles.
40 tokens/seconde

ministral-3:8b

Modèle de taille intermédiaire de la famille Ministral, offrant un équilibre optimal entre performance et ressources.
Version 8B plus robuste, capable de gérer des contextes plus longs et des raisonnements plus complexes tout en restant très rapide.
40 tokens/seconde

functiongemma:270m

Micro-modèle Gemma spécialisé dans le function calling et la détection d'intentions d'appels d'outils.
FunctionGemma 270M est un modèle ultra-compact optimisé pour identifier et formater les appels de fonctions. Idéal comme routeur ou pré-filtre dans une architecture agentique multi-modèles.
49 tokens/seconde

granite3.2-vision:2b

Modèle multimodal compact IBM Granite, spécialisé dans l'analyse de documents visuels.
Granite 3.2 Vision 2B est un modèle léger mais performant pour l'OCR, l'extraction de données depuis des documents scannés et l'analyse d'images. Idéal pour les tâches de vision à faible latence.

qwen3-embedding:0.6b

Modèle d'embedding Qwen3 ultra-léger, optimisé pour la vitesse et l'efficacité sur les infrastructures à ressources limitées.
Offre un excellent compromis entre performance sémantique et rapidité d'exécution.
196.3 tokens/seconde

granite-embedding:278m

Modèle d'embedding IBM Granite ultra-compact, conçu pour une efficacité maximale.
Idéal pour les tâches de recherche sémantique nécessitant une latence minimale.

qwen3-embedding:4b

Modèle d'embedding Qwen3-4B ultra-performant, offrant une compréhension sémantique profonde et une fenêtre de contexte étendue.
Contexte de 40 000 tokens pour le traitement de documents volumineux.
171 tokens/seconde

bge-m3:567m

Modèle d'embedding multilingue de pointe (BGE-M3), offrant des capacités de recherche sémantique exceptionnelles sur plus de 100 langues.
Contexte de 8192 tokens. Supporte les méthodes de recherche dense, sparse et multi-vectorielle.
175 tokens/seconde

embeddinggemma:300m

Modèle d'embedding de pointe de Google, optimisé pour sa taille, idéal pour les tâches de recherche et de récupération sémantique.
Construit sur Gemma 3, ce modèle produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité. Entraîné sur plus de 100 langues, sa petite taille le rend parfait pour les environnements à ressources limitées.
57 tokens/seconde

gpt-oss:20b

Modèle de langage open-weight d'OpenAI, optimisé pour l'efficacité et le déploiement sur du matériel grand public.
Un modèle Mixture-of-Experts (MoE) de 21 milliards de paramètres avec 3.6 milliards de paramètres actifs. Il offre un effort de raisonnement configurable et des capacités d'agent.
55 tokens/seconde

qwen3-2507-think:4b

Modèle Qwen3-4B optimisé pour le raisonnement, avec des performances améliorées sur les tâches logiques, les mathématiques, la science et le code, et un contexte étendu à 250K tokens.
Cette version "Thinking" dispose d'une longueur de pensée accrue, la rendant idéale pour les tâches de raisonnement très complexes. Elle offre également des améliorations générales en suivi d'instructions, utilisation d'outils et génération de texte.
22 tokens/seconde

rnj-1:8b

Modèle 8B "Open Weight" spécialisé dans le code, les mathématiques et les sciences (STEM).
RNJ-1 est un modèle dense de 8.3B paramètres entraîné sur 8.4T tokens. Il utilise l'attention globale et YaRN pour offrir un contexte de 32k tokens. Il excelle dans la génération de code (83.5% HumanEval+) et le raisonnement mathématique, surpassant souvent des modèles beaucoup plus grands.
64 tokens/seconde

qwen3-vl:2b

Modèle multimodal ultra-compact Qwen3-VL, apportant des capacités de vision avancées sur edge devices.
Malgré sa petite taille, ce modèle intègre les technologies Qwen3-VL (MRoPE, DeepStack) pour offrir une analyse d'image et vidéo surprenante. Idéal pour les applications mobiles ou embarquées nécessitant de l'OCR, de la détection d'objets ou de la compréhension visuelle rapide.
49 tokens/seconde

qwen3-vl:4b

Modèle multimodal Qwen3-VL équilibré, offrant de solides performances de vision avec une empreinte réduite.
Excellent compromis entre performance et ressources. Capable d'analyser des documents complexes, des graphiques et des vidéos avec une précision élevée. Supporte l'extraction structurée et le raisonnement visuel.
16 tokens/seconde

qwen3.5:0.8b

Modèle Qwen3.5 ultra-léger de 0.8 milliard de paramètres, offrant un contexte natif exceptionnel de 250K tokens — une capacité remarquable pour un modèle de cette taille.
Contexte configuré à 250 000 tokens (contexte max natif 262 144). Idéal pour les tâches conversationnelles rapides nécessitant un historique très long ou l'analyse de documents volumineux avec une faible empreinte mémoire.
37 tokens/seconde

qwen3.5:4b

Modèle Qwen3.5 compact de 4 milliards de paramètres, offrant un bon compromis entre performance et efficacité.
Contexte de 250k tokens. Bon candidat pour les assistants locaux et les tâches de raisonnement léger.
32 tokens/seconde

qwen3.5:9b

Modèle Qwen3.5 de taille intermédiaire, offrant des capacités de raisonnement solides avec un contexte étendu.
Contexte de 250k tokens. Offre un bon équilibre entre qualité de génération et vitesse d'inférence.
46 tokens/seconde

qwen3:0.6b

Modèle Qwen3 ultra-léger de 0.6 milliard de paramètres, offrant une vitesse d'inférence exceptionnelle pour les tâches simples et rapides.
Idéal pour le déploiement sur des serveurs légers ou en tant que premier niveau de traitement pour des workflows complexes. Configuré avec un contexte de 40 000 tokens.
39 tokens/seconde

qwen3-vl:8b

Modèle multimodal Qwen3-VL (8B), offrant des performances de vision avancées avec une empreinte raisonnable.
Version 8B du modèle Qwen3-VL. Excellent compromis entre performance et ressources. Capable d'analyser des documents complexes, des graphiques et des vidéos avec une précision élevée.
33 tokens/seconde

devstral-small-2:24b

Seconde itération de Devstral (Small 2), modèle agentique de pointe pour l'ingénierie logicielle.
Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Offre des performances proches des modèles >100B pour le code (SWE-bench Verified 68%). Supporte nativement la vision. Contexte de 200k tokens.
84 tokens/seconde

deepseek-ocr

Modèle OCR spécialisé de DeepSeek, conçu pour une extraction de texte haute précision avec préservation de la mise en forme.
Système OCR en deux étapes (encodeur visuel + décodeur MoE 3B) optimisé pour la conversion de documents en Markdown structuré (tableaux, formules). Nécessite un pré-traitement spécifique (Logits Processor) pour des performances optimales.
28 tokens/seconde

mistral-small3.2:24b

Mise à jour mineure de Mistral Small 3.1, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 3.2 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste.
100 tokens/seconde

mistral-small4:119b

Mise à jour mineure de Mistral Small 3.2, améliorant le suivi d'instructions, la robustesse du function calling et réduisant les erreurs de répétition.
Cette version 4 conserve les forces de son prédécesseur tout en apportant des améliorations ciblées. Elle est plus apte à suivre des instructions précises, produit moins de générations infinies ou de réponses répétitives, et son template pour le function calling est plus robuste.
27 tokens/seconde

translategemma:12b

Modèle de traduction ouvert de pointe basé sur Gemma 3, couvrant 55 langues.
TranslateGemma 12B offre des capacités de traduction haute fidélité en respectant la grammaire et les nuances culturelles. Contexte de 128k tokens.
37 tokens/seconde

translategemma:4b

Version compacte du modèle de traduction TranslateGemma, optimisée pour la rapidité.
TranslateGemma 4B offre des capacités de traduction rapides et efficaces pour 55 langues. Contexte de 128k tokens.
16 tokens/seconde

translategemma:27b

Modèle de traduction haute performance basé sur Gemma 3 27B.
TranslateGemma 27B offre une qualité de traduction supérieure pour les contenus complexes et techniques.

voxtral

Modèle ASR (Automatic Speech Recognition) temps réel de Mistral AI, capable de transcrire de l'audio en streaming via WebSocket.
Voxtral Mini 4B fonctionne en mode Realtime via l'endpoint /v1/realtime (WebSocket). Il transcrit l'audio en continu avec extraction de tokens et suivi de la durée ASR.

z-image:16b

Modèle de génération d'images à partir de prompts textuels, compatible avec l'API OpenAI /v1/images/generations.
Z-Image Turbo est un modèle de génération d'images compatible avec l'API OpenAI Images. Il supporte les paramètres de taille et nombre d'images.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie (modèles de grande taille et modèles spécialisés).
Modèle Editeur Paramètres Contexte (k tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Modèles de grande taille
gemma4:31b Google 31B 250000
glm-4.7-flash:30b Zhipu AI 30B 120000
qwen3-omni:30b Qwen Team 30B 32768
gpt-oss:120b OpenAI 120B 120000
llama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3.6:35b Qwen Team 35B 1000000
qwen3.5:35b Qwen Team 35B 1000000
qwen3.5:27b Qwen Team 27B 1000000
qwen-coder-next:80b Qwen Team 80B 250000
qwen3-next:80b Qwen Team 80B 250000
qwen3-vl:30b Qwen Team 30B 250000
qwen3-vl:32b Qwen Team 32B 250000
olmo-3:7b AllenAI 7B 65536
olmo-3:32b AllenAI 32B 65536
qwen3-2507:235b Qwen Team 235B 200000
qwen3-vl:235b Qwen Team 235B 200000
ministral-3:14b Mistral AI 14B 250000
cogito:32b Deep Cogito 32B 32000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-cascade:30b NVIDIA 30B 1000000
nemotron-3-super:120b NVIDIA 120B 1000000
Modèles spécialisés
ministral-3:3b Mistral AI 3B 250000
ministral-3:8b Mistral AI 8B 250000
functiongemma:270m Google 270M 32768
granite3.2-vision:2b IBM 2B 16384
qwen3-embedding:0.6b Qwen Team 0.6B 32768
granite-embedding:278m IBM 278M 512
qwen3-embedding:4b Qwen Team 4B 40000
bge-m3:567m BAAI 567M 8192
embeddinggemma:300m Google 300M 2048
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-think:4b Qwen Team 4B 250000
rnj-1:8b Essential AI 8B 32000
qwen3-vl:2b Qwen Team 2B 250000
qwen3-vl:4b Qwen Team 4B 250000
qwen3.5:0.8b Qwen Team 0.8B 250000
qwen3.5:4b Qwen Team 4B 250000
qwen3.5:9b Qwen Team 9B 250000
qwen3:0.6b Qwen Team 0.6B 40000
qwen3-vl:8b Qwen Team 8B 250000
devstral-small-2:24b Mistral AI & All Hands AI 24B 200000
deepseek-ocr DeepSeek AI 3B 8192
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
translategemma:27b Google 27B 120000
voxtral Mistral AI 4B 32768 N.C.
z-image:16b Community 16B N.C.
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique, maintien du contexte sur l'ensemble de la conversation et compréhension des spécificités linguistiques
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec maintien du contexte sur l'ensemble du texte, extraction d'informations clés, génération de résumés pertinents et réponse à des questions spécifiques sur le contenu
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmation et développement

Génération et optimisation de code dans multiples langages, débogage, refactoring, développement de fonctionnalités complètes, compréhension des implémentations algorithmiques complexes et création de tests unitaires
Modèles recommandés
  • qwen3.6:27b
  • qwen3-2507:235b
  • qwen-coder-next:80b
  • nemotron-3-super:120b

Analyse visuelle

Traitement direct d'images et documents visuels sans pré-traitement OCR, interprétation de diagrammes techniques, graphiques, tableaux, dessins et photos avec génération d'explications textuelles détaillées du contenu visuel
Modèles recommandés
  • qwen3.6:27b
  • deepseek-ocr
  • qwen3.6:35b

Sécurité et conformité

Applications nécessitant des capacités spécifiques en matière de sécurité ; filtrage de contenu sensible, traçabilité des raisonnements, vérification RGPD/HDS, minimisation des risques, analyse des vulnérabilités et respect des réglementations sectorielles
Modèles recommandés
  • granite3-guardian:8b
  • qwen3.6:27b
  • granite3-guardian:2b

Déploiements légers et embarqués

Tester chez Cloud Temple des applications nécessitant une empreinte minimale en ressources, déploiement sur appareils à capacité limitée, inférence en temps réel sur CPU standard et intégration dans des systèmes embarqués ou IoT
Modèles recommandés
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministral-3:3b
Contactez nos équipes !
Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.