Calcul
Des ressources de calcul performantes et évolutives pour vos charges de travail critiques. Orchestrez vos applications cloud-native avec nos solutions conteneurs modernes.
Découvrez l'offre Calcul
Machines virtuelles
VM Instances
Une solution de machines virtuelles à la demande, flexible et sécurisée, sur une infrastructure mutualisée.
Serveurs dédiés
IaaS OpenSource
Infrastructure virtualisée open source dans un environnement cloud de confiance qualifié SecNumCloud pour une souveraineté technologique complète.
IaaS VMWare
Vos machines virtuelles VMware dans un environnement cloud de confiance qualifié SecNumCloud et certifié HDS.
Bare Metal
Des serveurs dédiés et entièrement personnalisables pour une autonomie totale sur votre infrastructure souveraine.
Containers
PaaS OpenShift
La plateforme unifiée pour créer, moderniser et déployer vos applications à grande échelle dans un cloud souverain.
Managed Kubernetes
Solution d’orchestration de conteneurs managée offrant sécurité, résilience et automatisation avancée sur infrastructure souveraine.
Stockage
Des solutions de stockage adaptables et performantes pour tous vos besoins. Optimisez vos données avec nos solutions bloc et objet hautement disponibles.
Découvrez l'offre Stockage
Stockage
Stockage bloc
La solution de stockage en bloc adaptable pour des performances de stockage optimales dans un cloud souverain.
Stockage objet
La solution de stockage évolutive et économique pour vos données non structurées dans un cloud souverain.
Sauvegarde
Solutions de sauvegarde
Des solutions de sauvegarde différenciées, adaptées à vos enjeux et à vos environnements
Réseau
Des solutions réseau avancées pour connecter et sécuriser vos infrastructures. Déployez vos réseaux privés de manière automatisée et sécurisée.
Découvrez l'offre Réseau
Réseau
Virtual Private Cloud
Déployez et gérez vos réseaux privés de manière 100% automatisée et sécurisée.
Private Backbone
Prenez le contrôle total de votre réseau avec une connectivité de niveau 2 étendue, conçue pour les architectures hybrides et les configurations sur mesure.
Firewall
Managed Firewall
Des solutions de sécurité avancées, pour une isolation complète et une protection renforcée
Hébergement Sec
Housing – Espace Dédié
Un hébergement sécurisé pour vos équipements dans un environnement dédié ou partagé, selon vos besoins.
Sécurité
Des solutions de sécurité avancées pour protéger vos infrastructures critiques. Contrôlez l'accès et défendez-vous contre les menaces en ligne.
Découvrez l'offre Sécurité
Détection
Managed SIEM
Une plateforme centralisée de collecte et de corrélation de logs de sécurité, alliant l'automatisation par IA et des règles de détection avancées (MITRE ATT&CK).
Sovereign SOC
Une offre SOC souveraine opérée 24/7, déployable depuis notre marketplace, sur infrastructure qualifiée SecNumCloud.
Protection
Anti DDoS
Le bouclier contre les attaques en ligne
Bastion
Le contrôle d’accès centralisé et transparent pour une protection robuste de vos infrastructures
Managed KMS
La gestion des clés cryptographiques souveraine, avec racine de confiance matérielle HSM, pour protéger vos données les plus sensibles sur infrastructure SecNumCloud.
IA
Des solutions d'intelligence artificielle pour transformer vos données en insights et accélérer vos processus métier.
Découvrez l'offre IA
IA
LLMaaS
Accédez à des modèles de langage de pointe sur une infrastructure souveraine, qualifiée SecNumCloud et certifiée HDS, pour des applications d’IA performantes et sécurisées.
GPU
Instances GPU NVIDIA pour accélérer vos calculs d’intelligence artificielle et de calcul haute performance dans un cloud souverain.
Data
Des solutions de données pour gérer, analyser et exploiter vos données critiques.
Découvrez l'offre Data
Bases de données
Managed MariaDB
Une base de données relationnelle MariaDB entièrement managée et sauvegarde PITR sur infrastructure souveraine SecNumCloud.
Managed PostGreSQL
La solution de base de données relationnelle entièrement managée sur infrastructure souveraine SecNumCloud
Big Data
Managed Kafka
La plateforme distribuée open-source pour la diffusion de données en continu et en temps réel
Managed File System
Un système de fichiers distribué managé, souverain et haute disponibilité, accessible en NFS et SMB sur infrastructure SecNumCloud.
Management & Gouvernance
Des services d'accompagnement et de support pour vous aider dans votre transformation cloud.
Découvrez l'offre d'accompagnement
Accompagnement
Niveaux de support
Découvrez les 3 niveaux de support pour vous accompagner au mieux selon vos enjeux.
Professional services
De la conception à l’optimisation, Cloud Temple vous accompagne à chaque étape de votre projet.
Gouvernance
Console – API – Provider Terraform
Une interface unique pour visualiser et gérer vos produits et services
Observability
Les métriques de votre infrastructure disponibles dans les standards du marché
Devenir partenaire

Notre offre Large Language Model as a Service (LLMaaS) vous permet d’accéder à des modèles de langage de pointe, dont l’inférence est réalisée avec une infrastructure qualifiée SecNumCloud, certifiée HDS pour l’hébergement des données de santé, et donc souveraine, calculée en France. Bénéficiez de performances élevées et d’une sécurité optimale pour vos applications d’IA. Vos données demeurent strictement confidentielles et ne sont ni exploitées, ni stockées après traitement.

Tarification simple et transparente
1,8 €
par million de tokens en entrée
8 €
par million de tokens en sortie
8 €
par million de tokens de raisonnement
4 €
par million de tokens de reranking
0,9 €
par million de tokens batch en entrée
4 €
par million de tokens batch en sortie
0,01 €
par minute audio transcrite *
Calculé sur une infrastructure basée en France, qualifiée SecNumcloud et certifiée HDS.
Note sur le prix "Raisonnement" : Ce prix s'applique spécifiquement aux modèles classifiés comme "raisonneurs" ou "hybrides" (modèles avec la capacité "Raisonnement" activée) lorsque le raisonnement est actif et uniquement sur les tokens liés à cette activité.
* toute minute commencée est comptée

Chat & Raisonnement

Nos modèles de grande taille offrent des performances de pointe pour les tâches les plus exigeantes. Ils sont particulièrement adaptés pour les applications nécessitant une compréhension profonde du langage, un raisonnement complexe ou le traitement de documents longs.

80 tokens/seconde

qwen3.6:27b

Modèle généraliste de référence avec un contexte natif de 1M tokens. Excelle en raisonnement, suivi d'instructions et multilingue.
Améliorations significatives du suivi d'instructions, du raisonnement, de la compréhension de texte, des mathématiques, du codage et de l'utilisation d'outils. Son contexte de 1M tokens permet l'analyse de documents entiers sans troncature.
94 tokens/seconde

gpt-oss:120b

Modèle open-weight de pointe d'OpenAI avec raisonnement configurable et chaîne de pensée transparente.
Modèle Mixture-of-Experts de 120 milliards de paramètres offrant un raisonnement configurable et un accès complet à la chaîne de pensée. Idéal pour les scénarios nécessitant une licence permissive (Apache 2.0).
10 tokens/seconde

llama3.3:70b

Modèle multilingue de Meta, excellent en dialogue naturel et compréhension nuancée dans 8 langues.
Supporte anglais, français, allemand, espagnol, italien, portugais, hindi et thaï. Sa fenêtre de 132k tokens permet l'analyse de documents complexes et de conversations longues.
72 tokens/seconde

nemotron-3-super:120b

Modèle NVIDIA optimisé pour les agents collaboratifs, le raisonnement long et les charges de travail à fort volume. Contexte de 1M tokens.
Idéal pour les workflows agentiques, le raisonnement sur contexte long, l'automatisation à fort volume (tickets de support, analyses en masse), l'utilisation d'outils et le RAG.
56 tokens/seconde

qwen3-2507:235b

Modèle le plus puissant du catalogue (235B paramètres, 22B actifs). Excelle en mathématiques, codage et raisonnement logique.
Architecture Mixture-of-Experts ultra-éparse combinant la puissance d'un modèle très large avec l'efficacité d'un modèle plus petit.
100 tokens/seconde

mistral-small4:119b

Modèle Mistral haute performance (119B) avec vision, sécurité intégrée et contexte de 262K tokens. Rapide (100 t/s).
Version large de la famille Mistral Small. Combine puissance, vitesse et fiabilité avec un contexte étendu. Filtres de sécurité natifs.
55 tokens/seconde

qwen3-2507-think:4b

Modèle compact optimisé pour le raisonnement profond (logique, maths, science, code). Contexte de 250K tokens.
Version "Thinking" avec une capacité de raisonnement accrue. Combine compacité, vitesse et raisonnement avancé.

Programmation & Agents

Nos modèles de programmation et d’agents sont spécialement optimisés pour l’ingénierie logicielle agentique, la génération de code à grande échelle et l’automatisation de workflows de développement.

121 tokens/seconde

qwen3.6:35b

Leader en ingénierie logicielle agentique (SWE-bench 73.4%). Contexte de 1M tokens, vision et tool calling intégrés.
Comprend des dépôts de code entiers grâce à son contexte de 1M tokens. Supporte le raisonnement multi-étapes et la vision (captures d'écran, diagrammes). Optimisé pour les IDE et les pipelines CI/CD.
97 tokens/seconde

qwen-coder-next:80b

Modèle de pointe pour le code et le raisonnement complexe. Contexte de 250K tokens.
Excelle dans la génération et l'analyse de code à grande échelle. Conçu pour les tâches d'ingénierie logicielle avancées.
67 tokens/seconde

qwen3-next:80b

Modèle polyvalent 80B optimisé pour les grands contextes, le function calling et le raisonnement structuré.
Contexte de 250K tokens avec prise en charge du function calling et du guided decoding.
33 tokens/seconde

devstral-small-2:24b

Modèle agentique de pointe pour l'ingénierie logicielle. Performances proches des modèles >100B pour le code. Vision intégrée.
Optimisé pour l'exploration de codebases, l'édition multi-fichiers et l'utilisation d'outils. Supporte nativement la vision. Contexte de 200K tokens.
40 tokens/seconde

functiongemma:270m

Micro-modèle spécialisé dans la détection d'appels de fonctions. Idéal comme routeur dans une architecture agentique.
Ultra-compact, optimisé pour identifier et formater les appels de fonctions rapidement.

Vision & Multimodal

Nos modèles Vision & Multimodal permettent d’analyser des images, des vidéos et des documents visuels. Ils excellent dans l’OCR, la détection d’objets, l’extraction structurée et le raisonnement spatio-temporel.

24 tokens/seconde

qwen3-vl:235b

Le modèle multimodal le plus puissant du catalogue. Compréhension visuelle de pointe et raisonnement exceptionnel.
Excelle dans l'analyse de documents complexes, l'OCR multilingue, le raisonnement spatial 3D et la compréhension de vidéos.
39 tokens/seconde

qwen3-vl:30b

Modèle multimodal performant pour l'OCR, la détection d'objets, l'analyse de vidéos et le raisonnement spatio-temporel.
Intègre des innovations en analyse d'images et vidéos. Excelle dans l'OCR complexe, les graphiques, et l'extraction structurée (JSON).
57 tokens/seconde

qwen3-vl:4b

Modèle vision compact et rapide pour l'analyse documentaire et la compréhension vidéo.
Excellent compromis entre performance et empreinte. Supporte l'extraction structurée et le raisonnement visuel.
59 tokens/seconde

gemma4:31b

Modèle dense multimodal de Google, classé 3e mondial sur Arena AI. Vision avancée, raisonnement et codage. Contexte 250K tokens.
Modèle open-source le plus performant de Google. Function calling natif, compréhension visuelle avancée (OCR, graphiques, documents, UI). Multilingue (35+ langues).
42 tokens/seconde

gemma4:12b-it-qat

Modèle multimodal intermédiaire de Google, avec vision intégrée, raisonnement et function calling natif. Très grand contexte de 250K tokens.
Variante 12B de la famille Gemma 4, offrant un bon compromis entre qualité multimodale et empreinte. Raisonnement avancé, compréhension visuelle (OCR, graphiques, documents, UI) et support multilingue (35+ langues).

Embedding

Nos modèles d’embedding transforment le texte en représentations vectorielles pour la recherche sémantique, le clustering et les pipelines RAG (Retrieval-Augmented Generation).

171 tokens/seconde

bge-m3:567m

Embedding multilingue de pointe (100+ langues). Supporte les recherches dense, sparse et multi-vectorielle.
Contexte de 8192 tokens avec trois méthodes de recherche complémentaires.

qwen3-embedding:4b

Embedding haute performance avec compréhension sémantique profonde et contexte étendu (40K tokens).
Idéal pour le traitement de documents volumineux dans les pipelines RAG.

qwen3-embedding:8b

Embedding haute capacité avec la meilleure compréhension sémantique de la famille Qwen3. Contexte étendu (40K tokens).
Version la plus puissante de la famille d'embedding Qwen3. Idéal pour les tâches exigeantes en compréhension contextuelle.

qwen3-embedding:0.6b

Embedding ultra-léger et rapide pour la recherche sémantique à faible latence.
Excellent compromis entre performance sémantique et rapidité d'exécution.
196.3 tokens/seconde

granite-embedding:278m

Embedding IBM ultra-compact pour une recherche sémantique à latence minimale.
Le plus rapide des modèles d'embedding du catalogue. Idéal pour le clustering et la recherche à haute fréquence.
175 tokens/seconde

embeddinggemma:300m

Embedding Google multilingue (100+ langues), optimisé pour la recherche et la récupération sémantique.
Produit des représentations vectorielles de texte pour la classification, le clustering et la recherche de similarité.

Reranking

Nos modèles de reranking réordonnent les résultats de recherche par pertinence pour affiner la qualité des pipelines RAG. Compatibles avec l’API Cohere.

nvidia/llama-nemotron-rerank-vl-1b-v2

Modèle de reranking compatible API Cohere (/v1/rerank et /v2/rerank). Ordonne les documents par pertinence vis-à-vis d'une requête.
Compatible SDK Cohere v1/v2. Le relevance_score est un logit brut (l'ordre relatif est garanti). Idéal en complément de la pile RAG (embedding + retrieval + rerank).

qwen3-reranker:4b

Modèle de reranking performant avec une grande capacité de compréhension contextuelle.
Excellente qualité de réordonnancement grâce à ses 4B paramètres. Idéal pour les pipelines RAG exigeants.

qwen3-reranker:0.6b

Modèle de reranking compact et efficace pour le réordonnancement rapide.
Version légère pour les cas d'usage nécessitant une faible latence de reranking.

bge-reranker-large

Modèle de reranking haute performance de la famille BGE, multilingue.
Complémentaire du modèle d'embedding BGE-M3 pour les pipelines RAG complets.

Sécurité

Nos modèles de sécurité sont spécialisés dans la détection de contenus problématiques, la prévention des jailbreaks et la conformité réglementaire (RGPD, HDS). Utilisables en pré-filtre ou post-filtre dans vos workflows.

45 tokens/seconde

granite3-guardian:8b

Granite Guardian 4.1 (upgrade v3) — détection de contenus problématiques, jailbreak, BYOC et hybrid thinking.
Version 4.1 (avril 2026). Conçu pour filtrer les contenus sensibles et assurer la conformité RGPD/HDS. Utilisable en pré-filtre ou post-filtre dans vos workflows. Hybrid thinking (reasoning) activé.
60 tokens/seconde

granite3-guardian:2b

Granite Guardian 4.1 compact (upgrade v3 :2b) — alias vers la version 8B avec hybrid thinking.
Mêmes capacités de filtrage que la version 8B avec une empreinte réduite. Idéal pour les workflows à haute fréquence. Hybrid thinking (reasoning) activé.

Traduction

Nos modèles de traduction offrent une haute fidélité sur 55 langues, en respectant la grammaire, les nuances culturelles et les spécificités techniques des documents.

17 tokens/seconde

translategemma:27b

Traduction haute performance pour 55 langues. Qualité supérieure pour les contenus complexes et techniques.
Capture les nuances littéraires et culturelles avec une fidélité exceptionnelle.

Audio & Image

Nos modèles Audio & Image permettent la transcription vocale en temps réel (ASR streaming) et la génération d’images à partir de descriptions textuelles, compatibles avec l’API OpenAI.

voxtral

Transcription audio en temps réel via WebSocket. Reconnaissance vocale streaming avec faible latence.
Fonctionne en mode Realtime via l'endpoint /v1/realtime (WebSocket). Transcrit l'audio en continu.

z-image:16b

Génération d'images à partir de prompts textuels, compatible API OpenAI /v1/images/generations.
Supporte les paramètres de taille et nombre d'images. Compatible avec l'écosystème OpenAI.

Comparaison des modèles

Ce tableau comparatif vous aide à choisir le modèle le plus adapté à vos besoins en fonction de différents critères comme la taille du contexte, les performances et les cas d’usage spécifiques.

Tableau comparatif des caractéristiques et performances des différents modèles d'IA disponibles, regroupés par catégorie.
Modèle Editeur Paramètres Contexte (tokens) Vision Agent Raisonnement Sécurité Rapide * Efficience énergétique *
Chat & Raisonnement
qwen3.6:27b Qwen Team 27B 1 000 000
gpt-oss:120b OpenAI 120B 120 000
llama3.3:70b Meta 70B 132 000
nemotron-3-super:120b NVIDIA 120B 1 000 000
qwen3-2507:235b Qwen Team 235B 200 000
mistral-small4:119b Mistral AI 119B 262 144
qwen3-2507-think:4b Qwen Team 4B 250 000
Programmation & Agents
qwen3.6:35b Qwen Team 35B 1 000 000
qwen-coder-next:80b Qwen Team 80B 250 000
qwen3-next:80b Qwen Team 80B 250 000
devstral-small-2:24b Mistral AI & All Hands AI 24B 200 000
functiongemma:270m Google 270M 32 768
Vision & Multimodal
qwen3-vl:235b Qwen Team 235B 200 000
qwen3-vl:30b Qwen Team 30B 250 000
qwen3-vl:4b Qwen Team 4B 250 000
gemma4:31b Google 31B 250 000
gemma4:12b-it-qat Google 12B 250 000
Embedding
bge-m3:567m BAAI 567M 8 192
qwen3-embedding:4b Qwen Team 4B 40 000
qwen3-embedding:8b Qwen Team 8B 40 000
qwen3-embedding:0.6b Qwen Team 0.6B 32 768
granite-embedding:278m IBM 278M 512
embeddinggemma:300m Google 300M 2 048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2 NVIDIA 1B 4 096 N.C.
qwen3-reranker:4b Qwen Team 4B 4 096 N.C.
qwen3-reranker:0.6b Qwen Team 0.6B 4 096 N.C.
bge-reranker-large BAAI 335M 512 N.C.
Sécurité
granite3-guardian:8b IBM 8B 8 192
granite3-guardian:2b IBM 2B 8 192
Traduction
translategemma:27b Google 27B 120 000
Audio & Image
voxtral Mistral AI 4B 32 768 N.C.
z-image:16b Community 16B N.C. N.C.
Légende et explication
: Fonctionnalité ou capacité supportée par le modèle
: Fonctionnalité ou capacité non supportée par le modèle
* Efficience énergétique : Indique une consommation énergétique particulièrement faible (< 2.0 kWh/Mtoken)
* Rapide : Modèle capable de générer plus de 50 tokens par seconde
Note sur les mesures de performance
Les valeurs de vitesse (tokens/s) représentent des cibles de performance en conditions réelles. La consommation énergétique (kWh/Mtoken) est calculée en divisant la puissance estimée du serveur d'inférence (en Watts) par la vitesse mesurée du modèle (en tokens/seconde), puis convertie en kilowattheures par million de tokens (division par 3.6). Cette méthode offre une comparaison pratique de l'efficience énergétique des différents modèles, à utiliser comme indicateur relatif plutôt que comme mesure absolue de la consommation électrique.

Cas d'usage recommandés

Voici quelques cas d’usage courants et les modèles les plus adaptés pour chacun d’entre eux. Ces recommandations sont basées sur les performances et les capacités spécifiques de chaque modèle.

Dialogue multilingue

Chatbots et assistants capables de communiquer dans plusieurs langues avec détection automatique et maintien du contexte
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • gpt-oss:120b

Analyse de documents longs

Traitement de documents volumineux (>100 pages) avec extraction d'informations clés, résumés et réponses à des questions
Modèles recommandés
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmation et développement

Génération, optimisation et débogage de code dans multiples langages, refactoring et création de tests
Modèles recommandés
  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Analyse visuelle

Traitement d'images et documents visuels, OCR, interprétation de graphiques et tableaux
Modèles recommandés
  • qwen3-vl:235b
  • gemma4:31b
  • qwen3-vl:30b

Sécurité et conformité

Filtrage de contenu sensible, détection de jailbreak, conformité RGPD/HDS
Modèles recommandés
  • granite4.1-guardian:8b
  • granite3-guardian:8b
  • granite3-guardian:2b
  • mistral-small4:119b

Déploiements légers

Applications nécessitant une empreinte minimale, faible latence et faible consommation

RAG (Retrieval-Augmented Generation)

Pipelines complets de recherche sémantique, réordonnancement et génération augmentée par la récupération
Modèles recommandés
  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b
Suivez l’évolution de l’offre LLMaaS

Découvrez tous nos papiers de recherche IA

 

Politique en matière de cookies

Nous utilisons des cookies pour vous offrir la meilleure expérience possible sur notre site mais nous ne prélevons aucune donnée à caractère personnel.

Les services de mesure d’audience, nécessaires au fonctionnement et à l’amélioration de notre site, ne permettent pas de vous identifier personnellement. Vous avez cependant la possibilité de vous opposer à leur usage.

Pour plus d’informations, consultez notre politique de confidentialité.