Calcolo
Risorse di calcolo scalabili e ad alte prestazioni per i vostri carichi di lavoro critici. Orchestrate le vostre applicazioni cloud-native con le nostre moderne soluzioni container.
Scoprite l'offerta di calcolo
Macchine virtuali
Istanze VM
Una soluzione di macchine virtuali on-demand, flessibile e sicura su un'infrastruttura condivisa.
Server dedicati
IaaS open source
Infrastruttura virtualizzata open source in un ambiente cloud qualificato SecNumCloud per una completa sovranità tecnologica.
VMWare IaaS
Le vostre macchine virtuali VMware in un ambiente cloud affidabile qualificato SecNumCloud e certificato HDS.
Metallo nudo
Server dedicati e completamente personalizzabili per una totale autonomia sulla vostra infrastruttura sovrana.
Contenitori
OpenShift PaaS
La piattaforma unificata per creare, modernizzare e distribuire le vostre applicazioni su larga scala in un cloud sovrano.
Kubernetes gestito
Soluzione di orchestrazione dei container gestita che offre sicurezza, resilienza e automazione avanzata su infrastrutture sovrane.
Immagazzinamento
Soluzioni di storage adattabili e ad alte prestazioni per tutte le vostre esigenze. Ottimizzate i vostri dati con le nostre soluzioni a blocchi e a oggetti altamente disponibili.
Scoprite la nostra offerta di stoccaggio
Immagazzinamento
Archiviazione a blocchi
La soluzione di storage a blocchi adattabile per prestazioni di storage ottimali in un cloud sovrano.
Object storage
La soluzione di archiviazione scalabile e conveniente per i vostri dati non strutturati in un cloud sovrano.
Backup
Backup solutions
Soluzioni di backup differenziate e adatte alle vostre sfide e ai vostri ambienti
Rete
Soluzioni di rete avanzate per connettere e proteggere le vostre infrastrutture. Implementate le vostre reti private in modo automatico e sicuro.
Scoprire l'offerta della rete
Rete
Virtual Private Cloud
Implementate e gestite le vostre reti private 100% in modo automatico e sicuro.
Private Backbone
Assumete il pieno controllo della vostra rete con una connettività Layer 2 estesa, progettata per architetture ibride e configurazioni personalizzate.
Firewall
Managed Firewall
Soluzioni di sicurezza avanzate per un isolamento completo e una maggiore protezione
Sistemazione a secco
Alloggi - Spazio dedicato
Hosting sicuro per le vostre apparecchiature in un ambiente dedicato o condiviso, a seconda delle vostre esigenze.
Sicurezza
Soluzioni di sicurezza avanzate per proteggere le vostre infrastrutture critiche. Controllate l'accesso e difendetevi dalle minacce online.
Scopri l'offerta Sicurezza
Rilevamento
SIEM gestito
Una piattaforma centralizzata per la raccolta e la correlazione dei log di sicurezza, che combina l'automazione basata sull'intelligenza artificiale e le regole di rilevamento avanzate (MITRE ATT&CK).
Sovrano SOC
Un'offerta SOC sovrana gestita 24 ore su 24, 7 giorni su 7, distribuibile dal nostro marketplace, su un'infrastruttura qualificata SecNumCloud.
Protezione
Anti DDoS
Lo scudo contro gli attacchi online
Bastion host
Controllo degli accessi trasparente e centralizzato per una solida protezione della vostra infrastruttura
KMS gestito
Gestione sovrana delle chiavi crittografiche, con HSM hardware root of trust, per proteggere i vostri dati più sensibili sull'infrastruttura SecNumCloud.
AI
Soluzioni di intelligenza artificiale per trasformare i dati in approfondimenti e accelerare i processi aziendali.
Scoprite l'offerta IA
AI
LLMaaS
Accesso a modelli linguistici all'avanguardia su un'infrastruttura sovrana, qualificata SecNumCloud e certificata HDS, per applicazioni AI sicure e ad alte prestazioni.
GPU
Istanze di GPU NVIDIA per accelerare l'intelligenza artificiale e il calcolo ad alte prestazioni in un cloud sovrano.
Dati
Soluzioni dati per gestire, analizzare e sfruttare i vostri dati critici.
Scoprire l'offerta di dati
Banche dati
MariaDB gestito
Un database relazionale MariaDB completamente gestito e un backup PITR su infrastruttura sovrana SecNumCloud.
Gestiti PostGreSQL
La soluzione di database relazionale completamente gestita su infrastruttura sovrana SecNumCloud
Grandi dati
Managed Kafka
La piattaforma distribuita open-source per lo streaming di dati in tempo reale
Managed File System
Un file system distribuito gestito, sovrano e ad alta disponibilità, accessibile tramite NFS e SMB sull'infrastruttura SecNumCloud.
Gestione e governance
Servizi di coaching e assistenza per aiutarvi nella vostra trasformazione in cloud.
Scopri i nostri servizi di assistenza
Supporto
Livelli di supporto
Scoprite i 3 livelli di assistenza disponibili per aiutarvi ad affrontare le vostre sfide.
Servizi professionali
Dalla progettazione all'ottimizzazione, Cloud Temple è al vostro fianco in ogni fase del percorso.
La governance
Console - API - Provider Terraform
Un'unica interfaccia per visualizzare e gestire i vostri prodotti e servizi
Osservabilità
Metriche infrastrutturali disponibili negli standard di mercato
Diventare partner

La nostra offerta Large Language Model as a Service (LLMaaS) vi dà accesso a modelli linguistici all'avanguardia, la cui inferenza viene eseguita con un'infrastruttura qualificata SecNumCloud, certificata HDS per l'hosting di dati sanitari, e quindi sovrana, calcolata in Francia. Beneficiate di prestazioni elevate e di una sicurezza ottimale per le vostre applicazioni AI. I vostri dati rimangono strettamente confidenziali e non vengono né sfruttati né conservati dopo l'elaborazione.

Prezzi semplici e trasparenti
1.8 €
per milione di token in ingresso
8 €
per milione di token emessi
8 €
per milione di gettoni di ragionamento
0,01 €
per minuto di audio trascritto *
Calcolato su un'infrastruttura basata in Francia, qualificata SecNumcloud e certificata HDS.
Nota sul premio "Ragionamento" : Questo prezzo si applica specificamente ai modelli classificati come "ragionatori" o "ibridi" (modelli con la capacità "Ragionamento" attivata) quando il ragionamento è attivo e solo sui gettoni legati a questa attività.
* Ogni minuto iniziato viene contato

Modelli grandi

I nostri modelli di grandi dimensioni offrono prestazioni all'avanguardia per i compiti più impegnativi. Sono particolarmente adatti alle applicazioni che richiedono una comprensione profonda del linguaggio, ragionamenti complessi o l'elaborazione di documenti lunghi.

50 gettoni/secondo

gemma4:31b

Il denso modello multimodale di Google, classificato al 3° posto al mondo su Arena AI. Eccelle in ragionamento, codifica e visione con un contesto di 250K token.
Gemma 4 31B è il modello open-source più potente di Google (Apache 2.0), in grado di superare nei benchmark modelli 20 volte più grandi. È dotato di chiamate di funzione native per flussi di lavoro agenziali e di una comprensione visiva avanzata (OCR, grafica, documenti, UI). La sua architettura a 31B parametri offre un eccellente rapporto intelligenza/costo. Multilingue (oltre 35 lingue), è ottimizzato per l'analisi di documenti lunghi, la generazione di codice e gli agenti autonomi.
88 token/secondo

glm-4.7-flash:30b

Versione flash del modello GLM-4.7, ottimizzata per velocità ed efficienza.
Offre un eccellente equilibrio tra prestazioni e latenza per le attività di ragionamento e analisi. Contesto di 120.000 token.
19 gettoni/secondo

qwen3-omni:30b

Qwen3-Omni 30B è un modello omnimodale nativo, in grado di comprendere testo, immagini, video e audio in un unico flusso.
Supporta ingressi multimodali (audio/video) e offre capacità di ragionamento avanzate. Nota: l'uscita audio tramite API non è ancora abilitata.
94 token/secondo

gpt-oss:120b

Il modello di linguaggio open-weight all'avanguardia di OpenAI, che offre solide prestazioni con una licenza Apache 2.0 flessibile.
Un modello Mixture-of-Experts (MoE) con 120 miliardi di parametri e circa 5,1 miliardi di parametri attivi. Offre uno sforzo di ragionamento configurabile e un accesso completo alla catena di pensiero.
14 gettoni/secondo

lama3.3:70b

Modello multilingue all'avanguardia sviluppato da Meta, progettato per eccellere nel dialogo naturale, nel ragionamento complesso e nella comprensione sfumata delle istruzioni.
Combinando una notevole efficienza con risorse computazionali ridotte, questo modello offre ampie capacità multilingue che coprono 8 lingue principali (inglese, francese, tedesco, spagnolo, italiano, portoghese, hindi e tailandese). La sua finestra contestuale di 132.000 token consente un'analisi approfondita di documenti complessi e lunghe conversazioni, mantenendo un'eccezionale coerenza complessiva. Ottimizzato per ridurre al minimo i pregiudizi e le risposte problematiche.
17 gettoni/secondo

gemma3:27b

Il rivoluzionario modello di Google offre un equilibrio ottimale tra potenza ed efficienza, con un eccezionale rapporto prestazioni/costo per le applicazioni professionali più esigenti.
Con un'efficienza hardware senza pari, questo modello incorpora funzionalità multimodali native ed eccelle nelle prestazioni multilingue in oltre 140 lingue. L'impressionante finestra contestuale di 120.000 token lo rende la scelta ideale per l'analisi di documenti di grandi dimensioni, la ricerca documentale e qualsiasi applicazione che richieda la comprensione di contesti estesi. La sua architettura ottimizzata consente una distribuzione flessibile senza compromettere la qualità dei risultati.
137 token/secondo

qwen3.6:35b

Modello di codifica agenziale MoE (35B totali, 3B attivi per token), leader su SWE-bench Verificato (73,4%). Contesto nativo di 1M di token, visione multimodale e chiamata integrata di strumenti.
Qwen3.6-35B-A3B è un Mixture-of-Experts ultra-efficiente (rapporto 12:1) che eccelle nell'ingegneria del software agenziale. Comprende interi repository di codice grazie al suo contesto di 1M token, supporta il ragionamento in più fasi con la conservazione del contesto di pensiero e integra la visione per analizzare schermate o diagrammi. Con un punteggio di 51,5 su Terminal-Bench 2.0, è ottimizzato per IDE (Cursor, Continue.dev, VS Code Copilot), pipeline CI/CD automatizzate e revisione del codice.
137 token/secondo

qwen3.5:35b

Modello MoE ottimizzato per compiti di ingegneria del software con un contesto molto lungo.
Capacità agenziali avanzate per compiti di ingegneria del software, supporto nativo per un contesto di 1M di token, pre-addestrato su 7,5T di token con un elevato rapporto di codice e ottimizzato con l'apprendimento per rinforzo per migliorare i tassi di esecuzione del codice.
80 token/secondo

qwen3.5:27b

Migliore modello generalista, migliore copertura delle conoscenze e allineamento degli utenti.
Miglioramenti significativi nel seguire le istruzioni, nel ragionamento, nella comprensione della lettura, nella matematica, nel coding e nell'uso degli strumenti. Contesto nativo di 1M di gettoni.
91 token/secondo

qwen-coder-next:80b

Modello MoE all'avanguardia ottimizzato per codici e ragionamenti complessi.
Variante A3B-Coder-Instruct (AWQ a 4 bit) configurata con un contesto di 250k token. Eccellente per la generazione e l'analisi di codice su larga scala.
67 token/secondo

qwen3-next:80b

Il modello Next 80B di Qwen, ottimizzato per contesti e ragionamenti di grandi dimensioni.
Variante A3B-Instruct (NVFP4) configurata con un contesto fino a 250k token, supporto per la chiamata di funzione e decodifica guidata.
39 token/secondo

qwen3-vl:30b

Modello multimodale all'avanguardia (Qwen3-VL) che offre una comprensione visiva eccezionale e un ragionamento temporale accurato.
Questo modello Vision-Language integra importanti innovazioni (DeepStack, MRoPE) per un'analisi dettagliata di immagini e video. Eccelle nell'OCR complesso, nel rilevamento di oggetti, nell'analisi grafica e nel ragionamento spazio-temporale. La sua architettura consente una comprensione nativa dei contenuti video e un'estrazione strutturata (JSON) accurata.
17 gettoni/secondo

qwen3-vl:32b

Variante ad alte prestazioni di Qwen3-VL, ottimizzata per le attività di visione più impegnative.
Offre le stesse funzionalità avanzate del modello 30B (DeepStack, MRoPE) con una maggiore capacità di modellazione. Particolarmente efficace per attività che richiedono un'analisi visiva molto accurata e una comprensione contestuale approfondita. Supporta l'allineamento testo-timestamp per i video.
35 gettoni/secondo

olmo-3:7b

Modello "Fully Open" di riferimento, che offre totale trasparenza (dati, codice, peso) e un'efficienza straordinaria.
OLMo 3-7B è un modello denso ottimizzato per l'efficienza (richiede 2,5 volte meno risorse rispetto a Llama 3.1 8B a parità di prestazioni). Eccelle in particolare nella matematica e nella programmazione. Con la sua finestra di 65k token, è ideale per attività che richiedono una completa verificabilità.
22 gettoni/secondo

olmo-3:32b

Il primo modello di ragionamento completamente aperto su questa scala, in grado di competere con i migliori modelli proprietari.
OLMo 3-32B utilizza un'architettura avanzata (GQA) per offrire capacità di ragionamento eccezionali. Si distingue nei benchmark complessi (MATH, HumanEvalPlus) ed è in grado di esporre il proprio processo di pensiero (variante Think). È la scelta ideale per compiti critici che richiedono prestazioni elevate e trasparenza totale.
64 token/secondo

qwen3-2507:235b

Modello MoE massivo da 235 miliardi di parametri, con solo 22 miliardi attivi, che offre prestazioni all'avanguardia.
Architettura Mixture-of-Experts ultra-sparse con 512 esperti (GPTQ-Int4-Int8Mix). Combina la potenza di un modello molto grande con l'efficienza di un modello più piccolo. Eccelle in matematica, codifica e ragionamento logico.
24 gettoni/secondo

qwen3-vl:235b

Il modello multimodale più potente del catalogo, che combina una comprensione visiva all'avanguardia con eccezionali capacità di ragionamento.
Questo modello Vision-Language eccelle nell'analisi approfondita di documenti complessi, nell'OCR multilingue e nel ragionamento su contenuti visivi e testuali densi.
28 gettoni/secondo

ministeriale-3:14b

Il più potente della famiglia Ministral, progettato per compiti complessi su infrastrutture locali.
Contesto esteso di 250k token. Eccelle nel ragionamento e nella codifica complessi, pur rimanendo efficiente.
21 gettoni/secondo

cogito:32b

Una versione avanzata del modello Cogito che offre capacità di ragionamento e analisi notevolmente migliorate, progettata per le applicazioni più esigenti in termini di intelligenza artificiale analitica.
Progettato per eccellere in compiti complessi che richiedono una profondità di analisi superiore, questo modello si distingue per la sua capacità di scomporre i problemi multidimensionali e fornire risposte strutturate e ben argomentate. Incorpora meccanismi avanzati di controllo logico per ridurre al minimo le allucinazioni.
160 token/secondo

nemotron3-nano:30b

Modello NVIDIA ottimizzato per ragionamenti complessi e l'uso di strumenti, con un contesto di 1M token.
Utilizza l'architettura Nano V3 nell'FP8. Eccelle nelle chiamate di funzione, nel ragionamento strutturato e nell'analisi di contesti lunghi. Contesto di 1M di token.
130 token/secondo

nemotron-cascata:30b

Modello NVIDIA ottimizzato per la scomposizione di problemi matematici e l'utilizzo di strumenti. 2025 medaglia d'oro alle Olimpiadi Internazionali di Matematica.
Eccelle nella chiamata di funzioni, nel ragionamento strutturato e nell'analisi di contesti lunghi. Contesto di 1M di token.
72 token/secondo

nemotron-3-super:120b

Robuste capacità di agente, ragionamento e conversazione. Ottimizzato per agenti collaborativi e carichi di lavoro ad alto volume.
Ideale per i flussi di lavoro agenziali, i ragionamenti a lungo contesto, i carichi di lavoro ad alto volume (ad esempio, l'automazione dei ticket di assistenza IT), l'utilizzo di strumenti e RAG. Contesto di 1M token.

Modelli specializzati

I nostri modelli specializzati sono ottimizzati per compiti specifici come la generazione di codice, l'analisi di immagini o l'elaborazione di dati strutturati. Offrono un eccellente rapporto prestazioni/costo per casi d'uso mirati.

22 gettoni/secondo

ministeriale-3:3b

Modello compatto all'avanguardia di Mistral AI, progettato per garantire efficienza nelle implementazioni locali e periferiche.
Nonostante le dimensioni ridotte, questo modello offre prestazioni sorprendenti per attività di conversazione e ragionamento semplice. Ideale per i dispositivi mobili.
40 gettoni/secondo

ministeriale-3:8b

Modello di medie dimensioni della famiglia Ministral, che offre un equilibrio ottimale tra prestazioni e risorse.
La versione 8B è più robusta, in grado di gestire contesti più lunghi e ragionamenti più complessi, pur rimanendo molto veloce.
40 gettoni/secondo

funzione gemma: 270 m

Micro-modello Gemma specializzato nella chiamata di funzioni e nel rilevamento delle intenzioni di chiamata di strumenti.
FunctionGemma 270M è un modello ultracompatto ottimizzato per identificare e formattare le chiamate di funzione. Ideale come router o pre-filtro in un'architettura agenziale multi-modello.
49 token/secondo

granito3.2-visione:2b

Modello multimodale compatto IBM Granite, specializzato nell'analisi di documenti visivi.
Granite 3.2 Vision 2B è un modello leggero ma potente per l'OCR, l'estrazione di dati da documenti scansionati e l'analisi di immagini. Ideale per compiti di visione a bassa latenza.

qwen3-embedding:0.6b

Modello di incorporamento Qwen3 ultraleggero, ottimizzato per velocità ed efficienza su infrastrutture a risorse limitate.
Offre un ottimo compromesso tra prestazioni semantiche e velocità di esecuzione.
196,3 token/secondo

granito-embedding:278m

Modello di incorporazione IBM Granite ultracompatto, progettato per la massima efficienza.
Ideale per le attività di ricerca semantica che richiedono una latenza minima.

qwen3-embedding:4b

Modello di incorporazione Qwen3-4B ad alte prestazioni, che offre una profonda comprensione semantica e una finestra di contesto estesa.
Contesto di 40.000 token per l'elaborazione di documenti di grandi dimensioni.
171 token/secondo

bge-m3:567m

Modello di incorporazione multilingue all'avanguardia (BGE-M3), che offre eccezionali capacità di ricerca semantica in oltre 100 lingue.
Contesto di 8192 token. Supporta metodi di ricerca densi, radi e multivettoriali.
175 token/secondo

embeddinggemma:300m

Il modello di incorporazione all'avanguardia di Google, ottimizzato per le sue dimensioni, ideale per compiti di ricerca e di recupero semantico.
Basato su Gemma 3, questo modello produce rappresentazioni vettoriali del testo per la classificazione, il raggruppamento e la ricerca di somiglianze. Addestrato su oltre 100 lingue, le sue dimensioni ridotte lo rendono perfetto per ambienti con risorse limitate.
57 token/secondo

gpt-oss:20b

Il modello linguistico open-weight di OpenAI, ottimizzato per l'efficienza e la distribuzione su hardware consumer.
Un modello Mixture-of-Experts (MoE) con 21 miliardi di parametri e 3,6 miliardi di parametri attivi. Offre uno sforzo di ragionamento e capacità di agente configurabili.
55 gettoni/secondo

qwen3-2507-pensiero:4b

Modello Qwen3-4B ottimizzato per il ragionamento, con prestazioni migliorate nei compiti di logica, matematica, scienze e codice, e contesto esteso a 250K token.
Questa versione "Thinking" ha una lunghezza di pensiero maggiore, che la rende ideale per compiti di ragionamento molto complessi. Offre inoltre miglioramenti generali nel seguire le istruzioni, nell'utilizzare gli strumenti e nel generare testi.
22 gettoni/secondo

rnj-1:8b

Modello 8B "Open Weight" specializzato in codice, matematica e scienze (STEM).
RNJ-1 è un modello denso con 8,3 miliardi di parametri addestrato su 8,4 trilioni di token. Utilizza l'attenzione globale e YaRN per offrire un contesto di 32.000 token. Eccelle nella generazione di codice (83,51 TP3T HumanEval+) e nel ragionamento matematico, spesso superando modelli molto più grandi.
64 token/secondo

qwen3-vl:2b

Modello multimodale ultracompatto Qwen3-VL, che offre funzionalità di visione avanzate sui dispositivi edge.
Nonostante le dimensioni ridotte, questo modello integra le tecnologie Qwen3-VL (MRoPE, DeepStack) per offrire un'analisi delle immagini e dei video sorprendente. Ideale per applicazioni mobili o integrate che richiedono OCR, rilevamento di oggetti o comprensione visiva rapida.
49 token/secondo

qwen3-vl:4b

Modello multimodale Qwen3-VL bilanciato, che offre solide prestazioni di visione con un ingombro ridotto.
Ottimo compromesso tra prestazioni e risorse. In grado di analizzare documenti complessi, grafici e video con elevata precisione. Supporta l'estrazione strutturata e il ragionamento visivo.
16 token/secondo

qwen3.5:0.8b

Modello Qwen3.5 ultraleggero con 0,8 miliardi di parametri, che offre un eccezionale contesto nativo di 250K gettoni - una capacità notevole per un modello di queste dimensioni.
Contesto configurato fino a 250.000 token (contesto massimo nativo 262.144). Ideale per attività di conversazione veloci che richiedono una cronologia molto lunga o l'analisi di documenti di grandi dimensioni con un ingombro di memoria ridotto.
37 token/secondo

qwen3.5:4b

Modello compatto Qwen3.5 con 4 miliardi di parametri, che offre un buon compromesso tra prestazioni ed efficienza.
Contesto di 250k token. Buon candidato per assistenti locali e compiti di ragionamento leggeri.
32 token/secondo

qwen3.5:9b

Qwen3.5 è un modello di dimensioni intermedie, che offre solide capacità di ragionamento con un contesto esteso.
Contesto di 250k token. Offre un buon equilibrio tra qualità della generazione e velocità di inferenza.
46 token/secondo

qwen3:0.6b

Modello Qwen3 ultraleggero con 0,6 miliardi di parametri, che offre un'eccezionale velocità di inferenza per compiti semplici e veloci.
Ideale per l'implementazione su server leggeri o come primo livello di elaborazione per flussi di lavoro complessi. Configurato con un contesto di 40.000 token.
39 token/secondo

qwen3-vl:8b

Modello multimodale Qwen3-VL (8B), che offre prestazioni di visione avanzate con un ingombro ragionevole.
Versione 8B del modello Qwen3-VL. Ottimo compromesso tra prestazioni e risorse. In grado di analizzare documenti, grafici e video complessi con elevata precisione.
33 token/secondo

devstral-small-2:24b

Seconda iterazione di Devstral (Small 2), un modello agenziale all'avanguardia per l'ingegneria del software.
Ottimizzato per l'esplorazione della base di codice, la modifica di più file e l'uso di strumenti. Offre prestazioni vicine a >100B modelli per il codice (SWE-bench Verified 68%). Supporto nativo per la visione. Contesto di 200k token.
84 token/secondo

deepseek-ocr

Il modello OCR specializzato di DeepSeek, progettato per l'estrazione del testo ad alta precisione con conservazione della formattazione.
Sistema OCR a due stadi (codificatore visivo + decodificatore MoE 3B) ottimizzato per la conversione di documenti in Markdown strutturato (tabelle, formule). Richiede una pre-elaborazione specifica (Logits Processor) per ottenere prestazioni ottimali.
28 gettoni/secondo

mistral-small3.2:24b

Aggiornamento minore di Mistral Small 3.1, che migliora il tracciamento delle istruzioni, la robustezza delle chiamate di funzione e riduce gli errori di ripetizione.
Questa versione 3.2 mantiene i punti di forza del suo predecessore, pur apportando miglioramenti mirati. È in grado di seguire meglio istruzioni precise, produce meno generazioni infinite o risposte ripetitive e il suo modello di chiamata di funzione è più robusto.
100 token/secondo

mistral-small4:119b

Aggiornamento minore di Mistral Small 3.2, che migliora il tracciamento delle istruzioni, la robustezza delle chiamate di funzione e riduce gli errori di ripetizione.
Questa versione 4 mantiene i punti di forza del suo predecessore, pur apportando miglioramenti mirati. È in grado di seguire meglio istruzioni precise, produce meno generazioni infinite o risposte ripetitive e il suo modello di chiamata di funzione è più robusto.
27 gettoni/secondo

translategemma:12b

Modello di traduzione aperta all'avanguardia basato su Gemma 3, che copre 55 lingue.
TranslateGemma 12B offre capacità di traduzione ad alta fedeltà nel rispetto delle sfumature grammaticali e culturali. Contesto di 128k tokens.
37 token/secondo

translategemma:4b

Versione compatta del modello di traduzione TranslateGemma, ottimizzato per la velocità.
TranslateGemma 4B offre funzionalità di traduzione rapide ed efficienti per 55 lingue. Contesto di 128k token.
16 token/secondo

translategemma:27b

Modello di traduzione ad alte prestazioni basato su Gemma 3 27B.
TranslateGemma 27B offre una qualità di traduzione superiore per contenuti complessi e tecnici.

voxtral

Il modello ASR (Automatic Speech Recognition) in tempo reale di Mistral AI, in grado di trascrivere audio in streaming via WebSocket.
Voxtral Mini 4B opera in modalità Realtime tramite l'endpoint /v1/realtime (WebSocket). Trascrive l'audio continuo con estrazione di token e tracciamento del tempo ASR.

immagine z:16b

Modello per la generazione di immagini da richieste di testo, compatibile con l'API OpenAI /v1/images/generations.
Z-Image Turbo è un modello di generazione di immagini compatibile con l'API OpenAI Images. Supporta parametri per la dimensione e il numero di immagini.

Modello a confronto

Questa tabella di confronto vi aiuterà a scegliere il modello più adatto alle vostre esigenze, in base a vari criteri come le dimensioni del contesto, le prestazioni e i casi d'uso specifici.

Tabella comparativa delle caratteristiche e delle prestazioni dei vari modelli di IA disponibili, raggruppati per categoria (modelli su larga scala e modelli specializzati).
Modello Editore Parametri Contesto (k token) Visione Agente Ragionamento Sicurezza Rapido * Efficienza energetica *
Modelli grandi
gemma4:31b Google 31B 250000
glm-4.7-flash:30b Zhipu AI 30B 120000
qwen3-omni:30b Squadra Qwen 30B 32768
gpt-oss:120b OpenAI 120B 120000
lama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
qwen3.6:35b Squadra Qwen 35B 1000000
qwen3.5:35b Squadra Qwen 35B 1000000
qwen3.5:27b Squadra Qwen 27B 1000000
qwen-coder-next:80b Squadra Qwen 80B 250000
qwen3-next:80b Squadra Qwen 80B 250000
qwen3-vl:30b Squadra Qwen 30B 250000
qwen3-vl:32b Squadra Qwen 32B 250000
olmo-3:7b AllenAI 7B 65536
olmo-3:32b AllenAI 32B 65536
qwen3-2507:235b Squadra Qwen 235B 200000
qwen3-vl:235b Squadra Qwen 235B 200000
ministeriale-3:14b Mistral AI 14B 250000
cogito:32b Cogito profondo 32B 32000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-cascata:30b NVIDIA 30B 1000000
nemotron-3-super:120b NVIDIA 120B 1000000
Modelli specializzati
ministeriale-3:3b Mistral AI 3B 250000
ministeriale-3:8b Mistral AI 8B 250000
funzione gemma: 270 m Google 270M 32768
granito3.2-visione:2b IBM 2B 16384
qwen3-embedding:0.6b Squadra Qwen 0.6B 32768
granito-embedding:278m IBM 278M 512
qwen3-embedding:4b Squadra Qwen 4B 40000
bge-m3:567m BAAI 567M 8192
embeddinggemma:300m Google 300M 2048
gpt-oss:20b OpenAI 20B 120000
qwen3-2507-pensiero:4b Squadra Qwen 4B 250000
rnj-1:8b Essential AI 8B 32000
qwen3-vl:2b Squadra Qwen 2B 250000
qwen3-vl:4b Squadra Qwen 4B 250000
qwen3.5:0.8b Squadra Qwen 0.8B 250000
qwen3.5:4b Squadra Qwen 4B 250000
qwen3.5:9b Squadra Qwen 9B 250000
qwen3:0.6b Squadra Qwen 0.6B 40000
qwen3-vl:8b Squadra Qwen 8B 250000
devstral-small-2:24b Mistral AI e All Hands AI 24B 200000
deepseek-ocr DeepSeek AI 3B 8192
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
translategemma:27b Google 27B 120000
voxtral Mistral AI 4B 32768 N.C.
immagine z:16b Comunità 16B N.C.
Legenda e spiegazione
Funzionalità o capacità supportata dal modello
Funzionalità o capacità non supportate dal modello
* Efficienza energetica Indica un consumo energetico particolarmente basso (< 2,0 kWh/Mtoken)
* Veloce Modello in grado di generare più di 50 gettoni al secondo
Nota sulle misure di performance
I valori di velocità (token/s) rappresentano gli obiettivi di prestazione in condizioni reali. Il consumo energetico (kWh/Mtoken) è calcolato dividendo la potenza stimata del server di inferenza (in Watt) per la velocità misurata del modello (in token/secondo), quindi convertito in kilowattora per milione di token (divisione per 3,6). Questo metodo offre un confronto pratico dell'efficienza energetica di diversi modelli, da utilizzare come indicatore relativo piuttosto che come misura assoluta del consumo energetico.

Casi d'uso consigliati

Ecco alcuni casi d'uso comuni e i modelli più adatti per ciascuno di essi. Queste raccomandazioni si basano sulle prestazioni e sulle capacità specifiche di ciascun modello.

Dialogo multilingue

Chatbot e assistenti in grado di comunicare in diverse lingue, con rilevamento automatico, mantenimento del contesto durante la conversazione e comprensione delle specificità linguistiche.
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analisi di documenti lunghi

Elaborazione di documenti di grandi dimensioni (>100 pagine), mantenendo il contesto in tutto il testo, estraendo le informazioni chiave, generando sintesi pertinenti e rispondendo a domande specifiche sui contenuti
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmazione e sviluppo

Generazione e ottimizzazione di codice in più linguaggi, debugging, refactoring, sviluppo di funzionalità complete, comprensione di implementazioni algoritmiche complesse e creazione di test unitari.
Modelli consigliati
  • qwen3.6:27b
  • qwen3-2507:235b
  • qwen-coder-next:80b
  • nemotron-3-super:120b

Analisi visiva

Elaborazione diretta di immagini e documenti visivi senza pre-elaborazione OCR, interpretazione di diagrammi tecnici, grafici, tabelle, disegni e foto con generazione di spiegazioni testuali dettagliate del contenuto visivo
Modelli consigliati
  • qwen3.6:27b
  • deepseek-ocr
  • qwen3.6:35b

Sicurezza e conformità

Applicazioni che richiedono specifiche funzionalità di sicurezza; filtraggio di contenuti sensibili, tracciabilità dei ragionamenti, verifica RGPD/HDS, minimizzazione dei rischi, analisi delle vulnerabilità e conformità alle normative settoriali.
Modelli consigliati
  • granito3-guardia:8b
  • qwen3.6:27b
  • granito3-guardiano:2b

Impieghi leggeri e a bordo

Test di applicazioni nel tempio del cloud che richiedono un ingombro minimo di risorse, implementazione su dispositivi a capacità limitata, inferenza in tempo reale su CPU standard e integrazione in sistemi embedded o IoT.
Modelli consigliati
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministeriale-3:3b
Contattate le nostre squadre!
Politica sui cookie

Utilizziamo i cookie per offrirvi la migliore esperienza possibile sul nostro sito, ma non raccogliamo alcun dato personale.

I servizi di misurazione dell'audience, necessari per il funzionamento e il miglioramento del nostro sito, non consentono di identificarvi personalmente. Tuttavia, avete la possibilità di opporvi al loro utilizzo.

Per ulteriori informazioni, consultare il nostro Informativa sulla privacy.