Calcolo
Risorse di calcolo scalabili e ad alte prestazioni per i vostri carichi di lavoro critici. Orchestrate le vostre applicazioni cloud-native con le nostre moderne soluzioni container.
Scoprite l'offerta di calcolo
Macchine virtuali
Istanze VM
Una soluzione di macchine virtuali on-demand, flessibile e sicura su un'infrastruttura condivisa.
Server dedicati
IaaS open source
Infrastruttura virtualizzata open source in un ambiente cloud qualificato SecNumCloud per una completa sovranità tecnologica.
VMWare IaaS
Le vostre macchine virtuali VMware in un ambiente cloud affidabile qualificato SecNumCloud e certificato HDS.
Metallo nudo
Server dedicati e completamente personalizzabili per una totale autonomia sulla vostra infrastruttura sovrana.
Contenitori
OpenShift PaaS
La piattaforma unificata per creare, modernizzare e distribuire le vostre applicazioni su larga scala in un cloud sovrano.
Kubernetes gestito
Soluzione di orchestrazione dei container gestita che offre sicurezza, resilienza e automazione avanzata su infrastrutture sovrane.
Immagazzinamento
Soluzioni di storage adattabili e ad alte prestazioni per tutte le vostre esigenze. Ottimizzate i vostri dati con le nostre soluzioni a blocchi e a oggetti altamente disponibili.
Scoprite la nostra offerta di stoccaggio
Immagazzinamento
Archiviazione a blocchi
La soluzione di storage a blocchi adattabile per prestazioni di storage ottimali in un cloud sovrano.
Object storage
La soluzione di archiviazione scalabile e conveniente per i vostri dati non strutturati in un cloud sovrano.
Backup
Backup solutions
Soluzioni di backup differenziate e adatte alle vostre sfide e ai vostri ambienti
Rete
Soluzioni di rete avanzate per connettere e proteggere le vostre infrastrutture. Implementate le vostre reti private in modo automatico e sicuro.
Scoprire l'offerta della rete
Rete
Virtual Private Cloud
Implementate e gestite le vostre reti private 100% in modo automatico e sicuro.
Private Backbone
Assumete il pieno controllo della vostra rete con una connettività Layer 2 estesa, progettata per architetture ibride e configurazioni personalizzate.
Firewall
Managed Firewall
Soluzioni di sicurezza avanzate per un isolamento completo e una maggiore protezione
Sistemazione a secco
Alloggi - Spazio dedicato
Hosting sicuro per le vostre apparecchiature in un ambiente dedicato o condiviso, a seconda delle vostre esigenze.
Sicurezza
Soluzioni di sicurezza avanzate per proteggere le vostre infrastrutture critiche. Controllate l'accesso e difendetevi dalle minacce online.
Scopri l'offerta Sicurezza
Rilevamento
SIEM gestito
Una piattaforma centralizzata per la raccolta e la correlazione dei log di sicurezza, che combina l'automazione basata sull'intelligenza artificiale e le regole di rilevamento avanzate (MITRE ATT&CK).
Sovrano SOC
Un'offerta SOC sovrana gestita 24 ore su 24, 7 giorni su 7, distribuibile dal nostro marketplace, su un'infrastruttura qualificata SecNumCloud.
Protezione
Anti DDoS
Lo scudo contro gli attacchi online
Bastion host
Controllo degli accessi trasparente e centralizzato per una solida protezione della vostra infrastruttura
KMS gestito
Gestione sovrana delle chiavi crittografiche, con HSM hardware root of trust, per proteggere i vostri dati più sensibili sull'infrastruttura SecNumCloud.
AI
Soluzioni di intelligenza artificiale per trasformare i dati in approfondimenti e accelerare i processi aziendali.
Scoprite l'offerta IA
AI
LLMaaS
Accesso a modelli linguistici all'avanguardia su un'infrastruttura sovrana, qualificata SecNumCloud e certificata HDS, per applicazioni AI sicure e ad alte prestazioni.
GPU
Istanze di GPU NVIDIA per accelerare l'intelligenza artificiale e il calcolo ad alte prestazioni in un cloud sovrano.
Dati
Soluzioni dati per gestire, analizzare e sfruttare i vostri dati critici.
Scoprire l'offerta di dati
Banche dati
MariaDB gestito
Un database relazionale MariaDB completamente gestito e un backup PITR su infrastruttura sovrana SecNumCloud.
Gestiti PostGreSQL
La soluzione di database relazionale completamente gestita su infrastruttura sovrana SecNumCloud
Grandi dati
Managed Kafka
La piattaforma distribuita open-source per lo streaming di dati in tempo reale
Managed File System
Un file system distribuito gestito, sovrano e ad alta disponibilità, accessibile tramite NFS e SMB sull'infrastruttura SecNumCloud.
Gestione e governance
Servizi di coaching e assistenza per aiutarvi nella vostra trasformazione in cloud.
Scopri i nostri servizi di assistenza
Supporto
Livelli di supporto
Scoprite i 3 livelli di assistenza disponibili per aiutarvi ad affrontare le vostre sfide.
Servizi professionali
Dalla progettazione all'ottimizzazione, Cloud Temple è al vostro fianco in ogni fase del percorso.
La governance
Console - API - Provider Terraform
Un'unica interfaccia per visualizzare e gestire i vostri prodotti e servizi
Osservabilità
Metriche infrastrutturali disponibili negli standard di mercato
Diventare partner

La nostra offerta Large Language Model as a Service (LLMaaS) vi dà accesso a modelli linguistici all'avanguardia, la cui inferenza viene eseguita con un'infrastruttura qualificata SecNumCloud, certificata HDS per l'hosting di dati sanitari, e quindi sovrana, calcolata in Francia. Beneficiate di prestazioni elevate e di una sicurezza ottimale per le vostre applicazioni AI. I vostri dati rimangono strettamente confidenziali e non vengono né sfruttati né conservati dopo l'elaborazione.

Prezzi semplici e trasparenti
1.8 €
per milione di token in ingresso
8 €
per milione di token emessi
8 €
per milione di gettoni di ragionamento
4 €
per milione di token di reranking
0,01 €
per minuto di audio trascritto *
Calcolato su un'infrastruttura basata in Francia, qualificata SecNumcloud e certificata HDS.
Nota sul premio "Ragionamento" : Questo prezzo si applica specificamente ai modelli classificati come "ragionatori" o "ibridi" (modelli con la capacità "Ragionamento" attivata) quando il ragionamento è attivo e solo sui gettoni legati a questa attività.
* Ogni minuto iniziato viene contato

Chat e ragionamento

I nostri modelli di grandi dimensioni offrono prestazioni all'avanguardia per i compiti più impegnativi. Sono particolarmente adatti alle applicazioni che richiedono una comprensione profonda del linguaggio, ragionamenti complessi o l'elaborazione di documenti lunghi.

80 token/secondo

qwen3.6:27b

Modello di riferimento generalista con un contesto nativo di 1M di token. Eccelle nel ragionamento, nel seguire le istruzioni e nel multilinguismo.
Miglioramenti significativi nel seguire le istruzioni, nel ragionamento, nella comprensione della lettura, nella matematica, nella codifica e nell'uso degli strumenti. Il suo contesto di 1M di token consente l'analisi di interi documenti senza troncamenti.
94 token/secondo

gpt-oss:120b

Il modello open-weight all'avanguardia di OpenAI con ragionamento configurabile e catena di pensiero trasparente.
Modello Mixture-of-Experts con 120 miliardi di parametri che offre ragionamenti configurabili e accesso completo alla catena di pensiero. Ideale per scenari che richiedono una licenza permissiva (Apache 2.0).
41 token/secondo

gpt-oss:20b

Versione compatta del modello OpenAI, ottimizzata per una rapida inferenza con buone capacità di ragionamento.
Modello Mixture-of-Experts con 21 miliardi di parametri e 3,6 miliardi di parametri attivi. Ragionamento configurabile e funzionalità complete di agente.
10 gettoni/secondo

lama3.3:70b

Modello Meta multilingue, eccellente nel dialogo naturale e nella comprensione delle sfumature in 8 lingue.
Supporta inglese, francese, tedesco, spagnolo, italiano, portoghese, hindi e tailandese. La sua finestra di 132k tokens consente di analizzare documenti complessi e lunghe conversazioni.
23 token/secondo

gemma3:27b

Modello multimodale di Google con visione integrata e supporto per oltre 140 lingue. Contesto di 120K tokens.
Include funzionalità multimodali native (testo + immagine) ed eccelle in oltre 140 lingue. Ideale per l'analisi di documenti di grandi dimensioni e per la ricerca documentale.
72 token/secondo

nemotron-3-super:120b

Modello NVIDIA ottimizzato per agenti collaborativi, ragionamenti lunghi e carichi di lavoro ad alto volume. Contesto da 1 milione di gettoni.
Ideale per i flussi di lavoro agici, il ragionamento a lungo termine, l'automazione di grandi volumi (ticket di supporto, analisi di massa), l'uso di strumenti e RAG.
160 token/secondo

nemotron3-nano:30b

Modello NVIDIA ultraveloce (160 t/s) con ragionamento e chiamata di funzioni. Contesto di 1M di token.
Eccelle nella chiamata di funzioni, nel ragionamento strutturato e nell'analisi di contesti lunghi. Rara combinazione di alta velocità e contesti molto lunghi.
130 token/secondo

nemotron-cascata:30b

Modello NVIDIA specializzato in matematica (medaglia d'oro IMO 2025) e decomposizione dei problemi. Contesto 1M di gettoni.
Eccelle nel ragionamento strutturato, nella risoluzione di problemi matematici complessi e nell'analisi di lunghi contesti.
88 token/secondo

glm-4.7-flash:30b

Modello veloce con un eccellente rapporto prestazioni/latenza per il ragionamento e l'analisi.
Offre un'inferenza veloce (88 t/s) con un contesto di 120k token. Particolarmente adatto agli assistenti conversazionali che richiedono una bassa latenza.
21 gettoni/secondo

cogito:32b

Modello di ragionamento analitico avanzato, progettato per la decomposizione di problemi complessi e la verifica logica.
Eccelle nell'analisi multifattoriale, nella dimostrazione formale e nella minimizzazione delle allucinazioni grazie ai meccanismi di verifica logica integrati.
22 gettoni/secondo

olmo-3:32b

Il primo modello di ragionamento completamente aperto su questa scala. Trasparenza totale (dati, codice, peso).
Competere con i migliori modelli proprietari su benchmark complessi (MATH, HumanEval+). In grado di esporre il proprio processo di pensiero. Scelta preferenziale per trasparenza e verificabilità.
35 gettoni/secondo

olmo-3:7b

Modello completamente aperto ed efficiente, eccellente in matematica e programmazione con totale trasparenza.
Ottimizzato per l'efficienza (2,5 volte meno risorse rispetto a Llama 3.1 8B). Ideale per le attività che richiedono una completa riproducibilità e verificabilità.
56 token/secondo

qwen3-2507:235b

Il modello più potente del catalogo (235B parametri, 22B attivi). Eccelle in matematica, codifica e ragionamento logico.
Architettura Mixture-of-Experts ultra-sparse che combina la potenza di un modello molto grande con l'efficienza di un modello più piccolo.
28 gettoni/secondo

mistral-small3.2:24b

Modello Mistral con tracciamento delle istruzioni migliorato, chiamata di funzione robusta e capacità di visione. Rilevamento integrato dei contenuti problematici.
Eccellente tracciamento delle istruzioni, riduzione delle ripetizioni, chiamata di funzioni affidabile. Supporta la visione (analisi delle immagini) e i filtri di sicurezza nativi.
100 token/secondo

mistral-small4:119b

Modello Mistral ad alte prestazioni (119B) con visione, sicurezza integrata e contesto di 262K token. Veloce (100 t/s).
Versione grande della famiglia Mistral Small. Combina potenza, velocità e affidabilità con un contesto esteso. Filtri di sicurezza nativi.
28 gettoni/secondo

ministeriale-3:14b

Il più potente della famiglia Ministral, con ragionamento e codifica avanzati. Contesto di 250K tokens.
Eccelle nel ragionamento complesso e nella codifica, pur rimanendo efficiente.
40 gettoni/secondo

ministeriale-3:8b

Modello Ministral intermedio con un eccellente rapporto prestazioni/velocità. Contesto di 250K gettoni.
Capace di ragionamenti complessi pur rimanendo veloce. Ideale per gli assistenti che richiedono reattività e qualità.
22 gettoni/secondo

ministeriale-3:3b

Modello Mistral compatto, con prestazioni elevate nonostante le dimensioni ridotte. Contesto di 250K gettoni.
Prestazioni sorprendenti per compiti di conversazione e ragionamento semplice, nonostante i soli parametri 3B.
32 token/secondo

qwen3.5:9b

Modello intermedio Qwen3.5 con ragionamento solido e contesto esteso a 250K token.
Buon equilibrio tra qualità della generazione e velocità di inferenza.
37 token/secondo

qwen3.5:4b

Modello compatto Qwen3.5 con un buon rapporto prestazioni/efficienza e un contesto di 250K token.
Ottimo candidato per assistenti e compiti di ragionamento leggeri.
16 token/secondo

qwen3.5:0.8b

Modello ultraleggero con uno sfondo eccezionale di 250K gettoni - notevole per un modello di queste dimensioni.
Ideale per attività di conversazione veloce che richiedono una cronologia molto lunga o l'analisi di documenti di grandi dimensioni con un ingombro ridotto.
46 token/secondo

qwen3:0.6b

Micro-modello ultraveloce per compiti semplici e routing. 40K gettoni di contesto.
Ideale come primo livello di elaborazione in flussi di lavoro complessi o per attività di classificazione rapida.
55 gettoni/secondo

qwen3-2507-pensiero:4b

Modello compatto ottimizzato per il ragionamento profondo (logica, matematica, scienza, codice). Contesto di 250K token.
Versione "Thinking" con capacità di ragionamento avanzate. Combina compattezza, velocità e ragionamento avanzato.
19 gettoni/secondo

qwen3-omni:30b

Modello nativo omnimodale - include testo, immagini, video e audio contemporaneamente.
Supporta l'input multimodale (testo, immagine, audio, video) con capacità di ragionamento avanzate. Nota: l'uscita audio tramite API non è ancora abilitata.

Programmazione e agenti

I nostri modelli di programmazione e di agenti sono appositamente ottimizzati per l'ingegneria del software agenziale, la generazione di codice su larga scala e l'automazione del flusso di lavoro di sviluppo.

121 token/secondo

qwen3.6:35b

Leader nell'ingegneria del software agenziale (SWE-bench 73.4%). Contesto di 1M token, visione integrata e chiamata di strumenti.
Include interi repository di codice grazie al suo contesto di 1M token. Supporta il ragionamento e la visione in più fasi (screenshot, diagrammi). Ottimizzato per IDE e pipeline CI/CD.
97 token/secondo

qwen-coder-next:80b

Modello all'avanguardia per codice e ragionamento complessi. Contesto di 250K token.
Eccelle nella generazione e nell'analisi di codice su larga scala. Progettato per compiti avanzati di ingegneria del software.
67 token/secondo

qwen3-next:80b

Versatile modello 80B ottimizzato per contesti di grandi dimensioni, chiamate di funzioni e ragionamenti strutturati.
Contesto di 250K token con supporto per la chiamata di funzioni e la decodifica guidata.
33 token/secondo

devstral-small-2:24b

Modello agenziale all'avanguardia per l'ingegneria del software. Prestazioni vicine a >100B modelli per codice. Visione integrata.
Ottimizzato per l'esplorazione della base di codice, la modifica di più file e l'uso di strumenti. Supporto nativo per la visione. Contesto di 200K token.
23 token/secondo

rnj-1:8b

Modello STEM specializzato - eccelle in codice (83,5% HumanEval+), matematica e scienze.
Modello denso addestrato su 8,4T token. Spesso supera modelli molto più grandi su compiti di codice e di ragionamento matematico.
40 gettoni/secondo

funzione gemma: 270 m

Micro-modello specializzato nel rilevamento delle chiamate di funzione. Ideale come router in un'architettura agenziale.
Ultra-compatto, ottimizzato per identificare e formattare rapidamente le chiamate di funzione.

Visione e multimodalità

I nostri modelli di visione e multimodali possono analizzare immagini, video e documenti visivi. Eccellono nell'OCR, nel rilevamento di oggetti, nell'estrazione di strutture e nel ragionamento spazio-temporale.

24 gettoni/secondo

qwen3-vl:235b

Il modello multimodale più potente del catalogo. Comprensione visiva avanzata e ragionamento eccezionale.
Eccelle nell'analisi di documenti complessi, nell'OCR multilingue, nel ragionamento spaziale 3D e nella comprensione dei video.
17 gettoni/secondo

qwen3-vl:32b

Variante ad alte prestazioni per i compiti di visione più impegnativi. Contesto 250K gettoni.
Analisi fine di immagini ad alta risoluzione, comprensione di scene dinamiche e allineamento testo-tempistica per i video.
39 token/secondo

qwen3-vl:30b

Modello multimodale ad alte prestazioni per OCR, rilevamento di oggetti, analisi video e ragionamento spazio-temporale.
Incorpora innovazioni nell'analisi di immagini e video. Eccelle nell'OCR complesso, nella grafica e nell'estrazione strutturata (JSON).
39 token/secondo

qwen3-vl:8b

Modello di visione intermedio - buon compromesso tra prestazioni e ingombro. Contesto 250K gettoni.
Capacità di analizzare documenti, grafici e video complessi con un elevato grado di precisione.
57 token/secondo

qwen3-vl:4b

Modello di visione compatto e veloce per l'analisi dei documenti e la comprensione dei video.
Ottimo compromesso tra prestazioni e ingombro. Supporta l'estrazione strutturata e il ragionamento visivo.
64 token/secondo

qwen3-vl:2b

Modello di visione ultracompatto per OCR rapido, rilevamento di oggetti e applicazioni embedded.
Nonostante le dimensioni ridotte, offre un'analisi sorprendente di immagini e video. Ideale per applicazioni mobili o embedded.
59 token/secondo

gemma4:31b

Il denso modello multimodale di Google, classificato al 3° posto al mondo su Arena AI. Visione, ragionamento e codifica avanzati. Contesto 250K gettoni.
Il modello open-source più potente di Google. Chiamata di funzioni nativa, comprensione visiva avanzata (OCR, grafica, documenti, UI). Multilingua (oltre 35 lingue).
125 token/secondo

gemma4:e2b

Variante ultraveloce (125 giri/min) di Gemma 4 con visione. Eccellente efficienza energetica.
Offre un eccezionale rapporto prestazioni/ingombro. Gettoni da 128K con capacità di visione completa.
85 gettoni/secondo

gemma4:e4b

Variante Gemma 4 con un miglior compromesso qualità/velocità rispetto alla versione E2B. Visione integrata.
Migliore fedeltà rispetto alla versione E2B, ma sempre ad alta velocità. Contesto 128K gettoni.
49 token/secondo

granito3.2-visione:2b

Modello di visione compatto IBM Granite per l'OCR rapido e l'estrazione di dati da documenti scansionati.
Leggero ma potente per l'OCR e l'analisi delle immagini a bassa latenza.
84 token/secondo

deepseek-ocr

Modello OCR specializzato per l'estrazione di testo ad alta precisione con mantenimento della formattazione (tabelle, formule).
Ottimizzato per la conversione di documenti in Markdown strutturato. Eccelle con tabelle e formule complesse.

Incorporazione

I nostri modelli di embedding trasformano il testo in rappresentazioni vettoriali per la ricerca semantica, il clustering e le pipeline RAG (Retrieval-Augmented Generation).

171 token/secondo

bge-m3:567m

Incorporamento multilingue all'avanguardia (oltre 100 lingue). Supporta ricerche dense, rade e multivettoriali.
Contesto di 8192 token con tre metodi di ricerca complementari.

qwen3-embedding:4b

Incorporamento ad alte prestazioni con comprensione semantica profonda e contesto esteso (40K token).
Ideale per l'elaborazione di documenti di grandi dimensioni in pipeline RAG.

qwen3-embedding:8b

Incorporamento ad alta capacità con la migliore comprensione semantica della famiglia Qwen3. Contesto esteso (40K tokens).
La versione più potente della famiglia Qwen3 embedding. Ideale per compiti che richiedono la comprensione del contesto.

qwen3-embedding:0.6b

Incorporamento ultraleggero e veloce per la ricerca semantica a bassa latenza.
Ottimo compromesso tra prestazioni semantiche e velocità di esecuzione.
196,3 token/secondo

granito-embedding:278m

Incorporamento IBM ultracompatto per la ricerca semantica con latenza minima.
Il modello di incorporazione più veloce del catalogo. Ideale per il clustering e la ricerca ad alta frequenza.
175 token/secondo

embeddinggemma:300m

Incorporamento Google multilingue (oltre 100 lingue), ottimizzato per la ricerca e il recupero semantico.
Produce rappresentazioni vettoriali del testo per la classificazione, il clustering e la ricerca di similarità.

Reranking

I nostri modelli di reranking riordinano i risultati della ricerca in base alla rilevanza per affinare la qualità delle pipeline RAG. Compatibile con l'API Cohere.

nvidia/llama-nemotron-rerank-vl-1b-v2

Modello di reranking compatibile con le API di Cohere (/v1/rerank e /v2/rerank). Ordina i documenti in base alla pertinenza rispetto a una query.
Compatibile con l'SDK Cohere v1/v2. Il punteggio di rilevanza è un logit grezzo (l'ordine relativo è garantito). Ideale come complemento allo stack RAG (embedding + retrieval + rerank).

qwen3-reranker:4b

Potente modello di reranking con un alto livello di comprensione del contesto.
Eccellente qualità di riprogrammazione grazie ai parametri 4B. Ideale per le pipeline RAG più esigenti.

qwen3-reranker:0.6b

Modello di reranking compatto ed efficiente per una riprogrammazione rapida.
Versione leggera per i casi d'uso che richiedono una bassa latenza di reranking.

bge-reranker-grande

Modello di reranking multilingue ad alte prestazioni della famiglia BGE.
Complementare al modello di incorporazione BGE-M3 per le pipeline RAG complete.

Sicurezza

I nostri modelli di sicurezza sono specializzati nel rilevamento di contenuti problematici, nella prevenzione di jailbreak e nella garanzia di conformità alle normative (RGPD, HDS). Possono essere utilizzati come pre-filtri o post-filtri nei vostri flussi di lavoro.

45 gettoni/secondo

granito3-guardia:8b

Modello di sicurezza specializzato nell'individuazione di contenuti problematici, jailbreak e conformità normativa.
Progettato per filtrare i contenuti sensibili e garantire la conformità RGPD/HDS. Può essere utilizzato come pre-filtro o post-filtro nei vostri flussi di lavoro.
60 gettoni/secondo

granito3-guardiano:2b

Versione compatta del modello di sicurezza Granite Guardian per il filtraggio a bassa latenza.
Stesse capacità di filtraggio della versione 8B, ma con un ingombro ridotto. Ideale per i flussi di lavoro ad alta frequenza.

Traduzione

I nostri modelli di traduzione offrono un'elevata fedeltà in 55 lingue, rispettando la grammatica, le sfumature culturali e le specificità tecniche dei documenti.

17 gettoni/secondo

translategemma:27b

Traduzione ad alte prestazioni per 55 lingue. Qualità superiore per contenuti complessi e tecnici.
Coglie le sfumature letterarie e culturali con eccezionale fedeltà.
27 gettoni/secondo

translategemma:12b

Traduzione ad alta fedeltà per 55 lingue con 128K token.
Rispetta la grammatica e le sfumature culturali. Ideale per documenti lunghi.
31 gettoni/secondo

translategemma:4b

Traduzione rapida ed efficiente per 55 lingue. Ideale per la localizzazione in tempo reale.
Versione compatta con un eccellente rapporto velocità/qualità. Contesto di 128K gettoni.

Audio e immagini

I nostri modelli audio e immagine consentono la trascrizione vocale in tempo reale (streaming ASR) e la generazione di immagini da descrizioni testuali, compatibili con le API OpenAI.

voxtral

Trascrizione audio in tempo reale tramite WebSocket. Riconoscimento vocale in streaming a bassa latenza.
Funziona in modalità Realtime tramite l'endpoint /v1/realtime (WebSocket). Trascrive l'audio in streaming.

immagine z:16b

Generazione di immagini da richieste di testo, compatibile con le API OpenAI /v1/images/generations.
Supporta le dimensioni e il numero di immagini. Compatibile con l'ecosistema OpenAI.

Modello a confronto

Questa tabella di confronto vi aiuterà a scegliere il modello più adatto alle vostre esigenze, in base a vari criteri come le dimensioni del contesto, le prestazioni e i casi d'uso specifici.

Tabella di confronto delle caratteristiche e delle prestazioni dei diversi modelli di IA disponibili, raggruppati per categoria.
Modello Editore Parametri Contesto (k token) Visione Agente Ragionamento Sicurezza Rapido * Efficienza energetica *
Chat e ragionamento
qwen3.6:27b Squadra Qwen 27B 1000000
gpt-oss:120b OpenAI 120B 120000
gpt-oss:20b OpenAI 20B 120000
lama3.3:70b Meta 70B 132000
gemma3:27b Google 27B 120000
nemotron-3-super:120b NVIDIA 120B 1000000
nemotron3-nano:30b NVIDIA 30B 1000000
nemotron-cascata:30b NVIDIA 30B 1000000
glm-4.7-flash:30b Zhipu AI 30B 120000
cogito:32b Cogito profondo 32B 32000
olmo-3:32b AllenAI 32B 65536
olmo-3:7b AllenAI 7B 65536
qwen3-2507:235b Squadra Qwen 235B 200000
mistral-small3.2:24b Mistral AI 24B 128000
mistral-small4:119b Mistral AI 119B 262144
ministeriale-3:14b Mistral AI 14B 250000
ministeriale-3:8b Mistral AI 8B 250000
ministeriale-3:3b Mistral AI 3B 250000
qwen3.5:9b Squadra Qwen 9B 250000
qwen3.5:4b Squadra Qwen 4B 250000
qwen3.5:0.8b Squadra Qwen 0.8B 250000
qwen3:0.6b Squadra Qwen 0.6B 40000
qwen3-2507-pensiero:4b Squadra Qwen 4B 250000
qwen3-omni:30b Squadra Qwen 30B 32768
Programmazione e agenti
qwen3.6:35b Squadra Qwen 35B 1000000
qwen-coder-next:80b Squadra Qwen 80B 250000
qwen3-next:80b Squadra Qwen 80B 250000
devstral-small-2:24b Mistral AI e All Hands AI 24B 200000
rnj-1:8b Essential AI 8B 32000
funzione gemma: 270 m Google 270M 32768
Visione e multimodalità
qwen3-vl:235b Squadra Qwen 235B 200000
qwen3-vl:32b Squadra Qwen 32B 250000
qwen3-vl:30b Squadra Qwen 30B 250000
qwen3-vl:8b Squadra Qwen 8B 250000
qwen3-vl:4b Squadra Qwen 4B 250000
qwen3-vl:2b Squadra Qwen 2B 250000
gemma4:31b Google 31B 250000
gemma4:e2b Google 31B (E2B) 128000
gemma4:e4b Google 31B (E4B) 128000
granito3.2-visione:2b IBM 2B 16384
deepseek-ocr DeepSeek AI 3B 8192
Incorporazione
bge-m3:567m BAAI 567M 8192
qwen3-embedding:4b Squadra Qwen 4B 40000
qwen3-embedding:8b Squadra Qwen 8B 40000
qwen3-embedding:0.6b Squadra Qwen 0.6B 32768
granito-embedding:278m IBM 278M 512
embeddinggemma:300m Google 300M 2048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2 NVIDIA 1B 4096 N.C.
qwen3-reranker:4b Squadra Qwen 4B 4096 N.C.
qwen3-reranker:0.6b Squadra Qwen 0.6B 4096 N.C.
bge-reranker-grande BAAI 335M 512 N.C.
Sicurezza
granito3-guardia:8b IBM 8B 8192
granito3-guardiano:2b IBM 2B 8192
Traduzione
translategemma:27b Google 27B 120000
translategemma:12b Google 12B 128000
translategemma:4b Google 4B 128000
Audio e immagini
voxtral Mistral AI 4B 32768 N.C.
immagine z:16b Comunità 16B N.C.
Legenda e spiegazione
Funzionalità o capacità supportata dal modello
Funzionalità o capacità non supportate dal modello
* Efficienza energetica Indica un consumo energetico particolarmente basso (< 2,0 kWh/Mtoken)
* Veloce Modello in grado di generare più di 50 gettoni al secondo
Nota sulle misure di performance
I valori di velocità (token/s) rappresentano gli obiettivi di prestazione in condizioni reali. Il consumo energetico (kWh/Mtoken) è calcolato dividendo la potenza stimata del server di inferenza (in Watt) per la velocità misurata del modello (in token/secondo), quindi convertito in kilowattora per milione di token (divisione per 3,6). Questo metodo offre un confronto pratico dell'efficienza energetica di diversi modelli, da utilizzare come indicatore relativo piuttosto che come misura assoluta del consumo energetico.

Casi d'uso consigliati

Ecco alcuni casi d'uso comuni e i modelli più adatti per ciascuno di essi. Queste raccomandazioni si basano sulle prestazioni e sulle capacità specifiche di ciascun modello.

Dialogo multilingue

Chatbot e assistenti in grado di comunicare in più lingue con rilevamento automatico e mantenimento del contesto
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • nemotron3-nano:30b
  • gpt-oss:120b

Analisi di documenti lunghi

Elaborazione di documenti di grandi dimensioni (>100 pagine) con estrazione di informazioni chiave, riassunti e risposte a domande
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmazione e sviluppo

Generazione, ottimizzazione e debug del codice in più linguaggi, refactoring e creazione di test.
Modelli consigliati
  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Analisi visiva

Elaborazione di immagini e documenti visivi, OCR, interpretazione di grafici e tabelle
Modelli consigliati
  • qwen3-vl:235b
  • gemma4:31b
  • deepseek-ocr
  • qwen3-vl:30b

Sicurezza e conformità

Filtraggio dei contenuti sensibili, rilevamento del jailbreak, conformità RGPD/HDS
Modelli consigliati
  • granito3-guardia:8b
  • granito3-guardiano:2b
  • mistral-small4:119b

Impieghi leggeri

Applicazioni che richiedono un ingombro minimo, bassa latenza e basso consumo energetico
Modelli consigliati
  • qwen3.5:0.8b
  • qwen3-vl:2b
  • ministeriale-3:3b

RAG (Generazione Aumentata dal Recupero)

Pipeline complete per la ricerca semantica, il riordino e il reperimento di informazioni
Modelli consigliati
  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b
Seguire lo sviluppo dell'offerta LLMaaS

Scoprite tutti i nostri documenti di ricerca sull'IA

 

Politica sui cookie

Utilizziamo i cookie per offrirvi la migliore esperienza possibile sul nostro sito, ma non raccogliamo alcun dato personale.

I servizi di misurazione dell'audience, necessari per il funzionamento e il miglioramento del nostro sito, non consentono di identificarvi personalmente. Tuttavia, avete la possibilità di opporvi al loro utilizzo.

Per ulteriori informazioni, consultare il nostro Informativa sulla privacy.