IA affidabile

Large Language Model as a Service (LLMaaS) - Catalogo dei modelli disponibili

La nostra offerta Large Language Model as a Service (LLMaaS) vi dà accesso a modelli linguistici all'avanguardia, la cui inferenza viene eseguita con un'infrastruttura qualificata SecNumCloud, certificata HDS per l'hosting di dati sanitari, e quindi sovrana, calcolata in Francia. Beneficiate di prestazioni elevate e di una sicurezza ottimale per le vostre applicazioni AI. I vostri dati rimangono strettamente confidenziali e non vengono né sfruttati né conservati dopo l'elaborazione.

Prezzi semplici e trasparenti

1,8 €

per milione di token in ingresso

8 €

per milione di token emessi

8 €

per milione di gettoni di ragionamento

4 €

per milione di token di reranking

0,9 €

per milione di token batch in ingresso

4 €

per milione di token batch in uscita

0,01 €

per minuto di audio trascritto *

Calcolato su un'infrastruttura basata in Francia, qualificata SecNumcloud e certificata HDS.

Nota sul premio "Ragionamento" : Questo prezzo si applica specificamente ai modelli classificati come "ragionatori" o "ibridi" (modelli con la capacità "Ragionamento" attivata) quando il ragionamento è attivo e solo sui gettoni legati a questa attività.

* Ogni minuto iniziato viene contato

Chat e ragionamento

I nostri modelli di grandi dimensioni offrono prestazioni all'avanguardia per i compiti più impegnativi. Sono particolarmente adatti alle applicazioni che richiedono una comprensione profonda del linguaggio, ragionamenti complessi o l'elaborazione di documenti lunghi.

Miglioramenti significativi nel seguire le istruzioni, nel ragionamento, nella comprensione della lettura, nella matematica, nella codifica e nell'uso degli strumenti. Il suo contesto di 1M di token consente l'analisi di interi documenti senza troncamenti.

Parametri :

27B

Dimensione del contesto :

1 000 000

Licenza :

Apache 2.0

Efficacia energetica :

2.78 kWh/Mtoken

CO₂ equivalente :

63.94 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Sfondo

Multilingua

Visione

Ragionamento

Modello Mixture-of-Experts con 120 miliardi di parametri che offre ragionamenti configurabili e accesso completo alla catena di pensiero. Ideale per scenari che richiedono una licenza permissiva (Apache 2.0).

Parametri :

120B

Dimensione del contesto :

120 000

Licenza :

Apache 2.0

Efficacia energetica :

2.37 kWh/Mtoken

CO₂ equivalente :

54.51 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

MoE

Agente

Ragionamento

Open-Source

Molto grande

Supporta inglese, francese, tedesco, spagnolo, italiano, portoghese, hindi e tailandese. La sua finestra di 132k tokens consente di analizzare documenti complessi e lunghe conversazioni.

Parametri :

70B

Dimensione del contesto :

132 000

Licenza :

Licenza comunitaria LLAMA 3.3

Efficacia energetica :

13.33 kWh/Mtoken

CO₂ equivalente :

306.59 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Dialogo

Multilingua

Ideale per i flussi di lavoro agici, il ragionamento a lungo termine, l'automazione di grandi volumi (ticket di supporto, analisi di massa), l'uso di strumenti e RAG.

Parametri :

120B

Dimensione del contesto :

1 000 000

Licenza :

Licenza NVIDIA Community

Efficacia energetica :

1.93 kWh/Mtoken

CO₂ equivalente :

44.39 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Ragionamento

Sfondo

Architettura Mixture-of-Experts ultra-sparse che combina la potenza di un modello molto grande con l'efficienza di un modello più piccolo.

Parametri :

235B

Dimensione del contesto :

200 000

Licenza :

Apache 2.0

Efficacia energetica :

3.97 kWh/Mtoken

CO₂ equivalente :

91.31 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

MoE

Agente

Ragionamento

Molto grande

Versione grande della famiglia Mistral Small. Combina potenza, velocità e affidabilità con un contesto esteso. Filtri di sicurezza nativi.

Parametri :

119B

Dimensione del contesto :

262 144

Licenza :

Apache 2.0

Efficacia energetica :

2 kWh/Mtoken

CO₂ equivalente :

46 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Visione

Agente

Sicurezza

Sfondo

Veloce

Versione "Thinking" con capacità di ragionamento avanzate. Combina compattezza, velocità e ragionamento avanzato.

Parametri :

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

2.42 kWh/Mtoken

CO₂ equivalente :

55.66 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Ragionamento

Sfondo

Compatto

Veloce

Programmazione e agenti

I nostri modelli di programmazione e di agenti sono appositamente ottimizzati per l'ingegneria del software agenziale, la generazione di codice su larga scala e l'automazione del flusso di lavoro di sviluppo.

Include interi repository di codice grazie al suo contesto di 1M token. Supporta il ragionamento e la visione in più fasi (screenshot, diagrammi). Ottimizzato per IDE e pipeline CI/CD.

Parametri :

35B

Dimensione del contesto :

1 000 000

Licenza :

Apache 2.0

Efficacia energetica :

2.07 kWh/Mtoken

CO₂ equivalente :

47.61 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Programmazione

Sfondo

MoE

Visione

Ragionamento

Eccelle nella generazione e nell'analisi di codice su larga scala. Progettato per compiti avanzati di ingegneria del software.

Parametri :

80B

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

2.29 kWh/Mtoken

CO₂ equivalente :

52.67 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Programmazione

MoE

Sfondo

Contesto di 250K token con supporto per la chiamata di funzioni e la decodifica guidata.

Parametri :

80B

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

2.09 kWh/Mtoken

CO₂ equivalente :

48.07 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Sfondo

MoE

Ottimizzato per l'esplorazione della base di codice, la modifica di più file e l'uso di strumenti. Supporto nativo per la visione. Contesto di 200K token.

Parametri :

24B

Dimensione del contesto :

200 000

Licenza :

Apache 2.0

Efficacia energetica :

4.23 kWh/Mtoken

CO₂ equivalente :

97.29 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Programmazione

Visione

Open-Source

Sfondo

Veloce

Ultra-compatto, ottimizzato per identificare e formattare rapidamente le chiamate di funzione.

Parametri :

270M

Dimensione del contesto :

32 768

Licenza :

Condizioni di utilizzo di Google Gemma

Efficacia energetica :

0.97 kWh/Mtoken

CO₂ equivalente :

22.31 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Compatto

Efficiente

Chiamata di funzioni

Visione e multimodalità

I nostri modelli di visione e multimodali possono analizzare immagini, video e documenti visivi. Eccellono nell'OCR, nel rilevamento di oggetti, nell'estrazione di strutture e nel ragionamento spazio-temporale.

Eccelle nell'analisi di documenti complessi, nell'OCR multilingue, nel ragionamento spaziale 3D e nella comprensione dei video.

Parametri :

235B

Dimensione del contesto :

200 000

Licenza :

Apache 2.0

Efficacia energetica :

5.56 kWh/Mtoken

CO₂ equivalente :

127.88 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Ragionamento

Sfondo

Visione

Incorpora innovazioni nell'analisi di immagini e video. Eccelle nell'OCR complesso, nella grafica e nell'estrazione strutturata (JSON).

Parametri :

30B

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

3.39 kWh/Mtoken

CO₂ equivalente :

77.97 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Visione

Agente

Sfondo

Multimodale

Video

OCR

Ottimo compromesso tra prestazioni e ingombro. Supporta l'estrazione strutturata e il ragionamento visivo.

Parametri :

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

2.34 kWh/Mtoken

CO₂ equivalente :

53.82 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Visione

Compatto

Multimodale

Efficiente

Video

OCR

Il modello open-source più potente di Google. Chiamata di funzioni nativa, comprensione visiva avanzata (OCR, grafica, documenti, UI). Multilingua (oltre 35 lingue).

Parametri :

31B

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

3.77 kWh/Mtoken

CO₂ equivalente :

86.71 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Agente

Sfondo

Visione

Ragionamento

Multilingua

Open-Source

Variante 12B della famiglia Gemma 4, che offre un buon compromesso tra qualità multimodale e ingombro. Ragionamento avanzato, comprensione visiva (OCR, grafici, documenti, interfaccia utente) e supporto multilingue (oltre 35 lingue).

Parametri :

12B

Dimensione del contesto :

250 000

Licenza :

Apache 2.0

Efficacia energetica :

3.31 kWh/Mtoken

CO₂ equivalente :

76.13 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Visione

Agente

Sfondo

Multimodale

Ragionamento

Multilingua

Incorporazione

I nostri modelli di embedding trasformano il testo in rappresentazioni vettoriali per la ricerca semantica, il clustering e le pipeline RAG (Retrieval-Augmented Generation).

Contesto di 8192 token con tre metodi di ricerca complementari.

Parametri :

567M

Dimensione del contesto :

8 192

Licenza :

MIT

Efficacia energetica :

0.36 kWh/Mtoken

CO₂ equivalente :

8.28 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Multilingua

Efficiente

Ideale per l'elaborazione di documenti di grandi dimensioni in pipeline RAG.

Parametri :

Dimensione del contesto :

40 000

Licenza :

Apache 2.0

Efficacia energetica :

0.57 kWh/Mtoken

CO₂ equivalente :

13.11 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Sfondo

Efficiente

La versione più potente della famiglia Qwen3 embedding. Ideale per compiti che richiedono la comprensione del contesto.

Parametri :

Dimensione del contesto :

40 000

Licenza :

Apache 2.0

Efficacia energetica :

0.57 kWh/Mtoken

CO₂ equivalente :

13.11 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Sfondo

Alte prestazioni

Ottimo compromesso tra prestazioni semantiche e velocità di esecuzione.

Parametri :

0.6B

Dimensione del contesto :

32 768

Licenza :

Apache 2.0

Efficacia energetica :

0.57 kWh/Mtoken

CO₂ equivalente :

13.11 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Compatto

Efficiente

Il modello di incorporazione più veloce del catalogo. Ideale per il clustering e la ricerca ad alta frequenza.

Parametri :

278M

Dimensione del contesto :

512

Licenza :

Apache 2.0

Efficacia energetica :

0.31 kWh/Mtoken

CO₂ equivalente :

7.13 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Compatto

Efficiente

Produce rappresentazioni vettoriali del testo per la classificazione, il clustering e la ricerca di similarità.

Parametri :

300M

Dimensione del contesto :

2 048

Licenza :

Condizioni di utilizzo di Google Gemma

Efficacia energetica :

0.35 kWh/Mtoken

CO₂ equivalente :

8.05 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Incorporazione

Compatto

Semantica

Efficiente

Multilingua

Reranking

I nostri modelli di reranking riordinano i risultati della ricerca in base alla rilevanza per affinare la qualità delle pipeline RAG. Compatibile con l'API Cohere.

Compatibile con l'SDK Cohere v1/v2. Il punteggio di rilevanza è un logit grezzo (l'ordine relativo è garantito). Ideale come complemento allo stack RAG (embedding + retrieval + rerank).

Parametri :

Dimensione del contesto :

4 096

Licenza :

Licenza NVIDIA Open Model

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

Rerank

RAG

Compatto

Eccellente qualità di riprogrammazione grazie ai parametri 4B. Ideale per le pipeline RAG più esigenti.

Parametri :

Dimensione del contesto :

4 096

Licenza :

Apache 2.0

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

Reranker

Prestazioni

Versione leggera per i casi d'uso che richiedono una bassa latenza di reranking.

Parametri :

0.6B

Dimensione del contesto :

4 096

Licenza :

Apache 2.0

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

Reranker

Compatto

Efficiente

Complementare al modello di incorporazione BGE-M3 per le pipeline RAG complete.

Parametri :

335M

Dimensione del contesto :

512

Licenza :

MIT

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

Reranker

Alte prestazioni

Sicurezza

I nostri modelli di sicurezza sono specializzati nel rilevamento di contenuti problematici, nella prevenzione di jailbreak e nella garanzia di conformità alle normative (RGPD, HDS). Possono essere utilizzati come pre-filtri o post-filtri nei vostri flussi di lavoro.

Versione 4.1 (aprile 2026). Progettato per filtrare i contenuti sensibili e garantire la conformità al GDPR e all'HDS. Utilizzabile come prefiltro o postfiltro nei vostri flussi di lavoro. Hybrid thinking (ragionamento) attivato.

Parametri :

Dimensione del contesto :

8 192

Licenza :

Apache 2.0

Efficacia energetica :

3.09 kWh/Mtoken

CO₂ equivalente :

71.07 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Sicurezza

Parapetti

Conformità

Filtraggio

Stesse capacità di filtraggio della versione 8B con un ingombro ridotto. Ideale per flussi di lavoro ad alta frequenza. Hybrid thinking (ragionamento) attivato.

Parametri :

Dimensione del contesto :

8 192

Licenza :

Apache 2.0

Efficacia energetica :

0.65 kWh/Mtoken

CO₂ equivalente :

14.95 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Sicurezza

Parapetti

Compatto

Efficiente

Traduzione

I nostri modelli di traduzione offrono un'elevata fedeltà in 55 lingue, rispettando la grammatica, le sfumature culturali e le specificità tecniche dei documenti.

Coglie le sfumature letterarie e culturali con eccezionale fedeltà.

Parametri :

27B

Dimensione del contesto :

120 000

Licenza :

Termini di utilizzo di Gemma

Efficacia energetica :

7.84 kWh/Mtoken

CO₂ equivalente :

180.32 CO₂e/Mtoken

Strumenti (funzioni) :

Visione (immagini) :

Traduzione

Multilingua

Specializzato

Alte prestazioni

Audio e immagini

I nostri modelli audio e immagine consentono la trascrizione vocale in tempo reale (streaming ASR) e la generazione di immagini da descrizioni testuali, compatibili con le API OpenAI.

Funziona in modalità Realtime tramite l'endpoint /v1/realtime (WebSocket). Trascrive l'audio in streaming.

Parametri :

Dimensione del contesto :

32 768

Licenza :

Apache 2.0

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

ASR

Audio

In tempo reale

WebSocket

Supporta le dimensioni e il numero di immagini. Compatibile con l'ecosistema OpenAI.

Parametri :

16B

Dimensione del contesto :

N.C.

Licenza :

Pesi liberi

Efficacia energetica :

N.C.

CO₂ equivalente :

N.C.

Strumenti (funzioni) :

Visione (immagini) :

Generazione di immagini

Creativo

Multimodale

Modello a confronto

Questa tabella di confronto vi aiuterà a scegliere il modello più adatto alle vostre esigenze, in base a vari criteri come le dimensioni del contesto, le prestazioni e i casi d'uso specifici.

Tabella di confronto delle caratteristiche e delle prestazioni dei diversi modelli di IA disponibili, raggruppati per categoria.
Modello	Editore	Parametri	Contesto (token)	Efficienza energetica *
Chat e ragionamento
qwen3.6:27b	Squadra Qwen	27B	1 000 000
gpt-oss:120b	OpenAI	120B	120 000
lama3.3:70b	Meta	70B	132 000
nemotron-3-super:120b	NVIDIA	120B	1 000 000
qwen3-2507:235b	Squadra Qwen	235B	200 000
mistral-small4:119b	Mistral AI	119B	262 144
qwen3-2507-pensiero:4b	Squadra Qwen	4B	250 000
Programmazione e agenti
qwen3.6:35b	Squadra Qwen	35B	1 000 000
qwen-coder-next:80b	Squadra Qwen	80B	250 000
qwen3-next:80b	Squadra Qwen	80B	250 000
devstral-small-2:24b	Mistral AI e All Hands AI	24B	200 000
funzione gemma: 270 m	Google	270M	32 768
Visione e multimodalità
qwen3-vl:235b	Squadra Qwen	235B	200 000
qwen3-vl:30b	Squadra Qwen	30B	250 000
qwen3-vl:4b	Squadra Qwen	4B	250 000
gemma4:31b	Google	31B	250 000
gemma4:12b-it-qat	Google	12B	250 000
Incorporazione
bge-m3:567m	BAAI	567M	8 192
qwen3-embedding:4b	Squadra Qwen	4B	40 000
qwen3-embedding:8b	Squadra Qwen	8B	40 000
qwen3-embedding:0.6b	Squadra Qwen	0.6B	32 768
granito-embedding:278m	IBM	278M	512
embeddinggemma:300m	Google	300M	2 048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2	NVIDIA	1B	4 096	N.C.
qwen3-reranker:4b	Squadra Qwen	4B	4 096	N.C.
qwen3-reranker:0.6b	Squadra Qwen	0.6B	4 096	N.C.
bge-reranker-grande	BAAI	335M	512	N.C.
Sicurezza
granito3-guardia:8b	IBM	8B	8 192
granito3-guardiano:2b	IBM	2B	8 192
Traduzione
translategemma:27b	Google	27B	120 000
Audio e immagini
voxtral	Mistral AI	4B	32 768	N.C.
immagine z:16b	Comunità	16B	N.C.	N.C.

Legenda e spiegazione

Funzionalità o capacità supportata dal modello

Funzionalità o capacità non supportate dal modello

* Efficienza energetica Indica un consumo energetico particolarmente basso (< 2,0 kWh/Mtoken)

* Veloce Modello in grado di generare più di 50 gettoni al secondo

Nota sulle misure di performance

I valori di velocità (token/s) rappresentano gli obiettivi di prestazione in condizioni reali. Il consumo energetico (kWh/Mtoken) è calcolato dividendo la potenza stimata del server di inferenza (in Watt) per la velocità misurata del modello (in token/secondo), quindi convertito in kilowattora per milione di token (divisione per 3,6). Questo metodo offre un confronto pratico dell'efficienza energetica di diversi modelli, da utilizzare come indicatore relativo piuttosto che come misura assoluta del consumo energetico.

Casi d'uso consigliati

Ecco alcuni casi d'uso comuni e i modelli più adatti per ciascuno di essi. Queste raccomandazioni si basano sulle prestazioni e sulle capacità specifiche di ciascun modello.

Dialogo multilingue

Chatbot e assistenti in grado di comunicare in più lingue con rilevamento automatico e mantenimento del contesto

Modelli consigliati

nemotron-3-super:120b
qwen3.6:27b
gpt-oss:120b

Analisi di documenti lunghi

Elaborazione di documenti di grandi dimensioni (>100 pagine) con estrazione di informazioni chiave, riassunti e risposte a domande

Modelli consigliati

nemotron-3-super:120b
qwen3.6:27b
qwen3-2507:235b

Programmazione e sviluppo

Generazione, ottimizzazione e debug del codice in più linguaggi, refactoring e creazione di test.

Modelli consigliati

qwen3.6:35b
qwen-coder-next:80b
devstral-small-2:24b
nemotron-3-super:120b

Analisi visiva

Elaborazione di immagini e documenti visivi, OCR, interpretazione di grafici e tabelle

Modelli consigliati

qwen3-vl:235b
gemma4:31b
qwen3-vl:30b

Sicurezza e conformità

Filtraggio dei contenuti sensibili, rilevamento del jailbreak, conformità RGPD/HDS

Modelli consigliati

granite4.1-guardian:8b
granito3-guardia:8b
granito3-guardiano:2b
mistral-small4:119b

Impieghi leggeri

Applicazioni che richiedono un ingombro minimo, bassa latenza e basso consumo energetico

RAG (Generazione Aumentata dal Recupero)

Pipeline complete per la ricerca semantica, il riordino e il reperimento di informazioni

Modelli consigliati

bge-m3:567m
nvidia/llama-nemotron-rerank-vl-1b-v2
qwen3.6:27b

Seguire lo sviluppo dell'offerta LLMaaS

Scoprite tutti i nostri documenti di ricerca sull'IA

Stato del modello I nostri documenti di ricerca

IA affidabile

Chat e ragionamento

qwen3.6:27b

gpt-oss:120b

lama3.3:70b

nemotron-3-super:120b

qwen3-2507:235b

mistral-small4:119b

qwen3-2507-pensiero:4b

Programmazione e agenti

qwen3.6:35b

qwen-coder-next:80b

qwen3-next:80b

devstral-small-2:24b

funzione gemma: 270 m

Visione e multimodalità

qwen3-vl:235b

qwen3-vl:30b

qwen3-vl:4b

gemma4:31b

gemma4:12b-it-qat

Incorporazione

bge-m3:567m

qwen3-embedding:4b

qwen3-embedding:8b

qwen3-embedding:0.6b

granito-embedding:278m

embeddinggemma:300m

Reranking

nvidia/llama-nemotron-rerank-vl-1b-v2

qwen3-reranker:4b

qwen3-reranker:0.6b

bge-reranker-grande

Sicurezza

granito3-guardia:8b

granito3-guardiano:2b

Traduzione

translategemma:27b

Audio e immagini

voxtral

immagine z:16b

Modello a confronto

Casi d'uso consigliati

Dialogo multilingue

Analisi di documenti lunghi

Programmazione e sviluppo

Analisi visiva

Sicurezza e conformità

Impieghi leggeri

RAG (Generazione Aumentata dal Recupero)