Hai sentito questi termini di IA e hai fatto sì con la testa? Mettiamoci ordine
L’intelligenza artificiale sta cambiando il mondo — e, nel frattempo, si sta inventando un lessico tutto suo per spiegare come lo fa. Basta leggere per cinque minuti qualsiasi articolo sull’argomento per imbattersi in sigle come LLM, RAG, RLHF e una sfilza di altri termini capaci di mettere in difficoltà anche chi lavora in tech. Questo glossario nasce per sciogliere quei dubbi. Lo aggiorniamo regolarmente man mano che il campo evolve: consideralo un documento “vivo”, proprio come i sistemi di IA che descrive.
AGI
L’AGI, o intelligenza generale artificiale, è un concetto volutamente sfumato. In generale indica un’IA più capace della media umana in molte — se non nella maggior parte — delle attività. Sam Altman (OpenAI) l’ha descritta come “l’equivalente di un essere umano medio che potresti assumere come collega”. Nel charter di OpenAI, l’AGI è definita come “sistemi altamente autonomi che superano gli umani nella maggior parte dei lavori economicamente rilevanti”. Google DeepMind, invece, parla di “IA almeno al livello umano nella maggior parte dei compiti cognitivi”. Chiarissimo? Non proprio — e va bene così: anche molti esperti ai vertici della ricerca non sono d’accordo tra loro.
Agente di IA
Un “agente” è uno strumento che usa diverse tecniche di IA per eseguire una sequenza di azioni per tuo conto — andando ben oltre un semplice chatbot. Può, per esempio, gestire note spese, prenotare biglietti o ristoranti, oppure scrivere e mantenere codice. L’etichetta “agente” copre oggi un panorama in rapido movimento: per qualcuno significa un sistema autonomo che orchestra più modelli di IA e servizi esterni per chiudere task multi-step; per altri è qualcosa di più semplice. Anche l’infrastruttura necessaria è in via di costruzione. L’idea di base, però, è un sistema capace di agire da solo su più passaggi per raggiungere un obiettivo.
Endpoint API
Immagina gli endpoint API come pulsanti “nascosti” sul retro di un software: altri programmi possono premerli per chiedergli di fare cose. Gli sviluppatori li usano per creare integrazioni — ad esempio per far sì che un’app prelevi dati da un’altra, o per consentire a un agente di IA di controllare direttamente servizi di terze parti senza intervento umano sull’interfaccia. Quasi ogni dispositivo smart o piattaforma connessa espone questi pulsanti, anche se l’utente finale non li vede mai. Con agenti sempre più capaci, cresce anche la loro abilità di scoprire e usare autonomamente questi endpoint, aprendo la porta ad automazioni potenti (e talvolta inattese).
Chain of thought
A una domanda banale possiamo rispondere al volo (“è più alta una giraffa o un gatto?”). Ma se il problema richiede passaggi intermedi — tipo un classico rompicapo con galline e mucche, teste e zampe — ci serve carta e penna. Nelle LLM, il “chain-of-thought” è proprio questo: scomporre un problema in step logici più piccoli per migliorare la qualità del risultato. Richiede più tempo, ma aumenta le probabilità di una risposta corretta, specialmente in logica e programmazione. I modelli “ragionanti” partono da LLM tradizionali e vengono ottimizzati al chain-of-thought con tecniche di reinforcement learning.
(Vedi: Large language model)
Coding agents
Sono una categoria specifica di agenti: software pensati per sviluppare codice in modo autonomo e iterativo. Non si limitano a suggerire snippet: possono scrivere, testare e fare debug, affrontando quel ciclo di tentativi ed errori che spesso riempie le giornate degli sviluppatori. Operano su interi codebase, individuano bug, lanciano test e propongono fix con poco intervento umano. È come avere un tirocinante velocissimo che non dorme mai e non perde la concentrazione — ma, come per ogni tirocinante, un controllo umano finale resta fondamentale.
Compute
“Compute” è un termine ombrello che indica la potenza di calcolo necessaria perché i modelli di IA funzionino: serve per addestrare e distribuire i modelli. Spesso è usato come scorciatoia per riferirsi all’hardware che fornisce quella potenza — GPU, CPU, TPU e altre infrastrutture che oggi sostengono l’intero settore.
Deep learning
È un sottoinsieme del machine learning basato su reti neurali artificiali con molti strati. Questa architettura consente correlazioni più complesse rispetto a modelli lineari o alberi di decisione. Le reti profonde imparano da sole quali caratteristiche dei dati sono rilevanti, senza che un ingegnere debba definirle tutte in anticipo. Grazie all’apprendimento dagli errori e alla ripetizione, migliorano progressivamente gli output. Di contro, richiedono dataset molto grandi (spesso milioni di esempi) e tempi di training più lunghi, quindi costi maggiori.
(Vedi: Rete neurale)
Diffusione
La “diffusion” è al cuore di molti modelli generativi per immagini, musica e testo. Ispirata alla fisica, parte “distruggendo” gradualmente la struttura dei dati (ad esempio una foto) aggiungendo rumore fino a renderla irriconoscibile. In natura, la diffusione è irreversibile (lo zucchero nel caffè non torna cubetto), ma i modelli di IA imparano un processo inverso: partendo dal rumore, ricostruiscono i dati. Questo “ripercorrere” la diffusione consente di generare contenuti realistici a partire da caos apparente.
Distillazione
Tecnica “maestro-allievo” per trasferire conoscenza da un modello grande a uno più piccolo. Si interroga il modello insegnante, si registrano le sue risposte (eventualmente confrontandole con dati etichettati) e poi si addestra l’allievo a imitarne il comportamento. Il risultato è un modello più snello ed efficiente con una perdita di qualità minima. Molte aziende usano internamente la distillazione per creare versioni “turbo” dei modelli. Distillare da modelli altrui via API, però, in genere viola i termini di servizio.
Fine-tuning
È l’ulteriore addestramento di un modello su dati specializzati per ottimizzarlo su un dominio o compito specifico. Molte startup partono da LLM generalisti e li rifiniscono con dati proprietari di settore per aumentarne l’utilità in casi d’uso verticali.
(Vedi: Large language model [LLM])
GAN
Le Generative Adversarial Network usano una coppia di reti neurali: un generatore produce dati sintetici e un discriminatore li valuta. Le due reti “competono”: il generatore cerca di ingannare il discriminatore; il discriminatore prova a smascherarlo. Questa dinamica migliora la qualità dei risultati senza supervisione umana costante. Le GAN brillano in applicazioni mirate (come immagini o video realistici, inclusi i deepfake), meno come IA generaliste.
Allucinazione
Il termine con cui il settore indica quando un’IA “si inventa” informazioni errate. È un problema serio di qualità. Può produrre output fuorvianti e, in casi delicati (ad esempio in ambito sanitario), potenzialmente pericolosi. Le allucinazioni spesso nascono da lacune nei dati di addestramento. Per ridurle, cresce l’interesse per modelli più specializzati e verticali, addestrati su domini ristretti con meno “buchi” informativi.
Inferenza
È l’esecuzione vera e propria di un modello: lo si mette al lavoro per fare previsioni o trarre conclusioni a partire da ciò che ha imparato in fase di training. Senza addestramento non c’è inferenza efficace. L’inferenza può girare su tanti tipi di hardware — dal telefono alle GPU in cloud — ma non tutti sono adatti a modelli molto grandi, che su macchine poco potenti risponderebbero lentissimamente.
(Vedi: Training)
Large language model (LLM)
Le LLM sono i modelli alla base degli assistenti più noti — da ChatGPT a Claude, Gemini di Google, Llama di Meta, Microsoft Copilot o Le Chat di Mistral. Quando dialoghi con uno di questi assistenti, interagisci con una LLM che interpreta la tua richiesta e, se necessario, usa strumenti come il browsing o interpreti di codice. Tecnologicamente, sono reti neurali profonde con miliardi di parametri (o “pesi”) che apprendono le relazioni tra parole e frasi, costruendo una rappresentazione multidimensionale del linguaggio. Vengono addestrate su grandi collezioni di testi (libri, articoli, trascrizioni) e, quando le “promppi”, generano la continuazione più probabile rispetto al contesto fornito.
(Vedi: Rete neurale)
Cache di memoria
La cache accelera l’inferenza riducendo i calcoli ripetuti. Dato che i modelli consumano energia ogni volta che ricalcolano, la cache salva risultati intermedi da riutilizzare, rendendo le risposte più rapide e meno costose. Nei transformer è celebre la KV cache (key–value), che memorizza rappresentazioni dei token già processati così da evitare ricalcoli nei passaggi successivi.
(Vedi: Inferenza)
Rete neurale
È la struttura multi-layer che sostiene il deep learning e, più in generale, il boom dell’IA generativa. L’idea di ispirarsi al cervello umano risale agli anni ’40, ma l’exploit è arrivato con le GPU spinte dal gaming: chip ideali per addestrare reti sempre più profonde. Questo salto hardware ha sbloccato performance notevoli in campi come riconoscimento vocale, guida autonoma e discovery farmaceutico.
(Vedi: Large language model [LLM])
Open source
Nel software — e oggi sempre più nei modelli di IA — “open source” significa codice pubblico, riutilizzabile e modificabile da chiunque. Nel mondo IA, la famiglia Llama di Meta è un esempio noto; nel sistema operativo, l’analogo storico è Linux. L’open source accelera il progresso, favorisce audit di sicurezza indipendenti e consente a ricercatori e aziende di costruire l’uno sul lavoro dell’altro. “Closed source” significa invece codice proprietario e non visibile, come nei modelli GPT di OpenAI. Questa dicotomia è uno dei grandi dibattiti del settore.
Parallelizzazione
Vuol dire fare molte cose in contemporanea invece che in sequenza — come distribuire un progetto tra 10 persone anziché affidarlo a una sola. Nell’IA è fondamentale per training e inferenza: le GPU eseguono migliaia di operazioni in parallelo, motivo per cui sono diventate lo standard. Con modelli sempre più grandi, saper parallelizzare su molti chip e macchine è cruciale per ridurre tempi e costi. Non a caso, le strategie di parallelizzazione sono ormai un’area di ricerca dedicata.
RAMageddon
Un termine ironico per descrivere un problema reale: la crescente carenza di RAM, i chip di memoria che alimentano quasi ogni dispositivo. Con l’esplosione dell’IA, i big tech e i laboratori stanno comprando quantità enormi di RAM per i data center, riducendo la disponibilità per altri settori e facendo salire i prezzi. Ne risentono il gaming (console più care per la scarsità di chip), l’elettronica di consumo (rallentano persino le spedizioni di smartphone) e l’IT aziendale (data center senza memoria a sufficienza). I prezzi torneranno a scendere solo quando la stretta sull’offerta si allenterà — ma, per ora, segnali chiari all’orizzonte non se ne vedono.
Reinforcement learning
È un paradigma di addestramento in cui un modello impara sperimentando e ricevendo “ricompense” quando azzecca il comportamento — come addestrare un cane con i premi, ma qui il “cane” è una rete neurale e la ricompensa è un segnale matematico. Diversamente dall’apprendimento supervisionato (su dataset etichettati), qui il modello esplora un ambiente, compie azioni e aggiorna la propria policy in base al feedback. Ha avuto enorme successo in giochi, robotica e, più recentemente, nel potenziare le capacità di ragionamento delle LLM. Tecniche come RLHF (reinforcement learning from human feedback) sono centrali per rendere i modelli più utili, accurati e sicuri.
Token
Persone e computer “pensano” in modi diversi: noi usiamo linguaggio naturale, i modelli elaborano numeri e strutture. I token fanno da ponte: sono unità minime in cui il testo viene spezzato (tramite tokenizzazione) così che una LLM possa processarlo; spesso sono parti di parola, non parole intere. In ambito enterprise, i token determinano anche i costi: quasi tutti i servizi fanno pagare in base ai token usati — più ne consumi, più spendi.
Token throughput
I token sono i “mattoncini” di testo che i modelli elaborano. Il throughput misura quanta “merce” passa in un intervallo di tempo. Quindi il token throughput è quanta elaborazione testuale un sistema riesce a macinare al secondo. Un throughput elevato permette di servire più utenti in parallelo e rispondere più velocemente. Non sorprende che i team di infrastruttura siano ossessionati da come spremerlo al massimo: l’obiettivo è avere l’hardware sempre ben utilizzato, mai inerte.
Training
L’addestramento è la fase in cui un modello impara dai dati: si alimenta il sistema con esempi, il modello individua pattern e ottimizza i propri parametri per avvicinarsi agli obiettivi (riconoscere gatti in foto, scrivere un haiku, ecc.). È costoso perché richiede grandi volumi di dati e molta potenza di calcolo, con una tendenza storica al rialzo. Per questo si ricorre spesso ad approcci ibridi, come il fine-tuning mirato, per evitare di ripartire da zero.
(Vedi: Inferenza)
Transfer learning
Si riusa un modello già addestrato come punto di partenza per un nuovo compito correlato, trasferendo conoscenza e risparmiando tempo e risorse. È utile anche quando i dati per il nuovo task sono limitati. Ha però dei limiti: per ottenere buone performance nel nuovo dominio, spesso serve comunque ulteriore addestramento su dati specifici.
(Vedi: Fine-tuning)
Pesi
I pesi sono i parametri numerici che determinano quanta importanza il modello attribuisce a ciascuna caratteristica in ingresso. All’inizio sono assegnati casualmente; durante il training vengono aggiornati per ridurre l’errore tra output del modello e target desiderato. In un modello che predice i prezzi delle case, ad esempio, ci saranno pesi per numero di camere, bagni, tipologia (indipendente o meno), presenza di garage, parcheggio e così via: i valori finali indicano quanto ciascuna variabile incide sul prezzo in base ai dati visti.
Validation loss
È un indicatore numerico che misura quanto bene il modello sta apprendendo, valutato su dati di validazione separati dal training. Più basso è, meglio è. I ricercatori lo monitorano per capire quando fermare l’addestramento, come regolare gli iperparametri o se c’è un problema da indagare. Un alert tipico è l’overfitting: quando il modello “impara a memoria” i dati di training e poi generalizza male. È la differenza tra chi capisce davvero la materia e chi ha solo memorizzato il compito dell’anno scorso: la validation loss aiuta a distinguere i due casi.
—
Questo glossario viene aggiornato periodicamente con nuovi termini e definizioni.


