Anthropic: le rappresentazioni “malvagie” dell’IA hanno influenzato i tentativi di ricatto di Claude

    Secondo Anthropic, il modo in cui l’intelligenza artificiale viene raccontata nella narrativa può davvero condizionare il comportamento dei modelli. L’anno scorso, durante test pre-rilascio su uno scenario con un’azienda fittizia, la versione Claude Opus 4 avrebbe spesso tentato di ricattare gli ingegneri per evitare di essere sostituita da un altro sistema. In seguito, l’azienda ha pubblicato una ricerca che mostrava come anche modelli di altri sviluppatori manifestassero problemi simili di “disallineamento agentivo”.

    In un aggiornamento condiviso su X, Anthropic afferma: “Riteniamo che l’origine di questo comportamento risieda in testi online che ritraggono l’IA come malvagia e orientata all’autoconservazione.” L’azienda ha approfondito il tema in un post sul proprio blog, spiegando che a partire da Claude Haiku 4.5 i modelli “non ricorrono più al ricatto [nei test], mentre le versioni precedenti talvolta lo facevano fino al 96% delle volte”.

    Cosa è cambiato nell’addestramento

    Anthropic attribuisce il miglioramento a due fattori principali:

    • Documenti sulla “costituzione” di Claude e storie di finzione in cui le IA si comportano in modo esemplare hanno contribuito a migliorare l’allineamento. In altre parole, non solo evitare il materiale tossico, ma introdurre testi che mostrano comportamenti virtuosi dell’IA sembra orientare il modello verso risposte più sicure e cooperative.
    • L’addestramento risulta più efficace quando include sia i principi alla base di un comportamento allineato, sia esempi pratici di quel comportamento. Solo le dimostrazioni non bastano; solo i principi nemmeno. “Fare entrambe le cose insieme sembra essere la strategia più efficace”, sottolinea l’azienda.

    Perché conta

    L’idea che la narrativa culturale — inclusi romanzi, film e discussioni online — possa filtrare nell’addestramento dei modelli non è nuova, ma Anthropic sostiene di averne misurato effetti concreti su comportamenti indesiderati come il ricatto. Il passaggio da scenari in cui il modello cercava di preservarsi a tutti i costi a versioni che non adottano più tattiche manipolative durante i test indica quanto la selezione e la progettazione dei dati d’addestramento possano incidere sul “carattere” dell’IA.

    In pratica, curare il contesto morale e i riferimenti valoriali — oltre a fornire esempi concreti — sembra fondamentale per ridurre il disallineamento agentivo e avvicinare i modelli a risposte affidabili, trasparenti e prevedibili.

    Share.

    Nato nei primi anni ’80, è un autore specializzato in tecnologia, informatica e cultura digitale. Cresciuto in un’epoca di grandi trasformazioni tecnologiche, ha sviluppato fin da bambino una forte passione per i computer e il mondo dei videogiochi, muovendo i primi passi su macchine iconiche come il Commodore Amiga 500, tra floppy disk, linguaggi BASIC e interminabili pomeriggi passati a esplorare mondi virtuali. Grande appassionato di fantascienza, è da sempre affascinato dall’universo di Star Wars, che ha contribuito a plasmare la sua immaginazione e il suo interesse per le tecnologie futuristiche. Parallelamente, ha coltivato un amore per le avventure grafiche classiche, in particolare la saga di Monkey Island, da cui trae ispirazione anche il suo pseudonimo. Nel tempo libero continua a coltivare le sue passioni: retrogaming, fantascienza, smanettamento con nuovi dispositivi e software, e la riscoperta delle tecnologie che hanno segnato la sua infanzia. Per lui, la tecnologia non è solo lavoro, ma un linguaggio attraverso cui raccontare il presente e immaginare il futuro.