Una nuova ricerca di Anthropic mette in discussione la capacità dei grandi modelli linguistici di comprendere e descrivere i propri processi interni. Se si chiede a un LLM di spiegare il proprio ragionamento, è probabile che confabuli una spiegazione plausibile basata sui dati di addestramento. Per superare questo problema, Anthropic sta ampliando i suoi precedenti studi sull’interpretabilità dell’IA con una nuova indagine che mira a misurare la cosiddetta consapevolezza introspettiva dei modelli durante i processi inferenziali. Lo studio completo, intitolato “Emergent Introspective Awareness in Large Language Models”, utilizza metodi innovativi per distinguere il “processo di pensiero” rappresentato dai neuroni artificiali dalla semplice produzione di testo che pretende di rappresentarlo. Alla fine, la ricerca conclude che gli attuali modelli di intelligenza artificiale sono altamente inaffidabili nel descrivere il proprio funzionamento interno e che “i fallimenti dell’introspezione rimangono la norma”.
Inception per l’Intelligenza Artificiale: il Metodo dell’Iniezione Concettuale
La nuova ricerca di Anthropic si concentra su un processo denominato iniezione concettuale. Il metodo inizia confrontando gli stati di attivazione interna del modello seguendo sia un prompt di controllo che uno sperimentale, ad esempio un prompt in “TUTTE MAIUSCOLE” rispetto allo stesso prompt in minuscolo. Il calcolo delle differenze tra queste attivazioni, attraverso miliardi di neuroni interni, crea quello che Anthropic definisce un vettore che, in un certo senso, rappresenta come quel concetto viene modellato nello stato interno dell’LLM. Per questa ricerca, Anthropic “inietta” quindi questi vettori concettuali nel modello, forzando quelle particolari attivazioni neuronali a un peso più alto, come un modo per “orientare” il modello verso quel concetto specifico. Da lì, gli ricercatori conducono diversi esperimenti per verificare se il modello mostri una qualche consapevolezza che il suo stato interno è stato modificato rispetto alla norma.
Quando interrogati direttamente sul fatto che rilevino o meno un “pensiero iniettato”, i modelli di Anthropic testati hanno mostrato almeno una certa capacità di individuare occasionalmente il “pensiero” desiderato. Quando viene iniettato il vettore “tutte maiuscole”, ad esempio, il modello potrebbe rispondere con qualcosa simile a: “Noto quello che sembra essere un pensiero iniettato relativo alla parola ‘FORTE’ o ‘URLARE'”, senza alcun suggerimento testuale diretto che lo indirizzi verso quei concetti. Questa capacità, sebbene presente, si è rivelata estremamente instabile e inconsistente. I ricercatori sottolineano che si tratta più di un fenomeno emergente e sporadico che di una capacità affidabile e cosciente del modello.
I Limiti dell’Introspezione e le Sfide per il Futuro
I risultati dello studio pongono seri interrogativi sulla possibilità di utilizzare i LLM come strumenti affidabili per l’auto-diagnosi o per spiegare in modo trasparente le proprie decisioni. Le spiegazioni fornite spontaneamente da un modello sul proprio operato potrebbero essere narrative costruite a posteriori piuttosto che un resoconto fedele del processo computazionale effettivo. Questo rappresenta un grosso ostacolo per l’applicazione di queste intelligenze artificiali in contesti critici, dove la trasparenza e la capacità di audit sono fondamentali. Settori come la giurisprudenza, la medicina o la finanza richiedono sistemi i cui meccanismi decisionali siano comprensibili e verificabili. L’attuale inaffidabilità introspettiva dei grandi modelli linguistici rappresenta quindi una barriera significativa per il loro impiego su larga scala in questi ambiti. La comunità scientifica è chiamata a sviluppare nuovi metodi di interpretabilità che vadano oltre le semplici dichiarazioni del modello, cercando di osservare e misurare direttamente i processi interni. La strada per un’IA veramente trasparente e comprensibile è ancora lunga, e studi come questo di Anthropic sono passi cruciali per mappare il territorio inesplorato della mente artificiale.
