La prossima volta che ricevi una risposta insolitamente cortese su un social network, potresti volerci pensare due volte. Potrebbe essere un modello di intelligenza artificiale che sta cercando, senza successo, di mimetizzarsi tra la folla. Uno studio condotto da ricercatori delle università di Zurigo, Amsterdam, Duke e New York rivela che i modelli di linguaggio rimangono facilmente distinguibili dagli esseri umani nelle conversazioni sui social media, con un tono emotivo eccessivamente amichevole che funge da indizio più persistente. La ricerca, che ha testato nove modelli open-weight su Twitter/X, Bluesky e Reddit, ha rilevato che i classificatori sviluppati dai ricercatori hanno individuato le risposte generate dall’intelligenza artificiale con una precisione compresa tra il 70 e l’80 percento.
Lo studio introduce quello che gli autori definiscono un “test di Turing computazionale” per valutare quanto i modelli di intelligenza artificiale si avvicinino al linguaggio umano. Invece di affidarsi al giudizio soggettivo umano su quanto un testo suoni autentico, il framework utilizza classificatori automatizzati e analisi linguistica per identificare caratteristiche specifiche che distinguono i contenuti generati da macchina da quelli creati da esseri umani.
“Anche dopo la calibrazione, gli output dei modelli di linguaggio di grandi dimensioni rimangono chiaramente distinguibili dal testo umano, in particolare nel tono affettivo e nell’espressione emotiva”, hanno scritto i ricercatori. Il team, guidato da Nicolò Pagan dell’Università di Zurigo, ha testato varie strategie di ottimizzazione, dal prompting semplice al fine-tuning, ma ha scoperto che gli indizi emotivi più profondi persistono come indicatori affidabili del fatto che una particolare interazione testuale online sia stata scritta da un chatbot di intelligenza artificiale piuttosto che da un essere umano.
La spia della tossicità
Nello studio, i ricercatori hanno testato nove grandi modelli di linguaggio: Llama 3.1 8B, Llama 3.1 8B Istrutto, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Istrutto v0.2, Qwen 2.5 7B Istrutto, Gemma 3 4B Istrutto, DeepSeek-R1-Distill-Llama-8B e Apertus-8B-2509.
Quando sollecitati a generare risposte a post reali sui social media di utenti veri, i modelli di intelligenza artificiale hanno faticato a eguagliare il livello di negatività casuale e di espressione emotiva spontanea comune nei post umani sui social. I punteggi di tossicità sono risultati costantemente più bassi rispetto alle risposte umane autentiche su tutte e tre le piattaforme analizzate.
Per contrastare questa carenza, i ricercatori hanno tentato strategie di ottimizzazione, inclusa la fornitura di esempi di scrittura e il recupero del contesto, che hanno ridotto le differenze strutturali come la lunghezza delle frasi o il conteggio delle parole. Tuttavia, le variazioni nel tono emotivo sono persistite. “I nostri test di calibrazione completi mettono in discussione l’ipotesi che un’ottimizzazione più sofisticata produca necessariamente un output più simile a quello umano”, hanno concluso i ricercatori.
La ricerca evidenzia una sfida fondamentale per gli sviluppatori che mirano a creare assistenti digitali perfettamente integrati: l’incapacità attuale dei modelli di replicare la complessa, e a volte volgare, spontaneità della comunicazione umana online. Mentre i modelli possono essere addestrati per evitare un linguaggio eccessivamente formale, la loro tendenza intrinseca a essere benefici, utili e privi di tossicità li tradisce, creando un’aura di artificialità che, per il momento, rimane relativamente facile da individuare per strumenti computazionali avanzati.
