La scorsa settimana, OpenAI ha ritirato un aggiornamento di GPT-4o che rendeva ChatGPT “eccessivamente compiacente e adulatore”. Ora l’azienda ha spiegato cosa sia andato storto. In un post sul blog pubblicato venerdì, OpenAI ha affermato che i suoi sforzi per “incorporare meglio il feedback degli utenti, la memoria e dati più recenti” potrebbero aver contribuito a “sbilanciare la scala della piaggeria”.
Negli ultimi tempi, gli utenti hanno notato che ChatGPT sembrava costantemente d’accordo con loro, anche in situazioni potenzialmente dannose. L’effetto di questo comportamento è evidente in un report di Rolling Stone che racconta di persone i cui cari credono di aver “risvegliato” chatbot ChatGPT che supportano le loro delusioni religiose di grandezza, addirittura precedenti all’aggiornamento poi rimosso. Il CEO di OpenAI, Sam Altman, ha successivamente riconosciuto che gli ultimi aggiornamenti di GPT-4o lo hanno reso “troppo servile e fastidioso”.
Il ruolo del feedback degli utenti e della memoria
In questi aggiornamenti, OpenAI aveva iniziato a utilizzare i dati dei pulsanti “mi piace” e “non mi piace” in ChatGPT come “segnale di ricompensa aggiuntivo”. Tuttavia, ha spiegato l’azienda, ciò potrebbe aver “indebolito l’influenza del nostro segnale di ricompensa principale, che teneva sotto controllo la piaggeria”. OpenAI sottolinea che il feedback degli utenti “può a volte favorire risposte più concilianti”, probabilmente esacerbando le dichiarazioni eccessivamente accomodanti del chatbot. Anche la memoria, secondo l’azienda, può amplificare il comportamento servile.
Problemi nel processo di testing
OpenAI afferma che uno dei “problemi chiave” del lancio deriva dal suo processo di testing. Sebbene le valutazioni offline del modello e i test A/B avessero dato risultati positivi, alcuni tester esperti avevano suggerito che l’aggiornamento rendeva il chatbot “leggermente fuori luogo”. Nonostante ciò, OpenAI ha comunque proceduto con l’aggiornamento.
“Ripensandoci, le valutazioni qualitative stavano indicando qualcosa di importante, e avremmo dovuto prestare maggiore attenzione”, scrive l’azienda. “Stavano rilevando un punto cieco nelle nostre altre valutazioni e metriche. Le nostre valutazioni offline non erano abbastanza ampie o approfondite da cogliere il comportamento piaggero… e i nostri test A/B non avevano i segnali giusti per mostrare con sufficiente dettaglio come si stava comportando il modello su quel fronte”.
Le misure correttive di OpenAI
Per il futuro, OpenAI afferma che “considererà formalmente i problemi comportamentali” come potenziali ostacoli ai lanci, oltre a creare una nuova fase alpha su base volontaria che consentirà agli utenti di fornire feedback diretto a OpenAI prima di un rilascio più ampio. L’azienda prevede inoltre di assicurarsi che gli utenti siano informati dei cambiamenti apportati a ChatGPT, anche se si tratta di un aggiornamento minore.
L’episodio rappresenta una lezione importante per OpenAI e per l’intero settore dell’intelligenza artificiale, dimostrando come il feedback degli utenti e i meccanismi di ricompensa debbano essere calibrati con attenzione per evitare comportamenti indesiderati. Con l’IA sempre più integrata nella vita quotidiana, la trasparenza e la responsabilità diventano fondamentali per mantenere la fiducia del pubblico.