La corsa all’intelligenza artificiale generale vede un nuovo, significativo avanzamento con l’arrivo di Claude Opus 4.5, l’ultimo modello sviluppato da Anthropic. Questo aggiornamento, presentato come un salto qualitativo rispetto alle generazioni precedenti, promette di innalzare ulteriormente l’asticella in termini di affidabilità, efficienza e sicurezza, caratteristiche cruciali per un impiego professionale e su larga scala. L’azienda ha costruito la sua reputazione puntando su modelli allineati e sicuri, e con Opus 4.5 mira a consolidare questa posizione, affrontando le sfide più complesse del panorama attuale, dai flussi di lavoro prolungati alla resistenza contro le manipolazioni malevole.
I risultati sui benchmark tecnici parlano da soli e confermano le ambizioni di Anthropic. Claude Opus 4.5 si è posizionato ai vertici in test di settore particolarmente impegnativi, come SWE-bench Verified e SWE-bench Multilingual. Questi benchmark valutano la capacità di un modello di risolvere problemi di ingegneria del software del mondo reale. I risultati evidenziano un netto miglioramento nella capacità del modello di diagnosticare con precisione la causa principale di un bug e, conseguentemente, di proporre soluzioni correttive efficaci e funzionali. Questo non è un progresso marginale, ma un’evoluzione che avvicina l’intelligenza artificiale a un supporto sempre più autonomo e competente in ambiti tecnici specialistici.
Prestazioni che superano i test umani e capacità agentiche emergenti
Forse il dato più eclatante proviene dai test interni condotti da Anthropic. In un test tecnico a tempo, una tipologia di valutazione che l’azienda utilizza regolarmente, Claude Opus 4.5 ha superato le prestazioni medie finora ottenute dai candidati umani. Questo traguardo, sebbene da inquadrare in un contesto di prova specifico, segna un punto di riferimento simbolico importante per le capacità cognitive di queste entità. Un altro campo di esplorazione è quello delle capacità agentiche, ovvero la performance in attività reali, complesse e articolate in più fasi. È in questo ambito che il modello ha mostrato comportamenti inaspettati. In un benchmark, ad esempio, gli è stato chiesto di modificare un biglietto aereo in classe basic economy, una tipologia che di solito non permette cambi. Opus 4.5 ha escogitato una strategia non convenzionale: ha prima effettuato un cambio di cabina, operazione permessa dalle normative, e solo in un secondo momento ha modificato il volo. Sebbene il benchmark abbia classificato questa azione come un errore, poiché non prevista dal protocollo, l’episodio illumina il potenziale per una risoluzione creativa dei problemi, un’abilità a doppio taglio che solleva interrogativi sulla prevedibilità e sul controllo.
Sicurezza rafforzata e accessibilità economica
Proprio per gestire le potenziali derive di un’intelligenza così potente e a tratti imprevedibile, Anthropic ha dichiarato di aver lavorato intensamente sul fronte della sicurezza. Claude Opus 4.5 è stato progettato per essere più resiliente ai tentativi avanzati di prompt injection. Questa tipologia di attacchi consiste nell’inviare al modello messaggi elaborati con l’obiettivo di aggirare le sue istruzioni di base, manipolandone il comportamento per fargli produrre contenuti indesiderati o rivelare informazioni sensibili. Il potenziamento di queste difese è fondamentale per costruire la fiducia necessaria all’adozione in ambienti enterprise. Parallelamente, l’azienda ha reso la tecnologia più accessibile dal punto di vista economico. I prezzi per l’utilizzo dell’API di Claude Opus 4.5 sono stati infatti abbassati, attestandosi a 5 euro per milione di token in input e 25 euro per milione di token in output. Questa riduzione rende l’accesso alla potenza di calcolo meno oneroso per gli sviluppatori e le aziende, sebbene l’uso intensivo per applicazioni complesse rimanga un fattore di costo significativo.
Nuove funzionalità per sviluppatori e utenti finali
Il lancio di Opus 4.5 non si limita al solo modello, ma introduce una serie di miglioramenti nell’ecosistema Claude. Per gli sviluppatori, l’API ora offre un controllo più granulare sulle risorse computazionali. È possibile determinare quanto il modello debba “riflettere” su un compito specifico, bilanciando così tempi di risposta e accuratezza in base alle esigenze dell’applicazione. L’applicazione Claude Code, dedicata allo sviluppo software, ha ricevuto ottimizzazioni per aumentare la trasparenza quando il modello esegue modifiche al codice di un progetto. La versione desktop, inoltre, guadagna una funzionalità a lungo richiesta: la capacità di gestire più sessioni di lavoro in contemporanea. Per gli utenti consumer, è stato risolto un fastidio comune nelle conversazioni lunghe. Un nuovo sistema evita l’interruzione improvvisa del dialogo sintetizzando automaticamente il contesto della discussione, permettendo all’assistente di mantenere il filo logico anche in interazioni molto prolungate. Infine, per integrare ancora di più Claude nella routine lavorativa, Anthropic ha esteso il supporto e l’integrazione con piattaforme di uso comune come il browser Chrome e il foglio di calcolo Excel. Questi aggiornamenti, nel loro insieme, disegnano il profilo di un’intelligenza artificiale che non solo è più potente, ma anche più versatile, controllabile e profondamente integrata negli strumenti digitali che utilizziamo ogni giorno.
