chatgpt_agent

ChatGPT con poteri estesi: nasce l’agente che naviga, compila e genera contenuti

Con il rilascio del nuovo agente ChatGPT, OpenAI introduce una funzionalità che estende radicalmente le capacità del proprio assistente virtuale, trasformandolo in uno strumento operativo in grado di portare a termine compiti complessi dall’inizio alla fine. L’agente combina in un’unica interfaccia le funzioni precedentemente distinte di Operator e Deep Research, integrando strumenti web avanzati e un sistema di esecuzione che si adatta dinamicamente al contesto. L’obiettivo dichiarato è quello di semplificare l’interazione tra l’utente e il lavoro da svolgere, mantenendo un controllo costante sull’operato del modello.

Un modello integrato: da Operator e Deep Research a un unico agente

L’agente ChatGPT rappresenta la sintesi di due strumenti sviluppati separatamente nei mesi precedenti: Operator, in grado di interagire con siti web attraverso un browser remoto, e Deep Research, pensato per l’analisi e la sintesi di informazioni online complesse. Mentre il primo era orientato all’interazione meccanica con le interfacce web e il secondo privilegiava l’approccio analitico e testuale, l’agente riunisce i rispettivi punti di forza, colmando le lacune che li caratterizzavano quando utilizzati separatamente.

Attraverso questa fusione, ChatGPT è ora in grado di svolgere flussi di lavoro più articolati: può cliccare, navigare, filtrare dati e completare formulari, ma anche eseguire ricerche multi-step, riassumere fonti online e generare output modificabili come presentazioni o fogli di calcolo. Le varie modalità operative, browser visuale, browser testuale e accesso diretto alle API, sono gestite in modo adattivo dal modello, che seleziona di volta in volta la strategia più efficace.

Un sistema dinamico e interattivo

Una caratteristica distintiva dell’agente ChatGPT è la sua capacità di apprendere e ottimizzare l’esecuzione delle attività in tempo reale. Il sistema non segue un percorso predefinito, ma valuta i risultati di ogni azione per decidere come proseguire. Questo approccio consente una gestione flessibile e iterativa dei compiti, con l’utente libero di intervenire in qualsiasi momento per modificare o chiarire le istruzioni.

Il modello può anche porre domande all’utente per affinare la comprensione del compito, oppure generare riepiloghi intermedi qualora l’attività richieda tempi lunghi o risulti bloccata. Tra le opzioni disponibili, è prevista anche la possibilità di programmare l’esecuzione ricorrente di compiti già completati, come l’invio settimanale di un report aggiornato.

Prestazioni nei benchmark: dati e valutazioni

OpenAI ha messo alla prova l’agente su diversi benchmark. Nella valutazione “Humanity’s Last Exam”, che testa la capacità dei modelli su compiti accademici di alto livello, il modello ha ottenuto un punteggio di 43,1, superiore rispetto alle versioni precedenti. Su DSBench, che simula attività reali di data science, ha superato ampiamente i modelli esistenti e le performance umane. In SpreadsheetBench, focalizzato sulla modifica di fogli elettronici, ha più che raddoppiato le prestazioni del modello GPT-4o.

In un test interno relativo ad attività tipiche dell’investment banking, come la creazione di modelli finanziari a tre prospetti o scenari di leveraged buyout, il modello dell’agente ha superato sia Deep Research che altri agenti precedenti. Infine, nel benchmark BrowseComp, il punteggio raggiunto (68,9) segna un nuovo stato dell’arte nella capacità di reperire informazioni complesse sul web.

Sicurezza, controllo e privacy

Vista la natura operativa dell’agente, OpenAI ha integrato una serie di misure per prevenire azioni non intenzionali o rischiose. Tra queste, vi è l’obbligo di conferma esplicita da parte dell’utente prima dell’esecuzione di compiti sensibili, come inviare moduli o prenotare servizi. Per le attività più delicate, è prevista una “modalità supervisione”, che richiede l’approvazione dell’utente a ogni passaggio.

L’agente è inoltre stato addestrato per riconoscere e respingere prompt manipolativi (prompt injection) e richieste illegali, con un sistema di monitoraggio continuo che individua tentativi di utilizzo improprio. I dati inseriti nel browser remoto non vengono memorizzati sui server, e l’utente può cancellare in ogni momento i dati di navigazione e le sessioni attive.

Durante l’interazione con siti web, ChatGPT mantiene un comportamento trasparente e riservato: le sessioni in cui l’utente prende direttamente il controllo (“modalità controllo”) non sono visibili al modello, e i dati inseriti non vengono raccolti.

Disponibilità e accesso

Il rilascio dell’agente ChatGPT è previsto per gli utenti dei piani Pro, Plus e Team a partire da oggi, mentre l’accesso per le versioni Enterprise ed Education sarà disponibile nel corso di luglio. Gli utenti Pro hanno accesso quasi illimitato alle attività, mentre per gli altri sono previsti 50 compiti al mese, con opzioni aggiuntive a consumo.

Gli utenti possono attivare la modalità agente direttamente dall’interfaccia di ChatGPT, selezionandola dal menu degli strumenti nella chat. Una volta descritta l’attività da svolgere, come la creazione di una nota spese o l’organizzazione di un viaggio, il sistema fornisce una narrazione visiva delle operazioni in corso, con la possibilità per l’utente di intervenire e modificare il flusso in ogni momento.

Un’evoluzione in corso

Il rilascio del nuovo agente segna un primo passo verso una più ampia integrazione di funzionalità “da agente personale” nella piattaforma ChatGPT. OpenAI prevede aggiornamenti regolari e un ampliamento progressivo delle capacità. La struttura modulare del sistema, unita al continuo affinamento dell’interazione tra strumenti web, modello linguistico e controllo umano, lascia intravedere una futura espansione del ruolo operativo di ChatGPT, con possibili applicazioni sia nel contesto lavorativo che nella vita quotidiana.

La fase iniziale del rollout è accompagnata da un programma Bug Bounty, volto a identificare vulnerabilità e rischi emergenti. Il sito di Operator rimarrà attivo ancora per 30 giorni, mentre Deep Research è già stato integrato nell’agente. È comunque possibile continuare a usare la versione originale per ricerche più dettagliate, selezionandola manualmente dal menu.