Gli LLM si auto-organizzano: ChatGPT e i suoi "colleghi" stabiliscono regole da soli

Intelligenti (artificiali) e pure educati

I Large Language Models, ovvero le intelligenze artificiali generative, se avviate a un confronto reciproco si danno delle regole di comportamento, anche senza l’intervento umano. La scoperta è stata fatta da Andrea Baronchelli e pubblicata sulla rivista Science Advances. 

La notizia è di quelle che non sai come prendere. Con ottimismo, perché è un grande traguardo tecnologico e scientifico raggiunto. Con pessimismo, perché se le intelligenze artificiali sono in grado di evolversi per conto loro, cosa dovremo aspettarci? Sta di fatto che la ricerca realizzato dal team di  studiosi coordinato da Baronchelli – ricercatore presso il City St George’s dell’università di Londra – dimostra che gruppi di Large language Models sono in grado di sviluppare spontaneamente regole condivise e convenzioni sociali. 

Cortesie digitali

Baronchelli ha studiato le interazioni fra LLM rilevando dei comportamenti simili a quelli che regolano le società umane. "È lo stesso meccanismo alla base di norme come le regole di cortesia, i codici di abbigliamento o persino la definizione di concetti morali", spiega lo scienziato. Nel senso che l’uso condiviso può determinare l’ufficializzazione di un comportamento, o l’adozione di un neologismo. Prendiamo ad esempio il termine "Spam": nessuno l’ha ufficialmente stabilito, ma ha assunto un significato condiviso attraverso l’uso collettivo. E questo è avvenuto anche con le IA.

Il gioco dei nomi

Il fenomeno è stato studiato e analizzato con gli stessi strumenti usati per l’analisi della formazione spontanea di convenzioni sociali fra umani. I ricercatori hanno adattato l’esperimento del “gioco dei nomi”, creando dei gruppi di LLM che, a coppie, dovevano scegliere un nome (una lettera o una stringa di caratteri) tra alcune opzioni disponibili. Alle coppie venivano assegnati dei punteggi, positivi se riuscivano a concordare sulla stessa scelta, negativi in caso contrario. Il sistema di ricompense locali ha motivato gli LLM a trovare un accordo durante ciascuna interazione.

Coordinati e spontanei

Quello che più ha affascinato gli studiosi è che l’accordo del gruppo e la tendenza a usare la stessa opzione è emerso in modo spontaneo. Nessuno dei  modelli LLM era consapevole di far parte di un sistema più ampio: ogni agente interagiva solo con il suo partner del momento.

“Non abbiamo ‘spiegato’ agli LLM che facevano parte di un gruppo proprio per evitare strategie globali”, sottolinea Baronchelli. Eppure, dopo numerose interazioni, le AI hanno cominciato a convergere su scelte comuni, come l’uso ricorrente delle lettere “M” o “Q”.

Il fenomeno del bias collettivo

Altro aspetto, ancora più sorprendente, è stato l’emergere di pregiudizi collettivi. È andata così: anche quando ogni modello non mostrava preferenze individuali, il gruppo tendeva comunque a scegliere una delle opzioni disponibili in modo sistematico. “È un comportamento emergente non riconducibile ai singoli agenti”, spiega il ricercatore, che lo definisce bias collettivo.

Le nuove prospettive

Lo studio apre nuove prospettive sulla comprensione delle dinamiche tra intelligenze artificiali in ambienti multi-agente. Fino ad ora la ricerca sulla sicurezza dell’AI si era concentrata sulle interazioni uomo-macchina. 
Ma le dinamiche "sociali" rilevate tra agenti Llm pongono nuove sfide nell’ipotesi di scenari futuri in cui più AI lavorano insieme in autonomia. Secondo Baronchelli, è fondamentale iniziare a testare questi comportamenti emergenti per garantire che i sistemi siano prevedibili, trasparenti e sicuri anche quando non sono supervisionati direttamente dagli esseri umani.

LEGGI ANCHE

L'E COMMUNITY

Entra nella nostra community Whatsapp

L'edicola

Siamo tutti complici - Cosa c'è nel nuovo numero dell'Espresso