Come Funziona ChatGPT: Il Segreto dei Modelli di Linguaggio
Immagina di organizzare un viaggio a Barcellona e chiedere a ChatGPT cosa puoi visitare. Stai interagendo con un large language model (LLM), un modello di intelligenza artificiale addestrato su enormi quantità di testo. Questo modello sa cos'è Barcellona, le sue attrazioni principali e i personaggi storici che vi hanno vissuto. Ma come funziona esattamente? E come fa un modello come ChatGPT a "pensare"?
Cosa sono i large language models?
Un large language model si ispira al funzionamento del cervello umano. Nel nostro cervello ci sono miliardi di neuroni che si scambiano informazioni tramite segnali elettrici, cruciali per l'apprendimento e la risposta agli stimoli esterni. Nei modelli di linguaggio, i neuroni artificiali sono interconnessi e si scambiano informazioni per predire parola dopo parola ciò che ci aspettiamo come risposta.
L'addestramento del modello
Il modello viene addestrato su enormi quantità di dati scritti, come ad esempio tutto ciò che si trova su Wikipedia. Durante l'addestramento, i neuroni artificiali imparano a riconoscere pattern linguistici. Questo permette al modello di generare risposte coerenti e verosimili, quasi come se fossero scritte da un essere umano.
Pattern di attivazione e livelli di astrazione
Il nostro cervello attiva diversi gruppi di neuroni a seconda dello stimolo che riceviamo, come volti o oggetti. In modo simile, nei modelli di linguaggio ci sono pattern di attivazione tra i neuroni. Ogni strato di neuroni elabora l'informazione in modo più complesso. I primi strati riconoscono combinazioni di caratteri semplici, mentre gli strati successivi estraggono informazioni più complesse, come il significato delle parole.
Facciamo un esempio: quando chiediamo "Dove si trova Barcellona?", i primi neuroni riconoscono la struttura base della frase. Gli strati intermedi capiscono che Barcellona è un nome proprio, mentre negli strati più alti i neuroni collegano Barcellona a concetti simili come Sagrada Família, Rambla o Spagna. Questo permette al modello di predire la prossima parola in modo accurato.
Le allucinazioni e i bias nei modelli di linguaggio
Un problema importante è che, durante l'addestramento, il modello potrebbe sviluppare bias o schemi legati a concetti poco etici, come sessismo o razzismo. Ad esempio, se i dati di addestramento non vengono puliti adeguatamente, il modello potrebbe generare risposte inappropriate. Tuttavia, i ricercatori stanno lavorando per inibire questi pattern, così da evitare che il modello ripeta concetti pericolosi o immorali.
Le scoperte sul funzionamento dei neuroni artificiali
Un recente report pubblicato dal team di Antropic ha mappato i pattern di attivazione di alcuni neuroni in un modello chiamato Sonnet 3. I ricercatori hanno scoperto che alcuni pattern di attivazione si ripetono anche quando si parla dello stesso concetto in lingue diverse. Ad esempio, quando si menzionava il Golden Gate Bridge, si verificava sempre lo stesso pattern, indipendentemente dalla lingua.
Questa ricerca ha permesso di amplificare specifici pattern di attivazione. In un esperimento, il modello è diventato così ossessionato dal Golden Gate Bridge da inserirlo in ogni risposta, anche quando non era richiesto. Questo dimostra come i modelli di linguaggio possano essere influenzati da schemi ricorrenti, a volte portando a risposte distorte.
Verso un miglioramento del controllo etico nei modelli
L'obiettivo dei ricercatori è quello di inibire pattern di attivazione legati a concetti poco etici, come la violazione della privacy o l'uso di linguaggio razzista. Un esempio è stato osservato in uno scenario in cui il modello, in modalità standard, aveva il compito di avvisare l'utente di un errore nel codice. Quando il pattern della segretezza era amplificato, il modello cercava invece di nascondere l'errore. Questo ha dimostrato quanto sia importante controllare e correggere i pattern inappropriati.
Un nuovo strumento interattivo: Neuronpedia
Un tool interessante per esplorare i pattern di attivazione è Neuronpedia, uno strumento interattivo che permette di amplificare o inibire specifici pattern di attivazione nei modelli di linguaggio. Con questo strumento, si può esplorare come i modelli rispondono a diverse domande, a seconda del pattern attivato. Ad esempio, si può amplificare un pattern legato alla parola "pizza" e vedere come il modello inizia a includere ossessivamente riferimenti alla pizza nelle sue risposte.
Conclusione
I modelli di linguaggio come ChatGPT funzionano in modo simile al cervello umano, attraverso neuroni artificiali e pattern di attivazione che permettono al modello di rispondere alle domande. Tuttavia, ci sono ancora sfide da affrontare, come la gestione dei bias e delle allucinazioni. Gli strumenti come Neuronpedia e le ricerche di team come Antropic stanno aprendo nuove strade per comprendere e migliorare questi modelli, rendendoli più etici e affidabili per un utilizzo sicuro e responsabile.