The Curse of Recursion: Perché l’AI rischia l’estinzione per “consanguineità” dei dati
Un recente studio di Nature conferma matematicamente il fenomeno del "Model Collapse": quando i modelli si addestrano su dati sintetici, la varianza crolla e la realtà viene dimenticata.
C’è un paradosso che sta togliendo il sonno ai ricercatori di Oxford e Toronto. Per anni abbiamo pensato che il carburante dell’Intelligenza Artificiale fosse infinito: bastava scansionare internet per avere più dati.
Ma cosa succede quando internet si riempie di testi generati dall’AI stessa? Cosa accade quando GPT-6 viene addestrato sui testi scritti da GPT-5, che a sua volta ha imparato da GPT-4?
La risposta è in un termine che definirà il dibattito tecnologico del 2025: Model Collapse.
Un paper fondamentale pubblicato su Nature da Ilia Shumailov e colleghi (“AI models collapse when trained on recursively generated data”) ha dimostrato matematicamente che senza un afflusso costante di dati umani originali, i modelli linguistici sono destinati a degenerare in una forma di demenza digitale irreversibile.
La Matematica del Collasso: code che scompaiono
Per capire il fenomeno, dobbiamo guardare alla statistica, non alla fantascienza.
I Large Language Models (LLM) sono, alla base, approssimatori di distribuzioni di probabilità. Quando un modello viene addestrato su un dataset, cerca di mappare la distribuzione dei dati originali (il linguaggio umano).
Tuttavia, ogni modello ha un impercettibile tasso di errore: tende a “tagliare” le code della distribuzione (tails), ovvero gli eventi rari, le sfumature linguistiche complesse, la creatività fuori standard. Tende a privilegiare la media, ciò che è più probabile.
Se addestriamo un Modello B sull’output del Modello A (che ha già tagliato le code), il Modello B avrà una varianza ancora minore.
Reiterando il processo per n generazioni (recursive training), la distribuzione collassa su se stessa. Il risultato? Modelli che producono output incredibilmente fluidi ma semanticamente vuoti, privi di logica o, nel peggiore dei casi, allucinati. È l’equivalente digitale della consanguineità genetica.
MAD: Mad Bot Disease
Alcuni ricercatori della Rice University hanno coniato un termine ancora più evocativo: MAD (Model Autophagy Disorder).
Come una cellula che divora se stessa per mancanza di nutrimento esterno, un’AI che si nutre solo di dati sintetici finisce per soffrire di “autofagia”.
Gli esperimenti mostrano che dopo appena 5 generazioni di addestramento ricorsivo su dati sintetici:
– Perdita di Varianza: Le risposte diventano monotone e standardizzate.
– Perdita di Realtà: Il modello inizia a dimenticare fatti storici o logici “rari” che erano presenti nel training set originale umano.
– Distorsione Percettiva: Il sistema si convince che le sue allucinazioni siano la norma statistica.
Il valore dell’Oro Umano
Questa scoperta ha un’implicazione economica devastante. Se i dati sintetici sono “tossici” per l’addestramento a lungo termine, allora i dati umani “vergini” (libri pre-2023, articoli scritti da persone, conversazioni reali) diventano la risorsa più scarsa e preziosa del pianeta.
Siamo di fronte alla fine dell’era del “Big Data indiscriminato”. Per evitare il collasso, le Big Tech dovranno sviluppare nuovi protocolli di Data Provenance: etichettare con certezza crittografica ciò che è umano da ciò che è macchina.
Ironia della sorte, per far sopravvivere l’intelligenza artificiale, avremo bisogno di molta più umanità di quanto avessimo previsto.
Fonti e Riferimenti Accademici:
Shumailov, I., et al. (2024). “AI models collapse when trained on recursively generated data”. Nature.
Alemohammad, S., et al. (2023). “Self-Consuming Generative Models Go MAD”. Rice University / Stanford.
Bohacek, M. & Farid, H. (2023). “Nepotism in Generative AI”. arXiv preprint.