GenAI: partnership, dati e “data winter” nella Generative AI
La GenAI, contrazione di Generative AI, o AI Generativa, indica un tipo di Intelligenza Artificiale che attraverso algoritmi di Machine Learning può generare nuovi contenuti (come testi, immagini, video, codici, ecc,), in precedenza basati sulla creatività dell’uomo. Numerose sono le collaborazioni, e anche le controversie, nate a seguito di questa rivoluzione nel mondo dell’AI (Artificial Intelligence) e, più in generale, dell’Innovazione Digitale. Le novità, però, riguardando anche e soprattutto le opportunità, le sfide e le preoccupazioni riguardanti il valore dei dati.
GenAI: partnership e controversi
OpenAI, la società di Ricerca sull’Intelligenza Artificiale fondatrice della piattaforma di GenAI ChatGPT, ha annunciato il 20 agosto 2024 una partnership con Condé Nast per consentire ai propri strumenti di AI (Artificial Intelligence) di accedere ai contenuti di riviste come Vogue, The New Yorker e Wired. È solo l’ultima delle cosiddette data partnership promosse da OpenAI e attivate ufficialmente da novembre 2023. Queste data partnership hanno già coinvolto altri attori rilevanti, provenienti dal mondo dell’editoria, delle community online specializzate e non (a partire dalle più grandi ovviamente) o degli aggregatori di dati. Per citarne alcuni nei diversi ambiti, sono presenti attori come il Financial Times, Le Monde, Shutterstock o Stack Overflow. Un ulteriore caso molto discusso è quello di Reddit, la piattaforma di Social Media che ha al momento in essere accordi sia con Google sia con OpenAI per rendere disponibile i propri contenuti per l’addestramento dei modelli di intelligenza artificiale.
Dall’altro lato, prosegue la “guerra” tra OpenAI e il New York Times. Com’è noto, quest’ultimo a dicembre 2023 ha fatto causa ad OpenAI per aver addestrato ChatGPT su contenuti degli archivi digitali del giornale. Il procedimento, tutt’ora in corso, farà sicuramente giurisprudenza e potrebbe anche andare a innovare i limiti giuridici del copyright, adeguandolo alle nuove necessità dell’Intelligenza Artificiale.
GenAI: un’opportunità per riconoscere il valore di dati di qualità
Le storie sulla GenAI citate sono solo alcuni esempi di una realtà in fermento, alla cui base ci sono aziende che riconoscono il valore dei propri dati e si occupano di tutelarli o di farne una nuova fonte di reddito. La Generative AI, dunque ci dà l’opportunità di mettere finalmente a terra il concetto di “valore dei dati”, di cui da molti anni si parla, ma che è sempre difficile tradurre in termini strettamente economici. Un passaggio che non dovrebbe riguardare solo le realtà aziendali, ma che dovrebbe interessare anche il singolo utente internet, che di fatto ha contribuito, tramite la creazione di contenuti online, all’addestramento degli algoritmi. Per non parlare poi di una tendenza già in atto, ossia la possibilità di lavorare per l’addestramento e la rifinitura degli algoritmi come nuovi “operai specializzati”.
Nella GenAI avere tanti dati infatti è condizione necessaria, ma non sufficiente, è la qualità a fare la differenza. Le aziende leader in ambito AI questo lo sanno bene. Per comprendere meglio il concetto, può essere utile conoscere come un algoritmo, quale ad esempio GPT-3, è stato addestrato. Secondo il paper “Language Models are Few-Shot Learners”, GPT-3, è stato trainato su un totale di circa 570 GB di dati. Non così tanti se pensiamo che già nel 2020 si stimavano 44 zettabyte di dati (1 zettabyte corrisponde a 1012 gygabyte) presenti online. Ciò che impariamo però – guardando ad esempio ad una delle principali fonti di addestramento, il database Common Crawl (dataset open che contiene petabyte di dati raccolti sul web dal 2008) – è che è stato realizzato un lungo processo di filtraggio, preparazione e arricchimento dei dati prima di essere utilizzati per il training dell’algoritmo. In breve, avere grandissime quantità di dati è necessario per un modello che lavori a così ampio spettro, ma è solo una precondizione per andare poi ad utilizzare realmente una quantità minore di dati di alta qualità.
Ancora una volta due insegnamenti. Per le aziende che si approcciano alle progettualità di GenAI con il desiderio di far lavorare i modelli sulla propria knowledge base, la necessità è ormai sempre più incontrovertibile: focalizzarsi sulla preparazione e miglioramento del dataset è la priorità. Per il singolo cittadino, vi è l’opportunità di riappropriarsi del valore dei dati – siano essi informazioni personali, di comportamento o contenuti testuali –, di cui siamo tutti produttori. Seppur su domini diversi, anche le normative europee, in particolare il Data Act, muovono verso lo stesso principio.
GenAI e “data winter”: preoccupazione infondata o realtà?
Concentrandosi sui dati testuali per la GenAI, c’è chi pone l’attenzione sul tema del cosiddetto “data winter”. Nel paper “Will we run out of data? Limits of LLM scaling based on human-generated data”, gli autori hanno ipotizzato, con un intervallo di confidenza dell’80%, che lo stock di dati creati dagli umani sarà completamente utilizzato dai Large Language Models tra il 2026 e il 2032. Dopo decenni passati a parlare di Big Data, questa affermazione ci può sembrare incredibile. Ma saranno davvero questi i tempi? Sarà davvero un problema o saremo in grado di allenare l’AI su dati che essa stessa ha generato? Difficile dirlo. Sulla seconda questione, la ricerca “AI models collapse when trained on recursively generated data”, pubblicata su Nature a luglio 2024, ci dice che i primi tentativi di addestramento su dati sintetici – ossia generati dall’AI stessa – non stanno andando a buon fine. I modelli “collassano” molto velocemente, a causa dell’accumularsi di errori ripetuti. Ma ciò che oggi sembra infattibile potrebbe non esserlo più nel breve periodo.
Nell’insieme, è probabile che grazie ai progressi delle modalità di addestramento della GenAI e nell’utilizzo dei dati sintetici saremo in grado di superare, almeno parzialmente, i limiti che oggi vedono gli studiosi. Tuttavia, le condizioni al contorno diventano sempre più complesse. Ad esempio, l’utilizzo diffuso di strumenti di Generative AI nella scrittura di contenuti potrebbe portare ad allenare i modelli, anche in maniera parzialmente inconsapevole, su testi ibridi, non totalmente generati dagli umani. Quali saranno gli impatti di questo cambiamento? Al di là di qualsiasi miglioramento della tecnica, ci portiamo a casa un messaggio chiaro: a differenza rispetto alla narrazione a cui siamo stati abituati negli ultimi anni, è bene iniziare a considerare davvero il dato generato dall’umano, curato e di buona qualità risorsa scarsa. Ciò è ancor più vero se parliamo di tematiche specifiche, dalle news verificate ai contenuti scritti da grandi autori, passando per il know-how di decenni di un’azienda altamente specializzata. E le regole del mercato sono chiare, se una risorsa è scarsa vale di più.
A cura di
Irene Di Deo
DirettriceRicercatrice Senior dell'Osservatorio Big Data & Business Analytics, dell'Osservatorio Artificial Intelligence e dell'Osservatorio Intelligent Business Process Automation
Siamo a tua disposizione per informazioni e assistenza
Martina Vertemati
Acquisti e abbonamenti Da Lunedì al Venerdì, dalle 09 alle 18Alessia Barone
Assistenza abbonati Da Lunedì al Venerdì, dalle 09 alle 18Scopri altri contenuti di Big Data & Business Analytics