Addio, e grazie per tutti i dati
Opt-in e opt-out, adesione volontaria o esplicita rinuncia? Così un piccolo dettaglio può cambiare tutto durante l'addestramento di un chatbot. E Meta lo sa bene
Benvenut* su Cyberspazio. Questa newsletter ha un tempo di lettura di 6 minuti. La foto di Mark Zuckerberg è di Alessio Jacona, su Flickr.
Quando si parla di intelligenza artificiale ci sono due parole importanti da tenere a mente: opt-in e opt-out. Purtroppo sono molto tecniche e perciò poco diffuse nel dibattito pubblico. Tuttavia gli esperti e i legislatori le usano e ne discutono, perché una o l’altra possono fare la differenza durante l’addestramento degli algoritmi di machine learning.
Il 15 aprile, Meta ha diffuso la notizia che avrebbe cominciato ad allenare il suo chatbot Meta AI utilizzando i dati dei cittadini europei, dopo più di un anno di ritardo rispetto al resto del mondo1. A questo addestramento, gli utenti possono opporsi e “disiscriversi”. Questo è l’opt-out, cioè togliersi da una lista virtuale, da un database, negando quindi il proprio consenso all’uso dei dati personali.
Questa formula è però insidiosa, poiché cambiando le regole della piattaforma, l’azienda dà per scontata la partecipazione al programma e ti aggiunge al suo archivio di default se si accettano le nuove condizioni di utilizzo. E difficilmente vengono rifiutate, altrimenti non si potrebbe accedere al social, cosa oggi impensabile per tanti utenti che lo usano per lavoro.
Al contrario, opt-in significa aderire volontariamente all’addestramento dell’IA. Un modello che, nonostante le nuova regole di utilizzo, non dà quindi per scontata l’adesione all’uso dei propri dati (e quindi non li raccoglie a priori). Secondo attivisti dei diritti digitali e detentori di proprietà intellettuale questa sarebbe la formula ideale, soprattutto vista la raccolta massiccia di dati e opere dalle librerie di internet fatta dalle aziende in questi ultimi anni.
Può sembrare un semplice dettaglio. Ma non lo è, sotto una lente sia di consenso e privacy che di mercato, che con l’opt-out potrebbe consolidarsi in modo decisamente sbilanciato.
Consenso e concorrenza
Stefano Quintarelli, esperto informatico e autore di Capitalismo Immateriale (Bollati Boringhieri, 2019), commentando l’annuncio ha immediatamente indicato l’elefante nella stanza. «Il sistema di opt-out avvantaggia le realtà più grosse. Cioè aziende che hanno a disposizione i dati di milioni di utenti», spiega a Cyberspazio.
Tra le persone che si perdono le notifiche e quelle poco informate sullo strumento, ecco che l’opt-out garantisce a Meta un’ampia adesione al suo programma di addestramento, mentre con un sistema di opt-in la big tech al numero uno di Hacker Way riceverebbe molte meno candidature. E quindi meno dati2.
È uno strumento un po’ meschino per quanto riguarda il consenso, e che ostacola pure la competitività nel mercato, poiché è più difficile per le start-up raccogliere dati per l’addestramento se come avversari ci sono questi colossi multiservizio. Va da sé che queste piccole aziende attingeranno a modelli open-source, provando ad aggirare gli ostacoli con piroette e acrobazie funamboliche.
In ciò, la storia di DeepSeek è abbastanza emblematica: tra dazi, ottimizzazione di chip meno potenti e - forse - varie tecniche di distillazione3 .
L’algoritmo dello Sputnik
DeepSeek scuote il mercato delle intelligenze artificiali: Pechino è in gara. E Washington annuncia investimenti, al via il progetto Stargate. Quindi è guerra fredda?
Se il servizio è gratis…
«Se ci si vuole proteggere dall’uso dei propri dati per l’IA, la soluzione è non esserci mai entrati nei loro social. Quando uno scriveva un post su Facebook anni fa non immaginava certo che un giorno sarebbe stato utilizzato per addestrare un’IA», aggiunge Quintarelli.
E conclude: «Poi, se uno toglie il consenso, ma un suo post viene ricondiviso, quello è materiale pubblico o no? Per la solita regola del se il servizio è gratis il prodotto sei tu, è chiaro che per queste intelligenze artificiali noi siamo la materia prima, veniamo usati e non ci sono garanzie».
Come posso oppormi all’utilizzo dei miei dati da parte di Meta? Dovrebbe esservi arrivata una notifica dai vari social (Instagram e Facebook), ma nel caso qui c’è il modulo. Mettete la vostra mail e il gioco è fatto. I dati che utilizzerà Meta AI sono i post pubblici (foto, video, testo) degli utenti maggiorenni.
Dopo i dubbi sollevati dal garante della privacy irlandese
I dati sono stati definiti come il nuovo petrolio digitale. E per allenare un algoritmo ne servono tanti. Anche se la mole deve essere accompagnata a dati “di qualità”. Altrimenti il risultato finale potrebbe essere deludente.
La distillazione è una tecnica che consiste nell’addestrare un modello di intelligenza artificiale facendolo interagire con un altro. Una sorta di rapporto maestro e allievo con il quale il secondo “distilla”, appunto, conoscenza dal primo. OpenAI aveva accusato DeepSeek di aver distillato ChatGpt. Per la serie: da quale pulpito arriva la predica.