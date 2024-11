I fatti fin qui.

Le intelligenze artificiali hanno bisogno di dati sui quali addestrarsi. Tanti, tanti dati: più ne hanno, più diventano capaci di fornire risposte utili. Un'intelligenza artificiale che elabora testi, per esempio, deve acquisire non miliardi, ma migliaia di miliardi di parole per funzionare decentemente.

Procurarsi così tanto testo non è facile, e quindi le aziende che sviluppano intelligenze artificiali pescano dove possono: non solo libri digitalizzati ma anche pagine Web, articoli di Wikipedia, post sui social network. E ancora non basta. Secondo le indagini del New York Times [link diretto con paywall; copia su Archive.is], OpenAI, l'azienda che sviluppa ChatGPT, aveva già esaurito nel 2021 ogni fonte di testo in inglese pubblicamente disponibile su Internet.

Per sfamare l'appetito incontenibile della sua intelligenza artificiale, OpenAI ha creato uno strumento di riconoscimento vocale, chiamato Whisper, che trascriveva il parlato dei video di YouTube e quindi produceva nuovi testi sui quali continuare ad addestrare ChatGPT. Whisper ha trascritto oltre un milione di ore di video di YouTube, e dall'addestramento basato su quei testi è nato ChatGPT 4.

Questa stessa trascrizione di massa l'ha fatta anche Google, che inoltre ha cambiato le proprie condizioni di servizio per poter acquisire anche i contenuti dei documenti pubblici scritti su Google Docs, le recensioni dei ristoranti di Google Maps, e altro ancora [New York Times].

Da parte sua, Meta ha avvisato noi utenti che da giugno di quest'anno usa tutto quello che scriviamo pubblicamente su Facebook e Instagram per l'addestramento delle sue intelligenze artificiali, a meno che ciascuno di noi non presenti formale opposizione, come ho raccontato nella puntata del 7 giugno 2024.

Insomma, la fame di dati delle intelligenze artificiali non si placa, e le grandi aziende del settore sono disposte a compromessi legalmente discutibili pur di poter mettere le mani sui dati che servono. Per esempio, la legalità di usare massicciamente i contenuti creati dagli YouTuber senza alcun compenso o riconoscimento è perlomeno controversa. Microsoft e OpenAI sono state portate in tribunale negli Stati Uniti con l'accusa di aver addestrato il loro strumento di intelligenza artificiale Copilot usando milioni di righe di codice di programmazione pubblicate sulla piattaforma GitHub senza il consenso dei creatori di quelle righe di codice e violando la licenza open source adottata da quei creatori [Vice.com].

In parole povere, il boom dell'intelligenza artificiale che stiamo vivendo, e i profitti stratosferici di alcune aziende del settore, si basano in gran parte su un saccheggio senza precedenti della fatica di qualcun altro. E quel qualcun altro, spesso, siamo noi.

In questo scenario è arrivata un'accusa molto specifica che, se confermata, rischia di toccarci molto da vicino. L'accusa è che se scriviamo un testo usando Word di Microsoft, quel testo può essere letto e usato per addestrare le intelligenze artificiali dell'azienda.

Questo vorrebbe dire che qualunque lettera confidenziale, referto medico, articolo di giornale, documentazione aziendale riservata, pubblicazione scientifica sotto embargo sarebbe a rischio di essere ingerita nel ventre senza fondo delle IA, dal quale si è già visto che può essere poi rigurgitata, per errore o per dolo, rendendo pubblici i nostri dati riservati, tant'è vero che il già citato New York Times è in causa con OpenAI e con Microsoft perché nei testi generati da ChatGPT e da Copilot compaiono interi blocchi di testi di articoli della testata, ricopiati pari pari [Harvard Law Review].

Vediamo su cosa si basa quest'accusa.

