Cassandra Crossing/ Un dettaglio tecnico delle false IA sarà decisivo per cambiarne forse il modello di sviluppo, ma certamente quello di business.
[ZEUS News - www.zeusnews.it - 10-11-2023]
Cassandra, come i 24 inscalfibili lettori ricorderanno bene, ha da sempre sostenuto una posizione estremamente critica sulle attuali false intelligenze artificiali, cioè sui grandi modelli linguistici che vengono costantemente abusati per motivi commerciali.
Il problema delle false IA attuali non è quello di funzionare male; in effetti funzionano molto bene, se usate per fare quello per cui sono nate, cioè elaborare testi, come correttori ortografici "on steroid" quali effettivamente sono.
Il problema è piuttosto la campagna di marketing, globale e senza pari nella storia, con cui i modelli linguistici sono stati trasformati in occasioni di business, senza nessuna considerazione sui vantaggi e sui costi sociali che questo comporterà. Senza nessuno scrupolo, insomma. Un film già visto e rivisto, purtroppo.
Tanto per cambiare e non annoiare troppo, Cassandra oggi racconterà un fatto tecnico poco noto sui modelli linguistici, che mette addirittura in dubbio il modello di marketing delle false intelligenze artificiali, e che questo marketing di rapina possa durare a lungo. Il titolo di questa elucubrazione infatti, non è la solita iperbole, ma il nome di un fenomeno scientifico e dimostrato. Come spesso accade, per raccontare un argomento tecnico sono necessarie alcune premesse. Lettore avvertito...
Nella data economy è indispensabile, per poter fare ricerca e sviluppo, utilizzare basi di dati "di test". Questo una volta non creava problemi; si prendevano, anzi predavano i primi dati "veri" che capitavano e li si usava. Poi li si pubblicava, magari cedendoli ad altri ricercatori e così via.
Tutto bene apparentemente, ma cosa succedeva se si faceva ricerca medica? O sociologica? O altri tipi di ricerca che dovessero trattare dati medici, genetici, o altri dati sensibili e particolari? Succedeva che dati critici, oggi abbastanza ben difesi dal GDPR e da altre norme, venissero elaborati, condivisi, diffusi e rielaborati al di fuori di ogni controllo. La stessa trascuratezza era già accaduta nei primi laboratori nucleari per la ricerca militare, in cui gli addetti ai lavori trasportavano radioisotopi in buste di plastica, magari tenute in tasca.
D'altra parte anche il corpo di Maria Curie si trova in una bara di piombo, e i suoi diari devo essere conservati sotto schermi antiradiazioni. La ricerca ha sempre esposto a rischi i primi scopritori, e magari anche altre persone; fa parte delle regole del gioco.
Tornando al nostro problema, la ricerca "allegra" dei data scientist ha esposto non loro ma le persone i cui dati venivano usati a una nuova specie di rischio; la perdita e l'abuso dei propri dati particolari, medici, genetici e via dicendo. Grazie anche al GDPR sono poi stati presi provvedimenti, ma il problema di base era che i dati per la ricerca erano, sono e saranno sempre indispensabili. Che fare allora?
I ricercatori del settore hanno cominciato a utilizzare nuove tecniche di anonimizzazione dei dati, molto sbandierate come soluzione, ma che in realtà si sono dimostrate molto deboli, visto che altri ricercatori hanno sviluppato, con relativa facilità, tecniche di deanonimizzazione e reidentificazione dei dati che funzionavano benissimo. Come nota a margine, non a caso nel 2010 la deanonimizzazione è stato il tema principale di numerosi convegni, incluso e-privacy che descriveva il suo tema così:
Recenti progressi nelle tecniche di incrocio di dati personali, ben riassunte nella fondamentale ricerca di Paul Ohm "Broken promises of privacy: responding to the surprising failure of anonymization" hanno non scosso ma abbattuto completamente l'edificio tecnico-normativo della 196/2003, migrato però in parte anche nel GDPR, che considera l'anonimizzazione la più sofisticata barriera eretta a difesa dei dati personali e sensibili.
Per poter quindi usare dati realistici, indispensabili per la ricerca, chi doveva trovare a tutti i costi una soluzione partorì una delle più grandi supercazzole scientifiche mai concepite: i dati sintetici, cioè dati realistici creati tramite metodi informatici.
È chiaro a tutti (tranne che agli specialisti) che nei dati sintetici, come nell'Appartamento spagnolo, uno trova solo quello che porta. Se sono dati, c'è solo l'informazione che ci si mette, non altro: non altre informazioni che possano essere estratte, come avviene per dati veri. Le premesse, per i fottuti eroi che sono arrivati a leggere fin qui (come direbbe la Regina Rossa), sono finalmente terminate.
Ti invitiamo a leggere la pagina successiva di questo articolo:
Dati sintetici, veleno per le IA
Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News
ti consigliamo di iscriverti alla Newsletter gratuita.
Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui
sotto, inserire un commento
(anche anonimo)
o segnalare un refuso.
© RIPRODUZIONE RISERVATA |
|
Scrivere a Cassandra - Twitter - Mastodon
Videorubrica "Quattro chiacchiere con Cassandra"
Lo Slog (Static Blog) di Cassandra
L'archivio di Cassandra: scuola, formazione e pensiero
|
||
|