22-04-2024

Immagine: Microsoft.

Si chiama VASA-1 l'ultimo esperimento di Microsoft in tema di Intelligenza Artificiale e, come i suoi stessi creatori ammettono, ha un grande potenziale per essere adoperato in maniera impropria.

VASA-1 è infatti capace di trasformare una singola fotografia e un file audio in un video in cui la persona ritratta nella foto è animata e parla.

La IA può infatti attribuire all'immagine espressioni facciali, movimenti della testa e movimenti della labbra appropriati alle parole pronunciate o, se è per questo, alla canzone cantata: i vari esempi creati dai ricercatori di Microsoft sono visibili sulla pagina ufficiale del progetto.

Un'osservazione attenta permette di notare qualche difetto: in certi casi la sincronizzazione tra l'audio e i movimenti simulati non è perfetta, ma il potenziale per creare dei deepfake sempre più vicini alla realtà (soprattutto se sottoposti a un esame superficiale) è evidente.

Proprio per questo motivo i creatori di VASA-1 hanno deciso di non rendere pubblicamente disponibili le API, né di consentire l'accesso alle funzionalità della IA sotto forma di dimostrazione, per lo meno fino a che non potranno essere certi che questa tecnologia sia adoperata «in modo responsabile e in base alle norme vigenti».

Per quanto riguarda invece gli usi positivi per i quali VASA-1 è pensata, i ricercatori pensano alla possibilità di «migliorare l'accessibilità per quanti hanno difficoltà di comunicazione», per esempio creato un avatar che possa parlare a nome dell'utente.

Accoppiando il sistema a una IA generativa, inoltre, si otterrebbe una "persona artificiale" che possa fare compagnia o addirittura «supporto terapeutico» a chi ne avesse bisogno.

VASA-1 non funziona soltanto sulle foto: è in grado di animare anche i disegni e le opere d'arte; un esperimento è stato infatti condotto animando la Gioconda di Leonardo da Vinci, che per l'occasione si è esibita cantando Paparazzi di Lil Wayne (usando la voce di Anne Hathaway).