La voce di John Lennon è da considerare autentica o sintetica?

Considerazioni tecniche e filosofiche su ''Now and Then'' dei Beatles.



[ZEUS News - www.zeusnews.it - 07-11-2023]

beatles now and then

I Beatles hanno rilasciato pochi giorni fa una nuova canzone, Now and Then. È surreale che i Beatles escano con un brano nel 2023, ma grazie al machine learning è possibile. Lasciando da parte la bellezza del brano in sé e il suo valore emotivo, rimane la questione tecnica e quasi filosofica di decidere se lo si possa considerare "autentico", e più in generale cosa voglia dire oggi questa parola.

Questo è il video ufficiale della canzone:

John Lennon aveva registrato una demo della propria voce, mentre cantava questo brano, su una semplice audiocassetta, nel 1977, accompagnandosi al pianoforte (questo dovrebbe essere un suo riversamento grezzo; fonte alternativa). La voce di Lennon era in buona parte coperta dal pianoforte e prima d'ora era impossibile filtrare o separare il pianoforte per recuperare solo la voce e poi completare la canzone registrando oggi gli strumenti e le voci di accompagnamento, come si fa di solito e come fu fatto nel 1995 per Free as a Bird, altra canzone dei Beatles che usa la voce di Lennon tratta da una demo registrata su audiocassetta.

Così i Beatles ancora in vita, Paul McCartney e Ringo Starr (Lennon fu ucciso nel 1980 e George Harrison è morto di malattia nel 2001), hanno deciso di usare la tecnica di ricostruzione e demixing (isolamento e separazione dei singoli strumenti e delle voci, portandole su tracce separate) usata da Peter Jackson con grande successo per l'audio del documentario Get Back (esempio).

Il procedimento è descritto nel video qui sotto, che spiega la genesi di Now and Then: l'audio originale di Lennon è ascoltabile brevemente a 3:04, 4:10 e 4:46; a 7:08 si sente la voce ricostruita, prima dell'aggiunta dell'accompagnamento musicale usato per il brano finale.

Come descritto in dettaglio in questo video, la demo originale di Lennon è stata inoltre accelerata leggermente, una porzione è stata rimossa ed è stata aggiunta una parte nuova che sfrutta dei cori tratti da altre canzoni dei Beatles, come Eleanor Rigby e Because.

I dettagli pubblicamente disponibili di questo procedimento di demixing sono scarsi, e per ora non ho trovato documentazione tecnica specifica su come è stato applicato a Now and Then. Però ho trovato questa intervista, che usa con molta circospezione i termini inglesi "generative" e "regenerative" (a partire a 8:53), e questo video e questo articolo di New Scientist (paywall; copia su Archive.is), che accennano a tecniche sottrattive. Tutte queste fonti sono dedicate a Get Back, ma sembra che la tecnica usata per il nuovo brano dei Beatles sia sostanzialmente la stessa, e nei video ufficiali dedicati a Now and Then si parla esplicitamente di machine learning e si nomina il software MAL usato per Get Back e gestito, per Now and Then, da Emile de la Ray, Hunter Jackson e Tyrone Frost, come indicato nei titoli di coda del secondo video incorporato qui sopra.

Da quel che ho capito, ci sono due scenari possibili:

  • Sottrazione: i suoni del pianoforte nella cassetta di Lennon sarebbero stati rimossi dando al software moltissimi campioni di suoni di pianoforti e addestrandolo a riconoscere e sottrarre solo quei suoni, lasciando quindi pulita la voce originale di Lennon, che sarebbe stata poi elaborata digitalmente con tecniche convenzionali.
  • Generazione: il software sarebbe stato addestrato su un gran numero di campioni di alta qualità della voce di Lennon e poi avrebbe usato l'audio registrato da Lennon sulla cassetta come riferimento per aggiungere le frequenze mancanti o generare i suoni vocali corrispondenti in alta qualità, attingendo ai campioni forniti, come nel modello di bandwidth expansion che potete ascoltare verso il fondo di questa pagina.

Qualche indizio sulla tecnica effettivamente usata può emergere da questo brano dell'articolo di New Scientist riferito a Get Back, che indica che i dati usati per addestrare la rete neurale includevano campioni di persone generiche che parlano e di strumenti suonati separatamente (non dai Beatles) e spezzoni dell'audio originale di Get Back nei quali i Beatles parlavano senza altri suoni estranei oppure suonavano i propri strumenti uno alla volta:

The team consulted with Paris Smaragdis at the University of Chicago and started to create a neural network called MAL (machine assisted learning), named after the Beatles' longstanding road manager Mal Evans. The team also started to build a set of training data that was higher quality than datasets used in academic experiments.

This training data began as generic clips of people talking and instruments played separately that team members recorded themselves, roping in friends and colleagues. In time, the team added to this data with real sections of the 1969 audio in which the Beatles could be heard speaking alone or playing their instruments solo, to add specificity.

Se si tratta di pura sottrazione, allora mi sembra ragionevole dire che la voce che si sente è effettivamente quella di Lennon. Ma se i suoni originali sono stati ricostruiti o sostituiti con suoni analoghi di migliore qualità, sia pure provenienti da campioni della voce di Lennon, si può ancora parlare di voce autentica?

Comunque sia, il risultato all'ascolto è indiscutibilmente notevolissimo: emotivamente, la voce è quella di Lennon. Però mi sembra che questa tecnica generativa, se è stata usata, rischi di sconfinare nel deepfake se non addirittura nel falso. In questo caso era disponibile come riferimento una registrazione di Lennon che cantava effettivamente quella canzone; ma quanto sono accurati i campioni che sostituiscono gli originali (nell'ipotesi di una generazione)? E cosa impedisce di usare questa tecnica per far cantare a Lennon qualunque altro brano?

Mi sembra insomma che ci sia una differenza tecnica e di principio fondamentale fra ripulire ed elaborare una voce esistente, effettivamente registrata, e sostituirne ogni singolo suono con un altro preso da un campionario, anche se si tratta di campioni della voce del cantante originale.

Per fare un paragone, è come se si decidesse di restaurare il Colosseo usando materiali dello stesso tipo degli originali, con tecniche di costruzione identiche a quelle originali, per ridare all'edificio l'aspetto che aveva prima di cadere in rovina. Sarebbe ancora un edificio autentico? È il paradosso della nave di Teseo in versione musicale.

L'intelligenza artificiale, di cui il machine learning è una branca, sta cambiando il modo in cui pensiamo a concetti fondamentali come vero e falso, autentico e sintetico. Credo sia importante fermarci a riflettere se è questo il tipo di cambiamento che vogliamo, e come vogliamo dirigerlo.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
 

Paolo Attivissimo

(C) by Paolo Attivissimo - www.attivissimo.net.
Distribuzione libera, purché sia inclusa la presente dicitura.

Commenti all'articolo (ultimi 5 di 10)

Io invece sarei stupito del contrario. In ambito imprenditoriale che i detentori di brevetti siano i primi a vederseli impunemente plagiare è assodato quasi come che il Sahara non è posto per piste da sci. Tant'è vero che la categoria forense prospera sui contenziosi del genere.
12-11-2023 18:09

A dirla tutta sarei stupito se i soldi non li avessero già ricevuti...
12-11-2023 15:10

Ma chi l'ha creato sì. Ed a meno che non sia roba di Turing o simili, i soldi li vorranno.
9-11-2023 06:46

Possono farlo tanto non lo devono pagare :P Leggi tutto
8-11-2023 21:13

{Walter}
Credo che larchitettura sia diversa perché conta il progetto più che chi lo ha fatto. Parti del colosseo sono già state ricostruite, se fosse ricostruito per intero cpn le tecniche originali sarebbe sempre il colosseo romano con un lieve ritardo nella fine lavori. Per la.voce di Lennon qui credo che la creazione... Leggi tutto
8-11-2023 16:51

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Come preferisci seguire gli aggiornamenti di Zeus News?
Apro Zeus News nel browser e vedo se ci sono novità
Sono iscritto alla newsletter
Sono abbonato ai feed RSS
Seguo le novità dal Forum dell'Olimpo Informatico
Seguo le novità da Twitter
Seguo le novità da Facebook
Tramite un altro sito che aggrega le notizie
In altro modo (suggeriscilo nei commenti!)

Mostra i risultati (6665 voti)
Dicembre 2024
Wubuntu cerca di unire il meglio di Windows e di Linux
Diffamazione, il mondo virtuale non equivale a quello reale
Il router completamente open source
Windows 11 perde utenti nonostante gli sforzi di Microsoft
Novembre 2024
Huawei, l'addio ad Android è completo
Contanti e trionfanti
WhatsApp, la trascrizione dei messaggi vocali è realtà
La vecchietta digitale che fa perdere tempo ai truffatori telefonici
La punteggiatura è morta: l'ha uccisa l'iPhone
Elon Musk e l'attacco ai giudici italiani
D-Link, falla in migliaia di NAS non sarà mai corretta
L'app per aggiornare a Windows 11 anche i PC non supportati
Lo script per aggirare i requisiti hardware di Windows 11
Windows, ora si può accede allo smartphone senza il cavo USB
Ottobre 2024
San Francisco, 200 milioni per liberare la metropolitana dai floppy disk
Tutti gli Arretrati
Accadde oggi - 13 dicembre


web metrics