La voce di John Lennon è da considerare autentica o sintetica?

Considerazioni tecniche e filosofiche su ''Now and Then'' dei Beatles.



[ZEUS News - www.zeusnews.it - 07-11-2023]

beatles now and then

I Beatles hanno rilasciato pochi giorni fa una nuova canzone, Now and Then. È surreale che i Beatles escano con un brano nel 2023, ma grazie al machine learning è possibile. Lasciando da parte la bellezza del brano in sé e il suo valore emotivo, rimane la questione tecnica e quasi filosofica di decidere se lo si possa considerare "autentico", e più in generale cosa voglia dire oggi questa parola.

Questo è il video ufficiale della canzone:

John Lennon aveva registrato una demo della propria voce, mentre cantava questo brano, su una semplice audiocassetta, nel 1977, accompagnandosi al pianoforte (questo dovrebbe essere un suo riversamento grezzo; fonte alternativa). La voce di Lennon era in buona parte coperta dal pianoforte e prima d'ora era impossibile filtrare o separare il pianoforte per recuperare solo la voce e poi completare la canzone registrando oggi gli strumenti e le voci di accompagnamento, come si fa di solito e come fu fatto nel 1995 per Free as a Bird, altra canzone dei Beatles che usa la voce di Lennon tratta da una demo registrata su audiocassetta.

Così i Beatles ancora in vita, Paul McCartney e Ringo Starr (Lennon fu ucciso nel 1980 e George Harrison è morto di malattia nel 2001), hanno deciso di usare la tecnica di ricostruzione e demixing (isolamento e separazione dei singoli strumenti e delle voci, portandole su tracce separate) usata da Peter Jackson con grande successo per l'audio del documentario Get Back (esempio).

Il procedimento è descritto nel video qui sotto, che spiega la genesi di Now and Then: l'audio originale di Lennon è ascoltabile brevemente a 3:04, 4:10 e 4:46; a 7:08 si sente la voce ricostruita, prima dell'aggiunta dell'accompagnamento musicale usato per il brano finale.

Come descritto in dettaglio in questo video, la demo originale di Lennon è stata inoltre accelerata leggermente, una porzione è stata rimossa ed è stata aggiunta una parte nuova che sfrutta dei cori tratti da altre canzoni dei Beatles, come Eleanor Rigby e Because.

I dettagli pubblicamente disponibili di questo procedimento di demixing sono scarsi, e per ora non ho trovato documentazione tecnica specifica su come è stato applicato a Now and Then. Però ho trovato questa intervista, che usa con molta circospezione i termini inglesi "generative" e "regenerative" (a partire a 8:53), e questo video e questo articolo di New Scientist (paywall; copia su Archive.is), che accennano a tecniche sottrattive. Tutte queste fonti sono dedicate a Get Back, ma sembra che la tecnica usata per il nuovo brano dei Beatles sia sostanzialmente la stessa, e nei video ufficiali dedicati a Now and Then si parla esplicitamente di machine learning e si nomina il software MAL usato per Get Back e gestito, per Now and Then, da Emile de la Ray, Hunter Jackson e Tyrone Frost, come indicato nei titoli di coda del secondo video incorporato qui sopra.

Da quel che ho capito, ci sono due scenari possibili:

  • Sottrazione: i suoni del pianoforte nella cassetta di Lennon sarebbero stati rimossi dando al software moltissimi campioni di suoni di pianoforti e addestrandolo a riconoscere e sottrarre solo quei suoni, lasciando quindi pulita la voce originale di Lennon, che sarebbe stata poi elaborata digitalmente con tecniche convenzionali.
  • Generazione: il software sarebbe stato addestrato su un gran numero di campioni di alta qualità della voce di Lennon e poi avrebbe usato l'audio registrato da Lennon sulla cassetta come riferimento per aggiungere le frequenze mancanti o generare i suoni vocali corrispondenti in alta qualità, attingendo ai campioni forniti, come nel modello di bandwidth expansion che potete ascoltare verso il fondo di questa pagina.

Qualche indizio sulla tecnica effettivamente usata può emergere da questo brano dell'articolo di New Scientist riferito a Get Back, che indica che i dati usati per addestrare la rete neurale includevano campioni di persone generiche che parlano e di strumenti suonati separatamente (non dai Beatles) e spezzoni dell'audio originale di Get Back nei quali i Beatles parlavano senza altri suoni estranei oppure suonavano i propri strumenti uno alla volta:

The team consulted with Paris Smaragdis at the University of Chicago and started to create a neural network called MAL (machine assisted learning), named after the Beatles' longstanding road manager Mal Evans. The team also started to build a set of training data that was higher quality than datasets used in academic experiments.

This training data began as generic clips of people talking and instruments played separately that team members recorded themselves, roping in friends and colleagues. In time, the team added to this data with real sections of the 1969 audio in which the Beatles could be heard speaking alone or playing their instruments solo, to add specificity.

Se si tratta di pura sottrazione, allora mi sembra ragionevole dire che la voce che si sente è effettivamente quella di Lennon. Ma se i suoni originali sono stati ricostruiti o sostituiti con suoni analoghi di migliore qualità, sia pure provenienti da campioni della voce di Lennon, si può ancora parlare di voce autentica?

Comunque sia, il risultato all'ascolto è indiscutibilmente notevolissimo: emotivamente, la voce è quella di Lennon. Però mi sembra che questa tecnica generativa, se è stata usata, rischi di sconfinare nel deepfake se non addirittura nel falso. In questo caso era disponibile come riferimento una registrazione di Lennon che cantava effettivamente quella canzone; ma quanto sono accurati i campioni che sostituiscono gli originali (nell'ipotesi di una generazione)? E cosa impedisce di usare questa tecnica per far cantare a Lennon qualunque altro brano?

Mi sembra insomma che ci sia una differenza tecnica e di principio fondamentale fra ripulire ed elaborare una voce esistente, effettivamente registrata, e sostituirne ogni singolo suono con un altro preso da un campionario, anche se si tratta di campioni della voce del cantante originale.

Per fare un paragone, è come se si decidesse di restaurare il Colosseo usando materiali dello stesso tipo degli originali, con tecniche di costruzione identiche a quelle originali, per ridare all'edificio l'aspetto che aveva prima di cadere in rovina. Sarebbe ancora un edificio autentico? È il paradosso della nave di Teseo in versione musicale.

L'intelligenza artificiale, di cui il machine learning è una branca, sta cambiando il modo in cui pensiamo a concetti fondamentali come vero e falso, autentico e sintetico. Credo sia importante fermarci a riflettere se è questo il tipo di cambiamento che vogliamo, e come vogliamo dirigerlo.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
 

Paolo Attivissimo

(C) by Paolo Attivissimo - www.attivissimo.net.
Distribuzione libera, purché sia inclusa la presente dicitura.

Commenti all'articolo (ultimi 5 di 10)

Io invece sarei stupito del contrario. In ambito imprenditoriale che i detentori di brevetti siano i primi a vederseli impunemente plagiare è assodato quasi come che il Sahara non è posto per piste da sci. Tant'è vero che la categoria forense prospera sui contenziosi del genere.
12-11-2023 18:09

A dirla tutta sarei stupito se i soldi non li avessero già ricevuti...
12-11-2023 15:10

Ma chi l'ha creato sì. Ed a meno che non sia roba di Turing o simili, i soldi li vorranno.
9-11-2023 06:46

Possono farlo tanto non lo devono pagare :P Leggi tutto
8-11-2023 21:13

{Walter}
Credo che larchitettura sia diversa perché conta il progetto più che chi lo ha fatto. Parti del colosseo sono già state ricostruite, se fosse ricostruito per intero cpn le tecniche originali sarebbe sempre il colosseo romano con un lieve ritardo nella fine lavori. Per la.voce di Lennon qui credo che la creazione... Leggi tutto
8-11-2023 16:51

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
La società di consulenza McKinsey ha individuato 12 tecnologie "dirompenti", capaci di dare una spinta all'economia, migliorando produttività, favorendo i consumi e trasformando completamente la vita quotidiana. Quale sarà la più importante?
Internet Mobile
Software in grado di prendere decisioni autonome
Internet delle cose
Tecnologia cloud
Robotica avanzata
Auto che si guidano da sole
Genomica di nuova generazione
Batterie di nuova concezione
Stampa 3D
Materiali evoluti (grafene ecc.)
Metodi avanzati per trovare ed estrarre gas e petrolio
Energie rinnovabili

Mostra i risultati (3129 voti)
Maggio 2024
Netflix, utenti obbligati a passare agli abbonamenti più costosi
Aprile 2024
MS-DOS 4.00 diventa open source
Enel nel mirino dell'Antitrust per le bollette esagerate
TIM, altre ''rimodulazioni'' in arrivo
L'algoritmo di ricarica che raddoppia la vita utile delle batterie
Hype e Banca Sella, disservizi a profusione
Falla nei NAS D-Link, ma la patch non arriverà mai
La navigazione in incognito non è in incognito
Le tre stimmate della posta elettronica
Amazon abbandona i negozi coi cassieri a distanza
Marzo 2024
Buone azioni e serrature ridicole
Il piano Merlyn, ovvero la liquidazione di Tim
Falla nelle serrature elettroniche, milioni di stanze d'hotel a rischio
L'antenato di ChatGPT in un foglio Excel
La valle inquietante
Tutti gli Arretrati
Accadde oggi - 4 maggio


web metrics