Riconoscimento di voci in ambienti rumorosi

Grazie all'intelligenza artificiale di Whisper.



[ZEUS News - www.zeusnews.it - 04-04-2023]

whisper

Il riconoscimento vocale oggigiorno funziona piuttosto bene quando la voce è scandita chiaramente e non c'è rumore di sottofondo, ma fallisce miseramente se chi parla si mangia un po' le parole, ha un accento molto marcato oppure si trova in un ambiente rumoroso. Se poi si tratta di una voce che canta, accompagnata e magari coperta da tanti strumenti, non c'è niente da fare.

Ma alcuni mesi fa la società OpenAI, già nota per altri prodotti di intelligenza artificiale di cui ho parlato in questo blog, come DALL-E per la generazione di immagini, ha rilasciato Whisper, che è un software di intelligenza artificiale capace di superare queste limitazioni, diventando abile quanto una persona nel decifrare le parole di una conversazione anche in contesti rumorosi.

Per esempio, Whisper è in grado di riconoscere le parole pronunciate in varie lingue, dette a grandissima velocità e registrate con bassa qualità, cantate in una canzone K-Pop o dette con un forte accento, come negli esempi che trovate sul sito di Whisper.

L'azienda ha addestrato Whisper alimentandolo con 680.000 ore di audio abbinato alle trascrizioni corrispondenti in 98 lingue differenti. Oltre a riconoscere il parlato in condizioni difficili, è anche in grado di fornirne una traduzione in inglese abbastanza dignitosa.

Whisper è stato rilasciato come prodotto open source, libero e gratuito, per cui chiunque lo può scaricare e installare liberamente e lo può anche modificare. Richiede un computer piuttosto potente, e i suoi creatori avvisano che il modo in cui Whisper analizza il parlato può a volte fargli "riconoscere" parole che in realtà non ci sono, per cui è sempre necessaria una revisione attenta da parte di una persona. Ma lo sviluppo esplosivo di questi software di intelligenza artificiale dovrebbe far riflettere molto attentamente chiunque faccia trascrizioni per lavoro. Forse dovrà cominciare a pensare a come riorganizzare il proprio lavoro per diventare revisore esperto anziché dattilografo.

Ci sono anche implicazioni più profonde e rivoluzionarie, che è necessario considerare ogni volta che un procedimento che prima era oneroso diventa semplice e automatizzato: se diventa possibile trascrivere enormi quantità di parlato a costo praticamente nullo e il costo dei supporti di registrazione è altrettanto trascurabile, diventa possibile per esempio automatizzare la sorveglianza di massa.

Diventa possibile registrare l'audio di tutte le telefonate di un intero paese e trascriverle tutte integralmente, per poi cercare eventuali nomi o parole di interesse o per riconoscere le singole voci, anche a distanza di tempo. C'è chi sospetta che alcuni governi abbiano già questo tipo di capacità, ma con Whisper potrebbe averle anche uno staterello relativamente squattrinato.

Pensando ad applicazioni meno controverse, invece, un riconoscimento vocale automatizzato con le capacità di Whisper permetterebbe di trasformare in testo, a costi ben più abbordabili di quelli attuali, gli enormi archivi dei programmi radiofonici e televisivi storici e renderli accessibili anche a chi ha difficoltà di udito oltre che ai linguisti, agli storici o a chiunque abbia semplicemente il desiderio di ritrovare una battuta o una dichiarazione fatta da qualcuno magari qualche decennio fa.

E queste sono solo le possibilità che vengono in mente adesso; chissà quali verranno inventate quando questa tecnologia sarà diventata normale.

Fonti aggiuntive: Ars Technica, Slashdot.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
 

Paolo Attivissimo

(C) by Paolo Attivissimo - www.attivissimo.net.
Distribuzione libera, purché sia inclusa la presente dicitura.

Commenti all'articolo (ultimi 5 di 8)

Imperdibile.... Leggi tutto
15-4-2023 11:43

{Cippa}
Qui eravata citati anche voi... https://rebussicstantibus.home.blog/2021/09/21/ring-my-bell/
9-4-2023 17:35

Sono anni che esistono software per il riconoscimento del linguaggio anche in ambito 'sporco' lavorando sui filtri di frequenza che isolano il parlato dal rumore ed ogni altro suono non utile, solo che erano programmi costosi. adesso sono programmi economici, unica differenza.
7-4-2023 15:30

{Murdock}
Echelon partiva dal riconoscimento di alcune parole chiave, credo abbia gia' ampiamente raggiunto livelli superiori a quelli di Whisper da tempo. Il settore governativo ha risorse infinite! un po come le differenze tra Gps militare e commerciale.
6-4-2023 10:46

Il primo uso che mi e' venuto in mente, e' di colloquiare con ChatGpt, ma a voce .
5-4-2023 12:51

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Quale di questi dispositivi degni di un film di fantascienza ma già esistenti vorresti avere?
Erascan: un cancellino per lavagne bianche in grado di effettuare una scansione con OCR di tutto ciò che cancella.
Tamaggo Ibi: una videocamera con lente circolare in grado di scattare foto a 360 gradi.
No More Woof: legge le onde cerebrali dei cani e traduce i pensieri in linguaggio umano.
Il drone per le consegne Amazon Prime Air: consegnerà i pacchi volando, rendendo obsoleti i corrieri.
WAT: la lampada alimentata ad acqua.
Transparent TV: grazie alla tecnologia TOLED (LED Organici Trasparenti) è dotato di uno schermo praticamente invisibile.
Electrolux Wirio, la cucina trasportabile composta da quattro diversi elementi, per cucinare e tenere in caldo i cibi.
Touch Hear, per toccare con un dito una parola stampata e ascoltare la pronuncia e il significato.
Immersed Senses, una maschera per sub che estrae ossigeno dall'acqua ed è dotata di schermo per mostrare informazioni utili.
La maniglia che si sterilizza da sola grazie a una lampada integrata a raggi ultravioletti.
Heart Rate Monitor Earphone, gli auricolari che rilevano il battito cardiaco e il consumo di ossigeno.
Voyce, il collare per cani che misura il battito cardiaco e il ritrmo respiratorio, conta le calorie e indica se l'animale non fa abbastanza esercizio.
Makerbot Z18, una stampante 3D che funge da replicatore per oggetti voluminosi.

Mostra i risultati (1861 voti)
Giugno 2025
Guarda film pirata? Rischi fino a 5.000 euro di multa
Il Q-day è vicino
OneDrive: app e siti possono accedere a tutto il cloud
Windows 11, ennesimo aggiornamento che blocca l'avvio del PC
Maggio 2025
Il cripto-ladro è nella stampante e ruba un milione di dollari
Amazon, la IA ha trasformato la programmazione in una catena di montaggio
Lidar nelle auto: utile per la guida, letale per le fotocamere
Azienda IA in tribunale per il suicidio di un adolescente
Non è proprio legale... ma le sanzioni sono irrisorie
Pirateria, multati in Italia anche gli utenti finali
Bancomat da attivare e complessità digitale
Un ''diritto a riparare'' piccolo, virtuoso e originale
Siti per adulti, la verifica dell'età non avverrà tramite SPID
Gli hard disk in ceramica praticamente indistruttibili di Western Digital
Spagna, prove generali di apocalisse?
Tutti gli Arretrati
Accadde oggi - 9 giugno


web metrics