Microsoft a creat un program care imita o voce umana dupa 3 secunde de inregistrare a acesteia. Poate replica inclusiv tonul si „emotiile” vorbitorului.
Microsoft a lansat recent un instrument de inteligenta artificiala numit VALL-E care poate crea replici convingatoare ale vocilor oamenilor. Aplicatia are nevoie de o inregistrare de minim 3 secunde pentru a genera un intreg vocabular care imita un vorbitor.
Mai mult decat vocea, VALL-E poate replica tonul si „emotiile” persoanei pe care o imita, un aspect care il diferentiaza de toate celelalte software-uri de inteligenta artificiala existente anterior. In plus, poate crea o inregistrare a unor cuvinte pe care vorbitorul original nu le-a rostit niciodata.
Aplicatia a fost programata pe o baza de date care include 60.000 de ore de vorbire in limba engleza.
Pentru inceput, mostrele de voce facute publice de Microsoft variaza in ceea ce priveste calitatea lor. In timp ce unele suna natural, organic, altele sunt in mod clar generate de un software si suna robotic. Insa programele de Inteligenta Artificiala tind sa isi imbunatateasca rezultatele in timp, astfel ca in viitor inregistrarile vor fi mai convingatoare.
Expertii de la Universitatea Cornell au utilizat deja VALL-E pentru a sintetiza mai multe voci, exemplele lucrarilor sunt sunt disponibile pe GitHub – aici. Ei sustin ca daca se va utiliza o baza de date mai mare, cu voci diferite, s-ar putea crea mostre cat mai realiste.
Mai jos puteti asculta cateva exemple de mostre audio.
Surprised there isn’t more chatter around VALL-E
— Steven Tey (@steventey) January 9, 2023
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
Momentan, VALL-E nu este disponibil publicului larg, un aspect pe care presa internationala in catalogheaza drept pozitiv.
Desi VALL-E este o initiativa impresionanta, proiectul ridica mai multe probleme de ordin etic. Pe masura ce inteligenta artificiala devine mai puternica, vocile generate vor deveni mai convingatoare. Acest lucru ar putea inspira infractorii sa le utilizeze in mod fraudulos prin furnizarea unor informatii care ar parea autentice si ar fi greu de combatut.
Spre exemplu, vor putea fi imitati politicieni si personalitati publice. Iar daca se tine cont de viteza de raspandire a controverselor pe retelele de socializare, este putin probabil sa nu genereze scandaluri, revolte si chiar razboaie. Este un pericol observat deja in cazul filmelor de tip „deep-fake” a caror tehnologie reuseste sa convinga din ce in ce mai multi oameni in ultimii ani.
O alta problema tine de protocoalele de securitate. Exista anumite institutii bancare care utilizeaza vocile clientilor ca parole pentru a modifica anume informatii sau chiar pentru a efectua tranzactii importante.
Un alt aspect ar fi faptul ca actorii care castiga bani din inregistrarile unor carti audio sau reclame – de tip „voice over” – si-ar putea pierde locurile de munca. De altfel, compania Apple a anuntat recent o functie care utilizeaza inteligenta artificiala pentru a citi carti audio.
Potrivit GeekWire, Brad Smith, presedintele Microsoft, a discutat in trecut despre reglementarea Inteligentei Artificiale conform codului de etica al companiei insa ramane de vazut de masuri vor pune in aplicare pentru VALL-E.