Root NationНовиниIT uudisedUus AI Microsoft imiteerib mis tahes inimese häält 3-sekundilise helinäidise põhjal

Uus AI Microsoft imiteerib mis tahes inimese häält 3-sekundilise helinäidise põhjal

-

Neljapäeval teadlased Microsoft teatas uuest tehisintellekti (AI) mudelist nimega VALL-E, mis suudab kolmesekundilise helinäidise andmisel täpselt jäljendada inimhäält. Kui VALL-E on konkreetse hääle ära õppinud, suudab see sünteesida selle inimese heli, mis ütleb midagi, säilitades samal ajal kõneleja emotsionaalse tooni.

Selle autorid viitavad sellele, et VALL-E-d saab kasutada kvaliteetseks teksti kõneks muutmiseks, kõne redigeerimiseks, kus inimese salvestist saab redigeerida ja teksti transkriptsioonist muuta (pannes ta ütlema asju, mida ta algselt ei öelnud) ja helisisu loomiseks koos teiste generatiivsete AI mudelitega, nagu GPT-3.

Microsoft AI VALL-E

Microsoft nimetab VALL-E "närvikoodeki keele mudeliks" ja see põhineb tehnoloogial nimega EnCodec, mille Meta teatas 2022. aasta oktoobris. Erinevalt teistest kõneks muutmise meetoditest, mis tavaliselt sünteesivad kõnet lainekujusid manipuleerides, genereerib VALL-E diskreetset heli kodekkoodid tekstist ja akustilistest viipadest. Põhimõtteliselt analüüsib see, kuidas inimene kõlab, jagab selle teabe tänu EnCodecile diskreetseteks komponentideks (mida nimetatakse "märkideks") ja kasutab treeningandmeid, et sobitada seda, mida ta "teab" selle kohta, kuidas see hääl kõlaks, kui ta räägiks väljaspool muid fraase. kolme sekundi proovist.

Microsoft koolitas VALL-E kõnesünteesi võimeid Meta koostatud LibriLight-nimelises audioraamatukogus. See sisaldab 60 7 tundi ingliskeelseid saateid enam kui XNUMX diktorilt, enamasti võetud avalikult kättesaadavatest LibriVoxi audioraamatutest.

Lisaks diktori hääletämbri ja emotsionaalse tooni säilitamisele suudab VALL-E simuleerida ka helinäidise "akustilist keskkonda". Näiteks kui näidis saadi telefonivestlusest, simuleerib sünteesitud heliväljund telefonivestluse akustilisi ja sageduslikke omadusi. Samuti näidised Microsoft näidata, et VALL-E võib tekitada hääletämbri variatsioone.

Microsoft AI VALL-E

Võib-olla tänu VALL-E võimele hõlbustada pettust ja pettust, Microsoft pole VALL-E koodi teistele katsetamiseks andnud, seega ei saa me selle võimalusi testida. Teadlased näivad olevat teadlikud võimalikust sotsiaalsest kahjust, mida see tehnoloogia võib kaasa tuua. Artikli lõpus kirjutavad nad:

"Kuna VALL-E suudab sünteesida kõnet, mis säilitab kõneleja identiteedi, võib sellega kaasneda potentsiaalsed mudeli kuritarvitamise ohud, näiteks hääletuvastuse võltsimine või konkreetse kõneleja esinemine. Selliste riskide vähendamiseks luuakse tuvastusmudel, mis eristab, kas heliklipp on sünteesitud VALL-E abil.

Saate aidata Ukrainal võidelda Vene sissetungijate vastu. Parim viis selleks on annetada raha Ukraina relvajõududele läbi Päästa elu või ametliku lehe kaudu NBU.

Loe ka:

Registreeri
Teavita umbes
Külaline

0 Kommentaarid
Manustatud ülevaated
Kuva kõik kommentaarid