Meta kõne tehisintellekt tunneb ära üle 4 kõnekeele

Meta lõi AI keelemudeli, mis ei ole ChatGPT kloon. Ettevõtte massiivselt mitmekeelse kõne (MMS) projekt suudab ära tunda rohkem kui 4 räägitavat keelt ja taasesitada kõnet (tekst kõneks) enam kui 000 keeles. Nagu enamik avalikult välja kuulutatud tehisintellektiprojekte, teeb Meta täna MMS-ile avatud juurdepääsu, et aidata säilitada keelelist mitmekesisust ja julgustada teadlasi seda arendama. "Täna jagame avalikult oma mudeleid ja koodi, et teised teadlaskonna liikmed saaksid meie tööd edasi arendada," kirjutas ettevõte. "Tänu sellele tööle loodame anda väikese panuse maailma uskumatu keelelise mitmekesisuse säilimisse."

Kõnetuvastus ja tekst kõneks muutmise mudelid nõuavad tavaliselt tuhandete tundide pikkuste helisalvestiste koolitust koos kaasnevate transkriptsioonisiltidega. Kuid keelte puhul, mida tööstusriikides laialdaselt ei räägita – millest paljud on lähikümnenditel väljasuremisohus –, „seda andmeid lihtsalt ei eksisteeri,” ütleb Meta.

Meta lähenes heliandmete kogumisele ebatavaliselt: kuulas tõlgitud religioossete tekstide helisalvestisi. "Pöördusime religioossete tekstide, näiteks piibli poole, mida on tõlgitud paljudesse erinevatesse keeltesse ja mille tõlkeid on tekstipõhise tõlkeuuringute jaoks laialdaselt uuritud," teatas ettevõte. "Nendel tõlgetel on avalikult kättesaadavad helisalvestised inimestest, kes neid tekste erinevates keeltes loevad." Lisades märgistamata sissekanded Piiblist ja sarnastest tekstidest, suurendasid Meta teadlased mudeli jaoks saadaolevate keelte arvu üle 4.

"Kuigi helisalvestiste sisu on religioosne, näitab meie analüüs, et see ei mõjuta mudeli religioossema kõne produktsiooni," kirjutab Meta. "Usume, et see on tingitud sellest, et kasutame konneksionaalset ajalise klassifikatsiooni (CTC) lähenemisviisi, mis on kõnetuvastuse jaoks palju piiratum kui suurte keelemudelite (LLM) või järjestusmudelitega." Vaatamata sellele, et enamiku religioossetest tekstidest lugesid mehed, ei toonud see kaasa meeste kallutatust – süsteem tundis ühtviisi hästi ära nii nais- kui ka meeshääled.

Pärast joondusmudeli väljaõpet, et muuta andmed paremini kasutatavaks, kasutas Meta wav2vec 2.0, ettevõtte "enesejärelevalvega keeleesitusõppe mudelit", mis suudab õppida märgistamata andmetel. Ebatraditsiooniliste andmeallikate ja isejuhitava kõnemudeli kombinatsioon andis muljetavaldavaid tulemusi. "Meie tulemused näitavad, et massilise mitmekeelse ringhäälingu mudelid toimivad hästi võrreldes olemasolevate mudelitega ja hõlmavad 10 korda rohkem keeli." Eelkõige võrdles Meta MMS-i OpenAI Whisperiga ja tulemused ületasid ootusi. "Leidsime, et massiliselt mitmekeelse kõne andmete põhjal treenitud mudelitel on poole vähem sõnavigu, kuid massiliselt mitmekeelne kõne hõlmab 11 korda rohkem keeli."

Meta hoiatab, et tema uued mudelid pole täiuslikud. "Näiteks on teatud oht, et kõnest tekstiks muutev mudel võib üksikuid sõnu või fraase valesti tõlkida," kirjutab ettevõte. „Sõltuvalt tulemusest võib see põhjustada solvavat ja/või ebatäpset kõnepruuki. Usume jätkuvalt, et tehisintellekti kogukonnas tehtav koostöö on tehisintellekti tehnoloogiate vastutustundliku arendamise jaoks kriitilise tähtsusega.

Nüüd, kui Meta on MMS-i avatud lähtekoodiga uurimistöö jaoks välja andnud, loodab ta muuta suundumust vähendada maailmas kasutatavate keelte arvu 100-ni või vähema, millest enamikku toetavad peamised tehnoloogiad. Ta näeb maailma, kus abitehnoloogia, TTS ja isegi VR / AR tehnoloogiad võimaldavad kõigil rääkida ja õppida oma emakeeles. See ütleb: "Me kujutame ette maailma, kus tehnoloogial on vastupidine mõju, julgustades inimesi hoidma oma keeli elus, sest nad pääsevad juurde teabele ja kasutavad tehnoloogiat oma emakeelt rääkides."

Loe ka:

allikasEngadget

Registreeri

0 Kommentaarid

Manustatud ülevaated

Kuva kõik kommentaarid

Muud artiklid

Meta kõne tehisintellekt tunneb ära üle 4 kõnekeele

Hiljutised kommentaarid