Компанія Improbable планує створити реальний аналог “Матриці”, масштабну цифрову модель реального світу
15 Травня , 2017
Нові комп’ютерні моделі галактик надали докази існування темної матерії
16 Травня , 2017

Lyrebird – мовний синтезатор на основі штучного інтелекту, який здатний відтворити будь-який голос

Відтворення людського голосу, з усіма його тембрами, інтонаціями і іншими нюансами, є винятково важким завданням навіть для сучасних потужних комп’ютерів. Коли ми чуємо мову таких програм, як Siri, Alexa або GPS-навігатору, відразу стає зрозуміло, що з нами говорить машина. Це відбувається через те, що більшість систем синтезу мови ґрунтується на бібліотеках записаних раніше слів і фраз. І в результаті роботи таких систем виходить нудна “механічна” мова, що складається з часто повторюваних виразів. Досить сильним кроком до поліпшення якості роботи синтезаторів мови може стати використання принципів штучного інтелекту. Це досить наочно продемонструвала компанії Lyrebird з Монреаля, яка розробила новий мовний синтезатор, здатний відтворити голос будь-якої людини і навіть додати йому відповідне емоційне забарвлення.
Найцікавішим є те, що для навчання голосу будь-якої людини, системі Lyrebird потрібно лише кілька десятків секунд аудіозапису. І як приклад роботи системи ви можете послухати  аудіоролики, на яких система Lyrebird відтворює голоси Барака Обами, Дональда Трампа і Хілларі Клінтон. Таке точне копіювання особливостей голосу конкретної людини стало можливим завдяки використанню штучних нейронних мереж, які працюють подібно природним біологічних нейронним мережам мозку людини. По суті, алгоритм нейронної мережі вчиться пізнавати особливості мовлення певної людини, а потім ці дані використовуються для синтезу штучного голосу.
“Ми навчили нашу програму на величезному наборі аудіо фрагментів виступів тисяч різних людей” – розповідає Хосе Сотело (Jose Sotelo), провідний дослідник, – “Отримана інформація зводиться до вигляду компактного цифрового ключа, свого роду “голосового ДНК”. І на основі цього ключа система може відтворювати будь-які слова і речення, навіть ті, які не були задіяні в процесі її навчання”.
В даний час робота системи Lyrebird ще дуже далека від ідеалу, у відтвореній мові присутні “цифрові артефакти”, є проблеми з розбірливістю і деякі інші дивацтва, які іноді ставлять під сумнів те, кому саме наслідує зараз синтезатор. Тим не менш, все це зараз працює в режимі реального часу і вимагає для навчання зовсім невеликої кількості вихідних даних і, після відповідних доопрацювань, може перетворитись в найякісніший мовний синтезатор на сьогоднішній день.

Зрозуміло, що наявність такого досконалого мовного синтезатору є джерелом низки проблем етичного плану і проблем з безпекою. Якщо система дозволить відтворювати голос людини з точністю, що не дозволяє відрізнити від оригіналу, то відкриється широке поле діяльності для недобросовісних людей, які зможуть шантажувати політичних діячів та інших відомих особистостей. А хакери зможуть використовувати такий синтезатор для обходу систем захисту, в яких використовується технологія голосової ідентифікації.
Представники компанії Lyrebird вважають, що, завдяки появі нового мовного синтезатора час, коли можна було беззастережно довіряти різним аудіозаписам, закінчується, як у свій час з появою Фотошопу не стали довіряти знімкам, які демонстрували з екрану комп’ютера. “Ми розуміємо, що внаслідок високого рівня розвитку сучасних технологій такий мовний синтезатор з’явився б на світ рано чи пізно” – пишуть представники компанії Lyrebird, – “Для виключення можливості зловмисного використання мовного синтезу ми вирішили оприлюднити всі деталі розробленої нами технології. І ми закликаємо розпочати поступову відмову від прийняття в якості доказів різних аудіозаписів, отриманих, у першу чергу, з сумнівних джерел”.
Але, не варто зневірятись. Навіть при ідеальному відтворенні голосу людини залишається кілька можливостей відрізнити фальшивий аудіозапис від оригіналу. Існує безліч аспектів, таких, як відсутність фонових шумів, невідповідні або штучно введені фонові шуми, присутність фальшивого “акустичного простору” і багато іншого, що можна виділити з аудіозапису і по чому можна судити про його достовірність. На жаль, такий аналіз можливий зараз лише при наявності спеціального устаткування, що є далеко не скрізь. Але, з урахуванням темпів розвитку сучасної обчислювальної техніки, з подібним завданням в недалекому майбутньому зможе впоратись і звичайний комп’ютер, обладнаний спеціалізованим програмним забезпеченням.

Залишити відповідь

Увійти за допомогою: 
Inline
Inline