Хірургічний клей MeTro запечатує будь-які рани за 60 секунд
7 Жовтня , 2017
Пасажирський квадрокоптер CityAirbus пройшов перші тести
8 Жовтня , 2017

Нейронну мережу навчили практично ідеально копіювати людський голос

В минулому році компанія DeepMind, що займається розробками технологій штучного інтелекту, поділилась деталями про свій новий проект WaveNet – нейронну мережу глибинного навчання, що використовується для синтезу реалістичної людської мови. Днями була випущена вдосконалена версія цієї технології, яка буде використовуватись в якості основи цифрового мобільного асистента Google Assistant.

Система голосового синтезу (також відома як функція перетворення «тексту-в-мову», text-to-speech, TTS) зазвичай будується на базі одного з двох основних методів. Конкатенативний (або компілятивний) метод передбачає побудову фраз шляхом збору окремих шматків записаних слів і частин, заздалегідь записаних із залученням актора озвучки. Основним недоліком такого методу є необхідність постійної заміни звукової бібліотеки кожен раз, коли відбуваються якісь оновлення або вносяться зміни.

Інший метод носить назву параметричного TTS, і його особливістю є використання наборів параметрів, за допомогою яких комп’ютер генерує потрібну фразу. Мінус методу в тому, що найчастіше результат проявляється у вигляді нереалістичного або так званого роботизованого звучання.

Що ж стосується WaveNet, то вона створює звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезу «живої» мови їй «згодовують» величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний «акцент», що в перспективі може використовуватись для створення безлічі різних голосів.

Гостра на язик

Мабуть, найбільшим обмеженням системи WaveNet було те, що для її роботи була потрібна наявність величезного обсягу обчислювальної потужності, і навіть при виконанні цієї умови вона не відрізнялась швидкістю роботи. Наприклад, для генерації 0,02 секунди звуку їй було потрібно близько 1 секунди часу.

Через рік роботи інженери DeepMind все-таки знайшли спосіб, як покращити та оптимізувати систему таким чином, що тепер вона здатна виробляти сирий звук тривалістю в одну секунду лише на 50 мілісекунд, що в 1000 разів швидше її початкових можливостей. Більш того, фахівцям вдалось підвищити частоту дискретизації звуку з 8-бітного до 16-бітного, що позитивно позначилось на тестах із залученням слухачів. Завдяки цим успіхам, для WaveNet була відкрита дорога до інтеграції в такі споживчі продукти, як Google Assistant.

Зараз WaveNet може використовуватись для генерації англійських і японських голосів через Google Assistant і всі платформи, де використовується цей цифровий асистент. Так як система може створювати особливий тип голосів в залежності від того, який набір зразків був їй наданий для навчання, незабаром Google, найімовірніше, запровадить в WaveNet підтримку синтезації реалістичної мови і на інших мовах, і в тому числі з урахуванням їх місцевих діалектів.

Мовні інтерфейси стають все поширенішими на різних платформах, однак їх явно виражене неприродне звучання відштовхує багатьох потенційних користувачів. Спроби компанії DeepMind удосконалити цю технологію, безумовно, сприятиме більш широкому розповсюдженню таких голосових систем, а також дозволять покращити користувацький досвід від їх використання. З прикладами англійської та японської синтезованої мови за допомогою нейронної мережі WaveNet можна ознайомитись, перейшовши за цим посиланням.

LEU
LEU

Залишити відповідь

Увійти за допомогою: