В Нідерландах з’явилась велосипедна доріжка з туалетного паперу
27 Жовтня , 2017
Український стартап залучив $10 млн інвестицій для ШІ, що розпізнає емоції тварин
27 Жовтня , 2017

Штучний інтелект, як працює розпізнавання мови

Кожен з нас стикається з таким загадковим явищем, як штучний інтелект, в повсякденному житті — саме він дозволяє голосовим помічникам і пошуковим системам розпізнавати людську мову і вгадувати бажання користувачів. Як же саме влаштована ця технологія і які перспективи чекають на цю сферу розробок найближчим часом?

Штучний інтелект — це дуже всеосяжний термін, в рамках якого вже існують і ще знаходяться в стадії розробки безліч алгоритмів, призначених для виконання найширшого спектру практичних завдань. Але що насправді вміють сучасні програми штучного інтелекту, і якими принципами вони керуються під час роботи? Сьогодні ми поговоримо про одну з ключових особливостей машинного розуму, з якою кожен з нас регулярно стикається в повсякденності — здатністю голосових помічників розпізнавати людську мову.

Розпізнавання голосу

Для вимірювання голосу програма використовує ряд звукових параметрів: частоту і довжину звукової хвилі в певний момент часу. Наприклад, коли ви спілкуєтесь з популярним голосовим помічником Alexa, він розбиває ваш голос на 25-мілісекундні слайди, а потім перетворює кожен з відрізків в цифрові сигнатури. Після цього сигнатурні блоки порівнюються з внутрішнім каталогом звуків програми, поки кількість збігів не буде достатньо високою, щоб ШІ «перевів» літери в зрозумілий йому цифровий запит.

Мовна модель

Поспостерігайте за екраном телефону під час використання Siri або Google Assistant, і ви побачите, що набір слів змінюється в процесі того, як ви вимовляєте слова. Відбувається це через те, що програмне забезпечення з кожним наступним кроком» теж порівнює отриманий результат з внутрішньою базою даних і вибудовує слова залежно від збігів. За словами Рохіта Прасаду, головного вченого підрозділу Alexa, яке належить Amazon, «мовна модель навчається багатьом мільярдам слів у формі тексту». Порядок слів теж грає важливу роль: це можна помітити і за допомогою звичайної пошукової системи Google, яка деколи видає різні дані по ідентичним запитами, в яких переставлена місцями лише пара слів.

Перспективи розпізнавання мовлення

Алан Блек з Інститут мовних технологій імені Карнегі вважає, що для всіх фахівців з великих компаній найбільш цікавим є пошук межі можливостей їх власної системи. «Коли програма говорить «Я не можу цього зробити», ось тоді ситуація стає по‑справжньому цікавою», жартує він. Втім, це насправді так: реагування на непередбачувані запити користувача є однією з основних задач, яку досліджують студентські гуртки, які боряться за премію Alexa Prize — а це цілих 2,5 мільйони доларів. Їх завдання полягає в тому, щоб створити чат-бота, призначеного для спілкування з людьми, які ставлять послідовні і осмислені питання. Інформація в даному випадку оновлюється кожні 20 хвилин. Звучить як досить просте завдання навіть для рядового програміста, але на практиці спілкування програми з живими людьми завжди пов’язане з відхиленнями від теми діалогу, спонтанними фразами і іншими порушеннями. Програма, яка навчиться працювати з ними так само добре, як реальна людина, стане величезним проривом для всієї індустрії ШІ.

LEU
LEU

Залишити відповідь

Увійти за допомогою: