Boeing впевнений, що зможе обігнати SpaceX на шляху освоєння Марса
12 Грудня , 2017
Китайська компанія TBEA побудує на Миколаївщині вітрову електростанцію потужністю 500 МВт
12 Грудня , 2017

Програма AI AlphaGo Zero за кілька годин самонавчання стала кращою у грі в шахи, Го і Сьоґі

Програмі штучного інтелекту AlphaGo Zero, розробленійпідрозділом DeepMind компанії Google, знадобилось лише чотири години гри самої з собою для того, щоб досягти рівня гри, що перевершує рівень гри в шахи будь-якої людини чи іншої комп’ютерної програми. У матчі зі 100 ігор програма AlphaGo Zero здобула перемогу з рахунком 28:0 над програмою Stockfish, яка вже досить давно є світовим чемпіоном з шахів серед комп’ютерних програм.

Процес навчання програми AlphaGo Zero завжди починається з нуля, у програму вводяться тільки базові правила самої гри. Після цього програма починає грати сама з собою, роблячи з початку випадкові ходи. Через нетривалий час програма починає накопичувати досвід і рівень її гри помітно підвищується. За 24 години такого самонавчання програма AlphaGo Zero придбала “надлюдський” рівень гри в шахи, Го і Сьоґі (японські шахи), здобувши кожен раз переконливу перемогу над іншою програмою, яка має звання чемпіона світу серед комп’ютерних програм в даному виді.
Така швидкість і ефективність процесу самонавчання стали результатом тривалого підбору параметрів роботи і параметрів штучної нейронної мережі, яка лежить в основі системи штучного інтелекту. Підбір же деяких інших параметрів покладено на саму програму і вона виконує цю задачу, використовуючи метод оптимізації Байєса. Єдиним “штучним” моментом в процесі самонавчання є “шум” у вигляді набору випадкових даних, який є тим, що штовхає програму зробити перший хід і запустити процес самонавчання.

Як вже згадувалось вище, перед початком процесу самонавчання у програму вводяться усі правила і базові принципи гри. Цікавим є те, що ці правила і допустимі дії кодуються у вигляді плоских (двовимірних) і тривимірних векторів.
Універсальність нового методу самонавчання підтверджується тим, що при навчанні програми AlphaGo Zero грі в шахи, Го і Сьоґі використовувався один і той же набір стартових параметрів, параметрів алгоритмів і архітектура нейронної мережі. Кожен окремий екземпляр програми AlphaGo Zero навчався якомусь одному виду гри, і зазвичай процес навчання вкладався в 700 тисяч ходів, зроблених програмою. У цьому процесі були задіяні потужності 5000 спеціалізованих процесорів TPU першого покоління і 64 TPU-процесорів другого покоління.
Програма AlphaGo Zero виграла в шахи у програми Stockfish після 4 годин самонавчання, протягом яких вона зробила 300 тисяч ходів. В Сьоґі програма AlphaGo Zero здобула перемогу над програмою Elmo після 2 годин і 110 тисяч зроблених ходів. А в Го програма AlphaGo Zero здобула перемогу над програмою AlphaGo Lee після восьми годин і 165 тисяч ходів самонавчання.

Джерело

 

LEU
LEU

Залишити відповідь

Увійти за допомогою: