Искусственный интеллект, который играет в GTA

31.05.2017 16:21

В последнее время постоянно появляются новости в духе «Учёные заставили нейросеть играть в Starcraft 2», и большинству они наверняка кажутся очередным подтверждением того, что люди науки — сумасбродные гики. На самом деле, объясняет The Economist, исследователи нейросетей обращаются к играм не просто так — с их помощью ИИ учится понимать мир.

В 2016 году у Артура Филиповица (Artur Filipowicz), учёного, занимающегося вычислительной техникой в Принстонском университете, возникла проблема со знаком «Стоп». Мистер Филиповиц занимается тем, что учит автомобили видеть и интерпретировать окружающий мир, чтобы они могли ездить по дорогам самостоятельно. И для этого им нужно уметь узнавать знаки «Стоп», алгоритм распознавания которых Филиповиц и пытался создать.

Чтобы обучить компьютер, учёному нужно было «показать» ему огромное количество разнообразных знаков: старых, новых, чистых, грязных, частично закрытых другими объектами, на солнце и под дождём. И так далее.

Находить изображения всех этих знаков в фотобанках было бы сложно, а фотографировать их вручную — тем более. Вместо этого Филиповиц обратился к Grand Theft Auto V. Насилие и преступления в игре его не интересовали, ведь в ней есть множество реалистичных знаков «Стоп», находящихся в разнообразных ситуациях.

Интерес Филиповица к играм — лишь один из множества примеров того, как исследователи ИИ их используют. Причин такой популярности несколько. Некоторые учёные вроде Филиповица готовят ИИ на играх перед выходом в реальный мир. Другие, руководствуясь тем, что в играх нужно проявлять различные когнитивные навыки, надеются с их помощью разложить проблему создания интеллекта на небольшие фрагменты. Третьи, совмещая оба подхода, хотят разработать теоретическую основу искусственного интеллекта.

Умелый водитель

Однако первым делом нужно немного покопаться в коде игр, чтобы в них могла играть другая компьютерная программа. Для Grand Theft Auto V даже написана специальная программа под названием Deep Drive, с помощью которой игру можно превратить в симулятор вождения для автономных машин. Так их тестировать гораздо дешевле и безопаснее, чем на улицах.

Игровые компании тоже начинают понимать перспективность этого подхода. Например, в 2015 году Microsoft создала Project Malmo, платформу для развития ИИ на основе Minecraft. В ноябре 2016 года Activision Blizzard анонсировали создание подобного проекта на основе Starcraft 2 в коллаборации с DeepMind, компанией, специализирующейся на ИИ и принадлежащей компании Alphabet, которая владеет Google.

Через несколько месяцев после этого частная исследовательская группа из Сан-Франциско под названием OpenAI с разрешения правообладателей выпустила проект Universe — библиотеку из сотен игр, специально изменённых так, чтобы в них могли играть программы. Ассортимент Universe разнообразен: от Portal 2 до простых браузерных игр вроде Bubble Hit Pony Parade и James The Space Zebra.

Создавая Project Malmo, в Microsoft надеялись научить ИИ сотрудничать с людьми. Катя Хофманн (Katja Hofmann), глава проекта, пытается с помощью Minecraft создать продвинутого компьютерного ассистента. Она хочет, чтобы программа умела предугадывать желания человека и помогать ему их выполнять. Minecraft проще реального мира, но всё равно достаточно сложен, так что это идеальная тестовая площадка.

Например, Хофманн с коллегами с помощью Minecraft учат компьютер ловить виртуальную свинью вместе с игроком-человеком. Поскольку машина не может воспринимать письменные инструкции, она должна учиться сотрудничеству только наблюдая за человеком.

Однако игры могут быть не только тренировочной площадкой для ИИ. Разные игры требуют разных навыков, что помогает учёным изучать разные стороны сознания. Например, в 2015 году проект Deep Mind выпустил научную работу с описанием того, как его учёные научили нейросеть играть в десятки игр для Atari, выпущенных в семидесятых и восьмидесятых.

Одни игры оказались сложными для нейросети, другие — простыми. К последним относится Breakout, игра по типу Arcanoid. В ней игрок может делать лишь две вещи: двигать ракетку вправо или влево, а наказание за неудачу наступает мгновенно (потеря жизни). Успех тоже мгновенно поощряется (каждый разбитый блок увеличивает счёт очков).

Из-за такой удачной комбинации простоты и незамедлительной обратной связи нейросеть DeepMind так хорошо научилась играть в Breakout, что её счёт очков в десять раз превысил рекорды профессиональных тестировщиков игр.

Другие игры оказались посложнее. В Montezuma's Revenge цель игрока — найти сокровища в пирамиде, для чего нужно сначала выполнить множество побочных целей вроде поиска ключей. Обратную связь мгновенной не назвать — ключ, найденный в одной части карты, может открыть дверь в другой. А итоговая награда становится результатом тысяч предшествующих действий, из-за чего нейросети было сложно связать свои поступки и их последствия. В итоге её результат был гораздо хуже, чем в Breakout.

После этого учёные DeepMind внесли изменения в алгоритмы, чтобы нейросеть стала более любопытной — за исследование и эксперименты внутри игры стали выдаваться более весомые награды. Так нейросеть с большей вероятностью наткнётся на хорошую игровую стратегию, результаты применения которой не столь очевидны.

Этот подход не ограничивается виртуальным миром. Например, алгоритмы DeepMind используются в дата-центрах Google, где они «придумали», как уменьшить потребление электроэнергии на 40 процентов. Такие задачи вполне могут обставлены как игры: нейросети нужно менять параметры вроде давления в системе охлаждения и распределения нагрузки по сети, наблюдая за общим использованием электричества. Чем меньше «очков», тем лучше.

Нужно больше игр

Однако пока что научить нейросеть управлять электрической сетью дата-центра это всё равно, что научить её играть в новую игру с нуля. Это связано с тем, что нейросеть DeepMind могла учиться только одной игре одновременно. Например, чтобы понять Breakout, ей нужно было забыть всё, что она знала о Space Invaders. Этим компьютерные мозги и отличаются от настоящих. Нейросеть учится, меняя связи между виртуальными нейронами, из которых она состоит. Стоит изменить задачу, как все связи переписываются.

Однако в марте 2017 года вышла новая работа DeepMind. Программисты проекта придумали, как сделать так, чтобы нейросеть училась множеству игр одновременно. Это шаг в сторону полного «обучения с переносом» — когда поведение или образ мышления, полученный в одной ситуации, применяется в другой, — которое среди исследователей ИИ сейчас крайне популярно.

Люди постоянно практикуют обучение с переносом, а машинам это даётся с трудом. Помогают им, опять же, видеоигры. Например, Джулиан Тогелиус (Julian Togelius) из Нью-йоркского университета организовал конкурс под названием General Video Game AI Competition (Общее соревнование по видеоиграм среди ИИ). Участники должны написать одну программу, способную более-менее уверенно играть в десять разных игр, с которыми ни она, ни её создатели ранее не сталкивались. Для этого программа должна научиться множеству навыков — планированию, исследованию, принятию правильных решений и так далее, — и с их помощью решить проблемы, с которыми она ранее не сталкивалась.

Однако даже если машина освоит обучение с переносом, до создания полезного ИИ будет ещё далеко. Сейчас исследователям больше всего нужна теоретическая основа. Один из кандидатов на это звание, теория воплощённого познания, гласит, что искусственное сознание должно учиться только на своём опыте, а не быть изначально загнанным в программные рамки.

В частности, теорию воплощённого сознания поддерживает доктор Хофманн. И считает видеоигры идеальной платформой для её изучения. Когда в восьмидесятых исследователи пытались учить роботов, руководствуясь этой теорией, они просто нацепили на механизмы сенсоры и позволили им бегать по полу, сталкиваясь с предметами. Тогда учёные достигли некоторых результатов, но масштабировать эксперимент не смогли.

У роботов есть шестерни, колёсики, двигатели и так далее. Слишком много времени уходит на ремонт.

Дэвид Сильвер (David Silver), сотрудник DeepMind

Легион игроков

Видеоигры могут упростить этот процесс. Виртуальный робот в виртуальном мире не весит ничего, у него нет движущихся частей и он не нуждается в ремонте, а чтобы перенастроить его, не нужно ничего разбирать. Среду, в которой он учится, тоже легко изменить. Виртуальный лабиринт создать проще, чем пластиковый, к тому же, компьютер может прогонять тысячи симуляций одновременно. И легионы виртуальных роботов будут пытаться снова и снова, умнея с каждой попыткой. С реальными машинами это невозможно.

По словам Дэмиса Хассабиса (Demis Hassabis), основателя DeepMind, важно убедиться в том, что виртуальный робот не жульничает. Он должен двигаться только исходя из информации, которую получает со своих виртуальных сенсоров. Если ему нужно выбраться из пирамиды в Montezuma Revenge или справиться с бандитами Лос-Сантоса, он должен разбираться во всём сам, не запрашивая координаты у основного компьютера. Таким подходом руководствуются в DeepMind, когда учат программы играть в видеоигры.

Обращение к воплощённому познанию — логичное завершение игрового подхода к исследованию ИИ. Молодые особи любых разумных существ от собак до людей во время игры пользуются методами, подозрительно напоминающими воплощённое сознание.

У эволюции компьютеров не было, но суть такой деятельности одинакова в виртуальном мире и настоящем — подготовить игрока к реальности.

Источник

Источник
30 ЛУЧШИХ ММО ИГР