Следующая новость
Предыдущая новость

Почему специалисты по ИИ так ценят видеоигры

Почему специалисты по ИИ так ценят видеоигры

Видеоигры завоевывают все большую популярность среди специалистов по искусственному интеллекту. Они позволяют не только проще, быстрее и дешевле проводить эксперименты и тренировать алгоритмы, но и могут стать основой новой теории интеллекта в целом.

Как именно это происходит сейчас и будет происходить в ближайшем будущем, рассказал журнал Economist.

В прошлом году Артур Филипович (Artur Filipowicz), специалист по информатике из Принстонского университета, столкнулся с серьезной проблемой. Доктор Филипович учит автомобили видеть и распознавать окружающий мир, чтобы в итоге они смогли двигаться без внешнего вмешательства. Один из важных для этого навыков – умение распознавать знаки остановки.

До того момента ученый пытался научить автомобили соответствующему алгоритму. Суть этого обучения заключалась в том, чтобы показать алгоритму (или компьютеру, выполняющему этот алгоритм) множество изображений разных знаков остановки в самом разном окружении: старых и новых, чистых и грязных, частично перекрытых грузовиками или зданиями, знаков в ясную погоду, в дождливую погоду и в тумане, знаков днем, в сумерках и ночью.

Получить все эти изображения из фотоархивов было бы трудно. Брать в руки камеру и делать все эти снимки самостоятельно было бы слишком дорого. Вместо этого доктор Филипович обратился к помощи игры Grand Theft Auto V, новейшей в известной серии видеоигр. Вокруг GTA V ходило много споров из-за слишком реалистичного изображения преступлений и насилия – однако с точки зрения ученого игры была идеальна, потому что в ней также реалистично изображены дорожные знаки.

Поработав с кодом игры, он смог добыть тысячи изображений знаков в самых разных условиях и использовать их для обучения своего алгоритма.

История доктора Филиповича и его дорожных знаков – всего лишь один из примеров теплого отношения специалистов по искусственному интеллекту к видеоиграм. Эта популярность имеет несколько причин. Некоторые инженеры, такие как доктор Филипович, используют игры в качестве тренировочных площадок для реального мира. Другие учитывают, что для разных игр требуются разные когнитивные навыки, и считают, что игры могут помочь разбить задачу создания интеллекта на небольшие и более понятные шаги.

Есть и третья группа – те, кто согласен с обоими утверждениями и считает, что игры помогут нам разработать действующую теорию искусственного (или даже естественного) интеллекта.

Учимся водить

Тем не менее для реализации этих надежд сами игры нужно модифицировать так, чтобы в них могли играть другие компьютерные программы, а не человек, следящий за происходящим на экране. К примеру, GTA V можно превратить из источника изображений дорожных знаков в симулятор вождения для беспилотных машин, добавив ПО под названием Deep Drive. Оно позволяет управлять игровым процессом с помощью систем вождения и навигации автомобиля.

Это более дешевый и безопасный способ тестирования ПО для автономного вождения, чем выпускать автомобили на реальные дороги.

Игровые студии начинают это замечать. Microsoft, к примеру, в июне 2015 года запустила проект Malmo – платформу для развития ИИ, созданную на базе популярной стратегии Minecraft, которую корпорация не так давно приобрела. В ноябре 2016 года Activision Blizzard, владеющая правами на научно-фантастическую стратегию Starcraft II, в которой игроки должны управлять армиями людей и пришельцев, объявила о запуске подобного проекта в партнерстве с DeepMind – разработчиком ИИ, принадлежащим корпорации Alphabet.

В следующем месяце частная исследовательская группа OpenAI из Сан-Франциско с разрешения всех правообладателей выпустила Universe. В этой бесплатной программе сотни разных игр представлены в таком виде, что с ними напрямую могут взаимодействовать специализированные сервисы. Среди игр, входящих в Universe, можно увидеть и популярные высокобюджетные названия вроде Portal 2 (головоломка, основанная на применении законов физики), и совсем элементарные веб-игры вроде Bubble Hit Pony Parade и James the Space Zebra.

Одной из главных причин для запуска Project Malmo стало стремление Microsoft научить ИИ работать совместно с людьми. Для этого руководитель проекта Катя Хофман (Katja Hofman) решила создать на базе Minecraft продвинутого цифрового помощника. Цель Хофман – научить программу предсказывать, чего хочет оператор, и помогать ему этого достигать. Minecraft, которая устроена проще реального мира, но все еще достаточно сложна, чтобы быть интересной, представляет собой идеальную тренировочную площадку.

К примеру, доктор Хофман с коллегами пытается научить компьютер понимать, что ему нужно действовать сообща с человеком, чтобы поймать розовую свинью. Поскольку машина неспособна распознавать письменные команды, единственная для нее возможность научиться командной игре – следить за действиями своих напарников-людей.

Однако видеоигры могут принести ИИ куда более существенную пользу, чем просто возможность обучаться. Тот факт, что разные игры требуют разных навыков, помогает исследователям разбираться в задаче создания интеллекта.

В 2015 году DeepMind опубликовала статью, в которой рассказывалось, как специалисты компании обучали искусственную нейросеть – программу, структура которой в общих чертах копирует принцип работы биологического мозга – играть в десятки разных игр, выпущенных в 1970-х и 1980-х компанией Atari – пионером игровой индустрии.

С некоторыми играми нейросети пришлось сложнее, чем с остальными. Breakout, что-то вроде одиночной версии игры в теннис, оказалась простой. Ее цель – разбивать пролетающие блоки с помощью мяча. Игроку доступны два действия: передвинуть «ракетку» влево или вправо. Плохая игра карается сразу (потеря мяча приводит к проигрышу). Успешная игра также сразу дает о себе знать (каждый разбитый блок добавляет одно очко).

Эта комбинация простоты и мгновенной обратной связи отлично подошла нейросети DeepMind, которая смогла достичь результатов, в десять раз превышающих показатели профессиональных тестировщиков игр.

Другие игры не так просты. В Montezuma’s Revenge нужно достать сокровища, спрятанные внутри пирамиды, полной опасностей. Для этого игрок должен выполнить множество промежуточных целей, например, найти ключи для одной из дверей.

Обратная связь уже не так оперативна, как в Breakout – ключ, который кажется бесполезным в одной области, может открыть дверь дальше, спустя какое-то время. Конечный результат – получение сокровищ – зависит от последовательности из множества других действий. Таким образом, для нейросети было трудно связывать между собой причину и следствие. В отличие от столь виртуозного мастерства в Breakout, в Montezuma’s Revenge сеть достигла очень скромных результатов.

За это время специалисты DeepMind модифицировали свои алгоритмы: награды за исследование новых областей и эксперименты были увеличены, так что система стала более любопытна. Это позволяет находить более успешные стратегии, которые не всегда приносят мгновенный результат.

Подобный подход не ограничивается тренировкой навыков в виртуальном мире – он может оказаться полезным и в реальном. К примеру, алгоритмы DeepMind начали применять в дата-центрах Google, где благодаря этому удалось снизить энергопотребление на 40%. Задачи вроде этой можно представлять в виде игры: нейросеть может регулировать параметры, такие как подача охлаждающей жидкости или распределение нагрузки, отслеживая при этом энергопотребление.

Таким образом, чем ниже будет «счет» в игре, тем лучше сеть справляется с задачей.

Олицетворение правды

На данном этапе переназначение игровых алгоритмов для управления распределением энергии в дата-центре в многом похоже на обучение новой игре с нуля. Все потому, что изначально нейросеть DeepMind могла учиться только одной игре. К примеру, чтобы разобраться в Breakout, сети пришлось бы полностью забыть все правила и тонкости Space Invaders.

Подобная амнезия отражает природу рукотворных нейросетей и отличает их от реального мозга. Смените игру, и старая сеть связей со временем будет перезаписана. Однако в этот раз похоже, что программисты DeepMind нашли способ преодолеть эту проблему и научить нейросеть сразу нескольким сетям. Этот шаг к более быстрому обучению – возможности использовать одни и те же контекстные принципы для разных областей – активно обсуждается в среде специалистов по ИИ.

Такие вещи, как проявление любопытства или замедленная обратная связь, легко даются людям, но очень сложно даются машинам. И здесь также большое значение в исследованиях имеют игры. К примеру, Джулиан Тоджелиус (Julian Togelius) из Нью-Йоркского университета организовал конкурс под названием General Video Game AI Competition.

Участники должны написать одну программу, способную с определенным успехом играть в десять разных видеоигр, с которыми ни программа, ни ее создатели раньше не сталкивались.

Даже когда передаточное обучение будет полностью доступно, создание полезного искусственного интеллекта все равно останется долгим и кропотливым делом. По-настоящему исследователям помогли бы теоретические знания о том, как делать это наиболее эффективно. Одна из теорий, которые могут лечь в основу этих знаний, называется «воплощенное познание». Ее концепция гласит, что вместо программирования интеллекта в алгоритм на этапе его создания нужно позволить ему научиться всему на собственном опыте.

Доктор Хофман является одним из сторонников этого подхода. По ее мнению, видеоигры – идеальная платформа для более глубокого исследования этой идеи. В рамках более ранних попыток изучить воплощенное познание, организованных в 1980-х годах, роботов оснащали датчиками и позволяли им учиться жизни в реальном мире, свободно двигаясь и сталкиваясь с окружающими объектами.

В то время ученые достигли определенного прогресса, но затем не смогли должным образом масштабировать свои эксперименты. Как отметил Дэвид Сильвер (David Silver), который сейчас работает в DeepMind: «Роботы состоят из шестеренок, колес, моторов и прочих ненадежных деталей. В итоге на техобслуживание уходит очень много времени».

Игра без перерыва

Видеоигры могут упростить этот процесс. Виртуальный робот в виртуальном мире не весит ничего. У него нет движущихся элементов, так что и в обслуживании нет нужды. Чтобы изменить характеристики робота, не нужно разбирать его на мелкие детали и собирать заново. Достаточно будет пары нажатий на клавиатуре.

Так же легко можно изменять окружение. Чтобы изменить схему лабиринта, уже не нужно заново сваривать листы металла или склеивать пластиковые стенки. К тому же, компьютер может проводить тысячи подобных опытов за короткое время, так что легионы виртуальных роботов могут выполнять задания снова и снова, обучаясь с каждой новой попыткой.

Подобное крупномасштабное тестирование, в ходе которого можно отслеживать и интерпретировать процесс обучения, был бы попросту непрактичен при использовании настоящих роботов.

По мнению Демиса Хассабиса, основатели DeepMind, очень важно застраховаться от того, чтобы виртуальные роботы не могли жульничать. При передвижении они должны будут пользоваться только информацией со своих виртуальных датчиков. Они не должны «подглядывать», добывая информацию извне.

Если такой робот учится проходить полный опасностей путь по пирамиде в Montezuma’s Revenge или выживать в вымышленном городе Лос-Сантосе из Grand Theft Auto, он должен определять свое местоположение на основе того, что он может «видеть», а не просить у компьютера свои координаты. Именно такой позиции придерживаются в DeepMind, когда обучают своих роботов играть в видеоигры.

Таким образом, изучение воплощенного познания – это логичное следствие использования игр для тренировки ИИ. Такой путь кажется закономерным. Взгляните на детеныша любого разумного создания – от собаки до человека – и вы увидите, как он с помощью игр реализует нечто вроде воплощенного познания. Эволюции удалось сделать это без помощи компьютеров. Однако основная цель таких занятий (как в реальном, так и в виртуальном мире) подготовить игроков к главной игре – реальности.

Источник


Источник
30 ЛУЧШИХ ММО ИГР

Последние новости