Идиот или гений? Как работает и на что способен искусственный интеллект | Мелани Митчелл | страница 51 | pharmateka.ru

Вам может показаться, что сеть со случайными весами провалится в видеоигре Atari, и большинство таких сетей действительно играет ужасно. Но специалисты Uber тестировали все новые сети со случайными весами, пока (за меньшее время, чем требуется для обучения глубокой Q-сети) не нашли те, которые справлялись с пятью из тринадцати тестовых игр не хуже, а порой даже лучше, чем глубокие Q-сети. Другой относительно простой алгоритм, так называемый генетический алгоритм^[218], превзошел глубокое Q-обучение в семи из тринадцати игр. Эти результаты показывают, что область игр Atari, возможно, не столь сложна для ИИ, как казалось людям.

Насколько мне известно, никто не пробовал применить подобный случайный поиск весов в сети для го. Я бы очень удивилась, если бы это сработало. Учитывая, как долго исследователи пытались спроектировать программу для игры в го, я уверена, что го входит в число поистине сложных для ИИ областей. Однако, как отметил Гэри Маркус, люди играют во множество игр, которые для ИИ еще сложнее го. В качестве яркого примера Маркус приводит игру в шарады^[219], которая, если задуматься, требует развитых зрительных, лингвистических и социальных способностей, значительно превосходящих способности любой современной системы ИИ. Если бы вы могли сконструировать робота, который смог бы играть в шарады, скажем, на уровне шестилетнего ребенка, то, думаю, вы были бы вправе сказать, что покорили несколько “самых сложных областей” ИИ.

Чему научились эти системы?

Как обычно происходит с глубоким обучением, человеку сложно понять, чему именно научились нейронные сети, которые использовались в игровых системах. Читая предыдущие разделы, вы, возможно, заметили некоторый антропоморфизм моих описаний – так, я сказала: “Система DeepMind освоила стратегию проброса мяча сквозь кирпичи при игре в Breakout”.

Я не единственная прибегаю к такому языку, описывая поведение систем ИИ, но эта привычка таит в себе опасность. За нашими словами часто кроются бессознательные допущения, которые не всегда оказываются верными для компьютерных программ. Правда ли, что разработанная DeepMind система освоила стратегию проброса мяча в Breakout? Гэри Маркус напоминает, что нам следует быть осторожными при выборе выражений:

Система этому не научилась – она не понимает, что такое тоннель или стена, а потому просто запомнила конкретные обстоятельства для определенных сценариев. Тесты на перенос, в которых система глубокого обучения с подкреплением получает сценарии, имеющие незначительные отличия от тех, что рассматривались на стадии обучения, показывают, что решения на основе глубокого обучения с подкреплением часто оказываются крайне поверхностными^[220].

Маркус ссылается на несколько исследований, в которых ученые проверяли, насколько хорошо системы глубокого Q-обучения с подкреплением переносят свои знания при внесении некоторых – даже незначительных – изменений в игру. Так, одна группа исследователей изучала систему, напоминающую программу DeepMind для игры в Breakout. Оказалось, что после того, как игрок достигнет “сверхчеловеческого” уровня, достаточно сместить ракетку на несколько пикселей вверх, чтобы показатели программы резко упали^[221]. Это позволяет предположить, что система не получила даже базовое представление о том, что такое ракетка. Другая группа показала, что показатели системы глубокого Q-обучения для игры в Pong значительно снижаются при изменении цвета фона экрана^[222]. Более того, в обоих случаях системе требуется множество эпизодов переобучения для адаптации к изменениям.

Вот лишь два примера неспособности глубокого Q-обучения к генерализации, с которой легко справляются люди. Насколько мне известно, ни одно исследование не проверяло, понимает ли программа DeepMind для игры в Breakout, что такое проброс, но я полагаю, что система не смогла бы провести генерализацию, чтобы выполнять, скажем, пробросы вниз или в сторону без серьезного переобучения. Как отмечает Маркус, хотя мы, люди, приписываем программе определенное понимание понятий, которые считаем базовыми (например, стена, потолок, ракетка, мяч, проброс), программа их не понимает:

Эти исследования показывают, что некорректно говорить об освоении системами глубокого обучения с подкреплением таких понятий, как “стена” или “ракетка”, и подобные замечания представляют собой пример того, что в сравнительной (зоо-)психологии иногда называют сверхатрибуцией. Система [для игры на] Atari не усвоила понятие стены на глубинном уровне, а поверхностным образом сопоставила пробивание сквозь стены с узким набором прекрасно заученных обстоятельств^[223].

Подобным образом, хотя AlphaGo демонстрировала чудесную “интуицию” при игре в го, насколько я могу судить, у системы нет механизмов, которые позволили бы ей генерализировать навыки игры в го даже для игры на доске меньшего размера или другой формы без реструктуризации и переобучения своей глубокой Q-сети.

Иными словами, хотя эти системы глубокого Q-обучения добились сверхчеловеческих результатов в узких областях и даже продемонстрировали в них некое подобие “интуиции”, они лишены ключевой способности человеческого разума. Можно называть ее по-разному – абстрактным мышлением, генерализацией или переносом обучения, – но ее внедрение в системы ИИ остается одной из важнейших задач отрасли.

Есть и другая причина полагать, что компьютерные системы не осваивают человеческие понятия и не понимают свои области на человеческий лад: как и системы обучения с учителем, системы глубокого Q-обучения не справляются с контрпримерами вроде тех, что я описала в главе 6. Так, одна исследовательская группа продемонстрировала, что при внесении конкретных минимальных изменений в пиксели входного сигнала программы для игры в одну из видеоигр Atari изменения, незаметные человеку, значительно ограничивают способности программы к игре.

Насколько умна AlphaGo?

Рассуждая о связи таких игр, как шахматы и го, с человеческим разумом, мы не должны забывать одну важную вещь. Задумайтесь, почему многие родители поощряют занятие ребенка шахматами (а кое-где и го) и предпочитают, чтобы ребенок играл в шахматы (или в го), вместо того чтобы смотреть телевизор или играть в видеоигры (прости, Atari)? Люди полагают, что такие игры, как шахматы и го, учат детей (и кого угодно) мыслить, развивая у них логику, абстрактное мышление и способности к стратегическому планированию. Все эти общие навыки остаются с человеком на всю жизнь и помогают ему во всех начинаниях.

Идиот или гений? Как работает и на что способен искусственный интеллект - читать онлайн книгу. Автор: Мелани Митчелл cтр.№ 51

Онлайн книга - Идиот или гений? Как работает и на что способен искусственный интеллект | Автор книги - Мелани Митчелл