Сказал, чтобы оптимизировать скорость во время гонки вниз по дорожке в компьютерной игре, автомобиля нажимает на педаль до упора … и продолжает крутиться в узкий круг. Ничего в инструкции сказали, что машина ехать прямо, так и самодельных.
Этот пример-смешно в компьютерной игре, но не так много в жизни-среди тех, что мотивированные исследователи Стэнфордского университета в построении лучшего способа, чтобы установить цели для автономных систем.
Дорса Садига, доцент кафедры информатики и электротехники, и ее лаборатории были объединены два различных способов постановки целей для роботов в единый процесс, который осуществляется лучше, чем любой из его частей в покое в обеих моделирования и реальных экспериментов. Исследователи представили работу 24 июня в рамках робототехника: Наука и конференц-систем.
«В будущем, я ожидаю, что там будет больше автономных систем в мире и они понадобятся некоторые понятия, что такое хорошо и что такое плохо», — сказал Энди Палан, аспирант в области компьютерных наук и со-ведущий автор статьи. «Это важно, если мы хотим развернуть эти автономные системы в будущем, что мы получим это право».
Новая система команды для обучения роботов, известный как награда функций — совместная демонстрации, в которых люди показывают робота, что делать, и предпочтение опросы пользователей, в котором люди отвечают на вопросы о том, как робот себя вести.
«Демонстрации являются информативными, но они могут быть шумными. С другой стороны, преференции предоставить, по крайней мере, один бит информации, но более точные», — сказал Садига. «Наша цель-сделать лучшее из обоих миров, и объединения данных, поступающих от этих источников более грамотно, чтобы лучше узнать предпочитаемую функцию о людях’ награда».
Демонстрации и обследования
В предыдущей работе, Садига были сосредоточены только на привилегированные опросы. Эти просить людей сравнить сценариев, таких как двух траекторий для автономного автомобиля. Этот метод эффективен, но может занять аж три минуты, чтобы генерировать следующий вопрос, который по-прежнему медленно для создания инструкций для сложных систем, как автомобиль.
Чтобы это ускорить, позже группа разработала способ производить несколько вопросов сразу, которые можно было бы ответить в быстрой последовательности одним человеком или распределены между несколькими людьми. Это обновление ускорило процесс 15 до 50 раз по сравнению с производством вопросы один за одним.
Новые комбинированные системы начинается с лица, демонстрируя поведение робота. Что может дать автономных роботов много информации, но робот часто пытается определить, какие части демонстрации имеют важное значение. Люди тоже не всегда хотите, чтобы робот ведет себя просто как человека, который обучил его.
«Мы не можем всегда дать демонстрации, и даже когда мы можем, мы часто не можем полагаться на информацию люди дают», — сказал Эрдем Бийик, аспирант в области электротехники, который вел разработку нескольких-вопрос исследований. «Например, предыдущие исследования показали, люди хотят автономные автомобили ездить менее агрессивно, чем они сами.»
Вот где приходят на опросы, дав роботу так просишь, например, может ли пользователь предпочитает перемещать свою руку низко к земле или вверх к потолку. Для этого исследования группа использовала медленнее один способ вопрос, но они планируют интегрировать несколько-вопрос обследования в дальнейшей работе.
В тестах, исследователи нашли, что сочетание демонстрации и обследования был быстрее, чем просто указание предпочтений и, по сравнению с демонстрации, около 80 процентов людей предпочитали, как робот себя вел, когда тренировался с комбинированной системой.
«Это шаг в лучшее понимание того, что люди хотят или ожидают от робота», — сказал Садига. «Наша работа делает его легче и более эффективными для людей, чтобы взаимодействовать и обучать роботы, и я рада принимать в дальнейшем эта работа, особенно в изучении, как роботы и люди могут учиться друг у друга.»
Лучше, быстрее, умнее
Люди, которые использовали комбинированный метод сообщила сложно понять, что система становится на некоторые его вопросы, которые иногда просили их выбрать один из двух сценариев, которые, казалось, то же и, казалось, не имеет отношения к задаче-общая проблема, как в преферансе-ориентированного обучения. Исследователи надеются решить эту проблему с более легкими обследования, что также более быстро работать.
«Заглядывая в будущее, он не 100% для меня очевидно, что правильный путь, чтобы принять награду функций, но реально вы будете иметь какой-то комбинации, которые могут решать сложные ситуации с участия человека», — сказал Палан. «Быть в состоянии проектировать премиальные функции для автономной системы-это большая, важная проблема, которая не получила достаточно внимания в научных кругах, как она того заслуживает».
Команда также заинтересована в изменении их системы, которая позволила бы людям, чтобы одновременно создать награду функций для различных сценариев. Например, человек может хотят, чтобы их автомобиль более консервативно в замедленном движении и более агрессивно, когда трафик небольшой.
Соавторы РСС бумаги 2019 включают бакалавриата Глеб Шевчук и аспирант Николай С. Ландолфи, как в Стэнфорде.
Это исследование финансировалось Тойота исследовательского института и будущей жизни Института.
сделать разницу: спонсорские возможности

Ответить
Хотите присоединиться к обсуждению?Не стесняйтесь вносить свой вклад!