Согласно новому исследованию ученых-компьютерщиков ОСК, чтобы помочь роботу удастся, возможно, вам придется показать ему немного жесткой любви.
В смоделированных задач манипуляций, исследователи обнаружили, что обучение робота с человеческим противник значительно улучшил свое понимание объектов.
«Это первый робот обучению через враждебные люди», — сказал соавтор исследования Стефанос Николаидис, доцент кафедры информатики.
«Представь это как занятия спортом: если вы играете в теннис с человеком, который всегда позволяет вам выиграть, вы не получите лучше. То же самое с роботами. Если мы хотим, чтобы они занялись задачей манипуляции, такие как цепляние, так что они могут помочь людям, мы должны бросить им вызов.»
Исследование, «робот обучение через враждебные человеческие игры», был презентован ноября. 4 на международной конференции по интеллектуальным роботам и системам. Студенты ОСК кандидат в Зуан и Цянь Ванг ведущих авторов, советует профессор С. С. Джей Куо, с дополнительными соавтор Lerrel Пинто из Университета Карнеги-Меллон.
Обучение от практика
Николаидис, который присоединился школы Витерби Университета Южной Калифорнии машиностроения в 2018 году, и его команда используют обучение с подкреплением, метод, в котором программы искусственного интеллекта «узнать» от повторных экспериментов.
Не ограничиваясь завершения малого круга повторяющихся задач, таких как промышленные роботы, робототехнические системы «узнает» основан на предыдущих примерах, в теории увеличения диапазона задач, которые он может выполнять.
Но создание универсальных роботов крайне сложно, отчасти из-за количества необходимой подготовки. Робототехнические комплексы должны увидеть огромное число примеров, чтобы научиться управлять объектом в человеческой манере.
Например, впечатляет роботизированная система OpenAI научился решать кубик Рубика с гуманоидной рукой, но требуется в эквиваленте 10 000 лет условного обучение, чтобы научиться управлять кубом.
Что еще более важно, ловкость робота очень специфичен. Без серьезной подготовки, он не может подобрать объект, манипулировать им с еще сцепление, или понять и ручкой другого объекта.
«Как человека, даже если я знаю местоположение объекта, я не знаю точно, сколько он весит и как он будет двигаться или вести себя, когда я забрать его, пока мы делаем это успешно почти все время», — заявил Николаидис.
«Это потому, что люди очень интуитивны о том, как мир ведет себя, но робот-это как новорожденный ребенок».
Другими словами, робототехнические системы найти трудно обобщать, навык, который люди принимают как должное. Это может показаться тривиальным, но оно может иметь серьезные последствия. Если вспомогательные роботизированные устройства, такие как цепляние роботов, которые выполнят свое обещание помогать людям с ограниченными возможностями, робототехнические системы должны быть способны надежно работать в реальных средах.
Человека в петлю
Одна линия исследования, которые были вполне успешны в преодолении этой проблемы является наличие «человеческого фактора». Иными словами, человек обеспечивает обратную связь в робототехническую систему демонстрируя способность выполнить поставленную задачу.
Но, до сих пор эти алгоритмы произвели сильное предположение о сотрудничестве человека руководителя робота.
«Я всегда работал на взаимодействие человека и робота, но в реальности люди не всегда коллаборационистов с роботами в дикой природе», — заявил Николаидис.
В качестве примера он указывает на исследование японских ученых, который установил робот свободно в общественном торговом комплексе и наблюдать детей», действуя яростно» к нему неоднократно.
Так, подумал Николаидис, что если бы мы использовали наши человеческие желания сделать вещи вместо того, чтобы более трудным для робота? Вместо того, чтобы показать ему, как лучше понять предмет, что если бы мы попытались вытащить его отсюда? Путем добавления вызов, мышление идет, то система бы научиться быть более устойчивым к реальной сложности мира.
Элемент вызов
Эксперимент пошел что-то вроде этого: в компьютерной симуляции, робот пытается понять объект. Человека, за компьютером, наблюдает моделируемого робота понять. Если понять это успешный, человек пытается вырвать объект из робота рукой, используя клавиатуру, чтобы направление сигнала.
Добавление этого элемента проблемой помогает роботу выучить разницу между слабым представлением (например, бутылка сверху), против поднаторел (держа его в середине), что делает его гораздо труднее для человеческого противника, чтобы отнять их.
Это была немного сумасшедшая идея, признает Николаидис, но он работал.
Исследователи обнаружили, что система, связанная с человеческим противником отклонил нестабильной схватывает, и быстро научился надежной хватает для этих объектов. В эксперименте, модель достигла 52 процентов обхватывают успеха с человеческим противником против 26,5 процента схватив успеха с человеческим партнером.
«Робот научился не только в том, чтобы схватить предметы, более жестко, но и более часто добиваются успеха в новые объекты в другой ориентации, потому что он научился более устойчивый захват», — заявил Николаидис.
Они также обнаружили, что модели, обученной с человеческим противником лучше, чем у условного противника, которые имели на 28 процентов обхватывают показатель успеха. Так, робототехнических систем учиться лучшие из плоти и крови противников.
«Это потому, что люди могут понять стабильность и надежность лучше чем узнали супостаты», — пояснил Николаидис.
«Робот пытается подобрать материал и, если человек попытается сорвать, то это приводит к более стабильной хватки. И потому что он научился более устойчивый захват, это чаще удается, даже если объект находится в ином положении. Другими словами, он научился обобщать. Это большое дело».
Находя баланс
Николаидис надеется, что система работает на реальном роботе в течение года. Это будет новый вызов-в реальном мире, малейшего трения или шума в суставы робота можно кинуть вещи. Но Николаидис надеется о будущем состязательного обучения по робототехнике.
«Я думаю, что мы только поцарапали поверхность потенциальной приложений обучения через враждебные человеческие игры», — заявил Николаидис.
«Мы взволнованы, чтобы изучить человека-в-петлю состязательного обучения и в других задач, таких как обход препятствий для манипуляторов и мобильных роботов, таких как самоуправляемые автомобили».
Напрашивается вопрос: как далеко мы готовы принять состязательного обучения? Будем ли мы готовы пинать и бить роботов в представлении? Ответ, сказал Николаидис, заключается в поиске баланса жесткую любовь и поддержку с нашими партнерами по робототехнике.
«Я чувствую, что жесткая любовь-в контексте алгоритма, который мы предлагаем-это как спорт: это подпадает под определенные правила и ограничения», — заявил Николаидис.
«Если человека просто разрывает захват робота, робот будет постоянно терпеть неудачу и никогда не научатся. Другими словами, робот должен быть оспорена, но для успеха для того, чтобы учиться».
сделать разницу: спонсорские возможности

Ответить
Хотите присоединиться к обсуждению?Не стесняйтесь вносить свой вклад!