Обучающие интерактивные роботы могут в один прекрасный день, легкая работа для всех, даже без опыта программирования. Роботехников разработке автоматизированных роботов, которые смогут узнать новые задачи, только наблюдая за людьми. Дома, вы могли бы когда-нибудь показать домашний робот, как сделать рутинные дела. На рабочем месте, вы могли бы обучить роботов, как новых сотрудников, показывая им, как выполнять многие обязанности.
Прогресс на этом видении, исследователи Массачусетского технологического института разработали систему, которая позволяет эти типы роботов выучить сложные задачи, которые в противном случае препятствуют их слишком много запутанных правил. Одной из таких задач является установление обеденного стола при определенных условиях.
По своей сути, исследователей «планирование с неопределенными спецификации» (каламбуры) система дает роботы человекоподобные возможность планирования одновременно весят много неоднозначных … и потенциально противоречивые требования, чтобы достичь конечной цели. Таким образом, система всегда выбирает наиболее вероятный действие, основанное на «вере» о некоторых вероятных спецификации для задач, которые она должна выполнять.
В своей работе ученые составили набор данных с информацией о том, как восемь объектов, кружка, стакан, ложка, вилка, нож, тарелка, маленькая тарелка, а миска-может располагаться на столе в различных конфигурациях. Роботизированную руку впервые заметила случайно выбранных человека демонстрации сервировки стола с предметами. Затем, исследователи поручили рукоятки с автоматически устанавливая стол в определенной конфигурации, в реальных экспериментах и при моделировании, основанный на том, что он видел.
Чтобы добиться успеха, робот должен был весить много возможных упорядочивания размещения, даже когда предметы были намеренно удалены, наборный, или скрытая. Обычно, все, что бы слишком много путайте роботов. Но робот исследователи сделали ни одной ошибки за несколько реальных экспериментов, и только несколько ошибок, за десятки тысяч смоделированных тестовых запусков.
«Видение-это поставить программирования в руках домена эксперты, которые могут программировать роботов с помощью интуитивных способов, вместо того, чтобы описывать приказы инженера пополнить свой код», — говорит первый автор Анкит Шах, аспирант кафедры аэронавтики и астронавтики (AeroAstro) и интерактивной робототехники группы, который подчеркивает, что их работа-это только первый шаг в реализации этой перспективы. «Таким образом, роботы больше не придется выполнять запрограммированные задачи. Рабочие завода могут научить робота выполнять несколько сложных задач ассамблеи. Бытовые роботы могут научиться укладывать шкафы, загрузить посудомойку, или установить стол с людьми у себя дома».
Вступление Шах на бумаге AeroAstro и интерактивные студенческий кружок робототехники выпускник ли Шен и интерактивной робототехники руководитель группы Джули Шах, доцент AeroAstro и компьютерных наук и лаборатории искусственного интеллекта.
Боты хеджирования ставки
Роботы хорошо планировщики в задачах с четкими «спецификации», которые помогают описать задачи робот должен выполнять, обдумывая свои действия, окружающей среды, а конечную цель. Учимся накрывать на стол, наблюдая за демонстрациями, полна неопределенности спецификации. Элементы должны размещаться в определенных местах, в зависимости от меню, где гости рассаживаются, и в определенные заказы, в зависимости от наличия товара или социальных конвенций. Современные подходы к планированию не способна справиться с такими неопределенными характеристиками.
Популярный подход к планированию-это «обучение с подкреплением,» проб и ошибок машинного обучения метод, который вознаграждает и наказывает их за действия, как они работают, чтобы завершить задачу. Но для решения задач с неопределенными характеристиками, трудно определить четкие наград и наказаний. Короче говоря, роботы никогда полностью не узнать правильное от неправильного.
Система исследователей, называются каламбурами (по планированию с неопределенными спецификации), позволяет роботу держать «вера» в диапазоне возможных характеристик. Сама вера может быть использован для блюдо из наград и наказаний. «Робот по сути хеджирования свои ставки в плане того, что предназначен в задаче, и предпринимает действия, которые удовлетворяют его мнению, вместо нас, придавая ему четкую спецификацию,» Анкит говорит Шах.
Система, построенная на «линейной временной логики» (ЛТ), выразительным языком, что позволяет роботизированной рассуждения о текущих и будущих результатов. Исследователи определенными шаблонами в ЛТ, что модели различных временных условий, как, например, то, что должно произойти теперь, должно в конце концов случиться, и должно случиться, пока не произойдет что-то еще. Наблюдения робота из 30 человека демонстраций для создания таблицы получены распределения вероятностей более 25 различных формул литов. Каждая формула, закодированных немного разные предпочтения-или спецификация-для создания таблицы. Это распределение вероятностей становится его вера.
«Каждая формула кодирует что-то другое, но когда робот считает различные комбинации всех шаблонов, и пытается удовлетворить все вместе, это заканчивается поступаю правильно в конце концов,» Анкит говорит Шах.
Следующим критериям
Исследователи также разработали несколько критериев, которыми руководствуется робот, удовлетворяющие всю веру за те формулы, кандидат. Один, например, отвечает скорее всего формула, которая отбрасывает все остальное, кроме шаблона с наибольшей вероятностью. Другим удовлетворить наибольшее количество уникальных формул, без рассмотрения их общей вероятности, или они удовлетворяют несколько формул, которые представляют высокую общую вероятность. Другой просто минимизирует ошибки, поэтому система игнорирует формулы с высокой вероятностью отказа.
Дизайнеры могут выбрать любой из четырех критериев, заданных до тренировки и тестирования. Каждый имеет свой собственный компромисс между гибкостью и риска. Выбор критериев зависит от задач. В критических ситуациях, связанных с безопасностью, например, дизайнер может ограничить возможности отказа. Но где последствия аварии не такие суровые, дизайнеры могут выбрать, чтобы дать роботам больше гибкости, чтобы попробовать разные подходы.
С критериями, на месте, исследователи разработали алгоритм для преобразования убеждений робота — распределение вероятностей указывая на нужную формулу-в эквивалентной задаче обучения с подкреплением. Эта модель будет пинг робота с помощью вознаграждения или наказания за действия, основанный на спецификации он решил следовать.
При моделировании задавать роботу накрыть стол в различных конфигурациях, он сделал только шесть ошибок из 20,000 нах. В реальном мире демонстраций, он показал поведение похоже на то, как человек будет выполнять задание. Если товар изначально не видны, например, робот будет закончить настройку остальные таблицы без элемента. Затем, когда вилка была выявлена, она будет установить вилку в правильное место. «Вот где гибкость-это очень важно», — говорит Шах. «В противном случае она застрянет, когда он планирует разместить вилку и не закончить установку стола».
Далее, исследователи надеются изменить систему, чтобы помочь роботам менять свое поведение на основе словесной инструкции, исправления или пользователя оценка производительности робота. «Говорят, человек демонстрирует робот как настроить таблицу только в одном месте. Человек может сказать, ‘делать то же самое для всех остальных прыщей, или поместите нож до развилки здесь», — говорит Шах. «Мы хотим разработать методы для системы, чтобы естественным образом приспособиться к обрабатывать эти словесные команды, не нуждаясь в дополнительной демонстрации.»
сделать разницу: спонсорские возможности

Ответить
Хотите присоединиться к обсуждению?Не стесняйтесь вносить свой вклад!