Робот, понимающий контекст
- Размер шрифта: Больше Меньше
- Печатать
- Поделиться
В фильмах мы видим роботов, которые умело общаются с людьми и хорошо понимают их. Однако в реальности всё не совсем так. Роботы хороши для повторяющихся действий. Но их неспособность вникнуть в нюансы языка делает их почти что бесполезными для более сложных задач.
Например, если вы положите какой-нибудь инструмент перед роботом и скомандуете ему: «Возьми это», — он не сможет выполнить команду. Ему потребуется выполнить сложный анализ и восстановить произошедшие события, чтобы понять, что же такое «это», и различить «это» среди других предметов, которые вы держали в руках до него.
Описанную выше затруднительную ситуацию с выбором конкретного предмета и разрешает данное исследование. Если вы сообщите системе, что «инструмент, который я держу — это мой инструмент», он добавит этот факт в свою базу знаний. Затем вы можете дать роботу дополнительную информацию о других объектах, чтобы он мог выбирать объекты или наборы объектов по различным командам.
«Люди понимают мир через совокупность объектов, людей и абстрактные концепции. Компьютеры видят мир как пиксели, множества точек и трехмерные карты, создаваемые с помощью датчиков», — говорит постдокторант Рохан Пол (Rohan Paul), один из ведущих авторов исследования. — «Этот семантический разрыв означает, что роботам для понимания наших указаний нужно гораздо более обширное представление о наших действиях и словах».
Команда проверила ComText на Baxter, двуруком гуманоидном роботе, разработанном для Rethink Robotics бывшим директором CSAIL Родни Брукс (Rodney Brooks).
Человеческая память о фактах бывает двух типов. Семантическая память основывается на данных (цвет неба – голубой), эпизодическая память — на персональных ощущениях и опыте. Обучение роботов обычно основывается на семантическом подходе, при котором существует большой пробел в знаниях о событиях или данных, которые могут быть связаны с будущими запросами. ComText может «имитировать» эпизодическую память о размере, форме, позиции, типе объекта и даже его владельце, записывая полученные факты в базу знаний. Используя её, система может обобщать запросы, находить в контексте смысл и отвечать на команды.
«Основная идея состоит в том, что роботы должны иметь разные типы памяти, как и люди», — говорит Барбу, один из авторов работы. — «У нас есть первичная математическая формулировка для решения этой проблемы, и мы изучаем, как эти два типа памяти взаимодействуют друг с другом».
С помощью ComText робот правильно выполняет команду примерно в 90% случаев. В дальнейшем исследователи планируют обучить алгоритм пониманию более абстрактных фактов и понятий. К примеру, если на столе лежат печенье и сахар, а команда звучит как «Дай мне еду», алгоритм должен понимать, что сахар не является непосредственно едой, а скорее ее компонентом или добавкой.
Профессор компьютерных наук Вашингтонского университета Люк Цетльмоер (Luke Zettlemoyer) так прокомментировал эту разработку: «Создание подобной системы — следующий шаг к созданию робота, умеющего общаться с людьми в более привычной нам манере».
Проект возглавлял научный сотрудник Андрей Барбу (Andrei Barbu), а также научный сотрудник Сью Фелшин (Sue Felshin), старший научный сотрудник Борис Кац (Boris Katz) и профессор Николас Рой (Nicholas Roy). Они представили своё исследование на прошедшей на прошлой неделе Международной совместной конференции по искусственному интеллекту (IJCAI, International Joint Conference on Artificial Intelligence) в Австралии.
Источник: ScienceDaily