«Слепые зоны» сетей, генерирующих изображения

  • Размер шрифта: Больше Меньше
  • Печатать
  • PDF

Все современные пользователи соцсетей сталкивались с генеративно-состязательными сетями – так называемыми generative adversarial networks, сокращенно GAN – и знают, что они хороши в создании портретов. Они могут «нарисовать» вас стариком, суперзвездой или человеком противоположного пола. Но с более сложными картинками у таких сетей возникают проблемы.

На прошлой неделе на Международной конференции по компьютерному зрению (International Conference on Computer Vision) в Сеуле было представлено большое исследование «Обзор того, что не генерируют GAN» (Seeing What a GAN Cannot Generate).

Дэвид Бау, аспирант электротехники и информатики Массачусетского института и Лаборатотрии информатики и искусственного интеллекта, один из авторов работ, говорит так: «Исследователи обычно концентрируются на том, что системы машинного обучения делают хорошо… Этой работой мы надеемся привлечь внимание исследователей к описанию данных, которые эти системы игнорируют».

В GAN пары нейросетей работают вместе для создания гиперреалистичных изображений по данным им паттернам. Бау стало интересно, как именно нейросети принимают решения и почему именно такие. Предыдущий инструмент, разработанный его научным руководителем профессором MIT Антонию Торральба (Antonio Torralba) и исследователем из IBM Хендриком Штробельтом (Hendrik Strobelt), касалась кластеров искусственных нейронов, отвечающих за воссоздание облаков, деревьев и дверей. Параллельно этому, разработанный ими инструмент GANPaint позволяет художникам-любителям добавлять и удалять элементы с фотографий вручную.

Именно при помощи GANPaint Бау обнаружил проблему. «Когда мы присмотрелись, проблема буквально выпрыгнула на нас: часть людей на картинках выборочно «терялась».

GAN обучается создавать реалистичные изображения, а за нереалистичные получает «штраф» — так устроено генеративно-состязательного обучения: две нейросети работают в паре, и одна создает изображение, а другая проверяет, что изображение получилось качественное. В итоге генеративная, то есть создающая изображение, часть сети решает «не связываться» со сложными объектами и просто убирает их. Бау и его коллеги протестировали разные GAN на картинках помещений и улиц – и там, и там сети постоянно пренебрегали важными деталями: фигурами людей, машин, дорожными знаками, фонтанами, фрагментами мебели. В одном примере GAN реконструировала картинку пары новобрачных, целующихся на ступенях церкви – нейросеть «убрала» жениха и оставила только абстрактную фигуру невесты в платье.

«Когда GAN сталкивается с объектом, который не может создать, она как бы старается представить себе картинку без него – говорит Штробельт. – И человек превращается в куст или растворяется в фоновом здании».

Пропуская сложные объекты, ИИ достигает своих целей и выполняет установленные для него качественные показатели изображений. Но эти изображения потенциально вредоносны – например, их удобно использовать для обучения автоматизированных систем вроде беспилотных автомобилей. Но с такими «потерями» важных объектов это попросту опасно!

«Вот почему эффективность модели не должна измеряться одной только ее точностью», – говорит Бау. – «Мы должны четко понимать, что делают и чего не делают нейросети. Только так мы будем уверены, что они работают так, как мы от них ожидаем».

Источник: MIT News

в разделе: В мире Просмотров: 71