Интеллектуальное приложение ретуширует фото на вашем телефоне

  • Размер шрифта: Больше Меньше
  • Печатать
  • PDF

Сегодня снимки даже профессиональных камер считаются «черновиками», которым еще предстоит обработка. Любой среднестатистический пользователь перед загрузкой фото в социальную сеть непременно ее ретуширует, подбирает фильтры – для чего существует множество программ обработки изображений.

На этой неделе на Siggraph, ведущей конференции по компьютерной графике, исследователи из лаборатории компьютерных наук и искусственного интеллекта Массачусетского университета (MIT’s Computer Science and Artificial Intelligence Laboratory) и компании Google представили новую систему, умеющую ретушировать изображения как профессиональный фотограф. Эта система настолько быстрая и энергосберегающая, что может показывать итоговые изображения во время самого процесса фотографирования.


Такая система может ускорить существующие алгоритмы обработки изображений. Для тестирования разработанной системы использовался новый проект Google: алгоритм для создания изображений с расширенным динамическим диапазоном (high-dynamic-range, http://news.mit.edu/2017/ultra-high-contrast-digital-sensing-cameras-0714), который фиксирует тонкости цветов, потерянные в стандартных цифровых изображениях. В тестах новая система давала результаты, которые визуально неотличимы от других алгоритмов. При том, что время выполнения у них не различалось относительно первого порядка, что достаточно быстро для отображения в реальном времени.

В основе проекта – система машинного обучения, в которой для обучения каждой новой задаче использовали тысячи пар изображений: одно из них было «сырым», а второе уже отредактированным.

Работа основывается на более раннем проекте исследователей MIT, в которой сотовый телефон отправляет версию изображения с низким разрешением на веб-сервер. Далее сервер отправляет обратно «рецепт преобразования», который может быть использован для ретуширования версии изображения с высоким разрешением на телефоне. Это снижает энергозатраты.

«Google услышал о работе, которую я сделал над «рецептом преобразования», — говорит Майкл Гарби (Michaël Gharbi), аспирант Массачусетского технологического института в области электротехники и информатики, и первый автор обеих работ: «Они сами занимались подобным, потому мы встретились и объединили два подхода. Идея заключалась в том, чтобы делать все, что мы делали раньше, а вместо того, чтобы обрабатывать все на облаке, обучить систему работать самостоятельно».

В этой работе основная часть обработки изображения проходит не с самим изображением высокого качества, а с его копией с низким разрешением. Это добавляет новую трудность: теперь после преобразования картинки обучающаяся система должна правильно распознать цвета конкретных пикселей.

Однако в прошлом проекте, когда исследователи пытались увеличить чёткость картинки за счёт машинного обучения, у них на практике возникла проблема с уточнением изображения. Картинка с низким качеством давала слишком много вариантов для обрабатывающей системы.

Для работы системы исследователи использовали интересный приём: они передавали обучающейся системе не пиксели, а наборы простых формул для изменения цветов пикселей изображения. Во время обучения производительность системы оценивается в соответствии с тем, насколько хорошо формулы вывода, применяемые к исходному изображению, приближают изображение к ретушированной версии.

Второй вопрос, решающийся в этом проекте — это как именно использовать полученные простые формулы на изображении с высоким разрешением. Выходной файл системы исследователей представляет собой трехмерную сетку размером 16 на 16 на 8. Две первые грани сетки соответствуют местоположению пикселей в исходном изображении. Слои, накладываемые третьей размерностью, представляют собой разные степени насыщенности конкретных пикселей. Каждая ячейка сетки содержит формулы, которые определяют модификации значений цвета исходного изображения.

Это означает, что каждая ячейка из двумерной сетки 16 на 16 обрабатывает тысячи пикселей в изображении с высоким разрешением. Но предположим, что каждый набор формул соответствует одному месту в центре его ячейки. Тогда любой заданный пиксель с высоким разрешением попадает в квадрат, определяемый четырьмя наборами формул.

Грубо говоря, изменение значения цвета этого пикселя представляет собой комбинацию формул на углах квадрата, с учётом расстояния. Аналогичное преобразование происходит в третьем измерении сетки, которое соответствует интенсивности цвета пикселей.

Исследователи также обучили свою систему на выборке данных, созданной группой Durand и Adobe Systems, создателями Photoshop. Набор данных включает 5000 изображений, каждый из которых ретушировали 5 разных фотографов.

Система работает в сто раз быстрее в сравнении с алгоритмами машинного обучения, обрабатывающими полную версию изображения высокого качества.

«Эта технология может быть очень полезной для редактирования изображения в реальном времени на мобильных устройствах. Использование машинного обучения для моделируемой фотографии — захватывающая перспектива, однако телефоны имеют серьезные вычислительные ограничения и ограничения по мощности. Эта работа дает возможность обойти эти проблемы, а также позволит создавать новые профессиональные фотографии в режиме реального времени и избавит от запаздываний видоискателя», — комментирует коллега Гарби Джор Баррон (Jon Barron).

Источник: MIT Technology

в разделе: В мире Просмотров: 88