Довольно популярная нынче тема – восстановление и цветокоррекция старых чёрно-белых снимков и фильмов. Меж тем, раскрашивание изображения — это комплексная задача, которая требует от модели понимания семантики сцены и базовых знаний об окружающем мире.

В конце января была представлена новая нейросетевая модель Colorization Transformer — для расцвечивания изображения в высоком разрешении (256 × 256). Система включает в себя три алгоритма, каждый из которых обучается независимо от остальных. За счёт этого чёрно-белое изображение окрашивается в три этапа.

Сначала проводится первичная, фактически «черновая», окраска изображения в низком разрешении. Архитектура системы использует условные слои для эффективного захвата входных данных в оттенках серого. Затем две нейросети, работающие параллельно, дорабатывают грубое цветное изображение до тщательно прокрашенного изображения с высоким разрешением. Отобрав несколько наиболее успешных проб, система предлагает несколько цветных вариантов исходной картинки.

По словам разработчиков, точность работы превосходит все другие современные системы раскрашивания изображений. Отдельно отмечается, что люди, оценивая результаты работы системы, в 60% случаев ставили работам системы даже более высокую оценку, чем настоящим цветным изображениям.

«На данный момент самый распространённый подход к колоризации изображений – это системы, основанные на генеративных нейросетях с логарифмической оценкой правдоподобия. Вероятностные модели сами по себе подходят для задачи раскрашивания изображений "один ко многим" и дают лучшие результаты, чем практиковавшиеся ранее детерминистские подходы», - говорят создатели.

Подробнее о системе с изложением принципов её работы – в опубликованной авторами статье.