2 августа 2023

3D-мигрень, стереослепота и бенчмаркинг по-русски: эксперт по обработке видео о трендах в профессии

Изображение создано
с помощью нейросети

Изображение создано с помощью нейросети

892

2 августа 2023

Видео занимает более 80% интернет-трафика в современном мире, и эта доля постоянно растёт. Увеличивается разрешение и глубина цвета кадра, качество съёмки смартфоном стремительно приближается к профессиональному. Если в 2000-х трансляция в Full HD требовала профессиональных студий, то теперь никого уже не удивляют домашние стриминги в формате 4K. Через несколько лет привычным станет и 8K — уверен всемирно признанный эксперт по обработке видео, руководитель лаборатории компьютерной графики ВМК МГУ и лаборатории интеллектуального анализа видео Института ИИ МГУ Дмитрий Ватолин. Мы спросили у Дмитрия, как развивается глобальная видеоиндустрия, чем известна на этом поприще Россия и на что нужно обратить внимание сегодняшней молодежи, чтобы завтра не проиграть в конкуренции с развивающимся ChatGPT.

Из интервью вы узнаете

почему видеокодеки помогают индустрии экономить
как переворачивать ракурсы с помощью искусственного интеллекта
чему российские разработчики научили Apple
нужна ли здоровому человеку автостереоскопия

— Дмитрий, каким был ваш путь в профессию?

Ещё школьником я занялся компьютерной графикой и даже занял первое место на Всесоюзной конференции школьников в секции «Информатика» — написал графический пакет для компьютера Robotron-1715, где было 64 Кб памяти, и из них половина отводилась под картинку 512×512 чёрно-белых точек. Сейчас это звучит смешно, но тогда воспринималось как технологическое достижение.

Затем, уже студентом-аспирантом МГУ, участвовал в создании лаборатории компьютерной графики на факультете вычислительной математики и кибернетики — ВМК. И сейчас, через много лет, я руковожу этой лабораторией. Всё, чем моя группа там занимается, так или иначе связано с видео: обработкой, сжатием, улучшением качества видео, изменением формата и так далее.

Видео — динамично развивающаяся сфера. Но в нашей стране алгоритмы его обработки и сжатия исследуются не так активно, как хотелось бы. На всю страну таких лабораторий, как в МГУ, по пальцам перечесть: сжатием видео занимаются в Томске, обработкой недавно занялись в Сколтехе. Ещё аналогичная практическая работа проводится в Рязани в военных институтах. И на этом, пожалуй, всё. В Китае, например, счёт таким местам идёт на сотни.

— Вернёмся в университетские времена. Как сложилось, что вы стали основоположником лаборатории?

Я оканчивал аспирантуру ВМК МГУ как раз в то время, когда мой научный руководитель Юрий Матвеевич Баяковский занимался её созданием. В те годы разделять дела и заботы своего руководителя было в порядке вещей. Тем более что его замысел создать лабораторию, активно взаимодействующую с западными компаниями, выглядел перспективно. Сейчас мы успешно продолжаем тему — к сожалению, работая в основном на иностранные компании. Наиболее известный наш проект — сравнение кодеков. Если загуглите video codecs comparison, то в поисковой выдаче будет много ссылок на нас. А если открыть поиск по картинкам, то там заметная часть графиков наша, либо на основе наших данных. Но этот проект более известен за рубежом. В русскоязычном пространстве о нём знает только узкая группа профессионалов.

В своё время, когда я приехал на NAB Show в США, меня там приняли как родного.

Это большое мероприятие с десятками тысяч участников, где производителям кодеков отведен практически павильон. Когда я первый раз там появился, то меня со стенда на стенд передавали: «Это тот самый Дмитрий Ватолин, который наши кодеки сравнивает».

— Почему вы с сожалением отметили, что больше занимаетесь прикладными вещами?

Мой любимый вопрос в неформальных беседах на западных конференциях к профессорам такой: «Какая у вас структура финансирования?» Обычно отвечают, что доля денег компаний не превышает 40%, и то это считается очень много. До недавних пор у нас было так: 90% финансирования — это деньги из индустрии, причем заработок идет в валюте, что множит накладные расходы. Такое положение вещей абсолютно ненормально. При работе через университет налоги выше, чем у компаний, — больше половины выручки мы платим государству. Наверное, это не очень правильно, когда лаборатории не только сами себя обеспечивают, но ещё и государству деньги зарабатывают. Когда вам каждый компьютер нужно покупать на свои средства через тендер, это сильно сокращает количество желающих остаться в университете.

В 2000-х Дмитрий Ватолин с коллегами за пять лет запустил пять стартапов. И сегодня, хотя считает себя прежде всего «прикладным учёным», от бизнес-проектов не открещивается. Непременное условие одно: проект должен быть связан с видео.

— Как создать свою лабораторию? Какими качествами нужно для этого обладать?

Если говорить про Юрия Матвеевича Баяковского, который организовывал нашу лабораторию, то он был большой идеалист. Он изучал, как организована MIT Media Lab — медиалаборатория Массачусетского технологического института, бюджет которой больше, чем всего нашего программистского факультета МГУ.

Юрий Матвеевич пытался, пусть и в микромасштабе, нечто подобное повторить в России, хотя для нашей среды это все очень непривычно — у нас так не принято. Но он пытался, и благодаря его целенаправленным усилиям у нашей лаборатории изначально было много контрактов с западными компаниями. Её история началась с контракта с Intel, с которой мы потом работали очень долго с разными подразделениями в Нижнем Новгороде, Питере, Сан-Хосе, Фениксе, Санта-Кларе и т. д. Самая длинная цепочка контрактов с одним подразделением Intel длилась восемь лет. Помимо этого, у нас параллельно было до четырех контрактов с их разными подразделениями. Затем также появились параллельные контракты с Samsung, Huawei и другими зарубежными компаниями. С Huawei мы и сейчас много сотрудничаем, в 2020 году было пять контрактов одновременно.

— Над какими задачами вы работали с названными корпорациями?

Конкретно у моих ребят задачи касались обработки и сжатия видео. Например, мы стараемся сделать кодек максимально эффективным. Объясню на примере самого массово используемого сегодня кодека х264, которым сегодня кодируется львиная доля видео в интернете. У него 49 параметров, чтобы перебрать все эти параметры на ролике длиной 20 секунд, потребуется 2×10¹⁵ лет. Это примерно 500 000 возрастов Земли. Хотя, казалось бы, всего 20 секунд! Это так называемый факториальный взрыв, и ровно в этом сложность оптимизации в многомерных пространствах! Очевидно, что перебрать даже 0,001% вариантов параметров невозможно физически. Соответственно, в дело включается математика, оптимизационные алгоритмы. При использовании современных методов уже не строится, а обучается модель кодека. И дальше эта модель предсказывает его поведение, что позволяет кардинально уменьшить перебор. Суммарно мы потратили на обучение этих моделей около 300 машинолет, вычислений на разнообразных роликах.

Далее выясняется, что уметь предсказывать означает уметь экономить. Причем нередко речь может идти о 20% экономии сетевого трафика. В зависимости от того, какая задача, в специфических случаях у нас в два раза меньше расходов может быть на хранение видео и передачу его по сети при том же визуальном качестве. Это очень большие деньги.

— Совершенствование кодеков — самая трудозатратная область вашей деятельности?

Это лишь одно из направлений. Другие направления — обработка видео и измерение качества видео. Например, мы активно занимаемся бенчмаркингом — открытым сравнением алгоритмов. В данный момент у нас разрабатывается 15 бенчмарков, из них восемь находятся на первых местах в соответствующих категориях сайта paperswithcode.com, где ищут решения очень многие компании и исследователи. Первым делом смотрят туда: можно ли что-то взять из open source (например, как референс или в код). На этом сайте наши бенчмарки в топе в соответствующих категориях. Это наш вклад и в науку, и в индустрию одновременно, потому что бенчмарки по научным статьям, но основные их потребители — компании.

— Чем ваши бенчмарки отличаются от других?

Как я уже отмечал ранее, мы работаем в основном на компании, поэтому почти все наши бенчмарки на закрытых датасетах. Это означает, что мы сами прогоняем все эти алгоритмы. Такой подход на порядок увеличивает стоимость поддержки бенчмарков, зато им можно верить. Вероятность, что результаты топовых методов воспроизводятся на ваших данных, при этом существенно выше.

— Вы ощущаете себя реформаторами отрасли? Могли бы сказать про себя: «Я меняю этот мир к лучшему»?

Мы уже несколько раз меняли этот мир. Например, много лет назад компания ATI, позднее купленная AMD, участвовала в нашем сравнении кодеков. Её кодеки работали очень быстро и показали на наших замерах результаты, в которые представители других компаний не поверили — завалили нас запросами точно подтвердить, что на компьютере не было видеокарты. А на следующий год все ключевые участники стали работать значительно быстрее, изменив архитектуру алгоритма. Разработчикам достаточно было понять, что такое в принципе возможно.

Наши сравнения кодеков тоже отличаются от большинства других сравнений, потому что мы их делаем, массово получая кодеки от компаний напрямую. И так больше не делает никто в мире — мы единственные.

Это добавляет колоссальной головной боли, потому что, как мы шутим, только одна компания бывает довольна результатом — кодек которой занял первое место. Все остальные будут недовольны. Безусловно, вести переговоры бывает непросто, но мы же хотим на максимально честных условиях всех измерить.

Следующий пример нашего участия в изменении мира связан со стереоизображением. Мы вообще рано занялись темой стерео. Первый автостереоскопический монитор, который показывает стерео без очков, мы купили в 2008 году, за год до выхода «Аватара».

— Получается, уже тогда, около 15 лет назад, вас воспринимали как лидеров в своем сегменте?

Именно стерео мы тогда только начали заниматься, но вскоре, по признанию нескольких компаний, мы делали лучшие алгоритмы конвертации стерео в автостерео и моновидео с ручной работой в стерео.

Но куда важнее, что мы тогда выпустили набор тулов, которые облегчали и удешевляли процесс конвертации 2D-фильмов в 3D за счёт использования внутри алгоритмов распознавания и обработки.

Азиатские страны покупали их за очень хорошие деньги. И не секрет, что тот же Голливуд конвертировал свои фильмы в Китае.

В какой-то момент дошло до того, что блокбастеры перестали снимать в стерео — их стали конвертировать в стерео.

Кстати, возникновение головной боли у зрителя при просмотре кино в 3D-формате менее вероятно в случае, если видео качественно отконвертировано.

У меня есть отдельный большой цикл статей: почему от 3D болит голова.

— Значит, это зависит не только от личного восприятия?

Это зависит от нескольких факторов. Большинство владельцев кинозалов экономят на проекторе и на экране, поскольку доля 3D-фильмов в показе невелика, но это оборудование увеличивает процент людей с головной болью. В Москве хороших проекторов и залов намного меньше, чем в Калифорнии или в Китае. Также есть проблемы с контентом. Мы в свое время выпустили 18 метрик качества стерео, и я с трибуны конференции Stereoscopic Displays and Applications, крупнейшей и старейшей конференции по стерео в мире, которая проходит под Сан-Франциско, говорил о том, что у нас наибольшее число метрик. Просил опровергнуть. Никто не опроверг. Из интересного — мы создали уникальную быструю метрику перепутанных ракурсов, когда правый ракурс меняется с левым. Наш мозг настолько адаптивен, что такую картинку продолжает воспринимать как трёхмерную, только ему становится через некоторое время плохо. Для мозга «вывернутая наизнанку сцена» — это ужасная ситуация, и через 20 минут у человека нередко появляется мигрень. К сожалению, это происходит не сразу. Поэтому такие сцены пропускают.

Наша метрика с помощью компьютерного зрения выявляет такие сцены и делает это быстрее, чем метрики коллег из США и Европы.

За счёт хорошей скорости мы смогли большое количество фильмов проверить. Выяснилось, что каждый пятый фильм на Blu-ray-диске содержит сцену с перепутанными ракурсами. В том числе мы нашли одну сцену с перепутанными ракурсами в первом «Аватаре», у которого был рекордный бюджет. Попадались фильмы, где такого брака на полторы минуты. Понятно, что это много ошибок монтажа, но людям от этого не легче.

— И они потом не ходят на 3D.

Всё так. Но есть ещё одна категория зрителей — стереослепые. Они вообще стерео не видят в силу своих особенностей. Таким людям можно показывать ужасное стерео, они будут смотреть и говорить: «Какой классный фильм!». Но зрители с нормальным восприятием, которых большинство, будут испытывать сильный дискомфорт. Есть специально обученные люди — стереографы, которые отвечают за качество стереофильма. Мы взаимодействовали со множеством стереографов: больше чем с сотней только переписывались. Они нашу деятельность горячо поддержали.

Отдельная история — борьба стереографов с продюсерами, которые урезают бюджет на исправление косяков фильмов. Доходило до того, что стереографа увольняли посередине монтажа фильма, так как он слишком сильно беспокоился о головной боли зрителей и это увеличивало бюджет. Так что можно сказать, что мы избавляем мир от лишней головной боли.

— Как у вас родилась идея измерения кодеков?

Когда я в начале 2000-х принимал активное участие в стартапах, один из стартапов, который выжил и получил дальнейшее развитие, — компания TrueConf, вышедшая на первое место на рынке видеоконференций в России. Она выдержала конкуренцию со Skype потому, что там очень неплохое качество картинки, а для видеоконференции это основное.

Небольшой командой мы реализовали немножко безумный по тем временам проект — написали собственный видеокодек для системы видеоконференций. В кодеке была реализована работа с шумным видео, тёмным видео, встроенное распознавание лица. Это позволяло передавать лицо человека в высоком качестве. Были воплощены идеи, которые сильно опережали время. Их реализация в одном кодеке позволила сильно наиграть качество при достойной скорости. На среднем железе тех времён это всё работало неплохо. И тогда, занимаясь написанием кодеков и понимая, как они устроены, мы обратили внимание на то, что существующие сравнения кодеков просто ужасны с точки зрения корректности. Мы взяли все кодеки, до которых смогли дотянуться, проанализировали и выпустили первое сравнение.

После публикации отчёта с нами связались представители компаний со словами: «Почему вы взяли старую версию кодека? У нас новая есть, она лучше работает». И со следующего года мы перешли в формат работы с производителями. И если раньше у нас был один отчёт, то сейчас мы готовим до пяти отчётов в год, которые покрывают разные кейсы применения кодеков.

— Отчётами с вашими метриками пользуются компании с мировым именем, такие как Apple или Dolby. Как это сотрудничество выглядит?

У нас есть две версии отчёта: бесплатная и профессиональная. Они могут различаться по размеру и по количеству графиков в 10—100 раз. Взаимодействие бывает разного рода: либо начинается с того, что покупают отчёт и дальше по нему задают вопросы, либо вопросы не задают, а просто используют. Мы измеряем не только кодеки, но и метрики. У нас сейчас самый большой бенчмарк метрик качества видео в мире. Полтора года назад Apple с помпой выкатили свою новую метрику. Мы проверили её и нашли, что их результаты заметно слабее заявленных. Они позже сами вышли на нас с предложением сотрудничества.

Среди наших клиентов также Intel, NVIDIA, Google. Сейчас обращаются китайские гранды: Tencent, Alibaba, Huawei, ByteDance. Они очень сильно вложились в разработку метрик и кодеков. Уже в позапрошлом году мы констатировали, что лучшими кодеками мира стали китайские.

— Получается, что каждый ваш отчёт — это повод R&D подразделению компании пересмотреть какие-то вещи, понять, где они отстают и куда дальше вкладывать?

Да. Нас очень часто спрашивают: «Какой всё-таки кодек лучше?» А у нас в отчёте больше 15 000 графиков. И встречается запрос менеджера: «Можете мне свести всё в один график?» Мы говорим: «Нет». Всё зависит от конкретного кейса. В этом кейсе этот кодек лучше, а в остальных он проигрывает. И это нормально. Очень тяжело сделать продукт, который будет лучшим во всех случаях. Китайцы стараются, но даже у них не всегда это получается.

— Какие перемены происходят в этой области в наши дни, помимо китайского нашествия?

Сейчас происходит революция. В течение пятнадцати лет «царём горы» был кодек H.264, появившийся в 2003 году. Тогда стандарты менялись редко: только в 2013 году его сменил H.265. А за последние пять лет появилось пять новых стандартов сжатия видео — H.266 (VVC), AV1, AVS3, EVC, LCEVC. Но это ещё не всё. Параллельный процесс — разработка JPEG AI. Это новый формат сжатия картинок, основанный на нейросетях. Как ожидается, JPEG AI сможет хранить изображения в файлах, которые будут сжаты в три раза лучше, чем JPEG при том же качестве. И это ещё одна революция.

— Вы упомянули бенчмарки метрик качества видео. Это их люди взламывают? Зачем они это делают?

Это отдельная огромная, суперинтересная тема — взлом метрик, к которой мы столкнулись как раз при сравнении кодеков. Я вам приведу три примера мотивации это делать.

Первая — годовой бонус подразделения, разрабатывающего кодек или какой-то алгоритм видеопроцессинга, часто привязан к KPI. А годовые бонусы в IT-компаниях существенные, например 30% годовой зарплаты.

Но чтобы кодек улучшить на 1%, нужна напряжённая работа команды инженеров на протяжении года, а чтобы взломать метрику, нужен стажёр на две недели. Выбор очевиден.

Во-вторых, многие гранты также привязаны к KPI: показатели цитирования и прочее. Самый простой способ обеспечить высокую цитируемость — поломать метрику, по которой строится лидерборд в бенчмарке, написав SOTA-алгоритм. SOTA — state of the art — означает, что он в бенчмарке на первом месте. После такого статью гарантированно возьмут на топовую конференцию. Если вы находитесь в ситуации, когда продление гранта — это вопрос жизни и смерти, то это критично.

И в-третьих, часто у вас метрика ставится в Loss. Loss function — это функция, по которой обучается нейросеть. При этом может возникнуть непреднамеренный взлом: когда у вас нейросеть при своем обучении «взламывает» метрику. Она находит варианты, как эту метрику можно проще улучшить. Обнаружив слабые места, которые позволяют накрутить показатели без реального улучшения результата, нейросети тоже оказываются склонны к выбору простых путей. Отдельная история — понять, что это был за взлом: преднамеренный или непреднамеренный.

Заметим, что определить взлом намного сложнее, чем взломать. По уровню сложности это можно сравнить с криптоанализом. Сейчас активно развивается Certified Robustness — попытка ограничить математически максимальный взлом, который можно получить с конкретной метрики. Но на практике ситуация сложная, потому что сильно падают корреляции с человеческим восприятием, а это главная характеристика метрики.

Сейчас мы активно занимаемся взломами: поставили это дело на поток, взламывая десятки метрик в месяц. Конечная цель — сделать метрики, которые не будут взламываться. Это окажет влияние на многие области. Метрики, которые не взламываются, гораздо легче ставить в Loss. И это означает, что будет проще обучать нейросети, получая лучший результат.

— Как изменят отрасль и вашу деятельность эти революции? Они несут с собой новые блага для человечества или также новые вызовы?

Есть плюсы, есть минусы. Первые — в том, что на наших глазах стремительно совершенствуются технологии в разных сферах. К примеру, сделать 8K-телевизор — не проблема сегодня. Но что вы будете на нём смотреть? Контента для него пока нет.

Также сейчас активно развивается тема Super-Resolution. С одной стороны, это направление растёт фантастическими темпами. С другой — у нейросетевых алгоритмов, которые создают классную картинку, и косяки тоже совершенно феерические. И как их избежать — большой вопрос. Мы опубликовали три бенчмарка алгоритмов Super-Resolution и активно занимаемся этой областью.

Другая тема, которая вызывает у меня большой интерес, — это автостереоскопия, позволяющая дисплеям под разным углом давать разную картинку, и четырёхмерное видео, дающее возможность без специальных очков воспринимать 3D-изображение. Одна китайская компания выпустила автостереоскопический планшет буквально месяц назад. Есть эксперименты и со смартфонами.

Я сейчас наблюдаю следующий процесс: у компаний-производителей каждый год появляются прототипы продуктов с автостереоскопическими дисплеями, качество которых всё лучше и лучше, но этого никто, кроме посетителей профессиональных выставок, пока не видит. В какой-то момент одна из таких компаний решит, что рынок созрел, выпустит продукт в серию и станет новой Apple. Запомните эту мою мысль. Я убежден, что автостереоскопия обречена на массовость.

— Вернёмся к видео. Сжатие, кодировка и видеосервисы — что ждёт нас в этой сфере?

Кодеки тоже будут улучшаться. Сейчас появились новые конкурирующие стандарты. Это означает, что завтра появится много реализаций и кто-то будет лучшим. С точки зрения инженеров, это огромная головная боль, потому что, когда много стандартов разом появляется, для них жизнь становится тяжелее. А с точки зрения пользователей, это всегда улучшение характеристик опережающими темпами.

В области процессинга всех мастей будут господствовать нейросети. Они пришли надолго, и это также кардинальное улучшение.

— Оглядываясь назад, какой совет вы дали бы себе двадцатилетнему?

В 20 лет я многих вещей не понимал. Я тогда занимался тем, что изучал языки программирования. Учил по новому языку каждые полгода. Теперь мне кажется, что лучше было бы заняться алгоритмической составляющей глубже. И больше развивать soft skills. Сейчас это распространённая тема, а тогда это было не модно.

— А если говорить о современных двадцатилетних, которые хотели бы развиваться в вашей области, что им посоветуете? На что обратить внимание?

Я им сейчас уже говорю: у вас будут огромные проблемы в ближайшие годы. Это связано с тем, что появились разнообразные AI-помощники. Если они продолжат с такой же скоростью улучшаться следующие несколько лет, то к моменту окончания вами университета индустрия изменится очень сильно. Чего не хватает сейчас молодежи, так это стратегического планирования. Сегодня они могут тем же веб-программированием быстро начать зарабатывать неплохие деньги. Однако спрос точно будет меняться, возникнут новые специальности. Должно быть понимание, каким образом сегодняшние выпускники смогут оставаться конкурентными в новой среде. Ответ на этот вопрос каждый специалист должен найти сам.

Наверх