fbpx

Как можно хакнуть метрику качества видео и как теперь с этим жить

Дмитрий Ватолин. YUVSoft

С середины прошлого века, как только появилось цифровое видео, для измерения его качества вполне успешно использовалась метрика PSNR. И, казалось бы, ничто не мешает использовать ее дальше, как деды и прадеды наши делали.

Увы, плохие новости для всех, кто занимается стримингом видео — PSNR умирает. По ряду причин еще для H.265 (он же HEVC) все благополучно работало, но уже для нового модного AV1 — корреляция старых метрик с человеческим восприятием стремительно деградирует:

 

Хуже того, при использовании методов Super Resolution со сжатием PSNR демонстрирует отрицательную корреляцию,т.е. PSNR — выше, а визуальное качество — ниже:

 

Почему так происходит (оба графика — наши), будет рассказано, но дело даже не в этом. Казалось бы — появилось много новых метрик (например, VMAF от Netflix), давайте используем их! Увы, должен огорчить, новые метрики основаны на машинном обучении и они, к сожалению, ломаются, т.е. значениями метрик можно в значительных пределах манипулировать (например, повышать метрику, не улучшая алгоритм сжатия). Команде под руководством докладчика удалось поломать VMAF в 2019 году. В 2020 Netflix опубликовал VMAF NEG, где дырка (типа) была перекрыта. Однако, в 2021 мы опубликовали следующую работу, в которой взломали VMAF NEG. Интересно, что несмотря на недифференцируемость VMAF там возможны и adversarial attack, т.е. в ближайший год ситуация станет еще сложнее. Также мы (гулять, так гулять!) поломали еще несколько новых метрик…

 

Учитывая, что Google уже вкатил взлом VMAF в открытый код AV1 и что творится в закрытых исходниках других кодеков — остается только гадать и определить что имел место взлом сложнее, чем кажется, ситуация с измерением качества видео становится все интереснее и интереснее. На что ориентироваться сервисам со стримингом и транскодингом и как им теперь измерять качество? Об этом и пойдет речь.


Автор

 

Дмитрий Ватолин
Разработчик современных алгоритмов обработки видео, автор №1 на Habr.com в хабах “AR и VR”, “Искусственный интеллект”, “Работа с видео” и “Видеотехника”, технический директор компании YUVsoft, руководил разработкой профессиональных фильтров обработки видео для Nuke и After Effect, руководит исследовательской группой (20+ человек) в МГУ. Делал продукты и проекты для компаний Intel, Cisco, Broadcom, Samsung, Huawei и прочих. Участвовал в старте 5 стартапов, возраст 4 из которых уже перевалил за 15 лет. Верит в будущее разреженных световых полей и что все видео до конца века станет четырехмерным. Сомневается в разумности Homo Sapiens.

  ||   _CG EVENT METAVERSE 2021, AI/Нейросети/ИИ, Pipeline, RnD