Как ИИ упрощает и автоматизирует работу стриминговых сервисов

<p dir="ltr"><strong>Онлайн-кинотеатры и различные стриминговые сервисы активно используют искусственный интеллект для выполнения собственных бизнес-задач и разработки нового функционала для пользователей. ИИ-решения уже интегрированы в Netflix, Hulu, Spotify, YouTube, TikTok и другие крупнейшие сервисы этого рынка.</strong></p> <p>Алгоритмы машинного обучения исследуют историю просмотров пользователей, их предпочтения, привычки и коммуникацию с другими зрителями. На основе этих данных ИИ может рекомендовать им новый фильм или сериал. В этом помогает аналитика жанров и форматов с самыми высокими и низкими рейтингами, а также данные о том, в какие дни публикация контента приносит наибольшее число просмотров.</p> <p>Главная цель ИИ-фичей - увеличивать life-time пользователей и делать просмотр контента более комфортным. Кроме того, применение ИИ и ML помогает бизнесу экономить большое количество ресурсов. Например, благодаря возможности автоматической генерации постеров или модерации контента можно сэкономить тысячи рабочих часов сотрудников.</p> <p>Об этих и других кейсах использования ИИ для стриминговых сервисов рассказывает <strong>руководитель группы видеоаналитики компании MTS AI Андрей Дугин</strong> и <strong>директор по развитию продукта и технологий онлайн-кинотеатра KION Алексей Арефьев</strong>.</p> <h3 dir="ltr">Распознавание актеров в кадре</h3> <p>Распознавание актеров - привычная и любимая зрителями функция. Поставив видео на паузу, зритель может сразу узнать имя актера и получить доступ к его фильмографии. Чтобы научить ИИ узнавать актеров, разработчикам нужно сначала получить у онлайн-кинотеатра доступ к фильму и имена актеров, которых необходимо найти в кадре. В ответ нейросеть формирует .json-файл с разметкой, в которой указано время каждого появления актера в кадре и границы, по которым лицо актера на паузе обведут в рамочку.</p> <p>Сначала разработчики создают подборку фотографий актера из поисковых сервисов, после чего удаляют из нее очевидно неподходящие варианты - например, изображения других людей или на которых более одного человека. Далее за дело берется платформа видеоаналитики, которая формирует векторы-дескрипторы лиц на фотографиях и объединяет похожие в кластеры. Если в кластере больше всего изображений, значит, он больше всего соответствует нужному актеру.</p> <p>Фильм или сериал, в котором необходимо найти актеров, также покадрово анализируется через платформу. Она получает векторы-дескрипторы всех людей, которые появляются в видеозаписи, после чего система сопоставляет их с распознанными лицами актеров из кластеров.</p> <p>Эта функция позволяет зрителям активно пополнять свою синематеку, чаще возвращаться в сервис и проводить в нем больше времени за просмотром отложенных фильмов.</p> <h3 dir="ltr">Генерация постеров</h3> <p>Когда пользователь хочет посмотреть в онлайн-кинотеатре сериал, он сначала выбирает сезон, после чего видит список серий с текстовым описанием и характерным кадром. Этот кадр к каждой серии и называется постером. Создание ярких и привлекательных обложек для каждой серии сериала - задача непростая. Ранее для выбора постера сотрудникам онлайн-кинотеатров приходилось отсматривать каждую серию и выбирать наиболее подходящее изображение. В среднем на выбор одного постера уходило примерно в 10 раз больше времени, чем длится сама серия.</p> <p>С помощью искусственного интеллекта и алгоритмов машинного обучения можно значительно сократить время работы сотрудников, потраченное на подбор постера для фильмов и сериалов, полностью автоматизировав этот процесс.</p> <p>ИИ-решения для генерации постеров работают в несколько этапов. На первом из них искусственный интеллект выбирает "кандидатов" в постеры - для этого нейросеть отбирает все статичные кадры (которые почти не меняются около трех секунд), потому что в них оператор на мгновение фиксирует сцену, а актер - эмоцию. В среднем из 170 тысяч кадров в фильме (или почти вдвое меньше в сериях) нейросеть получает 150-300 кадров, которые переходят на следующий этап.</p> <p dir="ltr">На втором этапе все отобранные материалы сводятся в ролик, в котором нейросеть ищет кадр, соответствующий всем требованиям идеального постера. В первую группу критериев входят эстетические параметры: соблюдение правил композиции, открытые глаза, ярко выраженные эмоции. Учитываются и стилистические критерии, основанные на примерах традиционных постеров: наличие главного героя эпизода крупным планом, кадр с важным сюжетным событием и т.д. Также искусственный интеллект проверяет отобранные кадры на наличие запрещенного контента и соответствие правилам онлайн-платформы.</p> <p dir="ltr">Дизайнеры онлайн-кинотеатра могут получать от нейросети не только вариант идеального постера, но и еще до 300 изображений. Их в дальнейшем используют для подготовки альтернативных постеров, чтобы бороться с баннерной слепотой (когда пользователь привыкает к схожим постерам и ему нужно показать что-то новое).</p> <p>Точность работы алгоритмов, помогающих создать постеры, сегодня превышают 90%. Помимо этого, использование нейросетей значительно сокращает ручной труд и финансовые расходы на него, а также снижает количество ошибок из-за человеческого фактора, когда постер не нравится зрителям.</p> <h3>Автоматическая модерация контента</h3> <p>Количество контента, загружаемого пользователями на стриминговые сервисы, исчисляется годами по длительности, петабайтами по размеру и миллионами по количеству. Конечно, силами даже очень большого отдела модераторов отсмотреть все это невозможно.</p> <p>Однако с помощью ИИ можно автоматизировать процесс поиска запрещенного контента на видео, такого как реклама азартных игр, употребление алкоголя и запрещенных веществ.</p> <p>Для этого используются мультимодальные языковые модели - например, Dino. Они уже обучены находить предметы на изображении в кадре и способны распознавать до 70% существующих объектов без дополнительного обучения. Достаточно "спросить" нейросеть, что она видит в кадре, и уточнить, есть ли в нем тот или иной запрещенный контент. LLM-модель дает бинарный ответ (да или нет) и указывает степень уверенности в нем.</p> <p>Системы модерации контента могут распознавать запрещенный контент с точностью свыше 90% за несколько секунд, что позволяет отсеять большую часть видео без нарушений. Таким образом, сотрудники могут отсматривать только трансляции, потенциально нарушающие правила сервиса. Финальное решение о принятии мер остается за модераторами: они могут блокировать все подозрительные записи или же проверять только стримы, в которых нейросеть с высокой степенью уверенности указывает на запрещенный предмет.</p> <h3>Super Resolution для архивных фильмов</h3> <p>Онлайн-кинотеатры сталкиваются с тем, что им нужно искусственно повышать разрешение видео. Это актуально и для старых фильмов, и для новых, поступающих от правообладателей в формате SD.</p> <p>Для улучшения качества изображения можно также использовать нейросети. Они будут дробить пиксели исходного кадра на несколько частей, а затем подбирать для них наиболее подходящие по цвету фрагменты изображения. Также нейросеть способна автоматически распознавать объекты в кадре и дорисовывать недостающие детали и пиксели так, чтобы они вписывались в общее изображение. Благодаря системам Super Resolution разрешение увеличивается в два-четыре раза: SD-фильмы можно конвертировать в Full HD, а 2K-фильмы - в 4K.</p> <p>Нейросеть анализирует сразу пять кадров: центральный, а также два кадра до и после него. После ML-модель выполняет алгоритмическое увеличение центрального кадра, а также добавляет детали из соседних кадров. Для этого она рассчитывает движение объектов в соседних кадрах и пытается восстановить их в центральном кадре - или просто объединить кадры, чтобы повысить детализацию.</p> <p>При этом улучшенное изображение нравится зрителям. <a href="https://mts.ai/ru/home/?utm_source=comnews&amp;utm_medium=media&amp;utm_campaign=kion_article">Разработчики MTS AI</a> провели внутреннее исследование, в рамках которого большинство респондентов подтвердили улучшение качества изображения. 54% опрошенных при просмотре видео с большим количеством деталей отметили, что им больше нравятся улучшенные кадры. Еще 52% зрителей подчеркнули, что цвета и краски на обработанных кадрах стали ярче, а 64% считают, что обработанное видео лучше передаёт холодные цвета.</p> <h3>Пропуск титров и заставок</h3> <p dir="ltr">Пропуск титров и заставок - бенчмарк современных онлайн-кинотеатров. Ранее титры размечали вручную, однако такой подход предполагает большие временные затраты и требует дополнительных ресурсов - бюджета, квалифицированных сотрудников и контроля со стороны менеджеров. С помощью ИИ один сезон сериала можно обработать в три-пять раз быстрее.</p> <p>Для того чтобы у онлайн-кинотеатра появилась функция пропуска титров, разработчикам нужно проделать непростую работу и натренировать ИИ размечать видео. Сначала нейросеть необходимо обучить распознавать логотипы киностудий, опенинги сериалов и оригинальные заставки к каждой серии, титры, а также дополнительные творческие вставки - например, как у Бондианы и фильмов Marvel.</p> <p>Прежде всего подобные системы ищут в фильмах и сериалах совпадение по базе типичных заставок от киностудий разных лет и стран - для этого используется механизм математического хеширования, чтобы сопоставить числовое значение архивных заставок с фрагментами анализируемого фильма или сериала. Затем нейросеть определяет все потенциальные заставки по множеству критериев: текст на черном фоне, анимационные ролики с творческим монтажом и т.д.</p> <p>Чтобы исключить возможность ошибки, отобранные фрагменты видео обычно проходят множество фильтров - в частности, по продолжительности (заставка не может быть короче 5 секунд и длиннее 8 минут) и наличию текста (в заставке хотя бы раз должна быть какая-либо подпись). При завершении разметки система с помощью хеширования уточняет границы заставок, чтобы при перемотке зритель попал к началу сюжетной сцены. Сегодня успешность распознавания титров и заставок нейросетью достигает 90%.</p> <p>Исследование показало, что после внедрения автоматической разметки время просмотра контента на компьютерах, телевизорах и других широких экранах выросло на 3,3% - дома люди дольше смотрят сериалы, если им предлагать пропускать заставку и титры, а также автоматически запускать новую серию.</p> <h3>Подбор места для рекламы</h3> <p>Модель монетизации некоторых онлайн-кинотеатров предполагает вставку рекламных блоков в фильмы и сериалы. Очевидно, платформы заинтересованы, чтобы ролики не вызывали у пользователей раздражение.</p> <p>Для этих целей используются AVOD-детекторы (advertising video on demand) - они ищут наиболее подходящие места для рекламного блока. Такими ИИ считает моменты на границе различных сцен, когда действие переносится в другую локацию и заканчивается логический этап повествования, при этом реклама не должна прерывать диалог героев. Также нейросеть использует алгоритм VAD (voice activity detector) - он проверяет, что в момент изменения сцены не звучит чья-либо речь, чтобы не наложить на нее рекламный блок.</p> <p>Сформированный список из подходящих для рекламы фрагментов фильма обрабатывается в соответствии с техническим заданием от заказчиков. Обычно они указывают приоритетное время размещения рекламы - например, на 15-й или 20-й минуте фильма. После обработки ИИ уточняет подходящее по всем критериям место вставки и направляет заказчику.</p> <p dir="ltr">По оценкам участников рынка, удачное расположение рекламы может не только повысить лояльность зрителей, но и увеличить годовую выручку от рекламы на 10%.</p> <p> </p>

Как ИИ упрощает и автоматизирует работу стриминговых сервисов
© ComNews.ru