Как мы разработали систему из 5 нейросетей для анализа TV эфира

AI-анализ телеэфира

Цель

Наш заказчик — разработчик цифровых инструментов для маркетологов. В этот раз нашей задачей стало создание сервиса для анализа телевизионного вещания. Цель этого анализа — тонкая настройка рекламы для зрителей TV на основе контента, который они смотрят.

Срок

6 мес

Год

2024

Технологии

Что мы решили анализировать и какие нейросети использовали

Для анализа видеоконтента мы использовали в проекте пять нейросетей:

  • Первая YoloV8 распознает логотипы.
  • Вторая YoloV8 распознает обычные предметы и объекты (зонт, мяч, человек, кроссовки, собака и т. д.).
  • Rev AI транскрибирует речь и передает расшифровку в ChatGPT.
  • ChatGPT находит в расшифровке упоминания брендов, городов и селебрити, а также определяет сентимент (позитивное / негативное отношение спикера к объекту).
  • Tesseract распознает статичный текст внутри видеоряда: субтитры, надписи, текстовые логотипы.

Баннер кейса (мобильная версия)

Как устроен проект: немного о микросервисах

Анализ телевизионного вещания должен быть быстрым, и это — сложная задача с точки зрения производительности. Чтобы обеспечить бесперебойную работу сервиса, мы реализовали на проекте микросервисную архитектуру.

Продукт состоит из нескольких сервисов, каждый из которых выполняет отдельную задачу. Благодаря этому проект легко масштабировать. Владелец может подключать все новые сервисы для повышения производительности и увеличения пропускной способности сети.

Баннер кейса (мобильная версия)

Где мы взяли датасеты для поиска логотипов

Чтобы научить YoloV8 находить стандартные объекты вроде людей, автомобилей, животных и одежды, мы обучили модель на датасете COCO. Не вносили в датасет никаких изменений.

С логотипами было сложнее, но в итоге остановились на опенсорсном датасете OpenLogo, в котором есть данные по 352 логотипам и 27 000 размеченных изображений.

Баннер кейса (мобильная версия)

Аугментировали и балансировали

Посовещались с заказчиком и решили добавить 40 логотипов в наш датасет. Чтобы обучить нейросеть искать 1 логотип, нашли на каждый минимум 50 изображений, а затем аугментировали материал х3.

С изначальным датасетом OpenLogo тоже пришлось поработать. Количество изображений для разных логотипов было неравномерным: могло приходиться на один лого по 20 картинок, а на другие по 150.

Чтобы исправить ситуацию, мы балансировали датасет. Заранее, до обучения, нашли, по каким логотипам у нас меньше картинок, чем по другим. Во время обучения сильнее штрафовали модель, если она пропускала те логотипы, по которым было меньше размеченных изображений.

Баннер кейса (мобильная версия)

Развитие проекта

Сейчас наш сервис анализирует видеофайлы, загруженные пользователем. На анализ 10-минутного ролика уходит 5 минут. В ближайшем будущем мы планируем подключать веб-сокет и расширять гейтвей, чтобы обеспечить возможность анализа телевизионного вещания.

После этого интегрируем бэкенд проекта в качестве API в диджитал-продукты заказчика. Европейские маркетологи смогут использовать наш сервис, чтобы запускать рекламу в эфире в наиболее подходящее время.

Например, если герой боевика носит кроссовки Nike — почему бы маркетологам этого бренда не подкрепить эффект рекламным роликом сразу после фильма!

Участники команды

Даниил Семёнов

Проектный менеджер

Юрий Умнов

ML-инженер

Данила Скаблов

Backend разработчик

Иван Петров

Backend разработчик

Готовы обсудить ваш проект ?

Наши конткты

Заполните форму ниже или напишите на

Email: business@unistory.orgTelegram: @unistoryapp

Мы свяжемся с вами прямо сейчас!

Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь с политикой конфиденциальности.

Санкт-Петербург

Фурштатская улица 24, БЦ Кочубей, 191028

Алматы

ул. Розыбакиева 289/1, офис 36, г. Алматы, Казахстан, 050060

Из классной идеи

в безумно отличный продукт

Мы — ТОП-3 в рейтинге ИИ-разработчиков

© 2025 Unistory