BVKS — Видеохостинг с автоматической транскрибацией видео в текст

BVKS

Цель

Цель этого проекта — помочь последователям миссионера Бхакти Викаша Свами получить доступ к его лекциям в разных форматах. Разработать площадку для просмотра видео, автоматизировать транскрибацию лекций и реализовать поиск по слову внутри всех видео.

Бюджет

$1500000k

Срок

2 мес

Год

2024

Технологии

Заказчик и его площадка

Бхакти Викаша Свами — один из ведущих гуру организации, лично учился у Прабхупады, основателя конфессии. Проповедник постоянно читает лекции в разных странах, активно занимается своим YouTube: сейчас там больше 120 тысяч подписчиков, загружено больше 2500 видео.

Два года назад мы разработали для Бхакти и его лекций отдельный сайт, мини-YouTube для последователей и учеников. Разработали все на Firebase, большой базе данных от Google, которая позволяет веб-сервисам и приложениям работать без бэкенда. Лекции в формате видео и аудио выходят на YouTube и собственной площадке в большом количестве.

Баннер кейса (мобильная версия)

Автоматизировать транскрибацию видео

Через два года после разработки площадки заказчик вернулся к нам с новой идеей: разместить на сайте расшифровки видеолекций. Оказалось, что значительная часть аудитории Бхакти предпочитает именно текстовый формат. Но транскрибировать сотни и тысячи лекций вручную — непосильный труд. Нашей задачей стала автоматизация этого процесса.

Как это сделать? Если вам пришло в голову слово «нейросети», — поздравляем, вы не ошиблись. Дальше в кейсе подробно рассказываем, как мы автоматизировали перевод из видео в текст, с какими нюансами, и почему наша технология лучше любого сервиса транскрибации.

Баннер кейса (мобильная версия)

Провести интеграцию с Elasticsearch

Еще одна идея заказчика: помочь пользователям более точечно искать информацию на платформе. Типичный юзеркейс: последователь приходит на YouTube-канал, чтобы посмотреть, например, что его духовный учитель думает об отношениях в семейной паре. Поиск выдает ролики, и далеко не все из них релевантны запросу: некоторые про отношения с гуру или друзьями, другие — про взаимоотношения с Богом.

Еще одна проблема: даже если пользователь нашел нужное видео, оно может длиться два или три часа и содержать много мыслей на самые разные темы. Вместе с заказчиком мы решили помочь последователям Бхакти найти ответы на их вопросы.

Баннер кейса (мобильная версия)

Whisper AI и ChatGPT

Чтобы транскрибировать видео, мы решили использовать специализированную нейросеть Whisper AI. Искусственный интеллект хорошо справляется с задачей транскрибации, но итоговый текст, как правило, недостаточно презентабельный. Материал все равно требует ручной обработки, а в нашем случае из-за огромного количества видео это не представлялось возможным. Чтобы сделать качественный чистовик лекций вручную, пришлось бы загрузить несколько десятков сотрудников работой на месяц.

Чтобы обработать текст после транскрибации, мы реализовали алгоритм, который прогоняет расшифровку через ChatGPT. Результат — более качественная расшифровка лекции, стилистически выверенная и без ошибок.

Скрипт проводил обработку лекций в течение нескольких месяцев. Да, это долго — но в тысячу раз быстрее и дешевле, чем делать вручную.

Возможность модерации

При обработке текста через ChatGPT все равно сохраняется вероятность ошибок, стилистических и фактических. Мы решили дать пользователям возможность указать на эти ошибки. Посетитель площадки может репортить о найденной ошибке администратору, который затем исправляет текст или отклоняет репорт. Сейчас заканчиваем работу над технической реализацией этой фичи.

Баннер кейса (мобильная версия)

Поиск по слову внутри видео

Мы превратили аудио и видео в текст, но перед нами стояла еще одна задача — помочь пользователям найти внутри лекций отдельные слова. В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.

Elasticsearch не может искать слово в аудио или видео, поэтому поиск на платформе происходит по расшифровкам лекций, которые мы автоматизировали на предыдущем этапе работ. Каждая расшифровка привязана к своей видео/аудио версии, поэтому Elasticsearch может найти, сколько раз в той или иной лекции упоминалось нужное пользователю слово.

В рамках UI мы разделили поиск на два варианта: обычный поиск и Deepsearch, поиск внутри лекций. Пользователь может выбрать, искать ему лекцию по названию или по словам, которые в ней упоминаются.

Результат и планы

У клиента было две задачи, и мы решили обе, полагаясь на AI-расшифровки текста. Пользователи площадки получили возможность читать лекции проповедника и точечно искать нужные видео на основе самого контента, а не только названия.

В ближайших планах — при запросе Deepsearch показывать точные тайминги, в которые Бхакти говорил искомое слово на видео. Тайминги также будут подтягиваться из текстовой версии.

Участники команды

Илья Соколов

Проектный менеджер

Иван Петров

Backend разработчик

Ян Борцов

Backend разработчик

Илья Вылегжанин

Frontend разработчик

Ростислав Петров

Тестировщик

Готовы обсудить ваш проект ?

Наши конткты

Заполните форму ниже или напишите на

Email: business@unistory.orgTelegram: @unistoryapp

Мы свяжемся с вами прямо сейчас!

Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь с политикой конфиденциальности.

Санкт-Петербург

Фурштатская улица 24, БЦ Кочубей, 191028

Алматы

ул. Розыбакиева 289/1, офис 36, г. Алматы, Казахстан, 050060

Из классной идеи

в безумно отличный продукт

Мы — ТОП-3 в рейтинге ИИ-разработчиков

© 2025 Unistory