Что мы решили анализировать и какие нейросети использовали
Для анализа видеоконтента мы использовали в проекте пять нейросетей:
- Первая YoloV8 распознает логотипы.
- Вторая YoloV8 распознает обычные предметы и объекты (зонт, мяч, человек, кроссовки, собака и т. д.).
- Rev AI транскрибирует речь и передает расшифровку в ChatGPT.
- ChatGPT находит в расшифровке упоминания брендов, городов и селебрити, а также определяет сентимент (позитивное / негативное отношение спикера к объекту).
- Tesseract распознает статичный текст внутри видеоряда: субтитры, надписи, текстовые логотипы.