TopicNet
Open-source проект для автоматизированного мультимодального иерархического тематического моделирования
Сценарии обучения
Реализованы воспроизводимые сценарии обучения. Каждый может найти наиболее подходящий для своей задачи сценарий и быстро реализовать первую тематическую модель
1
Сбалансированные модели
Решена проблема построения тематических моделей на несбалансированных выборках. Представлен регуляризатор, позволяющий улучшить тематические модели при тренировке на таких коллекциях
2
Логирование экспериментов
Удобный инструмент логирования и воспроизведения экспериментов позволит сохранить наиболее ценную информацию и воспользоваться ей для выбора лучших моделей
3
Прототип "из коробки"
В несколько строчек кода можно реализовать первую модель на собственных данных. Мы снизили порог входа в область тематического моделирования и упростили использование библиотеки
4
Поддержка пользовательских метрик
Пользователи могут сами создавать метрики под решаемые задачи. Поддерживается логирование метрик тренировки во время обучения модели
5
Просмотр результатов
Мы добавили новый функционал просмотра информации о построенной модели. Теперь можно в несколько шагов провести интерпретацию результата и проанализировать возникшие ошибки
6
Подойдет как разработчику, так и профессиональному исследователю
TopicNet- это библиотека автоматизированного тематического моделирования.

С одной стороны, библиотека содержит функционал, необходимый разработчику: автоматизированный pipeline построения модели, возможность работы с несбалансированными данными и подбор оптимального числа тем - все это позволит использовать функционал библиотеки «из коробки».

С другой стороны, библиотека содержит функционал для исследователя: можно использовать сложные сценарии обучения и подготовки моделей, встраивать собственные критерии качества для обучения моделей и собственные регуляризаторы как этапы обучения модели. Логирование экспериментов и интуитивный просмотр результатов моделирования делают библиотеку наиболее удобным инструментом для построения тематических моделей.
80%
Доля интерпретируемых тем
При помощи оптимальных и подготовленных сценариев обучения можно получать прирост в доле интерпретируемых тем "из коробки"
40%
Сокращение времени разработки
Большой набор инструментов оптимизации позволяют сконцентрироваться на подборе оптимальной модели и сократить время разработки
Прикладные задачи
Которые решает тематическое моделирование
Разведочный поиск по закрытой коллекции
Тематические модели позволяют быстро восстановить структуру коллекции и построить интерпретируемое векторное представление каждого документа, сузив область для поиска по запросу.
01
Таксономия текстовой коллекции
Понимание структуры коллекции необходимо для последующего проведения автоматизации обработки обращений. Модели представления информации о коллекции позволят быстро понять содержание коллекции диалогов.
02
Сегментация и профилирование клиентов
Анализ данных о действиях пользователя для выделения интерпретируемых моделей поведения возможно реализовать при помощи механизма матричного разложения.
03
Анализ динамики новостного потока
Темпоральные тематические модели позволяют следить за динамикой развития темы в коллекции. А автоматизированное выделение иерархически связанных тем позволяет понять структуру новостной коллекции.
04