- Тематические модели - алгоритмы машинного обучения для сортировки текстов по темам.
- Исследователи из НИУ ВШЭ сравнили пять тематических моделей и определили лучшие.
- Наименьшее число ошибок показали две модели, одна из которых - GLDAW.
- Тематическое моделирование используется для облегчения поиска информации, анализа масс-медиа и определения тематики сообществ в социальных сетях.
- Улучшить качество работы тематических моделей можно с помощью эмбеддингов.
- Ученые исследовали пять тематических моделей: ETM, GLDAW, GSM, WTM-GMM и W-LDA.
- Модель ETM - лучшая по когерентности для датасета Lenta.ru и 20 Newsgroups, а GLDAW - для датасета WoS.
- GLDAW наиболее стабильна, хорошо определяет оптимальное количество тем и эффективна с небольшими текстами.
В НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов
27 июн 2024
Краткий пересказ
от нейросети YandexGPT
Источник:
naked-science.ru
Обложка: Ученые НИУ ВШЭ предложили модель, которая лучше других определяет тематику текстов / © Mel Poole, unsplash.com