Preview

Russian Technological Journal

Расширенный поиск

Тематическое моделирование в потоке коротких сообщений на русском языке

https://doi.org/10.32362/2500-316X-2025-13-1-38-48

EDN: HJHQTR

Аннотация

Цели. Работа посвящена тематическому моделированию коротких сообщений, поступающих посредством социальных сетей или другим способом в виде серии. Такая задача возникает в системах работы с населением в государственных и муниципальных структурах, в центрах опроса общественного мнения, а также в системах обслуживания клиентов и маркетинговых подразделениях. Цель работы – разработка и экспериментальная проверка набора алгоритмов тематической модели для автоматического определения основных тем обмена информацией и типичных сообщений, иллюстрирующих эти темы.

Методы. Используются методы переменных статистических распределений, примененных к статистике коллокаций, и подходы, характерные для решения задач тематического моделирования коротких текстов, но в применении к следующим друг за другом сообщениям. Таким образом, задачи онлайнового машинного обучения и тематического моделирования рассматриваются в совокупности.

Результаты. Рассмотрено построение тематической модели, в которой найденные кластеры с предъявлением их типичных представителей и текущего веса могут помочь человеку в принятии решений в соответствии с тематикой этих наиболее важных сообщений. Предложенный метод был экспериментально протестирован на корпусе реальных сообщений. Результаты тематического моделирования (построенные тематические модели) согласуются с результатами, полученными вручную: выбранные сообщения, иллюстрирующие проблемные темы с наибольшим весом, являются таковыми и с точки зрения экспертов.

Выводы. Предлагаемый алгоритм тематического моделирования позволяет автоматически выявлять наиболее важные темы в текущем общении, показывает посты, служащие индикаторами этих тем, что позволяет существенно упростить решение задачи.

Об авторе

Е. С. Мозаидзе
ФГБОУ ВО «Белгородский государственный технологический университет им. В.Г. Шухова»
Россия

Мозаидзе Елена Сергеевна, аспирант, кафедра программного обеспечения вычислительной техники и автоматизированных систем,

308012, Белгород, ул. Костюкова, д. 46. 


Конфликт интересов:

Автор заявляет об отсутствии конфликта интересов.



Список литературы

1. Брусенцев А.Г., Зуева Е.С. Тематические модели и инструменты обработки естественного языка в применении к задачам муниципальных структур. В сб.: Актуальные теоретические и прикладные вопросы управления социально-экономическими системами: материалы II Международной научно-практической конференции. М.: Институт развития дополнительного профессионального образования; 2020. Т. 2. С. 262–269. https://elibrary.ru/fkgyxn

2. Зуева Е.С. Вероятностная классификация входящих обращений на основе алгоритма управляемых рекуррентных нейронов. В сб.: Материалы Международной научно-технической конференции молодых ученых БГТУ им. В.Г. Шухова. Белгород: БГТУ им. В.Г. Шухова; 2021. С. 3564–3575. https://www.elibrary.ru/nhlzpv

3. Поляков В.М., Мозаидзе Е.С. Алгоритм коллаборативной фильтрации как возможный инструмент выявления опасного твита (короткого сообщения) в социальных сетях представительства органа государственной власти Белгородской области. В сб.: Современные вопросы устойчивого развития общества в эпоху трансформационных процессов: материалы IV международной научно-практической конференции. М.: ООО «ИРОК»; 2022. С. 136–148. https://doi.org/10.34755/IROK.2022.14.90.027, https://www.elibrary.ru/mzrsgm

4. Papadimitriou C.H., Tamaki H., Raghavan P., Vempala S. Latent semantic indexing: A probabilistic analysis. In: Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. ACM; 1998. P. 159–168. https://doi.org/10.1145/275487.275505

5. Hofmann T. Probabilistic latent semantic indexing. In: Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM; 1999. P. 50–57. https://doi.org/10.1145/312624.312649

6. Blei D., McAuliffe J. Supervised topic models. In: Advances in Neural Information Processing Systems 20 (NIPS 2007). 2008. P. 121–128.

7. Blei D.M., Lafferty J.D. Dynamic topic models. In: Proceedings of the 23rd International Conference on Machine learning (ICML ‘06). ACM; 2006. P. 113–120. https://doi.org/10.1145/1143844.1143859

8. Blei D.M. Probabilistic topic models. Communications of the ACM. 2012;55(4):77–84. https://doi.org/10.1145/2133806.2133826

9. Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов. Доклады академии наук. 2014;456(3):268–271. https://doi.org/10.7868/S0869565214090096

10. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования. Машинное обучение и анализ данных. 2013;1(6):657–686.

11. Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами. Вычислительные методы и программирование. 2015;16(2):215–234. https://doi.org/10.26089/NumMet.v16r222

12. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке. Труды Института системного программирования РАН (Труды ИСП РАН). 2012;23:215–242. https://doi.org/10.15514/ISPRAS-2012-23-13

13. Nakshatri N., Liu S., Chen S., Roth D., Goldwasser D., Hopkins D. Using LLM for Improving Key Event Discovery: Temporal-Guided News Stream Clustering with Event Summaries. Findings of the Association for Computational Linguistics: EMNLP. 2023:4162–4173. https://doi.org/10.18653/v1/2023.findings-emnlp.274

14. Rijcken E., Scheepers F., Zervanou K., Spruit M., Mosteiro P., Kaymak U. Towards Interpreting Topic Models with ChatGPT. 2023. Paper presented at The 20th World Congress of the International Fuzzy Systems Association, Daegu, Republic of Korea. 2023. V. 5. URL: https://pure.tue.nl/ws/portalfiles/portal/300364784/IFSA_InterpretingTopicModelsWithChatGPT.pdf

15. Amigo E., Gonzalo J., Artiles J., Verdejo F. A comparison of extrinsic clustering evaluation metrics based on formal constraints. Information Retrieval. 2009;12(4):461486.


Дополнительные файлы

1. Темы, наиболее популярные в обращениях в мэрию г. Белгорода
Тема
Тип Исследовательские инструменты
Посмотреть (24KB)    
Метаданные ▾
  • Цель работы – разработка и экспериментальная проверка набора алгоритмов тематической модели для автоматического определения основных тем обмена информацией и типичных сообщений, иллюстрирующих эти темы.
  • Построена тематическая модель, в которой найденные кластеры с предъявлением их типичных представителей и текущего веса могут помочь человеку в принятии решений в соответствии с тематикой этих наиболее важных сообщений.
  • Предлагаемый алгоритм тематического моделирования позволяет автоматически выявлять наиболее важные темы в текущем общении, показывает посты, служащие индикаторами этих тем, что позволяет существенно упростить решение задачи.

Рецензия

Для цитирования:


Мозаидзе Е.С. Тематическое моделирование в потоке коротких сообщений на русском языке. Russian Technological Journal. 2025;13(1):38-48. https://doi.org/10.32362/2500-316X-2025-13-1-38-48. EDN: HJHQTR

For citation:


Mozaidze E.S. Topic modeling in the stream of short messages in Russian. Russian Technological Journal. 2025;13(1):38-48. https://doi.org/10.32362/2500-316X-2025-13-1-38-48. EDN: HJHQTR

Просмотров: 273


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2782-3210 (Print)
ISSN 2500-316X (Online)