Остання редакція: 2026-06-05
Анотація
У статті представлено розробку програмного модуля для автоматизованої кластеризації новин в інформаційно-аналітичній системі JetIQ. Запропоноване рішення базується на використанні методів обробки природної мови, векторного представлення текстів (embeddings), алгоритму K-Means та локальної великої мовної моделі Llama 3.1. Розроблений модуль забезпечує автоматичне групування новин за тематикою, фільтрацію шумового контенту та генерацію назв сформованих категорій. Програмну реалізацію виконано мовою Python із використанням FastAPI та REST API архітектури.
Development of a News Clustering Module for the JETIQ System
Abstract:
The paper presents the development of a news clustering module for the JetIQ information system. The proposed solution is based on natural language processing methods, text embeddings, the K-Means clustering algorithm, and the local large language model Llama 3.1. The developed module provides automatic thematic grouping of news articles, noise filtering, and generation of cluster labels. The software implementation is developed in Python using FastAPI and REST API architecture
Ключові слова
Посилання
О. В. Бісікало, Д. П. Урлапова, Д. І. Тєлєга. «Класифікація жартів за категоріями гумору з використанням методів машинного навчання, » в Матеріали конференції «Молодь в науці: дослідження, проблеми, перспективи (МН-2025)», Вінниця, 2025. [Електронний ресурс]. Режим доступу:https://conferences.vntu.edu.ua/index.php/mn/mn2025/paper/view/25576.Дата звернення: Черв. 2025. – 4 c.
MacQueen J. Some methods for classification and analysis of multivariate observations // Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. 1967. Vol. 1. P. 281–297.
Arthur D., Vassilvitskii S. k-means++: The advantages of careful seeding // Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms. 2007. P. 1027–1035.
Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998–6008.
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 2019. P. 3982– 3992.
Meta Llama 3: The most capable openly available LLM to date. Meta AI. URL: https://ai.meta.com/blog/meta-llama-3/ (дата звернення: 10.04.2026)