Остання редакція: 2025-01-15
Анотація
Запропоновано метод синхронізації даних в термінологічних базах знань на основі використання нейронної мережі та класифікації за тематикою предметних областей. Синхронізація текстових даних є однією з ключових задач для ефективної обробки даних, що полягає у систематизації знань за семантичною складовою та вирішує проблему розуміння контексту на основі вже відомих даних. Для вирішення даної задачі використовують комплексний підхід, що включає в себе набір рішень та алгоритмів синхронізації на усіх рівнях обробки даних, включаючи семантичний аналіз, алгоритми програмного та апаратного рівнів, а також використання оптимізованих моделей даних для конкретних задач. В ході дослідження розроблено алгоритм пошуку оптимального розподілу даних в термінологічних базах знань на основі семантичної цінності термів. Визначено основні критерії розподілу текстових даних в термінологічних базах знань. Розглянуто задачу актуалізації даних в термінологічних базах знань при їх наповненні. Сформульовано та описано задачу конфліктної синхронізації термів на основі семантичної належності до споріднених предметних областей. Розглянуто алгоритми порівняння термів на основі семантичного аналізу, косинусної подібності, коефіцієнту Жаккара та методу частоти появи термів (TF-IDF). Подано опис методу синхронізації у відповідності до створених моделей та структур даних. Описано переваги та недоліки відомих методів синхронізації текстових даних із використанням алгоритмів та методів обробки даних на прикладі задач збереження та відтворення даних. Відзначено ефективність методу синхронізації в ході тестування та експериментальних досліджень для кол-центрів. Оптимізовано структури даних для ефективного збереження та отримання текстових даних для задачі класифікації тексту. Створено прототип термінологічних баз знань та застосовано метод синхронізації на прикладі різних предметних областей.
Ключові слова
Посилання
[1] [Kaya, Cem & Kilimci, Zeynep & Uysal, Mitat & Kaya, Murat. (2024). A Review of Metaheuristic Optimization Techniques in Text Classification. International Journal of Computational and Experimental Science and Engineering. 10. 10.22399/ijcesen.295.
[2] Mohabir, S.E., Joshi, Y.C. A bibliometric analysis of the knowledge base on multinational corporations’ behavior. SN Bus Econ 4, 105 (2024). https://doi.org/10.1007/s43546-024-00705-7.
[3] Ünver, Mehmet. (2023). Improved cosine similarity measures for q-Rung orthopair fuzzy sets. Qeios. 10.32388/EOGFR4.
[4] TF–IDF. In: Sammut, C., Webb, G.I. (eds) Encyclopedia of Machine Learning. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-30164-8_832
[5] Travieso, Gonzalo & Benatti, Alexandre & da F. Costa, Luciano. (2024). An Analytical Approach to the Jaccard Similarity Index. 10.13140/RG.2.2.23119.70562.
[6] Berger, Bonnie & Waterman, Michael & Yu, Yun. (2020). Levenshtein Distance, Sequence Comparison and Biological Database Search. IEEE Transactions on Information Theory. PP. 1-1. 10.1109/TIT.2020.2996543.
[7] A. Yarovyi and D. Kudriavtsev, "Multi-purpose search to determine the context of a text message based on the dictionary data structure," 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), LVIV, Ukraine, 2021, pp. 65-68, doi: 10.1109/CSIT52700.2021.9648803.
[8] Gabriel A. (2020, January). Kensho Derived Wikimedia Dataset. Retrieved September 1, 2024 from https://www.kaggle.com/datasets/kenshoresearch/kensho-derived-wikimedia-data.