Розмір шрифта:
Алгоритм виявлення дублікатів вакансій на основі семантичної схожості
Остання редакція: 2026-05-26
Анотація
У роботі досліджено проблему інтелектуальної фільтрації та дедуплікації вакансій, зібраних із неструктурованих джерел. Розглянуто алгоритм семантичного аналізу текстів оголошень за допомогою багатовимірних числових векторів. Запропоновано рішення на основі хмарного API OpenAI для генерації векторних представлень та розширення pgvector для СУБД PostgreSQL, що дозволяє виявляти приховані копії вакансій за метрикою косинусної схожості. Експериментальна перевірка показала зниження рівня інформаційного шуму майже вдвічі.
Ключові слова
алгоритм; дедуплікація даних; косинусна відстань; векторний пошук; обробка природної мови; агрегація вакансій
Посилання
1. OpenAI Platform Docs. Робота з векторними вбудовуваннями (Embeddings) за допомогою OpenAI API. Режим доступу: https://platform.openai.com/docs/guides/embeddings. – Дата звернення: 21.05.2026.
2. ServBay Support. Посібник з використання розширення pgvector PostgreSQL. Режим доступу: https://support.servbay.com/uk/database-management/postgresql-extensions/pgvector. – Дата звернення: 21.05.2026.
3. Malkov Y. A., Yashunin D. A. Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, Vol. 42, no. 4. P. 824–836.
2. ServBay Support. Посібник з використання розширення pgvector PostgreSQL. Режим доступу: https://support.servbay.com/uk/database-management/postgresql-extensions/pgvector. – Дата звернення: 21.05.2026.
3. Malkov Y. A., Yashunin D. A. Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, Vol. 42, no. 4. P. 824–836.
Повний текст:
PDF