Остання редакція: 2025-06-13
Анотація
Дослідження присвячено задачі автоматичної класифікації жартів (анекдотів) за категорією гумору із застосуванням методів машинного навчання. Запропоновано підхід, що передбачає попередню векторизацію текстів жартів із використанням TF-IDF та балансування вибірки за допомогою SMOTE. Для розв’язання задачі класифікації застосовано логістичну регресію, яка навчалася на синтетично розширених даних. Проведено експерименти на корпусі з чотирьох категорій гумору: абсурд, каламбур, чорний гумор та сарказм. Результати класифікації демонструють високу точність за умови належної підготовки даних і правильного налаштування гіперпараметрів моделі.
Ключові слова
Посилання
1. Attardo S. Humor and Cognitive linguistics. InThe Routledge Handbook of cognitive linguistics 2021 Jun 3 (pp. 359-371). Routledge.
2. Шолота, В.В., Бісікало О.В. Огляд сучасних підходів до автоматичного розпізнавання гумору. Матеріали XLVIII науково-технічної конференції підрозділів ВНТУ, Вінниця, 13-15 березня 2019 р.
3. Інтелектуальна модель стилістичного аналізу гумористичних текстів [Електронний ресурс] // Архів відкритого доступу НУ «ХАІ». – 2023. – Режим доступу: https://openarchive.nure.ua/entities/publication/d733c3c5-23b3-4b80-b732-430574b69648, вільний.
4. McKinney W. Python for Data Analysis. 2nd Edition [Текст]. – O'Reilly Media, 2018. – 544 с.
5. Jurafsky D., Martin J.H. Speech and Language Processing. 3rd ed. – Draft [Електроннийресурс]. – 2020. – Розділ: Vector Semantics and TF-IDF. – Режимдоступу: https://web.stanford.edu/~jurafsky/slp3/, вільний.
6. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: Synthetic Minority Over-sampling Technique [Текст] // Journal of Artificial Intelligence Research. – 2002. – Т. 16. – С. 321–357.
7. Pedregosa F. et al. Scikit-learn: Machine Learning in Python [Електроннийресурс] // Journal of Machine Learning Research. – 2011. – Т. 12. – С. 2825–2830. – Режимдоступу: https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html, вільний.