Остання редакція: 2025-12-09
Анотація
У роботі розглянуто застосування наївного баєсівського класифікатора для задачі виявлення фішингових електронних повідомлень. Запропоновано повний підхід до обробки текстових даних, що включає попереднє очищення, лематизацію та формування словникової моделі. Побудовано ймовірнісну модель з використанням апріорних та умовних ймовірностей, а також реалізовано функцію класифікації на основі MAP-оцінки. Проведено тестування моделі на реальних прикладах і виконано лексичний аналіз текстів фішингових повідомлень. Отримані результати демонструють здатність моделі ідентифікувати ключові мовні патерни, характерні для шахрайської електронної кореспонденції.
APPLICATION OF THE NAIVE BAYES CLASSIFIER FOR PHISHING MESSAGE ANALYSIS
Abstract
This paper explores the application of a Naive Bayes classifier to the task of detecting phishing emails. A comprehensive text processing pipeline is proposed, including cleaning, lemmatization, and dictionary-based modeling. A probabilistic classification model is built using prior and conditional probabilities, and the MAP (Maximum A Posteriori) principle is applied for prediction. The model is tested on real-world examples, followed by a lexical analysis of phishing messages. The results demonstrate the classifier’s ability to identify key linguistic patterns typical of fraudulent electronic correspondence.
Ключові слова
Посилання
User Guide. Naive Bayes. URL: https://scikitlearn.org/stable/modules/naive_bayes.html .
Florentina T. Hristea. The Naïve Bayes Model for Unsupervised Word Sense Disambiguation: Aspects Concerning Feature Selection (SpringerBriefs in Statistics). 2013.
Notebook Naive Bayes classifier. URL: https://www.kaggle.com/code/horpynichelizaveta/naive-bayes-classifier
Phishing Email Detection Dataset. URL: https://www.kaggle.com/datasets/subhajournal/phishingemails