ЗАСТОСУВАННЯ НАЇВНОГО БАЄСІВСЬКОГО КЛАСИФІКАТОРА ДЛЯ АНАЛІЗУ ФІШИНГОВИХ ПОВІДОМЛЕНЬ

Єлизавета Олексіївна Горпиніч; Сергій Олександрович Жуков

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Єлизавета Олексіївна Горпиніч, Сергій Олександрович Жуков

Остання редакція: 2025-12-09

Анотація

У роботі розглянуто застосування наївного баєсівського класифікатора для задачі виявлення фішингових електронних повідомлень. Запропоновано повний підхід до обробки текстових даних, що включає попереднє очищення, лематизацію та формування словникової моделі. Побудовано ймовірнісну модель з використанням апріорних та умовних ймовірностей, а також реалізовано функцію класифікації на основі MAP-оцінки. Проведено тестування моделі на реальних прикладах і виконано лексичний аналіз текстів фішингових повідомлень. Отримані результати демонструють здатність моделі ідентифікувати ключові мовні патерни, характерні для шахрайської електронної кореспонденції.

APPLICATION OF THE NAIVE BAYES CLASSIFIER FOR PHISHING MESSAGE ANALYSIS

Abstract

This paper explores the application of a Naive Bayes classifier to the task of detecting phishing emails. A comprehensive text processing pipeline is proposed, including cleaning, lemmatization, and dictionary-based modeling. A probabilistic classification model is built using prior and conditional probabilities, and the MAP (Maximum A Posteriori) principle is applied for prediction. The model is tested on real-world examples, followed by a lexical analysis of phishing messages. The results demonstrate the classifier’s ability to identify key linguistic patterns typical of fraudulent electronic correspondence.

Ключові слова

наївний баєсівський класифікатор; фішинг; текстова класифікація; теорема Баєса; машинне навчання; обробка природної мови; MAP-оцінка; Naive Bayes classifier; phishing; text classification; Bayes' theorem; machine learning; natural language processing; MAP

Посилання

User Guide. Naive Bayes. URL: https://scikitlearn.org/stable/modules/naive_bayes.html .

Florentina T. Hristea. The Naïve Bayes Model for Unsupervised Word Sense Disambiguation: Aspects Concerning Feature Selection (SpringerBriefs in Statistics). 2013.

Notebook Naive Bayes classifier. URL: https://www.kaggle.com/code/horpynichelizaveta/naive-bayes-classifier

Phishing Email Detection Dataset. URL: https://www.kaggle.com/datasets/subhajournal/phishingemails

Повний текст: PDF

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Анотація

Ключові слова

Посилання

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)