КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
Системний аналіз та імовірнісне моделювання ризику виникнення діабету на основі байєсівських методів
Михайло Ігорович Янковчук, Сергій Олександрович Жуков

Остання редакція: 2026-05-27

Анотація


У роботі проведено системний аналіз застосування імовірнісних методів класифікації для оцінки ризику виникнення цукрового діабету на основі набору даних Pima Indians Diabetes. Виконано комплексне очищення та попередню обробку даних, побудовано та досліджено моделі GaussianNB і CategoricalNB із застосуванням різних стратегій дискретизації. Проведено порівняльний аналіз ефективності логарифмічного перетворення, оптимізації гіперпараметрів та ансамблевих підходів. Встановлено, що найвищу точність серед імовірнісних моделей демонструє GaussianNB з адаптивним згладжуванням, тоді як використання ансамблевих методів (Voting Ensemble) дозволяє максимізувати показник ROC-AUC для систем підтримки прийняття медичних рішень.


Systematic analysis and probabilistic modeling of diabetes risk based on Bayesian methods
Abstract: The paper conducts a systems analysis of probabilistic classification methods for assessing diabetes mellitus risk based on the Pima Indians Diabetes dataset. Comprehensive data cleaning and preprocessing were performed, and GaussianNB and CategoricalNB models were constructed and investigated using various discretization strategies. A comparative analysis of logarithmic transformation efficiency, hyperparameter optimization, and ensemble approaches was carried out. It was established that GaussianNB with adaptive smoothing demonstrates the highest accuracy among probabilistic models, while the use of ensemble methods (Voting Ensemble) allows for maximizing the ROC-AUC indicator for medical decision support systems.

Ключові слова


системний аналіз; імовірнісне моделювання; GaussianNB; CategoricalNB; дискретизація даних; прогнозування діабету; машинне навчання; предиктивна діагностика; systems analysis; probabilistic modeling; GaussianNB; CategoricalNB; data discretization; diabetes

Посилання


Pima Indians Diabetes Database [Електронний ресурс]. — Режим доступу: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

Scikit-learn Documentation: Preprocessing [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/preprocessing.html

Scikit-learn Documentation: Naive Bayes [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/naive_bayes.html

Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. — O'Reilly Media, 2022. — 851 p.

Повний текст: PDF