ПОРІВНЯННЯ NAIVE BAYES ТА TREE-AUGMENTED NAIVE BAYES ДЛЯ ПЕРЕДБАЧЕННЯ РИЗИКУ ЦУКРОВОГО ДІАБЕТУ

Роман Андрійович Бралатан; Сергій Олександрович Жуков

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Роман Андрійович Бралатан, Сергій Олександрович Жуков

Остання редакція: 2026-06-19

Анотація

У роботі досліджено можливість удосконалення класичного байєсівського класифікатора Naive Bayes шляхом введення деревоподібних залежностей між ознаками у моделі Tree-Augmented Naive Bayes (TAN). Експеримент проведено на збалансованій вибірці BRFSS 2015 із 70 692 спостережень. Безперервні предиктори дискретизовано на квантильні інтервали, а структуру залежностей TAN побудовано методом максимального кістякового дерева на основі умовної взаємної інформації між ознаками. Обидві моделі навчено зі згладжуванням Лапласа та порівняно за показниками Accuracy, Precision, Recall, F1-score, AUC-ROC і Brier score, що дозволило одночасно оцінити їхню дискримінаційну здатність і якість калібрування ймовірностей. Модель TAN досягла Accuracy 0.7458, F1-score 0.7555 та AUC-ROC 0.8222, що перевищує відповідні показники базового Naive Bayes (Accuracy 0.7325, F1-score 0.7311, AUC-ROC 0.8123), а також забезпечила менший Brier score (0.1775 проти 0.2000). Додатково проаналізовано найсильніші міжознакові залежності, виявлені у структурі TAN. Встановлено, що врахування умовних залежностей між клінічними та соціально-поведінковими предикторами підвищує якість байєсівської класифікації ризику діабету.

COMPARISON OF NAIVE BAYES AND TREE-AUGMENTED NAIVE BAYES FOR DIABETES RISK PREDICTION

Abstract:

This paper investigates the improvement of the classical Naive Bayes classifier through the introduction of tree-structured feature dependencies in Tree-Augmented Naive Bayes (TAN). The experiment was conducted on a balanced BRFSS 2015 sample of 70,692 observations. Continuous predictors were discretized into quantile intervals, and the TAN dependency structure was built using the maximum spanning tree method based on the conditional mutual information between features. Both models were trained with Laplace smoothing and compared in terms of Accuracy, Precision, Recall, F1-score, AUC-ROC, and Brier score, which allowed simultaneous assessment of their discriminative ability and the quality of probability calibration. The TAN model achieved Accuracy 0.7458, F1-score 0.7555, and AUC-ROC 0.8222, outperforming the baseline Naive Bayes (Accuracy 0.7325, F1-score 0.7311, AUC-ROC 0.8123), and also yielded a lower Brier score (0.1775 versus 0.2000). In addition, the strongest inter-feature dependencies identified in the TAN structure were analyzed. The study demonstrates that modeling conditional dependencies among clinical and socio-behavioral predictors enhances Bayesian diabetes risk classification.

Ключові слова

байєсівська мережа; Naive Bayes; Tree-Augmented Naive Bayes; цукровий діабет; прогнозування ризику; збалансовані дані; калібрування; Bayesian network; Naive Bayes; Tree-Augmented Naive Bayes; diabetes; risk prediction; balanced data; calibration

Посилання

Rodinkova V., Yuriev S., Mokin V., Kryvopustova M., Shmundiak D., Bortnyk M., Kryzhanovskyi Y., Kurchenko A. Bayesian analysis suggests independent development of sensitization to different fungal allergens. World Allergy Organization Journal. 2024. Vol. 17, no. 5. P. 100908. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.waojou.2024.100908

Бралатан Р. А., Жуков С. О. Байєсівське моделювання для оцінювання ризиків виникнення раку легенів на основі аналізу медичних даних. Матеріали LIV Всеукраїнської науково-технічної конференції підрозділів Вінницького національного технічного університету (НТКП ВНТУ–2025). Вінниця, 2025. [Електронний ресурс] – Режим доступу: https://press.vntu.edu.ua/index.php/vntu/catalog/book/904

Копняк В. Є., Мокін В. Б., Жуков С. О., Варчук І. В., Скринник Т. В. Метод бустингу гетероскедастичних моделей для прогнозування концентрацій пилу Сахари в атмосферному повітрі України. Наукові праці Вінницького національного технічного університету. 2024. № 2. [Електронний ресурс] – Режим доступу: https://doi.org/10.31649/2307-5376-2024-2-28-38

Zhao Z. et al. Bayesian Cox regression for large-scale inference with applications to electronic health records. The Annals of Applied Statistics. 2023. [Електронний ресурс] – Режим доступу: https://doi.org/10.1214/22-AOAS1658

Choi B. G. et al. Predicting Current Glycated Hemoglobin Levels in Adults From Electronic Health Records: Validation of Multiple Logistic Regression Algorithm. JMIR Medical Informatics. 2020. Vol. 8, No. 9. [Електронний ресурс] – Режим доступу: https://doi.org/10.2196/18963

Lu Y. et al. Medical idioms for clinical Bayesian network development. Journal of Biomedical Informatics. 2020. Vol. 110. Art. 103495. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.jbi.2020.103495

Kourou K. et al. Machine learning applications in cancer prognosis and prediction. Computational and Structural Biotechnology Journal. 2015. Vol. 13. P. 8–17. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.csbj.2014.11.005

Swanson K., Wu E. Q., Zhang A., Alizadeh A. A., Zou J. From patterns to patients: Advances in clinical machine learning for cancer diagnosis, prognosis, and treatment. Cell. 2023. Vol. 186, No. 8. P. 1772–1791. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.cell.2023.01.035

Topol E. J. High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine. 2019. Vol. 25. P. 44–56. [Електронний ресурс] – Режим доступу: https://doi.org/10.1038/s41591-018-0300-7

Roman Bralatan notebook [Електронний ресурс] – Режим доступу: https://www.kaggle.com/code/romantick/nb-vs-tan-diabetes-risk-bayesian-comparison

Повний текст: PDF

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Анотація

Ключові слова

Посилання

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)