Остання редакція: 2026-06-19
Анотація
У роботі досліджено можливість удосконалення класичного байєсівського класифікатора Naive Bayes шляхом введення деревоподібних залежностей між ознаками у моделі Tree-Augmented Naive Bayes (TAN). Експеримент проведено на збалансованій вибірці BRFSS 2015 із 70 692 спостережень. Безперервні предиктори дискретизовано на квантильні інтервали, а структуру залежностей TAN побудовано методом максимального кістякового дерева на основі умовної взаємної інформації між ознаками. Обидві моделі навчено зі згладжуванням Лапласа та порівняно за показниками Accuracy, Precision, Recall, F1-score, AUC-ROC і Brier score, що дозволило одночасно оцінити їхню дискримінаційну здатність і якість калібрування ймовірностей. Модель TAN досягла Accuracy 0.7458, F1-score 0.7555 та AUC-ROC 0.8222, що перевищує відповідні показники базового Naive Bayes (Accuracy 0.7325, F1-score 0.7311, AUC-ROC 0.8123), а також забезпечила менший Brier score (0.1775 проти 0.2000). Додатково проаналізовано найсильніші міжознакові залежності, виявлені у структурі TAN. Встановлено, що врахування умовних залежностей між клінічними та соціально-поведінковими предикторами підвищує якість байєсівської класифікації ризику діабету.
COMPARISON OF NAIVE BAYES AND TREE-AUGMENTED NAIVE BAYES FOR DIABETES RISK PREDICTION
Abstract:
This paper investigates the improvement of the classical Naive Bayes classifier through the introduction of tree-structured feature dependencies in Tree-Augmented Naive Bayes (TAN). The experiment was conducted on a balanced BRFSS 2015 sample of 70,692 observations. Continuous predictors were discretized into quantile intervals, and the TAN dependency structure was built using the maximum spanning tree method based on the conditional mutual information between features. Both models were trained with Laplace smoothing and compared in terms of Accuracy, Precision, Recall, F1-score, AUC-ROC, and Brier score, which allowed simultaneous assessment of their discriminative ability and the quality of probability calibration. The TAN model achieved Accuracy 0.7458, F1-score 0.7555, and AUC-ROC 0.8222, outperforming the baseline Naive Bayes (Accuracy 0.7325, F1-score 0.7311, AUC-ROC 0.8123), and also yielded a lower Brier score (0.1775 versus 0.2000). In addition, the strongest inter-feature dependencies identified in the TAN structure were analyzed. The study demonstrates that modeling conditional dependencies among clinical and socio-behavioral predictors enhances Bayesian diabetes risk classification.
Ключові слова
Посилання
Rodinkova V., Yuriev S., Mokin V., Kryvopustova M., Shmundiak D., Bortnyk M., Kryzhanovskyi Y., Kurchenko A. Bayesian analysis suggests independent development of sensitization to different fungal allergens. World Allergy Organization Journal. 2024. Vol. 17, no. 5. P. 100908. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.waojou.2024.100908
Бралатан Р. А., Жуков С. О. Байєсівське моделювання для оцінювання ризиків виникнення раку легенів на основі аналізу медичних даних. Матеріали LIV Всеукраїнської науково-технічної конференції підрозділів Вінницького національного технічного університету (НТКП ВНТУ–2025). Вінниця, 2025. [Електронний ресурс] – Режим доступу: https://press.vntu.edu.ua/index.php/vntu/catalog/book/904
Копняк В. Є., Мокін В. Б., Жуков С. О., Варчук І. В., Скринник Т. В. Метод бустингу гетероскедастичних моделей для прогнозування концентрацій пилу Сахари в атмосферному повітрі України. Наукові праці Вінницького національного технічного університету. 2024. № 2. [Електронний ресурс] – Режим доступу: https://doi.org/10.31649/2307-5376-2024-2-28-38
Zhao Z. et al. Bayesian Cox regression for large-scale inference with applications to electronic health records. The Annals of Applied Statistics. 2023. [Електронний ресурс] – Режим доступу: https://doi.org/10.1214/22-AOAS1658
Choi B. G. et al. Predicting Current Glycated Hemoglobin Levels in Adults From Electronic Health Records: Validation of Multiple Logistic Regression Algorithm. JMIR Medical Informatics. 2020. Vol. 8, No. 9. [Електронний ресурс] – Режим доступу: https://doi.org/10.2196/18963
Lu Y. et al. Medical idioms for clinical Bayesian network development. Journal of Biomedical Informatics. 2020. Vol. 110. Art. 103495. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.jbi.2020.103495
Kourou K. et al. Machine learning applications in cancer prognosis and prediction. Computational and Structural Biotechnology Journal. 2015. Vol. 13. P. 8–17. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.csbj.2014.11.005
Swanson K., Wu E. Q., Zhang A., Alizadeh A. A., Zou J. From patterns to patients: Advances in clinical machine learning for cancer diagnosis, prognosis, and treatment. Cell. 2023. Vol. 186, No. 8. P. 1772–1791. [Електронний ресурс] – Режим доступу: https://doi.org/10.1016/j.cell.2023.01.035
Topol E. J. High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine. 2019. Vol. 25. P. 44–56. [Електронний ресурс] – Режим доступу: https://doi.org/10.1038/s41591-018-0300-7
Roman Bralatan notebook [Електронний ресурс] – Режим доступу: https://www.kaggle.com/code/romantick/nb-vs-tan-diabetes-risk-bayesian-comparison