Розмір шрифта:
ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ КЛАСТЕРИЗАЦІЇ ТА МЕТОДИ ОПТИМІЗАЦІЇ ЛОГІСТИЧНОЇ РЕГРЕСІЇ В ЗАДАЧАХ МЕДИЧНОЇ ДІАГНОСТИКИ
Остання редакція: 2026-05-15
Анотація
У роботі виконано порівняльний аналіз методів кластеризації та підходів до оптимізації моделей класифікації на основі набору даних Breast Cancer Wisconsin. Застосовано методи K-Means, Spectral Clustering та Gaussian Mixture для кластеризації, а також метод головних компонент (PCA) для зменшення розмірності. Побудовано та порівняно моделі класифікації на основі логістичної регресії з оптимізацією параметрів методами градієнтного спуску та генетичного алгоритму. Встановлено, що найвищу ефективність класифікації забезпечує логістична регресія з бібліотеки sklearn.
COMPARATIVE ANALYSIS OF CLUSTERIZATION ALGORITHMS AND METHODS OF OPTIMIZATION OF LOGISTIC REGRESSION IN MEDICAL DIAGNOSTICS PROBLEMS
Abstract:
The paper presents a comparative analysis of clustering methods and optimization approaches for classification models based on the Breast Cancer Wisconsin dataset. K-Means, Spectral Clustering, and Gaussian Mixture methods were applied for clustering, along with Principal Component Analysis (PCA) for dimensionality reduction. Classification models based on logistic regression with parameter optimization via gradient descent and genetic algorithm were built and compared. It was established that the highest classification efficiency is achieved by sklearn's logistic regression.
COMPARATIVE ANALYSIS OF CLUSTERIZATION ALGORITHMS AND METHODS OF OPTIMIZATION OF LOGISTIC REGRESSION IN MEDICAL DIAGNOSTICS PROBLEMS
Abstract:
The paper presents a comparative analysis of clustering methods and optimization approaches for classification models based on the Breast Cancer Wisconsin dataset. K-Means, Spectral Clustering, and Gaussian Mixture methods were applied for clustering, along with Principal Component Analysis (PCA) for dimensionality reduction. Classification models based on logistic regression with parameter optimization via gradient descent and genetic algorithm were built and compared. It was established that the highest classification efficiency is achieved by sklearn's logistic regression.
Ключові слова
кластеризація; машинне навчання; класифікація; PCA; градієнтний спуск; генетичний алгоритм; логістична регресія; clustering; machine learning; classification; PCA; gradient descent; genetic algorithm; logistic regression
Посилання
Breast Cancer Wisconsin (Diagnostic) Dataset [Електронний ресурс]. — Режим доступу: https://www.kaggle.com/datasets/yasserh/breast-cancer-dataset
Scikit-learn Documentation: Clustering [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/clustering.html
Scikit-learn Documentation: Logistic Regression [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. — O'Reilly Media, 2022. — 851 p.
Scikit-learn Documentation: Clustering [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/clustering.html
Scikit-learn Documentation: Logistic Regression [Електронний ресурс]. — Режим доступу: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. — O'Reilly Media, 2022. — 851 p.
Повний текст:
PDF