Розмір шрифта:
ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ МЕТОДУ ГОЛОВНИХ КОМПОНЕНТ ДЛЯ ЗНИЖЕННЯ РОЗМІРНОСТІ ОЗНАК У ЗАДАЧАХ МЕДИЧНОЇ ДІАГНОСТИКИ
Остання редакція: 2026-05-04
Анотація
У роботі досліджено застосування методу головних компонент (PCA) для виявлення інформативних ознак у
медичних даних та зниження їх розмірності в задачах автоматизованої класифікації. Використано набір даних
Breast Cancer Wisconsin (Diagnostic), який містить числові характеристики клітинних ядер пухлин. Проведено
попередню обробку даних, стандартизацію ознак, аналіз мультиколінеарності та побудову класифікаційних
моделей. Реалізовано порівняння логістичної регресії на повному наборі ознак і моделі після застосування PCA.
Встановлено, що використання 9 головних компонент дозволяє зберегти понад 94% дисперсії та зменшити
розмірність даних у 3,3 раза без втрати якості класифікації.
STUDY OF THE EFFECTIVENESS OF THE PRINCIPAL COMPONENT ANALYSIS METHOD FOR FEATURE DIMENSIONALITY REDUCTION IN MEDICAL DIAGNOSTIC TASKS
The paper investigates the application of Principal Component Analysis (PCA) for feature extraction and
dimensionality reduction in medical data classification tasks. The Breast Cancer Wisconsin (Diagnostic)
dataset was used, containing numerical characteristics of tumor cell nuclei. Data preprocessing, feature
standardization, multicollinearity analysis, and classification model development were performed. A
comparison was made between logistic regression based on the full feature set and a model using the principal
component space. It was found that using 9 principal components preserves more than 94% of the variance
and reduces data dimensionality by 3.3 times without loss of classification quality
медичних даних та зниження їх розмірності в задачах автоматизованої класифікації. Використано набір даних
Breast Cancer Wisconsin (Diagnostic), який містить числові характеристики клітинних ядер пухлин. Проведено
попередню обробку даних, стандартизацію ознак, аналіз мультиколінеарності та побудову класифікаційних
моделей. Реалізовано порівняння логістичної регресії на повному наборі ознак і моделі після застосування PCA.
Встановлено, що використання 9 головних компонент дозволяє зберегти понад 94% дисперсії та зменшити
розмірність даних у 3,3 раза без втрати якості класифікації.
STUDY OF THE EFFECTIVENESS OF THE PRINCIPAL COMPONENT ANALYSIS METHOD FOR FEATURE DIMENSIONALITY REDUCTION IN MEDICAL DIAGNOSTIC TASKS
The paper investigates the application of Principal Component Analysis (PCA) for feature extraction and
dimensionality reduction in medical data classification tasks. The Breast Cancer Wisconsin (Diagnostic)
dataset was used, containing numerical characteristics of tumor cell nuclei. Data preprocessing, feature
standardization, multicollinearity analysis, and classification model development were performed. A
comparison was made between logistic regression based on the full feature set and a model using the principal
component space. It was found that using 9 principal components preserves more than 94% of the variance
and reduces data dimensionality by 3.3 times without loss of classification quality
Ключові слова
метод головних компонент; PCA; машинне навчання; медичні дані; класифікація; логістична регресія; зниження розмірності
Посилання
Breast Cancer Wisconsin (Diagnostic) Data Set. Kaggle [Електронний ресурс]. – Режим доступу:
https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data.
Jolliffe I. T. Principal Component Analysis. Springer Series in Statistics. Springer, 2002.
Scikit-learn Documentation. Principal Component Analysis (PCA) [Електронний ресурс]. – Режим доступу: https://scikitlearn.org
Scikit-learn Documentation. Logistic Regression [Електронний ресурс]. – Режим доступу: https://scikit-learn.org
Pandas Documentation [Електронний ресурс]. – Режим доступу: https://pandas.pydata.org
Matplotlib Documentation [Електронний ресурс]. – Режим доступу: https://matplotlib.org
Seaborn Documentation [Електронний ресурс]. – Режим доступу: https://seaborn.pydata.org
https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data.
Jolliffe I. T. Principal Component Analysis. Springer Series in Statistics. Springer, 2002.
Scikit-learn Documentation. Principal Component Analysis (PCA) [Електронний ресурс]. – Режим доступу: https://scikitlearn.org
Scikit-learn Documentation. Logistic Regression [Електронний ресурс]. – Режим доступу: https://scikit-learn.org
Pandas Documentation [Електронний ресурс]. – Режим доступу: https://pandas.pydata.org
Matplotlib Documentation [Електронний ресурс]. – Режим доступу: https://matplotlib.org
Seaborn Documentation [Електронний ресурс]. – Режим доступу: https://seaborn.pydata.org
Повний текст:
PDF