КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ МЕТОДУ ГОЛОВНИХ КОМПОНЕНТ ДЛЯ ЗНИЖЕННЯ РОЗМІРНОСТІ ОЗНАК У ЗАДАЧАХ МЕДИЧНОЇ ДІАГНОСТИКИ
Євгеній Михайлович Лавренюк, Сергій Олександрович Жуков

Остання редакція: 2026-05-04

Анотація


У роботі досліджено застосування методу головних компонент (PCA) для виявлення інформативних ознак у
медичних даних та зниження їх розмірності в задачах автоматизованої класифікації. Використано набір даних
Breast Cancer Wisconsin (Diagnostic), який містить числові характеристики клітинних ядер пухлин. Проведено
попередню обробку даних, стандартизацію ознак, аналіз мультиколінеарності та побудову класифікаційних
моделей. Реалізовано порівняння логістичної регресії на повному наборі ознак і моделі після застосування PCA.
Встановлено, що використання 9 головних компонент дозволяє зберегти понад 94% дисперсії та зменшити
розмірність даних у 3,3 раза без втрати якості класифікації.

STUDY OF THE EFFECTIVENESS OF THE PRINCIPAL COMPONENT ANALYSIS METHOD FOR FEATURE DIMENSIONALITY REDUCTION IN MEDICAL DIAGNOSTIC TASKS

The paper investigates the application of Principal Component Analysis (PCA) for feature extraction and
dimensionality reduction in medical data classification tasks. The Breast Cancer Wisconsin (Diagnostic)
dataset was used, containing numerical characteristics of tumor cell nuclei. Data preprocessing, feature
standardization, multicollinearity analysis, and classification model development were performed. A
comparison was made between logistic regression based on the full feature set and a model using the principal
component space. It was found that using 9 principal components preserves more than 94% of the variance
and reduces data dimensionality by 3.3 times without loss of classification quality

Ключові слова


метод головних компонент; PCA; машинне навчання; медичні дані; класифікація; логістична регресія; зниження розмірності

Посилання


Breast Cancer Wisconsin (Diagnostic) Data Set. Kaggle [Електронний ресурс]. – Режим доступу:
https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data.

Jolliffe I. T. Principal Component Analysis. Springer Series in Statistics. Springer, 2002.

Scikit-learn Documentation. Principal Component Analysis (PCA) [Електронний ресурс]. – Режим доступу: https://scikitlearn.org

Scikit-learn Documentation. Logistic Regression [Електронний ресурс]. – Режим доступу: https://scikit-learn.org

Pandas Documentation [Електронний ресурс]. – Режим доступу: https://pandas.pydata.org

Matplotlib Documentation [Електронний ресурс]. – Режим доступу: https://matplotlib.org

Seaborn Documentation [Електронний ресурс]. – Режим доступу: https://seaborn.pydata.org

Повний текст: PDF