КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
ПРОБЛЕМИ ЯКОСТІ ДАНИХ У BIG DATA ТА МЕТОДИ ЇХ ПОДОЛАННЯ
Анастасія Романівна Магденко, Анатолій Васильович Грицак

Остання редакція: 2026-01-03

Анотація


Це дослідження присвячене критичному аналізу зростаючих проблем якості даних (Data Quality, DQ) в архітектурах Big Data та розробці комплексних методів їх подолання. Встановлено, що традиційні підходи до DQ не справляються з експоненціальним зростанням обсягів, швидкості та різноманітності даних (3V), що призводить до динамічних та багатовимірних дефектів, які прямо впливають на точність аналітичних моделей та надійність прийняття рішень. Основний акцент зроблено на необхідності переходу від реактивного очищення до проактивного забезпечення якості «у джерелі». Запропоновано інтеграцію методів машинного навчання (ML) та штучного інтелекту (AI) для автоматизованого виявлення аномалій та інтелектуальної корекції помилок. Підкреслюється, що технологічні рішення повинні бути доповнені організаційним підходом, а саме – впровадженням політик Data Governance та інституту Data Stewardship. Результати роботи формують основу для розробки гібридних, адаптивних систем управління якістю даних, здатних підтримувати високу надійність Big Data конвеєрів.

 

DATA QUALITY PROBLEMS IN BIG DATA AND METHODS TO OVERCOME THEM

Abstracts: This study is devoted to a critical analysis of the growing problems of data quality (DQ) in Big Data architectures and the development of comprehensive methods to overcome them. It has been established that traditional approaches to DQ cannot cope with the exponential growth in data volume, velocity, and variety (3V), which leads to dynamic and multidimensional defects that directly affect the accuracy of analytical models and the reliability of decision-making. The main emphasis is on the need to move from reactive cleansing to proactive quality assurance “at the source.” The integration of machine learning (ML) and artificial intelligence (AI) methods for automated anomaly detection and intelligent error correction is proposed. It is emphasized that technological solutions must be complemented by an organizational approach, namely the implementation of Data Governance policies and the institution of Data Stewardship. The results of the work form the basis for the development of hybrid, adaptive data quality management systems capable of maintaining the high reliability of Big Data pipelines




Ключові слова


Big Data; якість даних; управління даними ; машинне навчання; автоматизоване очищення даних; аналіз аномалій; повнота даних; послідовність даних; Data Lake; Big Data, Data Quality (DQ), Data Governance; Machine Learning (ML); Automated Data Cleaning

Посилання


Зростаюча складність та багатовимірність проблем якості даних. URL: https://ceur-ws.org/Vol-2725/paper5.pdf (дата звернення: 25.10.2025).

Вплив низької якості даних на аналітичні результати та прийняття рішень. URL: menedzhment121-84-97.pdf   (дата звернення: 25.10.2025).

Застосування машинного навчання та штучного інтелекту для автоматизованого управління якістю даних. URL: https://integralsolutions.pl/uk/ai-automatyzacja-zarzadzanie-danymi/   (дата звернення: 27.10.2025).

Data Governance. URL: https://cloud.google.com/learn/what-is-data-governance (дата звернення: 27.10.2025).

Data Stewards. URL: https://www.ibm.com/think/topics/data-stewardship (дата звернення: 28.10.2025).

Фокус на "Якість у джерелі" та Архітектурах потокової обробки. URL: https://www.researchgate.net/publication/326985824_Real-time_Data_Stream_Processing_-_Challenges_and_Perspectives (дата звернення: 29.10.2025).


Повний текст: PDF