КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
СИСТЕМНИЙ АНАЛІЗ МЕТОДІВ ВЕКТОРИЗАЦІЇ ДЛЯ МОДЕЛЮВАННЯ ЕМОЦІЙНОЇ ТОНАЛЬНОСТІ ТЕКСТОВИХ ВІДГУКІВ
Мар'яна Володимирівна Білецька, Сергій Олександрович Жуков

Остання редакція: 2026-05-27

Анотація


Робота присвячена системному аналізу методів векторизації текстових даних для задач класифікації емоційної тональності. Проведено дослідження ефективності статистичного підходу Bag-of-Words та лінійного методу TF-IDF у поєднанні з логістичною регресією та наївним баєсівським класифікатором. На основі аналізу відгуків Amazon Books визначено вплив методів зважування ознак на точність прогнозів та швидкість навчання моделей. Розроблений підхід демонструє високу ефективність у виявленні користувацьких настроїв завдяки оптимізації розріджених матриць даних.


A SYSTEMATIC ANALYSIS OF VECTORIZATION METHODS FOR MODELING THE EMOTIONAL TONE OF TEXTUAL REVIEWS
Abstract:
The paper is devoted to the system analysis of text data vectorization methods for sentiment classification tasks. The effectiveness of the Bag-of-Words statistical approach and the TF-IDF linear method in combination with Logistic Regression and Naive Bayes classifier was investigated. Based on the analysis of Amazon Books reviews, the influence of feature weighting methods on prediction accuracy and model training speed was determined. The developed approach demonstrates high efficiency in detecting consumer sentiments by optimizing sparse data matrices.

Ключові слова


системний аналіз; аналіз тональності; векторизація тексту; TF-IDF; Bag-of-Words; логістична регресія; машинне навчання; обробка природної мови; system analysis; sentiment analysis; text vectorization; TF-IDF; Bag-of-Words; logistic regression

Посилання


Amazon Books Reviews. 2022 [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/datasets/mohamedbakhet/amazon-books-reviews

Sentiment Analysis. 2025 [Електронний ресурс]. – Режим доступу: https://www.kaggle.com/code/mariana65/sentiment-analysis/

В. Б. Мокін, М. В. Дратований. Наука про дані: машинне навчання та інтелектуальний аналіз даних — Вінниця, ВНТУ, 2024. – 258 с.

Matplotlib Pyplot Documentation. 2025 [Електронний ресурс]. – Режим доступу: https://matplotlib.org/3.5.3/api/_as_gen/matplotlib.pyplot.html

Bag-of-words vs TF-IDF. 2025 [Електронний ресурс]. – Режим доступу: https://www.geeksforgeeks.org/nlp/bag-of-words-vs-tf-idf/

Повний текст: PDF