КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2025)

Розмір шрифта: 
Аналіз структури моделей машинного навчання для розпізнавання емоційної тональності аудіозаписів
Олександр Володимирович Рудзевич, Сергій Олександрович Жуков

Остання редакція: 2025-06-13

Анотація


У роботі проведено огляд методів машинного навчання для розпізнавання емоційної тональності аудіозаписів. Показано, що традиційні алгоритми (k-NN, лінійні моделі, дерева рішень) обмежені у врахуванні часових закономірностей, адже перетворюють тривимірні спектрально-часові ознаки у двовимірні представлення. Розглянуто можливості штучних нейронних мереж, зокрема RNN, LSTM, механізми уваги та Conv1D, які зберігають часо-частотну структуру сигналу й виявляють локальні та глобальні патерни. Підкреслено важливість вибору архітектурних блоків для забезпечення точності класифікації і збереження часових залежностей у аудіоданих.

 

ANALYSIS OF THE STRUCTURE OF MACHINE LEARNING MODELS FOR RECOGNIZING THE EMOTIONAL TONE OF AUDIO RECORDINGS

Abstract:

This paper reviews machine learning methods for recognizing the emotional tone of audio recordings. It is shown that traditional algorithms (k-NN, linear models, decision trees) are limited in taking into account temporal patterns, since they convert three-dimensional spectral and temporal features into two-dimensional representations. The possibilities of artificial neural networks, in particular RNN, LSTM, attention mechanisms, and Conv1D, which preserve the timefrequency structure of the signal and detect local and global patterns, are considered. The importance of choosing architectural blocks to ensure classification accuracy and preservation of time dependencies in audio data is emphasized.


Ключові слова


емоційна тональність; аудіозапис; класифікація; машинне навчання; довга короткочасна пам’ять; багатоголова увага; згортковий шар; emotional tone; audio recording; classification; machine learning; LSTM; multi-headed attention; convolutional layer

Посилання


1. Мокін В. Б., Дратований М. В. Наука про дані: машинне навчання та інтелектуальний аналіз даних : електронний навчальний посібник комбінованого (локального та мережевого) використання. Вінниця : ВНТУ, 2024. 258 с.

 

2. Мілян Н. Аналіз методів машинного навчання з вчителем. Міжнародна студентська науково-технічна конференція "Природничі та гуманітарні науки. Актуальні питання" : матеріали конф., ТНТУ імені Івана Пулюя. URL: https://elartu.tntu.edu.ua/bitstream/lib/25035/2/MSNK_2018v1_Milian_N-Analysis_of_supervised_machine_51- 52.pdf

 

3. Лосенко А. В., Козачко О. М., Варчук І. В. Нейромережевий ансамбль для прогнозування часових рядів на основі Prophet та LSTM. Наукові праці Вінницького національного технічного університету. 2024. №4. URL: https://doi.org/10.31649/2307-5376-2024-4-49-57

 

4. Chen Y., Pu H., Qu Y. An analysis of attention mechanisms and its variance in transformer. Applied and Computational Engineering. 2024. №47. С. 164–176. URL: https://doi.org/10.54254/2755-2721/47/20241291

 

5. Bhatt M., Sharma A., Singh A. A review of convolutional neural networks in computer vision. Artificial Intelligence Review. 2024. №57. URL: https://doi.org/10.1007/s10462-024-10721-6


Повний текст: PDF