Остання редакція: 2025-06-13
Анотація
У роботі проведено огляд методів машинного навчання для розпізнавання емоційної тональності аудіозаписів. Показано, що традиційні алгоритми (k-NN, лінійні моделі, дерева рішень) обмежені у врахуванні часових закономірностей, адже перетворюють тривимірні спектрально-часові ознаки у двовимірні представлення. Розглянуто можливості штучних нейронних мереж, зокрема RNN, LSTM, механізми уваги та Conv1D, які зберігають часо-частотну структуру сигналу й виявляють локальні та глобальні патерни. Підкреслено важливість вибору архітектурних блоків для забезпечення точності класифікації і збереження часових залежностей у аудіоданих.
ANALYSIS OF THE STRUCTURE OF MACHINE LEARNING MODELS FOR RECOGNIZING THE EMOTIONAL TONE OF AUDIO RECORDINGS
Abstract:
This paper reviews machine learning methods for recognizing the emotional tone of audio recordings. It is shown that traditional algorithms (k-NN, linear models, decision trees) are limited in taking into account temporal patterns, since they convert three-dimensional spectral and temporal features into two-dimensional representations. The possibilities of artificial neural networks, in particular RNN, LSTM, attention mechanisms, and Conv1D, which preserve the timefrequency structure of the signal and detect local and global patterns, are considered. The importance of choosing architectural blocks to ensure classification accuracy and preservation of time dependencies in audio data is emphasized.
Ключові слова
Посилання
1. Мокін В. Б., Дратований М. В. Наука про дані: машинне навчання та інтелектуальний аналіз даних : електронний навчальний посібник комбінованого (локального та мережевого) використання. Вінниця : ВНТУ, 2024. 258 с.
2. Мілян Н. Аналіз методів машинного навчання з вчителем. Міжнародна студентська науково-технічна конференція "Природничі та гуманітарні науки. Актуальні питання" : матеріали конф., ТНТУ імені Івана Пулюя. URL: https://elartu.tntu.edu.ua/bitstream/lib/25035/2/MSNK_2018v1_Milian_N-Analysis_of_supervised_machine_51- 52.pdf
3. Лосенко А. В., Козачко О. М., Варчук І. В. Нейромережевий ансамбль для прогнозування часових рядів на основі Prophet та LSTM. Наукові праці Вінницького національного технічного університету. 2024. №4. URL: https://doi.org/10.31649/2307-5376-2024-4-49-57
4. Chen Y., Pu H., Qu Y. An analysis of attention mechanisms and its variance in transformer. Applied and Computational Engineering. 2024. №47. С. 164–176. URL: https://doi.org/10.54254/2755-2721/47/20241291
5. Bhatt M., Sharma A., Singh A. A review of convolutional neural networks in computer vision. Artificial Intelligence Review. 2024. №57. URL: https://doi.org/10.1007/s10462-024-10721-6