Остання редакція: 2025-04-25
Анотація
У роботі досліджуються методи оптимізації пам'яті при використанні глибоких нейронних
мереж для задач комп'ютерного зору. Розглянуто підходи до квантизації, обрізання (pruning) та
компресії моделей, що дозволяють суттєво зменшити вимоги до пам'яті без значної втрати
точності. Проаналізовано ефективність цих методів при застосуванні до задач розпізнавання та
класифікації зображень. Встановлено, що комбінований підхід, який включає обрізання, квантизацію
та кодування Гаффмана, здатен зменшити розмір моделі до 35-49 разів при зниженні точності
менше ніж на 1%. Представлено порівняльний аналіз алгоритмів квантизації після навчання (PTQ)
та квантизації з урахуванням навчання (QAT) для найпоширеніших архітектур нейронних мереж.
Ключові слова
Посилання
Han, S. Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding / S. Han, H. Mao, W. J. Dally // arXiv preprint. — 2015. — No. arXiv:1510.00149. — 14 p.
Jacob, B. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference / B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam, D. Kalenichenko // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2018. — Pp. 2704–2713.
Cheng, Y. A Survey of Model Compression and Acceleration for Deep Neural Networks / Y. Cheng, D. Wang, P. Zhou, T. Zhang / arXiv preprint. — 2018. — No. arXiv:1710.09282. — 23 p.
Sze, V. Efficient Processing of Deep Neural Networks: A Tutorial and Survey / V. Sze, Y.-H. Chen, T.-J. Yang, J. S. Emer Proceedings of the IEEE. — 2017. — Vol. 105, Iss. 12. — Pp. 2295–2329.
Goodfellow, I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge : MIT Press, 2016. — 800 p.