КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
X Сучасні проблеми інфокомунікацій, радіоелектроніки та наносистем (СПІРН-2025)

Розмір шрифта: 
Зорові трансформери в ендоскопії
Юрій Євгенович Поуданєн, Андрій Вікторович Кожем'яко

Остання редакція: 2025-11-03

Анотація


В даній роботі проведений огляд  архітектури зорового трансформера (ЗТ), що є новітньою альтернативою традиційним згортковим нейронним мережам (ЗНМ) у галузі комп'ютерного зору. Проаналізовано фундаментальні відмінності між ЗТ та ЗНМ, зокрема відсутність у трансформерів вбудованих індуктивних упереджень, таких як локальність та трансляційна еквівалентність, що компенсується масштабним попереднім навчанням на великих наборах даних. Досліджено ефективність застосування ЗТ для аналізу медичних зображень, де вони демонструють переваги у задачах з обмеженою кількістю даних та складними, неочевидними патернами. Окремо висвітлено тенденцію до спрощення архітектур та переходу до моделей типу "encoder-only" (EoMT), які, відмовляючись від складних спеціалізованих компонентів (адаптерів, декодерів), досягають високої точності та значно вищої швидкості обробки, що є критично важливим для клінічного застосування в ендоскопії.


VISUAL TRANSFORMERS IN ENDOSCOPY
Abstract: This paper reviews the architecture of visual transformers (VT), which are a novel alternative to traditional convolutional neural networks (CNN) in the field of computer vision. The fundamental differences between VT and CNN are analyzed, in particular, the absence of built-in inductive biases in transformers, such as locality and translation invariance, which are compensated for by large-scale pre-training on large datasets. The effectiveness of using transformers for medical image analysis is investigated, where they demonstrate advantages in tasks with limited data and complex, non-obvious patterns. The trend towards simplifying architectures and transitioning to encoder-only models (EoMT) is highlighted separately. By abandoning complex specialized components (adapters, decoders), these models achieve high accuracy and significantly higher processing speeds, which is critical for clinical applications in endoscopy.
Keywords: AI, machine learning, neural networks, visual transformers, convolutional neural networks, endoscopy, ResNet, capsule endoscopy, residual neural network

Ключові слова


ШІ; машинне навчання; нейронні мережі; зорові трансформери; згорткові нейронні мережі; ендоскопія; ResNet; капсульна ендоскопія; залишкова нейронна мережа

Посилання


  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Версія 2). arXiv. https://doi.org/10.48550/ARXIV.2010.11929

  2. Поуданєн, Ю., & Кожемʼяко, А. (2025). Класифікація зображень із застосуванням оптико-цифрових методів покращення якості зображень та глибокого навчання при проведені ендоскопічних досліджень. Оптико-електроннi iнформацiйно-енергетичнi технологiї, 49(1), 135–146. https://doi.org/10.31649/1681-7893-2025-49-1-135-146

  3. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need (Версія 7). arXiv. https://doi.org/10.48550/ARXIV.1706.03762

  4. Kawadkar, K. (2025). Comparative Analysis of Vision Transformers and Convolutional Neural Networks for Medical Image Classification (Версія 1). arXiv. https://doi.org/10.48550/ARXIV.2507.21156


Повний текст: PDF