КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
АРХІТЕКТУРА БАГАТОМОДУЛЬНОЇ СИСТЕМИ ГОЛОСОВОГО АСИСТЕНТА ДЛЯ АВТОМАТИЗАЦІЇ ОС НА БАЗІ ЕКОСИСТЕМИ PYTHON
Дмитро Ігорович Чекалюк, Денис Іванович Катєльніков

Остання редакція: 2026-05-31

Анотація


Стаття присвячена проектуванню та розробці архітектури локального голосового асистента для автоматизації процесів операційної системи Windows. Здійснено детальний аналіз інтеграції різнорідних Python-бібліотек у єдиний асинхронний пайплайн. Описано механізми енергоефективного фонового прослуховування, транскрибації аудіо, семантичного аналізу тексту за допомогою великих мовних моделей, а також безпосередньої взаємодії з Windows API для виконання системних команд. Запропоновано рішення на основі динамічної архітектури плагінів.

 

 

ARCHITECTURE OF A MULTI-MODULE VOICE ASSISTANT SYSTEM FOR OPERATING SYSTEM AUTOMATION BASED ON THE PYTHON ECOSYSTEM

Abstract:

The article is devoted to the design and development of the architecture of a local voice assistant for the automation of Windows operating system processes. A detailed analysis of the integration of heterogeneous Python libraries into a unified asynchronous pipeline is presented. The mechanisms of energy-efficient background listening, audio transcription, semantic text analysis using large language models, and direct interaction with the Windows API for the execution of system commands are described. A solution based on a dynamic plugin architecture is proposed.


Ключові слова


системне адміністрування; архітектура програмного забезпечення; динамічні плагіни; system administration; software architecture; dynamic plugins; Python; Picovoice; OpenAI API; Edge TTS; SpeechRecognition; Windows API

Посилання


1.The Python Standard Library: ctypes and dynamic loading [Electronic resource] / Python Software Foundation. – Electronic data. – 2025. – Mode of access: https://docs.python.org/3/library/ (date of access: 26.02.2026). – Title from the screen.

 

2. Porcupine Wake Word Engine Documentation [Electronic resource] / Picovoice Docs. – Electronic data. – 2025. – Mode of access: https://picovoice.ai/docs/porcupine/ (date of access: 26.02.2026). – Title from the screen.

 

3. Speech service documentation: Text-to-speech API [Electronic resource] / Microsoft Learn ; Azure AI Services. – Electronic data. – Mode of access: https://learn.microsoft.com/en-us/azure/ai-services/speech-service/ (date of access: 26.02.2026). – Title from the screen.

 

4. Chat Completions and Function Calling [Electronic resource] / OpenAI API Reference ; OpenAI Platform. – Electronic data. – Mode of access: https://platform.openai.com/docs/api-reference (date of access: 26.02.2026). – Title from the screen.

 

5. Python for Windows Extensions (pywin32) documentation [Electronic resource] / M. Hammond ; GitHub Pages. – Electronic data. – Mode of access: https://mhammond.github.io/pywin32/ (date of access: 26.02.2026). – Title from the screen.

6. PyInstaller Manual: Bundling Python applications [Electronic resource] / PyInstaller Development Team ; PyInstaller Docs. – Electronic data. – Mode of access: https://pyinstaller.org/en/stable/ (date of access: 26.02.2026). – Title from the screen.

Повний текст: PDF