МАТЕМАТИЧНА ТА АЛГОРИТМІЧНА МОДЕЛЬ  ПРОГРАМНОГО МОДУЛЯ ГЕНЕРАТИВНОЇ ЛІНГВІСТИЧНОЇ  СТЕГАНОГРАФІЇ НА БАЗІ МАЛИХ МОВНИХ МОДЕЛЕЙ

Ярослав Бобрович

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

МАТЕМАТИЧНА ТА АЛГОРИТМІЧНА МОДЕЛЬ ПРОГРАМНОГО МОДУЛЯ ГЕНЕРАТИВНОЇ ЛІНГВІСТИЧНОЇ СТЕГАНОГРАФІЇ НА БАЗІ МАЛИХ МОВНИХ МОДЕЛЕЙ

Ярослав Бобрович

Остання редакція: 2026-06-04

Анотація

Уроботі розглядається математична та алгоритмічна модель побудови прихованих каналів передачі даних за допомогою генеративної лінгвістичної стеганографії. Обґрунтовано перехід від класичних криптографічних підходів до імовірнісного керування авторегресійною генерацією на базі малих мовних моделей (SLM), зокрема Phi-3 Mini. Запропонована модель інтегрує оптимізацію розподілів (OD-Stega) за допомогою Лагранжевого формалізму для максимізації ентропійної ємності з жорстким контролем дивергенції Кульбака–Лейблера. Для усунення проблеми токенізаційної невідповідності (Tokenization Inconsistency) алгоритмів субслівного розбиття впроваджено метод покрокової верифікації (Stepwise Verification). Доведено, що такий підхід гарантує абсолютну бієктивність ентропійного мапінгу та асимптотично зводить ефективність нейромережевого стегоаналізу до рівня випадкового вгадування.

MATHEMATICAL AND ALGORITHMICAL MODEL OF THE SOFTWARE MODULE OF GENERATIVE LINGUISTIC STEGANOGRAPHY BASED ON SMALL LANGUAGE MODELS

Abstract This paper examines a mathematical and algorithmic model for constructing covert data transmission channels using generative linguistic steganography. It substantiates the transition from classical cryptographic approaches to probabilistic control of autoregressive generation based on small language models (SLMs), in particular Phi-3 Mini. The proposed model integrates distribution optimization (OD-Stega) using the Lagrangian formalism to maximize entropy capacity while maintaining strict control over Kullback–Leibler divergence. To address the problem of tokenization inconsistency in subword segmentation algorithms, a Stepwise Verification method is introduced. It is demonstrated that this approach guarantees absolute bijectivity of entropy mapping and asymptotically reduces the effectiveness of neural network-based steganalysis to the level of random guessing.

Ключові слова

генеративна стеганографія; оптимізація розподілів; OD-Stega; арифметичне кодування; токенізаційна невідповідність; малі мовні моделі; аналітика поведінки користувачів (UEBA).

Посилання

Deep Packet Inspection Using AI for Threat Detection [Електронний ресурс] / ResearchGate // ResearchGate – 2026 – Режим доступу до ресурсу: https://www.researchgate.net/publication/391857632_Deep_Packet_Inspection_Using_AI_for_Threat_Detection

User and Entity Behavior Analytics (UEBA) Reference [Електронний ресурс] / Microsoft // Microsoft Learn – 2026 – Режим доступу до ресурсу: https://learn.microsoft.com/en-us/azure/sentinel/ueba-reference

A Mathematical Theory of Communication [Електронний ресурс] / C. E. Shannon // The Bell System Technical Journal – 1948 – Режим доступу до ресурсу: https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

Exploiting Language Model for Efficient Linguistic Steganography [Електронний ресурс] / ArXiv // arXiv preprint – 2024 – Режим доступу до ресурсу: https://arxiv.org/pdf/2409.01780

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [Електронний ресурс] / Microsoft // Microsoft Research – 2024 – Режим доступу до ресурсу: https://www.microsoft.com/en-us/research/publication/phi-3-technical-report-a-highly-capable-language-model-locally-on-your-phone/

A Comprehensive Survey on Linguistic Steganography [Електронний ресурс] / ResearchGate // ResearchGate – 2025 – Режим доступу до ресурсу: https://www.researchgate.net/publication/398488225_A_Comprehensive_Survey_on_Linguistic_Steganography_Methods_Countermeasures_Evaluation_and_Challenges

Optimized Distributions Steganography (OD-Stega) [Електронний ресурс] / ACL Anthology // EACL – 2026 – Режим доступу до ресурсу: https://aclanthology.org/2026.eacl-long.36

Lagrange Multipliers in Generative Steganography Optimization [Електронний ресурс] / ArXiv // arXiv preprint – 2025 – Режим доступу до ресурсу: https://arxiv.org/abs/2508.20718

Towards Robust Generative Steganography: Tokenization Inconsistency [Електронний ресурс] / ArXiv // arXiv preprint – 2024 – Режим доступу до ресурсу: https://arxiv.org/html/2410.04328v1

Stepwise Verification for Bijective Generative Steganography [Електронний ресурс] / ACL Anthology // EMNLP – 2025 – Режим доступу до ресурсу: https://aclanthology.org/2025.emnlp-main.361.pdf

Повний текст: PDF

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Анотація

Ключові слова

Посилання

КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання,
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)