КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2025)

Розмір шрифта: 
Проблематика консистентності великих мовних моделей при навчанні з підкріпленням
Леонід Русланович Кулик, Олександр Борисович Мокін

Остання редакція: 2025-06-13

Анотація


Навчання з підкріпленням (RL), зокрема методи RLHF та DPO, стало стандартом для створення агентів на основі великих мовних моделей (LLM). Однак, ці підходи стикаються з двома фундаментальними проблемами: неконсистентністю поведінки агента та значною обчислювальною неефективністю. Як альтернативне рішення до сучасних підходів запропоновано навчання на основі багатовимірної винагороди та диференційованої критики. Такий підхід дозволяє виконувати цілеспрямоване оновлення політики, системно виправляючи конкретні аспекти поведінки. Це не лише підвищує консистентність агента, але й радикально покращує обчислювальну ефективність, оскільки кожна ітерація навчання несе значно більше інформації. Таким чином, відкриваючи шлях до створення більш надійних, логічно послідовних та ефективних у навчанні автономних агентів.


Ключові слова


глибоке навчання; навчання з підкріпленням; великі мовні моделі; консистентність

Посилання


1. Shuhe Wang, et al. “Reinforcement Learning Enhanced LLMs: A Survey” arXiv:2412.10400 [cs.CL], Dec. 2024.

2. Guanzhi Wang, et al. “Voyager: An Open-Ended Embodied Agent with Large Language Models” arXiv:2305.16291 [cs.AI], May 2023.

3. Will Maddern, et al. “WebArena: A Realistic Web Environment for Building Autonomous Agents” arXiv:2307.13854 [cs.AI], Jul. 2023.

4. Shunyu Yao, et al. “ReAct: Synergizing Reasoning and Acting in Language Models” arXiv:2210.03629 [cs.CL], Oct. 2022.

5. Noah Shinn, et al. “Reflexion: Language Agents with Verbal Reinforcement Learning” arXiv:2303.11366 [cs.AI], Mar. 2023.

6. Long Ouyang, et al. “Training language models to follow instructions with human feedback” arXiv:2203.02155 [cs.CL], Mar. 2022.

7. OpenAI, et al. “GPT-4 Technical Report” arXiv:2303.08774 [cs.CL], Mar. 2023.

8. John Schulman, et al. “Proximal Policy Optimization Algorithms” arXiv:1707.06347 [cs.LG], Jul. 2017.

9. Wenyun Li, et al. “Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach” arXiv:2501.19128 [cs.LG], Jan. 2025.

10. Aaron Grattafiori, et al. “The Llama 3 Herd of Models” arXiv:2407.21783 [cs.AI], Jul. 2023.

11. An Yang, et al. “Qwen2 Technical Report” arXiv:2407.10671 [cs.CL], Jul. 2024.


Повний текст: PDF