The Smol Training Playbook: The Secrets to Building World-Class LLMs

A practical journey through the challenges, decisions, and messy reality behind training state-of-the-art language models

Authors

  • Loubna Ben Allal,ย 
  • Lewis Tunstall,ย 
  • Nouamane Tazi,ย 
  • Elie Bakouch,ย 
  • Ed Beeching,ย 
  • Carlos Miguel Patiรฑo,ย 
  • Clรฉmentine Fourrier,ย 
  • Thibaud Frere,ย 
  • Anton Lozhkov,ย 
  • Colin Raffel,ย 
  • Leandro von Werra,ย 
  • Thomas Wolf

Affiliation

Hugging Face

Published

Oct. 30, 2025

PDF

Table of Contents

Introduction

์˜ค๋Š˜๋‚  ๊ณ ์„ฑ๋Šฅ LLM์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์‹ค์ œ๋กœ ๋ฌด์—‡์ด ํ•„์š”ํ•œ๊ฐ€?

๊ณต๊ฐœ๋œ ์—ฐ๊ตฌ ์ž๋ฃŒ๋“ค์€ ์ด๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋ณด์ด๋„๋ก ๋งŒ๋“ ๋‹ค: ์ „๋žต์ ์ธ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ, ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ๋ณ„๋œ ๋ฐ์ดํ„ฐ์…‹, ๊ทธ๋ฆฌ๊ณ  ์ถฉ๋ถ„ํ•œ ์ปดํ“จํŒ… ์ž์›์ด๋‹ค. ๊ฒฐ๊ณผ๋Š” ๊น”๋”ํ•˜๊ฒŒ ๋‹ค๋“ฌ์–ด์ ธ ์žˆ์œผ๋ฉฐ, ์ œ๊ฑฐ ์‹คํ—˜(ablation)์€ ๊ตฌ์กฐ์ ์ด๊ณ  ๋ช…ํ™•ํ•˜๋‹ค. ๋ชจ๋“  ๊ฒฐ์ •์€ ๋Œ์ด์ผœ๋ณด๋ฉด ๋‹น์—ฐํ•˜๊ฒŒ ๋ณด์ธ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ณด๊ณ ์„œ๋“ค์€ ์˜ค์ง ์„ฑ๊ณตํ•œ ๊ฒƒ๋งŒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ์žฅ๋ฐ‹๋น› ํšŒ๊ณ ๋ฅผ ์ ์šฉํ•  ๋ฟ์ด๋‹ค โ€“ ๊ทธ๋“ค์€ ์ƒˆ๋ฒฝ 2์‹œ์˜ ๋ฐ์ดํ„ฐ๋กœ๋” ๋””๋ฒ„๊น… ์„ธ์…˜, ์†์‹ค๊ฐ’ ๊ธ‰๋“ฑ(loss spikes), ๋˜๋Š” ํ•™์Šต์„ ์กฐ์šฉํžˆ ๋ฐฉํ•ดํ•˜๋Š” ๋ฏธ๋ฌ˜ํ•œ ํ…์„œ ๋ณ‘๋ ฌํ™” ๋ฒ„๊ทธ(๋‚˜์ค‘์— ์ฐธ์กฐ)๋Š” ํฌ์ฐฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ํ˜„์‹ค์€ ๋” ์ง€์ €๋ถ„ํ•˜๊ณ , ๋” ๋ฐ˜๋ณต์ ์ด๋ฉฐ, ์ตœ์ข… ๋…ผ๋ฌธ์— ๋‹ด๊ธฐ์ง€ ์•Š๋Š” ๊ฒฐ์ •๋“ค๋กœ ๊ฐ€๋“ํ•˜๋‹ค.

11์กฐ(T) ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 3B ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๋‹ค๊ตญ์–ด ์ถ”๋ก  ๋ชจ๋ธ์ธ SmolLM3์˜ ํ•™์Šต ๋น„ํ•˜์ธ๋“œ ์Šคํ† ๋ฆฌ๋ฅผ ํ•จ๊ป˜ ์‚ดํŽด๋ณด์ž. ์ด๊ฒƒ์€ ํ‰๋ฒ”ํ•œ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์ด ์•„๋‹ˆ๋ผ, ์„ธ๊ณ„์  ์ˆ˜์ค€์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊นŠ์€ ํ†ต์ฐฐ๋ ฅ์œผ๋กœ ์ด์–ด์ง„ ๊ฒฐ์ •, ๋ฐœ๊ฒฌ, ๊ทธ๋ฆฌ๊ณ  ๋ง‰๋‹ค๋ฅธ ๊ณจ๋ชฉ์˜ ๊ฑฐ๋ฏธ์ค„์„ ํ’€์–ด๋‚ด๋Š” ์ž‘์—…์ด๋‹ค.

๋˜ํ•œ ์ด ๊ธ€์€ ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ ํ•™์Šต ์žฅํŽธ ์‹œ๋ฆฌ์ฆˆ์˜ ๋งˆ์ง€๋ง‰ ์ž‘ํ’ˆ์ด๋‹ค: ์šฐ๋ฆฌ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•(FineWeb), ์ˆ˜์ฒœ ๊ฐœ์˜ GPU๋ฅผ ์กฐํ™”๋กญ๊ฒŒ ์ž‘๋™์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜(Ultra Scale Playbook), ๊ทธ๋ฆฌ๊ณ  ํ”„๋กœ์„ธ์Šค์˜ ๊ฐ ๋‹จ๊ณ„์—์„œ ์ตœ์ ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ์„ ํƒ(Evaluation Guidebook)์„ ๋‹ค๋ฃจ์–ด ์™”๋‹ค. ์ด์ œ ์šฐ๋ฆฌ๋Š” ์ด ๋ชจ๋“  ๊ฒƒ์„ ๋ชจ์•„ ๊ฐ•๋ ฅํ•œ AI ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์„ฑ๊ณตํ•œ ์ตœ์ข… ๋ ˆ์‹œํ”ผ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ชจ๋“  ๊ฒฐ์ •์„ ํ˜•์„ฑํ–ˆ๋˜ ์‹คํŒจ, ์ธํ”„๋ผ ๊ณ ์žฅ, ๊ทธ๋ฆฌ๊ณ  ๋””๋ฒ„๊น… ํ”„๋กœ์„ธ์Šค๋ฅผ ํฌํ•จํ•˜์—ฌ ์ „์ฒด ์—ฌ์ •์„ ์•ˆ๋‚ดํ•œ๋‹ค.

์ด ์ด์•ผ๊ธฐ๋Š” ํ•œ ํŽธ์˜ ๋“œ๋ผ๋งˆ์ฒ˜๋Ÿผ ์ฝํžŒ๋‹ค: ๋•Œ๋•Œ๋กœ ์œ ๋งํ–ˆ๋˜ ์†Œ๊ทœ๋ชจ ์ œ๊ฑฐ ์‹คํ—˜์ด ๋Œ€๊ทœ๋ชจ์—์„œ๋Š” ์ ์šฉ๋˜์ง€ ์•Š๋Š” ๋ฐฉ์‹, ์šฐ๋ฆฌ๊ฐ€ 1์กฐ ํ† ํฐ ํ•™์Šต ํ›„์— ํ•™์Šต์„ ์žฌ์‹œ์ž‘ํ–ˆ๋˜ ์ด์œ , ๊ฐ•๋ ฅํ•œ ์˜์–ด ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋‹ค๊ตญ์–ด, ์ˆ˜ํ•™, ์ฝ”๋“œ๋ผ๋Š” ์„œ๋กœ ๊ฒฝ์Ÿํ•˜๋Š” ๋ชฉํ‘œ๋“ค์˜ ๊ท ํ˜•์„ ๋งž์ถ”์—ˆ๋˜ ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์„ ์‚ฌํ›„ ํ•™์Šต(post-trained)ํ–ˆ๋˜ ๋ฐฉ๋ฒ•์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ์šฐ๋ฆฌ๊ฐ€ ํ–ˆ๋˜ ๋ชจ๋“  ๊ฒƒ๋“ค์„ ๋ƒ‰์ •ํ•œ ๋ชฉ๋ก์œผ๋กœ ๋‚˜์—ดํ•˜๋Š” ๋Œ€์‹ , ์šฐ๋ฆฌ์˜ ๋ชจํ—˜์„ ํ†ตํ•œ ์งœ์ž„์ƒˆ ์žˆ๋Š” ์ด์•ผ๊ธฐ์— ์ค‘์ ์„ ๋‘๋ ค ํ•œ๋‹ค. ์ด ๊ธ€์„ โ€œ์šฐ๋ฆฌ๋Š” ํ›Œ๋ฅญํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ GPU๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹คโ€์—์„œ โ€œ์šฐ๋ฆฌ๋Š” ์ •๋ง ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ–ˆ๋‹คโ€๋กœ ๋‚˜์•„๊ฐ€๋ ค๋Š” ๋ชจ๋“  ์ด๋“ค์„ ์œ„ํ•œ ๊ฐ€์ด๋“œ๋กœ ์ƒ๊ฐํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ๊ฐœ๋ฐฉ์„ฑ์ด ์—ฐ๊ตฌ์™€ ํ”„๋กœ๋•์…˜ ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ์ขํžˆ๊ณ , ์—ฌ๋Ÿฌ๋ถ„์˜ ๋‹ค์Œ ํ•™์Šต ์‹คํ–‰์„ ์กฐ๊ธˆ ๋œ ํ˜ผ๋ž€์Šค๋Ÿฝ๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐ ๋„์›€์ด ๋˜๊ธฐ๋ฅผ ํฌ๋งํ•œ๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ๊ธ€์„ ์ฝ๋Š” ๋ฐฉ๋ฒ•

์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์„ ์œ„์—์„œ ์•„๋ž˜๊นŒ์ง€ ๋ชจ๋‘ ์ฝ์„ ํ•„์š”๋Š” ์—†์œผ๋ฉฐ, ์ด ์‹œ์ ์—์„œ ์ด๋ฏธ ํ•œ ๋ฒˆ์— ๋๊นŒ์ง€ ํ˜„์‹ค์ ์œผ๋กœ ์ฝ๊ธฐ์—๋Š” ๋„ˆ๋ฌด ๊ธธ๋‹ค. ์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์€ ๊ฑด๋„ˆ๋›ฐ๊ฑฐ๋‚˜ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ๋ช‡ ๊ฐ€์ง€ ๋šœ๋ ทํ•œ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค:

๊ทธ๋ ‡๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ์–ด๋””์„œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์•ผ ํ• ๊นŒ? ๊ฐ€์žฅ ํฅ๋ฏธ๋กญ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋Š” ์„น์…˜์„ ์„ ํƒํ•˜๊ณ  ์‹œ์ž‘ํ•ด๋ผ!

Training compass: why โ†’ what โ†’ how

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 1.26.12.png

๊ธฐ๊ณ„ ํ•™์Šต ๋ถ„์•ผ๋Š” ์ตœ์ ํ™”์™€ ๊ฐ•๋ฐ•์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์†์‹ค ๊ณก์„ , ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ๊ทธ๋ฆฌ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰(throughput)์— ์ง‘์ฐฉํ•œ๋‹ค; ๊ฒฐ๊ตญ ๊ธฐ๊ณ„ ํ•™์Šต์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ์ข…์ข… ์งˆ๋ฌธ๋˜์ง€ ์•Š๋Š” ๋” ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์ด ์žˆ๋‹ค: ์šฐ๋ฆฌ๊ฐ€ ์ •๋ง ์ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋Š”๊ฐ€?

์•„๋ž˜ ํžˆํŠธ๋งต์—์„œ ๋ณด๋“ฏ์ด, ์˜คํ”ˆ ์†Œ์Šค AI ์ƒํƒœ๊ณ„๋Š” ๊ฑฐ์˜ ๋งค์ผ ์„ธ๊ณ„์  ์ˆ˜์ค€์˜ ๋ชจ๋ธ์„ ์ถœ์‹œํ•œ๋‹ค: Qwen, Gemma, DeepSeek, Kimi, Llama ๐Ÿชฆ, Olmo ๋“ฑ ๊ทธ ๋ชฉ๋ก์€ ๋งค๋‹ฌ ๊ธธ์–ด์ง„๋‹ค. ์ด๊ฒƒ๋“ค์€ ๋‹จ์ˆœํžˆ ์—ฐ๊ตฌ ํ”„๋กœํ† ํƒ€์ž…์ด๋‚˜ ์žฅ๋‚œ๊ฐ ์˜ˆ์‹œ๊ฐ€ ์•„๋‹ˆ๋‹ค: ๊ทธ๋“ค์€ ๋‹ค๊ตญ์–ด ์ดํ•ด์—์„œ๋ถ€ํ„ฐ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์ถ”๋ก ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋†€๋ผ์šด ํญ๋„“์€ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ํฌ๊ด„ํ•˜๋Š” ํ”„๋กœ๋•์…˜ ์ˆ˜์ค€์˜ ๋ชจ๋ธ์ด๋‹ค. ๋Œ€๋ถ€๋ถ„์€ ๊ด€๋Œ€ํ•œ ๋ผ์ด์„ ์Šค์™€ ์—ฌ๋Ÿฌ๋ถ„์ด ๊ทธ๋“ค์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋„์šธ ์ค€๋น„๊ฐ€ ๋œ ํ™œ๋ฐœํ•œ ์ปค๋ฎค๋‹ˆํ‹ฐ์™€ ํ•จ๊ป˜ ์ œ๊ณต๋œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 1.26.46.png

์ด๋Š” ๋ถˆํŽธํ•œ ์ง„์‹ค์„ ์ œ๊ธฐํ•œ๋‹ค: ์•„๋งˆ๋„ ์—ฌ๋Ÿฌ๋ถ„์€ย ์ž์ฒด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ํ•„์š”๊ฐ€ ์—†์„ย ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฒƒ์€ โ€œLLM ํ•™์Šต ๊ฐ€์ด๋“œโ€๋ฅผ ์‹œ์ž‘ํ•˜๋Š” ์ด์ƒํ•œ ๋ฐฉ๋ฒ•์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹คํŒจํ•œ ๋งŽ์€ ํ•™์Šต ํ”„๋กœ์ ํŠธ๋Š” ๋‚˜์œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋‚˜ ๋ฒ„๊ทธ ์žˆ๋Š” ์ฝ”๋“œ ๋•Œ๋ฌธ์— ์‹คํŒจํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ˆ„๊ตฐ๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์€ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹คํŒจํ–ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ•™์Šต์— ์ „๋…ํ•˜๊ณ , ๊ทธ๊ฒƒ์„ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๊นŠ์ด ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ์—ฌ๋Ÿฌ๋ถ„์€ ๋‘ ๊ฐ€์ง€ ์งˆ๋ฌธ์— ๋‹ตํ•ด์•ผ ํ•œ๋‹ค: ์™œ ์ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š”๊ฐ€? ๊ทธ๋ฆฌ๊ณ  ์–ด๋–ค ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋Š”๊ฐ€? ๋ช…ํ™•ํ•œ ๋‹ต๋ณ€ ์—†์ด๋Š”, ์—ฌ๋Ÿฌ๋ถ„์€ ์„ธ์ƒ์— ์ด๋ฏธ ์žˆ๊ฑฐ๋‚˜, ๋” ๋‚˜์˜๊ฒŒ๋Š”, ์•„๋ฌด๋„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์ˆ˜๊ฐœ์›”์˜ ์ปดํ“จํŒ… ์ž์›๊ณผ ์—”์ง€๋‹ˆ์–ด๋ง ์‹œ๊ฐ„์„ ๋‚ญ๋น„ํ•  ๊ฒƒ์ด๋‹ค.

๋จผ์ €ย ์™œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋ชฉ์ ์„ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๋ฉด, ๋’ค๋”ฐ๋ฅด๋Š” ์–ด๋–ค ๊ฒƒ์— ๋Œ€ํ•ด์„œ๋„ ์ผ๊ด€์„ฑ ์žˆ๋Š” ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๐Ÿ“์ด ์„น์…˜์— ๋Œ€ํ•˜์—ฌ

์ด ์„น์…˜์€ ๋ธ”๋กœ๊ทธ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„๊ณผ ๋‹ค๋ฅด๋‹ค: ์‹คํ—˜๊ณผ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ๋ณด๋‹ค๋Š” ์ „๋žต์  ๊ณ„ํš์— ๊ฐ€๊น๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ (from scratch) ํ•™์Šตํ•ด์•ผ ํ• ์ง€ ๋ง์ง€์— ๋Œ€ํ•œ ๊ฒฐ์ •๊ณผ, ๋ฌด์Šจ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ณผ์ •์„ ์•ˆ๋‚ดํ•œ๋‹ค. ์ด๋ฏธ ๋‹น์‹ ์ด โ€˜์™œโ€™ ์™€ โ€˜๋ฌด์—‡โ€™ ์— ๋Œ€ํ•ด ๊นŠ์ด ์ƒ๊ฐํ–ˆ๋‹ค๋ฉด, ๊ธฐ์ˆ ์ ์ธ ์‹ฌ์ธต ๋ถ„์„์„ ์œ„ํ•ด โ€œ๋ชจ๋“  ํฐ ๋ชจ๋ธ์€ ์ž‘์€ ์ œ๊ฑฐ ์‹คํ—˜์œผ๋กœ ์‹œ์ž‘ํ•œ๋‹คโ€ ์ฑ•ํ„ฐ๋กœ ์ž์œ ๋กญ๊ฒŒ ๊ฑด๋„ˆ๋›ฐ์–ด๋„ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ™•์‹ ์ด ์—†๋‹ค๋ฉด, ์—ฌ๊ธฐ์— ์‹œ๊ฐ„์„ ํˆฌ์žํ•˜๋Š” ๊ฒƒ์ด ๋‚˜์ค‘์— ๋งŽ์€ ๋…ธ๋ ฅ์„ ์ ˆ์•ฝํ•ด ์ค„ ๊ฒƒ์ด๋‹ค.

์™œ: ์•„๋ฌด๋„ ๋‹ตํ•˜๊ณ  ์‹ถ์–ด ํ•˜์ง€ ์•Š๋Š” ์งˆ๋ฌธ

์‹ค์ œ๋กœ ์ผ์–ด๋‚˜๋Š” ์ผ์— ๋Œ€ํ•ด ์†”์งํ•ด์ง€์ž. ๋ˆ„๊ตฐ๊ฐ€ (์šด์ด ์ข‹๋‹ค๋ฉด) GPU ํด๋Ÿฌ์Šคํ„ฐ์— ์ ‘๊ทผํ•˜๊ฒŒ ๋˜๊ณ , ์•„๋งˆ๋„ ์—ฐ๊ตฌ ๋ณด์กฐ๊ธˆ์„ ํ†ตํ•ด์„œ, ๋˜๋Š” ํšŒ์‚ฌ์˜ ์—ฌ์œ  ์ž์›์„ ํ†ตํ•ด์„œ์ผ ๊ฒƒ์ด๋ฉฐ, ์•„๋ž˜์™€ ๊ฐ™์€ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๊ฑฐ์น  ๊ฒƒ์ด๋‹ค: โ€œ์šฐ๋ฆฌ์—๊ฒŒ๋Š” 3๊ฐœ์›” ๋™์•ˆ 100๊ฐœ์˜ H100์ด ์žˆ๋‹ค. ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค์ž!โ€ ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ์ž„์˜๋กœ ์„ ํƒ๋˜๊ณ , ๋ฐ์ดํ„ฐ์…‹์€ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๊ฒƒ์—์„œ ์กฐ๋ฆฝ๋œ๋‹ค. ํ•™์Šต์ด ์‹œ์ž‘๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  6๊ฐœ์›” ํ›„, ์ปดํ“จํŒ… ์˜ˆ์‚ฐ๊ณผ ํŒ€ ์‚ฌ๊ธฐ๋ฅผ ์†Œ์ง„ํ•œ ํ›„์—๋„, ๊ฒฐ๊ณผ ๋ชจ๋ธ์€ ์•„๋ฌด๋„ ์™œ๋ผ๊ณ  ๋ฌป์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ์ฑ„๋กœ ๋‚จ์•„์žˆ๊ฒŒ ๋œ๋‹ค.

๋‹ค์Œ์€ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค์ง€ย ๋ง์•„์•ผ ํ• ย ๋ช‡ ๊ฐ€์ง€ ์ด์œ ์ด๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 1.31.45.png

โ€œ์šฐ๋ฆฌ๊ฐ€ ์ž์ฒด ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋‹คโ€๋Š” ๊ฒƒ์˜ ๋งค๋ ฅ์€ ๊ฐ•ํ•˜์ง€๋งŒ, ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ์ž์›์„ ํˆฌ์žํ•˜๊ธฐ ์ „์—, ๋‹ค์Œ์„ ๋ฌป๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์ด๋‹ค: ์™œ ์ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ํ•„์š”๊ฐ€ ์žˆ๋Š”๊ฐ€?

์•„๋ž˜ ์ˆœ์„œ๋„๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ๊ฑฐ์ณ์•ผ ํ•  ์‚ฌ๊ณ  ๊ณผ์ •์„ ์•ˆ๋‚ดํ•œ๋‹ค. ๊ธฐ์ˆ ์  ๊ด€์ ์—์„œ, ์—ฌ๋Ÿฌ๋ถ„์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋จผ์ € ๊ธฐ์กด ๋ชจ๋ธ ์ค‘์—์„œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ๊ฑฐ๋‚˜ ํŒŒ์ธ ํŠœ๋‹ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด ์—†๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 1.32.32.png

๋งž์ถคํ˜• ์‚ฌ์ „ ํ•™์Šต์ด ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ์„ธ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ ์˜์—ญ์ด ๋ณธ์งˆ์ ์œผ๋กœ ์žˆ๋‹ค: ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ๋ฅผ ํ•˜๊ณ  ์‹ถ๊ฑฐ๋‚˜, ํ”„๋กœ๋•์…˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๋งค์šฐ ๊ตฌ์ฒด์ ์ธ ํ•„์š”๊ฐ€ ์žˆ๊ฑฐ๋‚˜, ๋˜๋Š” ์˜คํ”ˆ ๋ชจ๋ธ ์ƒํƒœ๊ณ„์˜ ๊ฒฉ์ฐจ๋ฅผ ์ฑ„์šฐ๊ณ  ์‹ถ๊ฑฐ๋‚˜์ด๋‹ค. ๊ฐ๊ฐ์„ ๊ฐ„๋‹จํžˆ ์‚ดํŽด๋ณด์ž:

์—ฐ๊ตฌ: ๋ฌด์—‡์„ ์ดํ•ดํ•˜๊ณ  ์‹ถ์€๊ฐ€?

LLM ๋ถ„์•ผ์—์„œ ํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ๊ตฌ๋Š” ํ’๋ถ€ํ•˜๋‹ค. LLM ์—ฐ๊ตฌ ํ”„๋กœ์ ํŠธ์˜ ๊ณตํ†ต์ ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋œ ์งˆ๋ฌธ์œผ๋กœ ์‹œ์ž‘ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค:

๊ฐ€์„ค์„ ๊ฐ€๋Šฅํ•œ ํ•œ ๊ตฌ์ฒด์ ์œผ๋กœ ๋งŒ๋“ค๊ณ  ํ•„์š”ํ•œ ์‹คํ—˜ ๊ทœ๋ชจ์— ๋Œ€ํ•ด ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ธ๋‹ค.

ํ”„๋กœ๋•์…˜: ๊ธฐ์กด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€?

๊ธฐ์—…์ด ์ž์ฒด ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ์œ„ํ•ด ๊ธฐ์กด์— ์กด์žฌํ•˜๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ์ฃผ์š” ์ด์œ ๋Š” ์„ธ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. ๊ทธ์ค‘ ๋‘ ๊ฐ€์ง€๋Š” ๊ธฐ์ˆ ์ ์ด๋ฉฐ ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๊ฑฐ๋ฒ„๋„Œ์Šค ๋•Œ๋ฌธ์ด๋‹ค.

์ž์ฒด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ฒซ ๋ฒˆ์งธ ์ด์œ ๋Š”ย ๋„๋ฉ”์ธ ํŠน์ˆ˜์„ฑ์ด๋‹ค: ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ฐ์ดํ„ฐ๋‚˜ ์ž‘์—…์ด ๊ธฐ์กด ๋ชจ๋ธ์ด ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋Š” ๊ณ ๋„๋กœ ์ „๋ฌธํ™”๋œ ์–ดํœ˜๋‚˜ ๊ตฌ์กฐ๋ฅผ ํฌํ•จํ•  ๋•Œ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๋‘ ๋ฒˆ์งธ ์ด์œ ๋กœ๋Š”ย ๋ฐฐํฌ ์ œ์•ฝ์ด ์žˆ๋‹ค: ์—ฌ๋Ÿฌ๋ถ„์˜ ํ•˜๋“œ์›จ์–ด, ์ง€์—ฐ ์‹œ๊ฐ„ ๋˜๋Š” ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž์ถ˜ ๋ชจ๋ธ์ด ํ•„์š”ํ•  ๋•Œ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋“œ๋ก ์ด๋‚˜ FPGA์™€ ๊ฐ™์€ ๋งž์ถคํ˜• ํ•˜๋“œ์›จ์–ด์™€ ํ•จ๊ป˜ ์˜จํ”„๋ ˆ๋ฏธ์Šค ์‹œ์Šคํ…œ์—์„œ ์‹คํ–‰๋˜๋Š” LLM์ด๋‹ค.

์—ฌ๊ธฐ ์ด๋ฅผ ํ™•์ธํ•˜๋Š” ๊ฐ„๋‹จํ•œ ํ…Œ์ŠคํŠธ๊ฐ€ ์žˆ๋‹ค: Qwen3, Gemma3 ๋˜๋Š” ๋‹ค๋ฅธ ํ˜„์žฌ SOTA ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฉฐ์น  ๋™์•ˆ ๋งŒ๋“ค๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์„ ๊ฐœ๋ฐœํ•ด ๋ณธ๋‹ค. ํ”„๋กฌํ”„ํŒ…, ๋„๊ตฌ ์‚ฌ์šฉ ๋˜๋Š” post-training ์„ ํ†ตํ•ด ์„ฑ๋Šฅ ๋ชฉํ‘œ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€? ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๋ฉด, ์•„๋งˆ๋„ ์ž์ฒด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋งŒํ•œ ๋•Œ์ด๋‹ค.

์š”๊ตฌ ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ post-training ์˜ˆ์‚ฐ์ด ๋ง‰๋Œ€ํ•˜๋”๋ผ๋„, ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์—ฌ์ „ํžˆ ์ €๋ ดํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ์„ 1์กฐ(T) ํ† ํฐ ๋™์•ˆ ํŒŒ์ธ ํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์€ 10์กฐ(T) ํ† ํฐ ์ด์ƒ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์—ฌ์ „ํžˆ ๋” ๊ฒฝ์ œ์ ์ด๋‹ค.

(์ด ์‹œ์ ์—์„œ LLM ํ•™์Šต์ž๋“ค์€ ๊ธฐ์ ์ ์œผ๋กœ ์ด๋ฅผ ์‚ฌํ›„ ํ•™์Šต(post-training) ๋Œ€์‹  ์ค‘๊ฐ„ ํ•™์Šต(mid-training)์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.)

์ž์ฒด ์‚ฌ๋‚ด ์–ธ์–ด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ์„ธ ๋ฒˆ์งธ ์ด์œ ๋Š”ย ์•ˆ์ „ ๋ฐ ๊ฑฐ๋ฒ„๋„Œ์Šค์ด๋‹ค: ๊ทœ์ œ ์‚ฐ์—…์ด๋‚˜ ๊ณ ์œ„ํ—˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์†ํ•ด ์žˆ์œผ๋ฏ€๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ, ๋ชจ๋ธ ๋™์ž‘ ๋ฐ ์—…๋ฐ์ดํŠธ ์ฃผ๊ธฐ์— ๋Œ€ํ•œ ์™„์ „ํ•œ ํ†ต์ œ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ ๋ชจ๋ธ์— ๋ฌด์—‡์ด ๋“ค์–ด๊ฐ”๋Š”์ง€ ์ •ํ™•ํžˆ ์•Œ์•„์•ผ ํ•˜๋ฉฐ ๊ทœ์ œ ๊ธฐ๊ด€์— ๊ทธ๊ฒƒ์„ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ์ž์ฒด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ ์™ธ์— ๋‹ค๋ฅธ ์„ ํƒ์˜ ์—ฌ์ง€๊ฐ€ ์—†์„ ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฒƒ์ด ๊ธฐ์—…๋“ค์ด ์‚ฌ๋‚ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ฃผ์š” ์ด์œ ์ด์ง€๋งŒ, ์˜คํ”ˆ ๋ชจ๋ธ์„ ์ถœ์‹œํ•˜๋Š” ํšŒ์‚ฌ๋‚˜ ์กฐ์ง์˜ ๊ฒฝ์šฐ๋Š” ์–ด๋–จ๊นŒ?

์ „๋žต์  ์˜คํ”ˆ ์†Œ์Šค: ์ฑ„์šธ ์ˆ˜ ์žˆ๋Š” ๊ฒฉ์ฐจ๊ฐ€ ๋ณด์ด๋Š”๊ฐ€?

์ˆ™๋ จ๋œ AI ์—ฐ๊ตฌ์†Œ๋“ค์ด ์ƒˆ๋กœ์šด ์˜คํ”ˆ ๋ชจ๋ธ์„ ์ถœ์‹œํ•˜๋Š” ๊ฐ€์žฅ ํ”ํ•œ ์ด์œ  ์ค‘ ํ•˜๋‚˜๋Š” ์˜คํ”ˆ ์†Œ์Šค ์ƒํƒœ๊ณ„์—์„œ ํŠน์ • ๊ฒฉ์ฐจ๋‚˜ ์ƒˆ๋กœ์šด AI ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ์‹๋ณ„ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

ํŒจํ„ด์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค; ์—ฌ๋Ÿฌ๋ถ„์€ ์ถฉ๋ถ„ํžˆ ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ์˜์—ญ์„ ๋ฐœ๊ฒฌํ•œ๋‹ค. ์–ด์ฉŒ๋ฉด ๋งค์šฐ ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ ๊ฐ•๋ ฅํ•œ ์˜จ๋””๋ฐ”์ด์Šค ๋ชจ๋ธ์ด ์—†๊ฑฐ๋‚˜, ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์€ ์กด์žฌํ•˜์ง€๋งŒ ์ €์ž์› ์–ธ์–ด์—์„œ๋Š” ์•ฝํ•˜๊ฑฐ๋‚˜, ๋˜๋Š” ๋ถ„์•ผ๊ฐ€ Genie3์™€ ๊ฐ™์€ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒํ•œ ์„ธ๊ณ„ ๋ชจ๋ธ๋กœ ์ด๋™ํ•˜๊ณ  ์žˆ๋Š”๋ฐ ์ข‹์€ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ์ด ์—†๋Š” ์ƒํ™ฉ์ด๋‹ค.

์—ฌ๋Ÿฌ๋ถ„์€ ๋” ์ž˜ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ฏฟ์„ ๋งŒํ•œ ์ด์œ ๊ฐ€ ์žˆ๋‹ค; ์•„๋งˆ๋„ ๋” ๋‚˜์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์„ ๋ณ„ํ–ˆ๊ฑฐ๋‚˜, ๋” ๋‚˜์€ ํ•™์Šต ๋ ˆ์‹œํ”ผ๋ฅผ ๊ฐœ๋ฐœํ–ˆ๊ฑฐ๋‚˜, ์•„๋‹ˆ๋ฉด ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์ด ํ•  ์ˆ˜ ์—†์—ˆ๋˜ ๊ณณ์—์„œ ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ์ปดํ“จํŒ… ์ž์›์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ชฉํ‘œ๋Š” ๊ตฌ์ฒด์ ์ด๋‹ค: โ€œ์—ญ๋Œ€ ์ตœ๊ณ ์˜ ๋ชจ๋ธโ€์ด ์•„๋‹ˆ๋ผ, โ€œ์˜จ๋””๋ฐ”์ด์Šค ์‚ฌ์šฉ์„ ์œ„ํ•œ ์ตœ๊ณ ์˜ 3B ๋ชจ๋ธโ€ ๋˜๋Š” โ€œ1M ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ ์ตœ์ดˆ์˜ ์†Œํ˜• ๋ชจ๋ธโ€์ด๋‹ค.

์ด๊ฒƒ์€ ํ˜„์‹ค์ ์ธ ๋ชฉํ‘œ์ด๋ฉฐ ์„ฑ๊ณต์€ ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœํ•œ๋‹ค: ๊ฐœ๋ฐœ์ž๋“ค์ด ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ชจ๋ธ์„ ์ฑ„ํƒํ•˜๊ณ , ๊ทธ๊ฒƒ์ด ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์„ ์œ„ํ•œ ์ธํ”„๋ผ๊ฐ€ ๋˜๊ฑฐ๋‚˜, ๊ธฐ์ˆ ์  ์‹ ๋ขฐ๋„๋ฅผ ํ™•๋ฆฝํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์„ฑ๊ณต์€ ๊ฒฝํ—˜์„ ํ•„์š”๋กœ ํ•œ๋‹ค. ๊ฒฝ์Ÿ์ด ์น˜์—ดํ•œ ๊ณต๊ฐ„์—์„œ ์‹ค์ œ๋กœ ๋ฌด์—‡์ด ์‹คํ˜„ ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ๊ตฌ์ฒดํ™”ํ•˜๊ธฐ ์œ„ํ•ด, Hugging Face์—์„œ ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๋Š”์ง€ ์‚ดํŽด๋ณธ๋‹ค.

Hugging Face์˜ ์—ฌ์ •

๊ทธ๋ ‡๋‹ค๋ฉด Hugging Face๋Š” ์™œ ์˜คํ”ˆ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š”๊ฐ€? ๋‹ต์€ ๊ฐ„๋‹จํ•˜๋‹ค: ์šฐ๋ฆฌ๋Š” ์˜คํ”ˆ ์†Œ์Šค ์ƒํƒœ๊ณ„์— ์œ ์šฉํ•˜๊ณ , ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์ด ๊ฑฐ์˜ ์ฑ„์šฐ์ง€ ์•Š๋Š” ๊ฒฉ์ฐจ๋ฅผ ์ฑ„์šฐ๋Š” ๊ฒƒ์„ ๊ตฌ์ถ•ํ•œ๋‹ค.

์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ์ด ์žˆ์ง€๋งŒ, ์™„์ „ํžˆ ์˜คํ”ˆ๋œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์กฐ์ง์€ ๊ฑฐ์˜ ์—†๋‹ค. Hugging Face ์™ธ์—๋„ Ai2์™€ Stanford์˜ Marin ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ์žˆ๋‹ค.

์—ฌ๊ธฐ์—๋Š” ๋ฐ์ดํ„ฐ์…‹, ํˆด๋ง ๋ฐ ํ•™์Šต ๋ชจ๋ธ์ด ํฌํ•จ๋œ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์‹œ์ž‘ํ•œ ๋ชจ๋“  LLM ํ•™์Šต ํ”„๋กœ์ ํŠธ๋Š” ๊ฒฉ์ฐจ๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ณ  ์˜๋ฏธ ์žˆ๋Š” ๊ฒƒ์„ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ฏฟ๋Š” ๊ฒƒ์—์„œ ์‹œ์ž‘๋˜์—ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” GPT-3(Brown et al., 2020)๊ฐ€ ์ถœ์‹œ๋œ ํ›„ ์ฒซ LLM ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ–ˆ๋‹ค. ๋‹น์‹œ์—๋Š” ์•„๋ฌด๋„ ์˜คํ”ˆ ๋Œ€์ฒด์žฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋А๊ปด์กŒ๊ณ , ์šฐ๋ฆฌ๋Š” ๊ทธ ์ง€์‹์ด ๋ช‡๋ช‡ ์‚ฐ์—… ์—ฐ๊ตฌ์†Œ์—๋งŒ ๊ฐ‡ํžˆ๊ฒŒ ๋ ๊นŒ ๋ด ์šฐ๋ คํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” GPT-3์˜ ์˜คํ”ˆ ๋ฒ„์ „์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด BigScience ์›Œํฌ์ˆ์„ ์‹œ์ž‘ํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์€ Bloom์ด์—ˆ๊ณ , 175B ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ์Šคํƒ, ํ† ํฌ๋‚˜์ด์ €, ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์ „ ํ•™์Šต ์ฝ”ํผ์Šค๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ 1๋…„ ๋™์•ˆ ์ˆ˜์‹ญ ๋ช…์˜ ๊ธฐ์—ฌ์ž๋“ค์˜ ์ž‘์—…์—์„œ ๋น„๋กฏ๋˜์—ˆ๋‹ค.

Bloom์˜ ํ›„์†์ž‘์€ 2022๋…„์˜ StarCoder(Li et al., 2023)์˜€๋‹ค. OpenAI๋Š” GitHub Copilot์„ ์œ„ํ•ด Codex(Chen et al., 2021)๋ฅผ ๊ฐœ๋ฐœํ–ˆ์ง€๋งŒ, ๊ทธ๊ฒƒ์€ ํด๋กœ์ฆˆ๋“œ ์†Œ์Šค์˜€๋‹ค. ์˜คํ”ˆ ์†Œ์Šค ๋Œ€์•ˆ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์€ ์ƒํƒœ๊ณ„์— ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•  ๊ฒƒ์ด ๋ถ„๋ช…ํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ServiceNow์™€์˜ ํ˜‘๋ ฅ์œผ๋กœ BigCode ์‚ฐํ•˜์—์„œ, ์šฐ๋ฆฌ๋Š” The Stack ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ๊ณ , Codex๋ฅผ ์žฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด StarCoder 15B๋ฅผ ํ•™์Šต์‹œ์ผฐ๋‹ค. StarCoder2(Lozhkov et al., 2024)๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋” ์˜ค๋ž˜ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐฐ์šฐ๊ณ , ๋” ์˜ค๋ž˜ ํ•™์Šต๋œ ๋” ์ž‘์€ ๋ชจ๋ธ์ด ํ•˜๋‚˜์˜ ํฐ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๊ฐ€์น˜ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์—์„œ ๋น„๋กฏ๋˜์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‹น์‹œ ์˜คํ”ˆ ์ฝ”๋“œ ๋ชจ๋ธ์„ ์œ„ํ•ด ๋‹ค๋ฅธ ๋ˆ„๊ตฌ๋„ ํ•ด๋ณธ ์  ์—†๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์ˆ˜์กฐ ํ† ํฐ์œผ๋กœ ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ(3B/7B/15B)๋ฅผ ํ•™์Šต์‹œ์ผฐ๋‹ค.

SmolLM ํŒจ๋ฐ€๋ฆฌ๋„ ๋น„์Šทํ•œ ํŒจํ„ด์„ ๋”ฐ๋ž๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฐ•๋ ฅํ•œ ์†Œํ˜• ๋ชจ๋ธ์ด ๊ฑฐ์˜ ์—†๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๊ณ , ๋งˆ์นจ ๊ฐ•๋ ฅํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์ธ FineWeb-Edu(Penedo et al., 2024)๋ฅผ ๊ตฌ์ถ•ํ•œ ์ฐธ์ด์—ˆ๋‹ค. SmolLM (135M/360M/1.7B)์ด ์šฐ๋ฆฌ์˜ ์ฒซ ๋ฒˆ์งธ ๋ฒ„์ „์ด์—ˆ๋‹ค. SmolLM2 (Allal et al., 2025)๋Š” ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ์™€ ๋” ๊ธด ํ•™์Šต์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ SOTA ์„ฑ๋Šฅ์— ๋„๋‹ฌํ–ˆ๋‹ค. SmolLM3๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก , ๋‹ค๊ตญ์–ด ๋ฐ ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ 3B๋กœ ํ™•์žฅํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ 2025๋…„์— ์ค‘์š”ํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๋Š” ๊ธฐ๋Šฅ๋“ค์ด์—ˆ๋‹ค.

์ด ํŒจํ„ด์€ ์‚ฌ์ „ ํ•™์Šต์„ ๋„˜์–ด ํ™•์žฅ๋˜์—ˆ๋‹ค: ์šฐ๋ฆฌ๋Š” DPO๊ฐ€ ๋Œ€๊ทœ๋ชจ์—์„œ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด Zephyr(Tunstall et al., 2023)๋ฅผ ํ•™์Šต์‹œ์ผฐ๊ณ , DeepSeek R1์˜ ์ฆ๋ฅ˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์žฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด Open-R1์„ ์‹œ์ž‘ํ–ˆ์œผ๋ฉฐ, ๊ตญ์ œ ์ •๋ณด ์˜ฌ๋ฆผํ”ผ์•„๋“œ์—์„œ SOTA ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ์œ„ํ•œ OlympicCoder๋ฅผ ์ถœ์‹œํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๋น„์ „์„ ์œ„ํ•œ SmolVLM(Marafioti et al., 2025)๊ณผ ๋กœ๋ด‡ ๊ณตํ•™์„ ์œ„ํ•œ SmolVLA(Shukor et al., 2025)์™€ ํ•จ๊ป˜ ๋‹ค๋ฅธ ์–‘์‹๋“ค์„ ํƒ์ƒ‰ํ–ˆ๋‹ค.

(HF ๊ณผํ•™ ํ”„๋กœ์ ํŠธ์— ๋Œ€ํ•ด ๊ถ๊ธˆํ•˜๋‹ค๋ฉด, ์—ฌ๊ธฐ์„œ ๊ฐœ์š”๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹คย **https://huggingface.co/science)**

๋ฐ”๋ผ๊ฑด๋Œ€, ์ด ์„น์…˜์€ ์™œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ณ  ์‹ถ์€์ง€์— ๋Œ€ํ•ด ๊นŠ์ด ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ์˜ ๊ฐ€์น˜๋ฅผ ์—ฌ๋Ÿฌ๋ถ„์—๊ฒŒ ํ™•์‹ ์‹œ์ผฐ์„ ๊ฒƒ์ด๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์—์„œ๋Š” ์—ฌ๋Ÿฌ๋ถ„์ด ์ด๋Ÿฌํ•œ ์ž๊ธฐ ์„ฑ์ฐฐ์„ ์™„๋ฃŒํ–ˆ๊ณ  ํ•™์Šตํ•  ์ •๋‹นํ•œ ์ด์œ ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ฒ ๋‹ค.

๋ฌด์—‡(What): ๋ชฉํ‘œ๋ฅผ ๊ฒฐ์ •์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ

์ด์ œ ๋‹น์‹ ์€ ์™œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋Š”์ง€ ์•Œ์•˜๋‹ค, ๊ทธ๋ ‡๋‹ค๋ฉด ๋ฌด์—‡์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋Š”๊ฐ€? โ€œ๋ฌด์—‡โ€์ด๋ž€ ๋ชจ๋ธ ์œ ํ˜•(dense, MoE, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ, ์ƒˆ๋กœ์šด ๊ฒƒ), ๋ชจ๋ธ ํฌ๊ธฐ, ์•„ํ‚คํ…์ฒ˜ ์„ธ๋ถ€ ์‚ฌํ•ญ ๋ฐ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์˜๋ฏธํ•œ๋‹ค.ย ํ•˜๋‚˜์˜ ์™œ์— ์ •์ฐฉํ•˜๋ฉด,ย ๊ทธ๊ฒƒ์œผ๋กœ๋ถ€ํ„ฐ ๋ฌด์—‡์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด:

use-case ์— ์˜ํ•ด ์ฃผ๋„๋˜๋Š” ๊ฒฐ์ • ์™ธ์—๋„, ๋” ์•ˆ์ •์ ์ด๊ฑฐ๋‚˜, ๋” ์ƒ˜ํ”Œ ํšจ์œจ์ ์ด๊ฑฐ๋‚˜, ๋˜๋Š” ๋” ๋น ๋ฆ„์œผ๋กœ์จ ํ•™์Šต ์ž์ฒด๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ช‡ ๊ฐ€์ง€ ์„ ํƒ ์‚ฌํ•ญ๋„ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ์ •์€ ํ•ญ์ƒ ๊ทธ๋ ‡๊ฒŒ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„๋˜์ง€ ์•Š์ง€๋งŒ, ๊ฒฐ์ • ๊ณผ์ •์„ ๋Œ€๋žต ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค:

๐Ÿ“ํ…Œ์ŠคํŠธํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ๊ฒƒ์„ ์‹๋ณ„ํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šด๋‹ค. ๋‹จ์ˆœํžˆ ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•๋งŒ์ด ์•„๋‹ˆ๋‹ค.

๊ด€๋ จ ์—†๋Š” ์„ ํƒ์— ๋Œ€ํ•œ ์™„๋ฒฝํ•œ ์ œ๊ฑฐ ์‹คํ—˜์€ ์ค‘์š”ํ•œ ์„ ํƒ์— ๋Œ€ํ•œ ๋ถ€์ฃผ์˜ํ•œ ์ œ๊ฑฐ ์‹คํ—˜๋งŒํผ์ด๋‚˜ ๋งŽ์€ ์ปดํ“จํŒ… ์ž์›์„ ๋‚ญ๋น„ํ•œ๋‹ค.

๋‹ค์Œ ์ฑ•ํ„ฐ๋“ค์—์„œ๋Š” ๋‹น์‹ ์ด ๋ชจ๋ธ์„ ์ •์˜ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ง€๋Š” ๋ชจ๋“  ์ข…๋ฅ˜์˜ ์˜ต์…˜๊ณผ, ์ฒด๊ณ„์ ์ธ ์‹คํ—˜์„ ํ†ตํ•ด ์„ ํƒ์„ ์ขํžˆ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋ฐฐ์šฐ๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ๊ฑฐ๊ธฐ๋กœ ๊ฐ€๊ธฐ ์ „์— ์šฐ๋ฆฌ๋Š” huggingface ๋‚ด์—์„œ ์ž์ฒด ๋ชจ๋ธ ํ•™์Šต์„ ํ•œ ๊ฒฝํ—˜๊ณผ ๋‹ค๋ฅธ ๋†€๋ผ์šด ํŒ€๋“ค์ด ํ›Œ๋ฅญํ•œ LLM์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ•œ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ํŒ€๊ณผ ํ”„๋กœ์ ํŠธ๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ๋ฐฐ์šด ์ ์„ ๊ณต์œ ํ•˜๊ณ ์ž ํ•œ๋‹ค.

์Šˆํผ ํŒŒ์›Œ: ์†๋„์™€ ๋ฐ์ดํ„ฐ

๋ฌผ๋ก  ๋กœ๋งˆ๋กœ ๊ฐ€๋Š” ๊ธธ์€ ๋งŽ์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ์„ฑ๊ณต์ ์ธ LLM ํ•™์Šต ํŒ€์„ ์ผ๊ด€๋˜๊ฒŒ ๊ตฌ๋ณ„ํ•˜๋Š” ๊ฒƒ์ดย โ€Iteration Speedโ€ ๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. LLM ํ•™์Šต์€ ์‹ค๋กœ Training ์„ ํ•ด๋ณด๋ฉฐ ๋ฐฐ์šฐ๋Š” ๋ถ„์•ผ์ด๋ฉฐ, ๋” ์ž์ฃผ Training ํ•ด๋ณผ์ˆ˜๋ก ํŒ€์€ ๋” ๋‚˜์•„์งˆ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ 1๋…„์— ํ•œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ํŒ€๊ณผ ๋ถ„๊ธฐ์— ํ•œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ํŒ€ ์‚ฌ์ด์—์„œ, ํ›„์ž๊ฐ€ ํ›จ์”ฌ ๋” ๋น ๋ฅด๊ฒŒ ๊ฐœ์„ ๋  ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Qwen ๋ฐ DeepSeek์˜ ํŒ€๋“ค์„ ๋ณด์ž. ์ด์ œ ๋ˆ„๊ตฌ๋‚˜ ์•„๋Š” ์ด๋ฆ„์ด ๋œ ๊ทธ๋“ค์€ ์ผ๊ด€๋˜๊ฒŒ ๋น ๋ฅธ ์†๋„๋กœ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ์ถœ์‹œํ•˜๋Š” ์ง€์†๋˜๋Š” ๊ธฐ๋ก์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

Iteration Speed ์™ธ์—๋„, LLM ํ•™์Šต์˜ ๊ฐ€์žฅ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ์ธก๋ฉด์€ ๋‹จ์—ฐ์ฝ”ย ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์ด๋‹ค. ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์— ๋›ฐ์–ด๋“ค๋ ค๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ฒฝํ–ฅ์ด ์žˆ์ง€๋งŒ, LLM ํ•™์Šต์—์„œ ํƒ์›”ํ•œ ํŒ€์€ ๋‹ค๋ฅธ ๋ฌด์—‡๋ณด๋‹ค๋„ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์— ์ง‘์ฐฉํ•˜๋Š” ํŒ€์ด๋‹ค.

๋ฐ˜๋ณต ์†๋„์™€ ์—ฐ๊ฒฐ๋œ ๋˜ ๋‹ค๋ฅธ ์ธก๋ฉด์€ย ํŒ€ ๊ทœ๋ชจ์ด๋‹ค: ์ฃผ์š” ์‚ฌ์ „ ํ•™์Šต ์ž‘์—…์„ ์œ„ํ•ด์„œ๋Š” ์‹คํ–‰ํ•  ์ถฉ๋ถ„ํ•œ ์ปดํ“จํŒ… ์ž์›์„ ๊ฐ–์ถ˜ ์†Œ์ˆ˜์˜ ์ธ๋ ฅ๋งŒ ํ•„์š”ํ•˜๋‹ค. ์˜ค๋Š˜๋‚  Llama 3์™€ ๊ฐ™์€ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•˜๋Š” ๋ฐ๋Š” ์•„๋งˆ๋„ 2~3๋ช…๋งŒ ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค. ๋” ๋‹ค์–‘ํ•œ ํ•™์Šต๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…(๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ๋‹ค๊ตญ์–ด, post-training ๋“ฑ)์— ๋ชจํ—˜์„ ์‹œ์ž‘ํ•  ๋•Œ์—๋งŒ ๊ฐ ๋„๋ฉ”์ธ์—์„œ ํƒ์›”ํ•ด์ง€๊ธฐ ์œ„ํ•ด ์ฒœ์ฒœํžˆ ๋ช‡ ๋ช…์˜ ์‚ฌ๋žŒ๋“ค์„ ๋” ์ถ”๊ฐ€ํ•ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ž‘๊ณ  ์ž˜ ๊ฐ–์ถฐ์ง„ ํŒ€์œผ๋กœ ์‹œ์ž‘ํ•˜๊ณ , 2~3๊ฐœ์›”๋งˆ๋‹ค ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์งง์€ ์‹œ๊ฐ„ ๋‚ด์— ์ •์ƒ์— ์˜ค๋ฅผ ๊ฒƒ์ด๋‹ค. ์ด์ œ ์ด ๋ธ”๋กœ๊ทธ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์€ ์ด ํŒ€์˜ ๊ธฐ์ˆ ์ ์ธ ์ผ์ƒ์— ์ดˆ์ ์„ ๋งž์ถœ ๊ฒƒ์ด๋‹ค!

Every big model starts with a small ablation

์šฐ๋ฆฌ๊ฐ€ LLM ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์—, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ํ•™์Šต ํšจ์œจ์„ ๊ฒฐ์ •ํ•  ๋งŽ์€ ๊ฒฐ์ •์„ ๋‚ด๋ ค์•ผ ํ•œ๋‹ค. ์–ด๋–ค ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์šฐ๋ฆฌ์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ๊ฐ€? ์–ด๋–ค ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์„ ์‚ฌ์šฉํ•˜๊ณ  ์–ด๋–ค ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ํ˜ผํ•ฉํ•  ๊ฒƒ์ธ๊ฐ€?

์ด๋Ÿฌํ•œ ๊ฒฐ์ •๋“ค์ด ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š”์ง€์— ๋Œ€ํ•œ ์งˆ๋ฌธ์€ ์ž์ฃผ ๋ฌผ์–ด์ง„๋‹ค. ์‚ฌ๋žŒ๋“ค์€ ๋•Œ๋•Œ๋กœ ๊ทธ๊ฒƒ๋“ค์— ๋Œ€ํ•œ ๊ฒฐ์ •์ด ๋‹จ์ง€ ๊ทธ๊ฒƒ๋“ค์— ๋Œ€ํ•ด ๊นŠ์ด ์ƒ๊ฐํ•จ์œผ๋กœ์จ ์ด๋ฃจ์–ด์ง„๋‹ค๊ณ  ์˜ˆ์ƒํ•˜๊ณค ํ•œ๋‹ค. ์ „๋žต์  ์‚ฌ๊ณ ๋Š” ํ•„์ˆ˜์ ์ด์ง€๋งŒโ€”ํ…Œ์ŠคํŠธํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์„ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•ด ๋…ผ์˜ํ–ˆ๋˜ ์ด์ „ ์„น์…˜์—์„œ ๋‹ค๋ฃจ์—ˆ๋“ฏ์ดโ€”์ถ”๋ก ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค. LLM์—์„œ๋Š” ํ•ญ์ƒ ์ง๊ด€์ ์ด์ง€ ์•Š์€ ์ผ์ด ์ผ์–ด๋‚˜๋ฉฐ, ์ž‘๋™ํ•ด์•ผ ํ•  ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์„ค์ด ์‹ค์ œ๋กœ๋Š” ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ๊ฐ€์žฅ ๋†’์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐโ€์ฒ˜๋Ÿผ ๋ณด์ด๋Š” ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ํ•ญ์ƒ ๋” ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ๋‚ณ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ธ๋ฅ˜์˜ ๊ณผํ•™์  ์ง€์‹์ด ๋ฐฉ๋Œ€ํ•˜๊ฒŒ ๋ชจ์—ฌ์žˆ๋Š” arXiv๋ฅผ ์˜ˆ๋กœ ๋“ค์–ด๋ณด์ž. ์ง๊ด€์ ์œผ๋กœ, ๊ทธ๋Ÿฌํ•œ ํ’๋ถ€ํ•œ STEM ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์šฐ์ˆ˜ํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด๋‚ด์•ผ ํ•  ๊ฒƒ ๊ฐ™์ง€ ์•Š์€๊ฐ€? ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉฐ, ํŠนํžˆ ์†Œํ˜• ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ์„ฑ๋Šฅ์„ ํ•ด์น  ์ˆ˜๋„ ์žˆ๋‹ค (Shao et al., 2024). ์™œ์ผ๊นŒ? ๊ทธ ์ด์œ ๋Š” arXiv ๋…ผ๋ฌธ์ด ์ง€์‹์œผ๋กœ ๊ฐ€๋“ ์ฐจ ์žˆ์ง€๋งŒ, ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์ž˜ ๋ฐฐ์šฐ๋Š” ๋‹ค์–‘ํ•˜๊ณ  ์ผ๋ฐ˜์ ์ธ ํ…์ŠคํŠธ์™€๋Š” ์ƒ๋‹นํžˆ ๋‹ค๋ฅธ, ๊ณ ๋„๋กœ ์ „๋ฌธํ™”๋˜๊ณ  ์ข์€ ํ•™๋ฌธ์  ์Šคํƒ€์ผ๋กœ ์ž‘์„ฑ๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋ฌธ์ œ์— ๋Œ€ํ•ด ์˜ค๋žซ๋™์•ˆ ์—ด์‹ฌํžˆ ๊ณ ๋ฏผํ•˜๋Š” ๊ฒƒ์ด ๋„์›€์ด ๋˜์ง€ ์•Š๋Š”๋‹ค๋ฉด, ๋ฌด์—‡์ด ์ž‘๋™ํ•˜๋Š”์ง€ ์–ด๋–ป๊ฒŒ ์•Œ ์ˆ˜ ์žˆ์„๊นŒ? ์šฐ๋ฆฌ๋Š” ํ›Œ๋ฅญํ•œ ๊ฒฝํ—˜์ฃผ์˜์ž๋“ค์ฒ˜๋Ÿผ ๋งŽ์€ ์‹คํ—˜์„ ์‹คํ–‰ํ•ด์•ผ ํ•œ๋‹ค! ๊ธฐ๊ณ„ ํ•™์Šต์€ ์ˆœ์ˆ˜ ์ˆ˜ํ•™์ด ์•„๋‹ˆ๋ผ, ์‹ค์ œ๋กœ๋Š” ๋งค์šฐ ์‹คํ—˜์ ์ธ ๊ณผํ•™์ด๋‹ค.

์ด๋Ÿฌํ•œ ์‹คํ—˜๋“ค์ด ์šฐ๋ฆฌ์˜ ๋งŽ์€ ์ค‘์š”ํ•œ ๊ฒฐ์ •์„ ์•ˆ๋‚ดํ•  ๊ฒƒ์ด๋ฏ€๋กœ, ๊ทธ๊ฒƒ๋“ค์„ ์ž˜ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด ์ •๋ง๋กœ ์ค‘์š”ํ•˜๋‹ค. ๋ณธ์งˆ์ ์œผ๋กœ ์šฐ๋ฆฌ๋Š” ๊ทธ๋“ค๋กœ๋ถ€ํ„ฐ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์†์„ฑ์„ ์›ํ•œ๋‹ค:

  1. ์†๋„:ย ์ž์ฃผ ๋ฐ˜๋ณตํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ€๋Šฅํ•œ ํ•œ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰๋˜์–ด์•ผ ํ•œ๋‹ค. ๋” ๋งŽ์€ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ• ์ˆ˜๋ก, ๋” ๋งŽ์€ ๊ฐ€์„ค์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋‹ค.
  2. ์‹ ๋ขฐ์„ฑ:ย ๊ทธ๋“ค์€ ๊ฐ•๋ ฅํ•œ ๋ณ€๋ณ„๋ ฅ์„ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๋ณด๋Š” ๋ฉ”ํŠธ๋ฆญ์ด ์ดˆ๊ธฐ์— ๋‹ค๋ฅธ ์„ค์ •๋“ค์„ ์˜๋ฏธ ์žˆ๊ฒŒ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†๋‹ค๋ฉด, ์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜์€ ๊ฑฐ์˜ ์•„๋ฌด๊ฒƒ๋„ ๋“œ๋Ÿฌ๋‚ด์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค (๊ทธ๋ฆฌ๊ณ  ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ๋…ธ์ด์ฆˆ๋ฅผ ์ซ“์„ ์œ„ํ—˜์ด ์žˆ๋‹ค!). ๋” ์ž์„ธํ•œ ๋‚ด์šฉ์€ FineTaks ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์„(https://huggingface.co/spaces/HuggingFaceFW/blogpost-fine-tasks) ํ™•์ธํ•ด๋ผ.

ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์ œ๊ฑฐ ์‹คํ—˜์„ ์„ค์ •ํ•˜๊ธฐ ์ „์—, ์•„ํ‚คํ…์ฒ˜ ์œ ํ˜•๊ณผ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ๊ธฐ๋ณธ์ ์ธ ์„ ํƒ์„ ์šฐ๋ฆฌ๋Š” ํ•ด์•ผ ํ•œ๋‹ค. ์šฐ๋ฆฌ์˜ ๋‚˜์นจ๋ฐ˜์— ์˜ํ•ด ์•ˆ๋‚ด๋˜๋Š” ์ด๋Ÿฌํ•œ ๊ฒฐ์ •๋“ค์€ ์–ด๋–ค ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ• ์ง€, ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์„ ์–ด๋–ป๊ฒŒ ํ• ๋‹นํ• ์ง€, ๊ทธ๋ฆฌ๊ณ  ์–ด๋–ค ๊ธฐ์ค€์„ (baseline)์—์„œ ์‹œ์ž‘ํ• ์ง€์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์†Œํ˜• ์˜จ๋””๋ฐ”์ด์Šค ๋ชจ๋ธ์„ ๋ชฉํ‘œ๋กœ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— 3B ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๋ฐ€์ง‘ํ˜• Llama ์Šคํƒ€์ผ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ย ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„ย ์ฑ•ํ„ฐ์—์„œ ๋ณด๋“ฏ์ด, MoE ๋˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ๋ถ„์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋” ์ ํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ๋‹ค๋ฅธ ์žฅ๋‹จ์ ์„ ์ˆ˜๋ฐ˜ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‚˜์ค‘์— ์ด๋Ÿฌํ•œ ์„ ํƒ๋“ค์„ ๊นŠ์ด ํƒ์ƒ‰ํ•˜๊ณ , ์ด๋Ÿฌํ•œ ๊ฒฐ์ •๋“ค์„ ๋‚ด๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค. ์ง€๊ธˆ์€ ๊ฐ€์žฅ ์‹ค์šฉ์ ์ธ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ โ€œBaseline ์„ ํƒโ€๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค.

๊ธฐ์ค€์„ (Baseline) ์„ ํƒ

๋ชจ๋“  ์„ฑ๊ณต์ ์ธ ๋ชจ๋ธ์€ ๊ฒ€์ฆ๋œ ๊ธฐ๋ฐ˜์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฌ์ถ•๋˜๋ฉฐ, ํ•„์š”์— ๋”ฐ๋ผ ๊ทธ ๊ธฐ๋ฐ˜์„ ์ˆ˜์ •ํ•ด์„œ ๋งŒ๋“ค์–ด์ง„๋‹ค. Qwen์ด ์ฒซ ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ(Bai et al., 2023)๋ฅผ ํ•™์Šต์‹œ์ผฐ์„ ๋•Œ, ๊ทธ๋“ค์€ Llama์˜ ์•„ํ‚คํ…์ฒ˜์—์„œ ์‹œ์ž‘ํ–ˆ๋‹ค. Meta๊ฐ€ Llama 3๋ฅผ ํ•™์Šต์‹œ์ผฐ์„ ๋•Œ, ๊ทธ๋“ค์€ Llama 2์—์„œ ์‹œ์ž‘ํ–ˆ๋‹ค. Kimi K2๋Š” DeepSeek-V3์˜ MoE ์•„ํ‚คํ…์ฒ˜์—์„œ ์‹œ์ž‘ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์•„ํ‚คํ…์ฒ˜๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ฐ ์˜ตํ‹ฐ๋งˆ์ด์ €์—๋„ ์ ์šฉ๋œ๋‹ค.

์™œ์ผ๊นŒ? ์ข‹์€ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ์„ค์ • ์„ค๊ณ„๋Š” ์ˆ˜๋งŽ์€ ์กฐ์ง์— ๊ฑธ์ณ ์ˆ˜๋…„๊ฐ„์˜ ๋ฐ˜๋ณต์„ ํ•„์š”๋กœ ํ•œ๋‹ค. ํ‘œ์ค€ ํŠธ๋žœ์Šคํฌ๋จธ์™€ Adam๊ณผ ๊ฐ™์€ ์˜ตํ‹ฐ๋งˆ์ด์ €๋Š” ์ˆ˜์ฒœ ๋ฒˆ์˜ ์‹คํ—˜์„ ํ†ตํ•ด ๊ฐœ์„ ๋˜์—ˆ๋‹ค. ์‚ฌ๋žŒ๋“ค์€ ๊ทธ๊ฒƒ๋“ค์ด ์‹คํŒจํ•˜๋Š” ์ƒํ™ฉ๋“ค์„ ๋ฐœ๊ฒฌํ–ˆ๊ณ , ๋ถˆ์•ˆ์ •์„ฑ์„ ๋””๋ฒ„๊น…ํ–ˆ์œผ๋ฉฐ, ๊ตฌํ˜„์„ ์ตœ์ ํ™”ํ–ˆ๋‹ค. ๊ฒ€์ฆ๋œ ๊ธฐ๋ฐ˜์—์„œ ์‹œ์ž‘ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ๊ทธ ๋ชจ๋“  ์ถ•์ ๋œ ์ง€์‹์„ ๊ณ„์Šนํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ƒˆ๋กœ ์‹œ์ž‘ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ์Šค์Šค๋กœ ์žฌ๋ฐœ๊ฒฌํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

๋‹ค์Œ์€ ์•„ํ‚คํ…์ฒ˜์˜ ์ข‹์€ ์ถœ๋ฐœ์ ์„ ๋งŒ๋“œ๋Š” ์š”์†Œ์ด๋‹ค:

์•„๋ž˜๋Š” ๋‹ค์–‘ํ•œ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ 2025๋…„ ๊ธฐ์ค€์„  ์˜ต์…˜์˜ ์ „์ฒด๋Š” ์•„๋‹ˆ์ง€๋งŒ ์ผ๋ถ€ ๋ชฉ๋ก์ด๋‹ค:

์•„ํ‚คํ…์ฒ˜ ์œ ํ˜•๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌํฌ๊ธฐ
๋ฐ€์ง‘ํ˜•(Dense)Llama 3.18B, 70B
๋ฐ€์ง‘ํ˜•(Dense)Llama 3.21B, 3B
๋ฐ€์ง‘ํ˜•(Dense)Qwen30.6B, 1.7B, 4B, 14B, 32B
๋ฐ€์ง‘ํ˜•(Dense)Gemma312B, 27B
๋ฐ€์ง‘ํ˜•(Dense)SmolLM2, SmolLM3135M, 360M, 1.7B, 3B
MoEQwen3 MoE30B-A3B, 235B-A122B
MoEGPT-OSS21B-A3B, 117B-A5B
MoEKimi Moonlight16B-A3B
MoEKimi-k21T-A32B
MoEDeepSeek V3671B-A37B
ํ•˜์ด๋ธŒ๋ฆฌ๋“œ(Hybrid)Zamba21.2B, 2.7B, 7B
ํ•˜์ด๋ธŒ๋ฆฌ๋“œ(Hybrid)Falcon-H10.5B, 1.5B, 3B, 7B, 34B
MoE + ํ•˜์ด๋ธŒ๋ฆฌ๋“œQwen3-Next80B-A3B
MoE + ํ•˜์ด๋ธŒ๋ฆฌ๋“œMiniMax-01456B-A46B

๋‹น์‹ ์ด ์›ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜ ์œ ํ˜•์œผ๋กœ ๊ฐ€์„œ ๋‹น์‹ ์ด ๋ชจ๋ธ์ด ๊ฐ–๊ธฐ๋ฅผ ์›ํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์— ๊ฐ€๊นŒ์šด ๊ธฐ์ค€์„ ์„ ์„ ํƒํ•ด๋ผ. ๋‹น์‹ ์ด ์‹œ์ž‘ํ•˜๊ธฐ๋กœ ํ•œ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ํ™•์ •๋œ ๊ฒƒ์€ ์•„๋‹ˆ๋ฏ€๋กœ ๋„ˆ๋ฌด ๋งŽ์ด ๊ณ ๋ฏผํ•˜์ง€๋Š” ๋งˆ๋ผ. ๋‹ค์Œ ์„น์…˜์—์„œ, ์šฐ๋ฆฌ๋Š” ๊ธฐ์ค€์„ ์—์„œ ์—ฌ๋Ÿฌ๋ถ„์—๊ฒŒ ์ตœ์ ์ธ ์ตœ์ข… ์•„ํ‚คํ…์ฒ˜๋กœ ๊ฐ€๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

๊ธฐ์ค€์„  ์ˆ˜์ •: ์œ„ํ—˜ ํšŒํ”ผ์˜ ๊ทœ์œจ

์ด์ œ ์ž‘๋™ํ•˜๊ณ  ์—ฌ๋Ÿฌ๋ถ„์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋งž๋Š” ๊ธฐ์ค€์„ ์ด ์žˆ๋‹ค. ๋‹น์‹ ์€ ์—ฌ๊ธฐ์„œ ๋ฉˆ์ถ”๊ณ , ๋‹น์‹ ์ด ์ค€๋น„ํ•œ ๋ฐ์ดํ„ฐ๋กœ (Data Mixture) (๋‹น์‹ ์ด ๊ทธ๊ฒƒ์„ ์ž˜ ๋งŒ๋“ค์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ ) ๊ทธ๊ฒƒ์„ ํ•™์Šต์‹œ์ผœ ๊ดœ์ฐฎ์€ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ๋งŽ์€ ์„ฑ๊ณต์ ์ธ ํ”„๋กœ์ ํŠธ๊ฐ€ ์ •ํ™•ํžˆ ๊ทธ๋ ‡๊ฒŒ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์ค€์„ ์€ ์—ฌ๋Ÿฌ๋ถ„์˜ ํŠน์ • ์ œ์•ฝ ์กฐ๊ฑด์— ์ตœ์ ํ™”๋˜์ง€ ์•Š์•˜์œผ๋ฉฐ, ๊ทธ๊ฒƒ๋“ค์„ ๊ตฌ์ถ•ํ•œ ์‚ฌ๋žŒ๋“ค์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€ ๋ฐ ๋ฐฐํฌ ๋Œ€์ƒ์— ๋งž๊ฒŒ ์„ค๊ณ„๋˜์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ชฉํ‘œ์™€ ๋” ์ž˜ ์ผ์น˜ํ•˜๋„๋ก ๋งŒ๋“ค ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ์ˆ˜์ • ์‚ฌํ•ญ์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์€ ์œ„ํ—˜์„ ์ˆ˜๋ฐ˜ํ•œ๋‹ค: ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ฑฐ๋‚˜, ํญ๋ฝ์‹œํ‚ค๊ฑฐ๋‚˜, ๋˜๋Š” ์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ์ œ๊ฑฐ ์‹คํ—˜ ์ปดํ“จํŒ… ์ž์›์„ ๋‚ญ๋น„ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด ๋•Œย Derisking๋ผ๋Š” ์ด ๊ทœ์œจ์ด ๋‹น์‹ ์ด ๊ถค๋„๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๊ฒŒ ์œ ์ง€ํ•ด์ค„ ๊ฒƒ์ด๋‹ค:ย ํ…Œ์ŠคํŠธํ•˜์—ฌ ๋„์›€์ด ๋œ๋‹ค๋Š” ๊ฒƒ์ด ์ž…์ฆ๋˜์ง€ ์•Š๋Š” ํ•œ ์•„๋ฌด๊ฒƒ๋„ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๋Š”๋‹ค.

๐Ÿ“๋ฌด์—‡์ด Derisking (์œ„ํ—˜ ํšŒํ”ผ)๋กœ ๊ฐ„์ฃผ๋˜๋Š”๊ฐ€?

๋ณ€๊ฒฝ ์‚ฌํ•ญ์ด ๋ชฉํ‘œ ๊ธฐ๋Šฅ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜, ํ—ˆ์šฉ ๊ฐ€๋Šฅํ•œ ์ ˆ์ถฉ์•ˆ์„ ๋„˜์–ด ์„ฑ๋Šฅ์„ ํ•ด์น˜์ง€ ์•Š์œผ๋ฉด์„œ ์˜๋ฏธ ์žˆ๋Š” ์ด์ (์˜ˆ: ๋” ๋น ๋ฅธ ์ถ”๋ก , ๋” ๋‚ฎ์€ ๋ฉ”๋ชจ๋ฆฌ, ๋” ๋‚˜์€ ์•ˆ์ •์„ฑ)์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ํ…Œ์ŠคํŠธ๊ฐ€ ๋ณด์—ฌ์ค„ ๋•Œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์€ ์œ„ํ—˜ ํšŒํ”ผ๊ฐ€ ๋œ ๊ฒƒ์ด๋‹ค.

๊นŒ๋‹ค๋กœ์šด ๋ถ€๋ถ„์€ ์—ฌ๋Ÿฌ๋ถ„์˜ ๊ธฐ์ค€์„ ๊ณผ ํ•™์Šต ์„ค์ •์— ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋งŽ์€ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค: ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜, Positional encodings, ํ™œ์„ฑํ™” ํ•จ์ˆ˜, ์˜ตํ‹ฐ๋งˆ์ด์ €, ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ, ์ •๊ทœํ™” ๋ฐฉ์‹, ๋ชจ๋ธ ๋ ˆ์ด์•„์›ƒ ๋“ฑ์ด๋‹ค. ๊ฐ๊ฐ์€ ์ž ์žฌ์ ์ธ ์‹คํ—˜์„ ๋Œ€ํ‘œํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์€ ์ข…์ข… ๋น„์„ ํ˜•์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ƒํ˜ธ ์ž‘์šฉํ•œ๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ ๋ชจ๋“  ๊ฒƒ์„ ํ…Œ์ŠคํŠธํ•˜๊ฑฐ๋‚˜ ๋ชจ๋“  ์ƒํ˜ธ ์ž‘์šฉ์„ ํƒ์ƒ‰ํ•  ์‹œ๊ฐ„์ด๋‚˜ ์ปดํ“จํŒ… ์ž์›์ด ์—†๋‹ค.

ํ˜„์žฌ ๊ธฐ์ค€์„ ์— ๋Œ€ํ•ด ์œ ๋งํ•œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ๋“ค์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค. ๋ฌด์—‡์ธ๊ฐ€ ์ž‘๋™ํ•˜๋ฉด, ๊ทธ๊ฒƒ์„ ํ†ตํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์„ ๋งŒ๋“ค๊ณ , ๊ทธ๊ฒƒ์— ๋Œ€ํ•ด ๋‹ค์Œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์ด ํ—ˆ๋ฝํ•œ๋‹ค๋ฉด ๋ณ€๊ฒฝ ์‚ฌํ•ญ๋“ค์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•˜๊ณ  leave-one-out ๋ถ„์„์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ชจ๋“  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์ฒ ์ €ํ•œ ๊ทธ๋ฆฌ๋“œ ๊ฒ€์ƒ‰์ด๋‚˜ ๋‚˜์˜ค๋Š” ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜ ๋ณ€ํ˜•์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ํ•จ์ •์— ๋น ์ ธ์„œ๋Š” ์•ˆ ๋œ๋‹ค.

๐ŸŽฏย ์ „๋žต์  ์‹คํ—˜

์–ด๋–ค ์‹คํ—˜์„ ์‹คํ–‰ํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š”์ง€ ๋ชจ๋ฅธ๋‹ค๋ฉด ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•„๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค. ์–ด๋–ค ์ˆ˜์ • ์‚ฌํ•ญ์ด๋“  ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์ „์— ์Šค์Šค๋กœ์—๊ฒŒ ๋‘ ๊ฐ€์ง€ ์งˆ๋ฌธ์„ ๋˜์ ธ์•ผ ํ•œ๋‹ค:

  • ์ด๊ฒƒ์ด ๋‚ด๊ฐ€ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ๋Š” ํŠน์ •ํ•œ use case์— ๋„์›€์ด ๋  ๊ฒƒ์ธ๊ฐ€?
  • ์ด๊ฒƒ์ด ๋‚˜์˜ ํ•™์Šต์„ ์ตœ์ ํ™”ํ•  ๊ฒƒ์ธ๊ฐ€?

์ˆ˜์ • ์‚ฌํ•ญ์ด ๋‘ ์งˆ๋ฌธ ์ค‘ ์–ด๋А ํ•˜๋‚˜๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ๋‹ค๋ฃจ์ง€ ์•Š๋Š”๋‹ค๋ฉด, ๊ฑด๋„ˆ๋›ฐ์–ด๋ผ.

์ด์ œ ์ „๋žต์  ๊ณ„ํš์„ ํ†ตํ•ด ๋ฌด์—‡์ด ์œ ๋งํ•œ์ง€ ์‹๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•˜์œผ๋ฏ€๋กœ, ๊ฒฝํ—˜์  ๊ฒ€์ฆ์œผ๋กœ ๋„˜์–ด๊ฐˆ ์ฐจ๋ก€์ด๋‹ค. ๋‹ค์Œ ์„น์…˜๋“ค์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ๋“ค์„ ์‹ค์ œ๋กœ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์‹คํ—˜์„ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•, ๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•˜๋Š” ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ์ผ๋ฐ˜์ ์ธ ํ•จ์ •์„ ํ”ผํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋‹ค์Œ ์ฑ•ํ„ฐ๋“ค์—์„œ๋Š” ์ธ๊ธฐ ์žˆ๋Š” ์•„ํ‚คํ…์ฒ˜, ๋ฐ์ดํ„ฐ, ์ธํ”„๋ผ ๋ฐ ํ•™์Šต ๊ฒฐ์ •๋“ค์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ์˜ˆ์‹œ๋“ค์„ ์•ˆ๋‚ดํ•  ๊ฒƒ์ด๋‹ค.

์ด์ œ ์šฐ๋ฆฌ์˜ ์‹คํ—˜์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ„๋‹จํ•œ ์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •์„ ๋งŒ๋“ค์–ด๋ณด์ž. ๋จผ์ €, ์–ด๋–ค ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ ํƒํ• ์ง€ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.

ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ์„ ํƒ

์šฐ๋ฆฌ๊ฐ€ ๋‚ด๋ ค์•ผ ํ•  ์ฒซ ๋ฒˆ์งธ ๊ฒฐ์ •์€ ๋ชจ๋ธ ํ•™์Šต์„ ์œ„ํ•ด, ๊ทธ๋ฆฌ๊ณ  ๋‚˜์•„๊ฐ€ ์šฐ๋ฆฌ์˜ ๋ชจ๋“  ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์–ด๋–ค ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ• ์ง€์ด๋‹ค. ์ด ์„ ํƒ์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ณ ๋ ค ์‚ฌํ•ญ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ฒƒ์„ ํฌํ•จํ•œ๋‹ค:

  1. ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ง€์›ํ•˜๊ฑฐ๋‚˜ ์šฐ๋ฆฌ๊ฐ€ ๊ทธ๊ฒƒ์„ ์‰ฝ๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์•ผ ํ•œ๋‹ค.
  2. ๊ทธ๊ฒƒ์€ ์•ˆ์ •์ ์ด๊ณ  ํ”„๋กœ๋•์…˜ ์ค€๋น„๊ฐ€ ๋˜์–ด ์žˆ์–ด์•ผ ํ•˜๋ฉฐ, ํ•™์Šต ์ค‘๊ฐ„์— ๋ฏธ์Šคํ„ฐ๋ฆฌํ•˜๊ฒŒ ๊ณ ์žฅ ๋‚˜๊ธฐ ์‰ฌ์šด ๊ฒฝํ–ฅ์ด ์—†์–ด์•ผ ํ•œ๋‹ค.
  3. ์šฐ๋ฆฌ๊ฐ€ ๋น ๋ฅด๊ฒŒ ๋ฐ˜๋ณตํ•˜๊ณ  ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ•๋ ฅํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค.

์‹ค์ œ๋กœ๋Š” ์ด๋Ÿฌํ•œ ์š”๊ตฌ ์‚ฌํ•ญ๋“ค์ด ์„œ๋กœ ์ƒ์ถฉ๋˜์–ด ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์˜ต์…˜๋“ค์„ ์‚ดํŽด๋ณธ๋‹ค.

ํ”„๋ ˆ์ž„์›Œํฌ๊ธฐ๋Šฅ์‹ค์ „ ๊ฒ€์ฆ์ตœ์ ํ™”์ฝ”๋“œ ๋ผ์ธ ์ˆ˜ (ํ•ต์‹ฌ / ์ „์ฒด)ํ™•์žฅ์„ฑ ๋ฐ ๋””๋ฒ„๊น…
Megatron-LMโœ… ๊ด‘๋ฒ”์œ„ํ•จโœ… Kimi-K2, Nemotronโœ… 3D ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์˜ ์„ ๊ตฌ์ž93k / 269kโš ๏ธ ์ดˆ๋ณด์ž์—๊ฒŒ๋Š” ์–ด๋ ค์›€
DeepSpeedโœ… ๊ด‘๋ฒ”์œ„ํ•จโœ… BLOOM, GLMโœ… ZeRO ๋ฐ 3D ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์˜ ์„ ๊ตฌ์ž94k / 194kโš ๏ธ ์ดˆ๋ณด์ž์—๊ฒŒ๋Š” ์–ด๋ ค์›€
TorchTitanโšก ๊ธฐ๋Šฅ ์„ธํŠธ ์„ฑ์žฅ ์ค‘โš ๏ธ ์ตœ์‹ ์ด์ง€๋งŒ PyTorch ํŒ€์—์„œ ํ…Œ์ŠคํŠธ๋จโšก ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์— ์ตœ์ ํ™”๋จ, MoE ๊ฐœ์„  ์ง„ํ–‰ ์ค‘.7k / 9kโšก ๋ณดํ†ต: ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋…ธํ•˜์šฐ ํ•„์š”
Nanotron๐ŸŽฏ ์ตœ์†Œํ•œ, HF ์‚ฌ์ „ ํ•™์Šต์— ๋งž์ถคโœ… ์˜ˆ (StarCoder, SmolLM)โœ… ์ตœ์ ํ™”๋จ (UltraScale Playbook)15k / 66kโšก ๋ณดํ†ต: ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋…ธํ•˜์šฐ ํ•„์š”

์œ„ ํ‘œ๋Š” ์ธ๊ธฐ ์žˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐ„์˜ ์ฃผ์š” ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์š”์•ฝํ•œ๋‹ค. ์ฒ˜์Œ ์„ธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ฝ”๋“œ ๋ผ์ธ ์ˆ˜๋Š” TorchTitan ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ(Liang et al., 2025)์—์„œ ๊ฐ€์ ธ์˜จ ๊ฒƒ์ด๋‹ค. ๊ฐ๊ฐ์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ๋…ผ์˜ํ•œ๋‹ค:

Nvidia์˜ Megatron-LM์€ ์ˆ˜๋…„๊ฐ„ ์กด์žฌํ•ด ์™”์œผ๋ฉฐ ์‹ค์ „ ๊ฒ€์ฆ๋˜์—ˆ๋‹ค. ๊ทธ๊ฒƒ์€ Kimi์˜ K2(Team et al., 2025)์™€ ๊ฐ™์€ ๋ชจ๋ธ์„ ๊ตฌ๋™ํ•˜๋ฉฐ, ๊ฒฌ๊ณ ํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•˜๊ณ  ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๋Œ€๋ถ€๋ถ„์˜ ํ”„๋กœ๋•์…˜ ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ ์„ฑ์ˆ™๋„๋Š” ๋ณต์žก์„ฑ์„ ์ˆ˜๋ฐ˜ํ•œ๋‹ค: ์ฝ”๋“œ๋ฅผ ์ฒ˜์Œ ์ ‘ํ•  ๋•Œ ํƒ์ƒ‰ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋‹ค.

DeepSpeed๋„ ๋น„์Šทํ•œ ๋ฒ”์ฃผ์— ์†ํ•œ๋‹ค. ๊ทธ๊ฒƒ์€ ZeRO ์ตœ์ ํ™”์˜ ์„ ๊ตฌ์ž์ด๋ฉฐ BLOOM ๋ฐ GLM๊ณผ ๊ฐ™์€ ๋ชจ๋ธ์„ ๊ตฌ๋™ํ–ˆ๋‹ค. Megatron-LM๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‹ค์ „ ๊ฒ€์ฆ๋˜๊ณ  ์ตœ์ ํ™”๋˜์—ˆ์ง€๋งŒ, ๋™์ผํ•œ ๋ณต์žก์„ฑ ๋ฌธ์ œ๋ฅผ ๊ณต์œ ํ•œ๋‹ค. ํŠนํžˆ ์‚ฌ์šฉ์ž ์ •์˜ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•˜๊ฑฐ๋‚˜ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋™์ž‘์„ ๋””๋ฒ„๊น…ํ•  ๋•Œ, ํฐ ์ฝ”๋“œ๋ฒ ์ด์Šค(์ด 194k ๋ผ์ธ)๋Š” ์‹œ์ž‘ํ•  ๋•Œ ์œ„ํ˜‘์ ์ผ ์ˆ˜ ์žˆ๋‹ค.

๋ฐ˜๋ฉด์—, PyTorch์˜ ์ตœ์‹  TorchTitan ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ์ปดํŒฉํŠธํ•˜๊ณ  ๋ชจ๋“ˆ์‹ ์ฝ”๋“œ๋ฒ ์ด์Šค ๋•๋ถ„์— ํ›จ์”ฌ ๊ฐ€๋ณ๊ณ  ํƒ์ƒ‰ํ•˜๊ธฐ ์‰ฝ๋‹ค. ๊ทธ๊ฒƒ์€ ์‚ฌ์ „ ํ•™์Šต์— ํ•„์š”ํ•œ ํ•ต์‹ฌ ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ ๋น ๋ฅธ ์‹คํ—˜์— ํ›Œ๋ฅญํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋” ์ตœ์‹ ์ด๋ฏ€๋กœ, ์‹ค์ „ ๊ฒ€์ฆ์ด ๋œ ๋˜์—ˆ๊ณ  ํ™œ๋ฐœํ•˜๊ฒŒ ๊ฐœ๋ฐœ ์ค‘์ด๋ฏ€๋กœ ์—ฌ์ „ํžˆ ์•ฝ๊ฐ„ ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋‹ค๋ฅธ ๊ฒฝ๋กœ๋ฅผ ํƒํ•˜์—ฌ, ์ฒ˜์Œ๋ถ€ํ„ฐ ์ž์ฒด ํ”„๋ ˆ์ž„์›Œํฌ์ธ nanotron์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ์—๊ฒŒ ์™„์ „ํ•œ ์œ ์—ฐ์„ฑ๊ณผ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค; ๋‚˜์ค‘์— Ultra Scale Playbook์œผ๋กœ ๋ฐœ์ „ํ•œ ํ†ต์ฐฐ๋ ฅ์ด๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•œ ์ดํ›„, ์šฐ๋ฆฌ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ๋กœ๋ถ€ํ„ฐ ๊ท€์ค‘ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์•˜์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ๊ธฐ๋Šฅ์„ ๋จผ์ € ์ž์ฒด์ ์œผ๋กœ ์‹ค์ „ ๊ฒ€์ฆํ•ด์•ผ ํ–ˆ๋‹ค. ์ด์ œ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ•™์Šต์— ํ•„์š”ํ•œ ๋ชจ๋“  ํ”„๋กœ๋•์…˜ ๊ธฐ๋Šฅ์„ ์ง€์›ํ•˜์ง€๋งŒ, MoE ์ง€์›๊ณผ ๊ฐ™์€ ์˜์—ญ์€ ์—ฌ์ „ํžˆ ๊ตฌ์ถ• ์ค‘์ด๋‹ค.

์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์€ ๊ทธ๋•Œ๋Š” ํ•ฉ๋ฆฌ์ ์ด์—ˆ์ง€๋งŒ, ๋ฌธ์ œ ๋””๋ฒ„๊น… ๋ฐ ๋ˆ„๋ฝ๋œ ๊ธฐ๋Šฅ ์ถ”๊ฐ€์— ๋Œ€ํ•œ ํŒ€ ์ „๋ฌธ ์ง€์‹๊ณผ ์‹œ๊ฐ„์— ๋ง‰๋Œ€ํ•œ ํˆฌ์ž๋ฅผ ์š”๊ตฌํ•œ๋‹ค. ๊ฐ•๋ ฅํ•œ ๋Œ€์•ˆ์€ ๊ธฐ์กด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํฌํฌํ•˜๊ณ  ํ•„์š”์— ๋งž๊ฒŒ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Thinking Machines Lab์€ TorchTitan์˜ ํฌํฌ๋กœ ๋‚ด๋ถ€ ์‚ฌ์ „ ํ•™์Šต ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ๋‹ค (์ถœ์ฒ˜ https://x.com/cHHillee/status/1949470943291805832).

๊ถ๊ทน์ ์œผ๋กœ, ์—ฌ๋Ÿฌ๋ถ„์˜ ์„ ํƒ์€ ํŒ€์˜ ์ „๋ฌธ ์ง€์‹, ๋ชฉํ‘œ ๊ธฐ๋Šฅ, ๊ทธ๋ฆฌ๊ณ  ๊ฐœ๋ฐœ์— ํˆฌ์žํ•  ์˜ํ–ฅ์ด ์žˆ๋Š” ์‹œ๊ฐ„ ๋Œ€ ๊ฐ€์žฅ ํ”„๋กœ๋•์…˜ ์ค€๋น„๊ฐ€ ๋œ ์˜ต์…˜์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์— ๋‹ฌ๋ ค์žˆ๋‹ค.

์—ฌ๋Ÿฌ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์—ฌ๋Ÿฌ๋ถ„์˜ ํ•„์š”๋ฅผ ์ง€์›ํ•œ๋‹ค๋ฉด, ์—ฌ๋Ÿฌ๋ถ„์˜ ํŠน์ • ํ•˜๋“œ์›จ์–ด์—์„œ ๊ทธ๋“ค์˜ Throughput์„ ๋น„๊ตํ•ด๋ผ. ๋น ๋ฅธ ์‹คํ—˜๊ณผ ์†๋„ ์‹คํ–‰์„ ์œ„ํ•ด์„œ๋Š” ๋” ๊ฐ„๋‹จํ•œ ์ฝ”๋“œ๋ฒ ์ด์Šค๊ฐ€ ์ข…์ข… ์Šน๋ฆฌํ•œ๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •

ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ ํƒํ–ˆ์œผ๋ฏ€๋กœ, ์ด์ œ ์ œ๊ฑฐ ์‹คํ—˜ ์„ค๊ณ„๋ฅผ ํ•ด์•ผ ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐ˜๋ณตํ•  ์ˆ˜ ์žˆ์„ ๋งŒํผ ๋น ๋ฅด๋ฉด์„œ๋„, ๊ฒฐ๊ณผ๊ฐ€ ์šฐ๋ฆฌ์—๊ฒŒ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๊ณ  ์ตœ์ข… ๋ชจ๋ธ๋กœ ์ด์ „๋  ์ˆ˜ ์žˆ์„ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ํฐ ์‹คํ—˜์ด ํ•„์š”ํ•˜๋‹ค. ์ด๊ฒƒ์„ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด์ž.

์ œ๊ฑฐ ์‹คํ—˜ ํ”„๋ ˆ์ž„์›Œํฌ ์„ค์ •

์ œ๊ฑฐ ์‹คํ—˜์˜ ๋ชฉํ‘œ๋Š” ์ž‘์€ ๊ทœ๋ชจ๋กœ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ณ , ์ตœ์ข… ํ”„๋กœ๋•์…˜ ์‹คํ–‰์— ์ž์‹  ์žˆ๊ฒŒ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š” ๊ฒƒ์ด๋‹ค.

๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ ‘๊ทผ ๋ฐฉ์‹์ด ์žˆ๋‹ค. ์ฒซ์งธ, ์šฐ๋ฆฌ๋Š” ๋ชฉํ‘œ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ ธ์™€์„œ ๋” ์ ์€ ํ† ํฐ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. SmolLM3 ์ œ๊ฑฐ ์‹คํ—˜์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์ตœ์ข… 11์กฐ(T) ํ† ํฐ ๋Œ€์‹  ์ „์ฒด 3B ๋ชจ๋ธ์„ 100B ํ† ํฐ์œผ๋กœ ํ•™์Šต์‹œ์ผฐ๋‹ค. ๋‘˜์งธ, ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ํฌ๋‹ค๋ฉด, ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด ๋” ์ž‘์€ ๋Œ€๋ฆฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Kimi๊ฐ€ 32B ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ 1์กฐ ๋งค๊ฐœ๋ณ€์ˆ˜ Kimi K2 ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ์„ ๋•Œ, ๋ชจ๋“  ์ œ๊ฑฐ ์‹คํ—˜์— ์ „์ฒด ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ์ด ๋„ˆ๋ฌด ๋งŽ์ด ๋“ค์—ˆ์„ ๊ฒƒ์ด๋ฏ€๋กœ, ๊ทธ๋“ค์€ 5์–ต ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ 3B MoE ๋ชจ๋ธ์—์„œ ์ผ๋ถ€ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค (Team et al., 2025).

ํ•œ ๊ฐ€์ง€ ํ•ต์‹ฌ ์งˆ๋ฌธ์€ ์ด๋Ÿฌํ•œ ์†Œ๊ทœ๋ชจ ๋ฐœ๊ฒฌ์ด ์‹ค์ œ๋กœ ์ „์ด๋˜๋Š”์ง€ ์—ฌ๋ถ€์ด๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฝํ—˜์ƒ, ์ž‘์€ ๊ทœ๋ชจ์—์„œ ์„ฑ๋Šฅ์„ ํ•ด์น˜๋Š” ๊ฒƒ์ด ์žˆ๋‹ค๋ฉด, ๋Œ€๊ทœ๋ชจ์—์„œ๋Š” ์ž์‹  ์žˆ๊ฒŒ ๋ฐฐ์ œํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ž‘์€ ๊ทœ๋ชจ์—์„œ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์ด ์žˆ๋‹ค๋ฉด, ์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์ด ๋” ํฐ ๊ทœ๋ชจ๋กœ ์ถ”์ •๋  ๊ฒƒ์ด๋ผ๋Š” ๋†’์€ ํ™•๋ฅ ๋กœ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด ํ•ฉ๋ฆฌ์ ์ธ ์ˆ˜์˜ ํ† ํฐ์œผ๋กœ ํ•™์Šต์‹œ์ผฐ๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค. ๋” ์˜ค๋ž˜ ํ•™์Šต์‹œ์ผฐ๊ณ  ์ œ๊ฑฐ ์‹คํ—˜ ๋ชจ๋ธ์ด ์ตœ์ข… ๋ชจ๋ธ์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋” ์ข‹๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์—์„œ๋Š” ๋ชจ๋“  ์ œ๊ฑฐ ์‹คํ—˜์— ๊ธฐ์ค€์ด ๋˜๋Š” ๋ฐ”๋‹๋ผ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ์˜ ์ฃผ์š” ์„ค์ •์€ 45B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ Llama3.2 1B ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋”ฐ๋ฅด๋Š” 1B ํŠธ๋žœ์Šคํฌ๋จธ์ด๋‹ค. ์ด๊ฒƒ์€ ์ด nanotron ์„ค์ •์„ ์‚ฌ์šฉํ•˜์—ฌ 8xH100 ๋…ธ๋“œ์—์„œ ํ•™์Šตํ•˜๋Š” ๋ฐ ์•ฝ 1.5์ผ์ด ๊ฑธ๋ฆฐ๋‹ค (GPU๋‹น ์ดˆ๋‹น 42k ํ† ํฐ). SmolLM3 ํ•™์Šต ๋™์•ˆ, ์šฐ๋ฆฌ๋Š” 100B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 3B ๋ชจ๋ธ์—์„œ ์ด๋Ÿฌํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค (์„ค์ •์€ ์—ฌ๊ธฐ https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs.). ์šฐ๋ฆฌ๋Š” ๊ฐ ์ฑ•ํ„ฐ์˜ ๋์—์„œ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ณต์œ ํ•  ๊ฒƒ์ด๋‹ค (๊ฒฐ๋ก ์ด ์ผ์น˜ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค).

์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ 1B ์„ค์ •์€ ๊ตฌ์กฐํ™”๋œ YAML ํ˜•์‹์œผ๋กœ ๋ชจ๋“  ํ•„์ˆ˜ ํ•™์Šต ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•œ๋‹ค. ๋‹ค์Œ์€ ํ•ต์‹ฌ ์„น์…˜์ด๋‹ค:

## ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ˜ผํ•ฉ ๊ฐ€์ค‘์น˜
data_stages:
- data:

    dataset:
      dataset_folder:
      - fineweb-edu
      - stack-edu-python
      - finemath-3plus

      dataset_weights:
      - 0.7
      - 0.2
      - 0.1

## ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, Llama3.2 1B ์„ค์ •
model:
  model_config:
    hidden_size: 2048
    num_hidden_layers: 16
    num_attention_heads: 32
    num_key_value_heads: 8
    intermediate_size: 8192
    max_position_embeddings: 4096
    rope_theta: 50000.0
    tie_word_embeddings: true

## ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ, ์ฝ”์‚ฌ์ธ ์Šค์ผ€์ค„์„ ๊ฐ€์ง„ AdamW
optimizer:
  clip_grad: 1.0
  learning_rate_scheduler:
    learning_rate: 0.0005
    lr_decay_starting_step: 2000
    lr_decay_steps: 18000
    lr_decay_style: cosine
    lr_warmup_steps: 2000
    lr_warmup_style: linear
    min_decay_lr: 5.0e-05
  optimizer_factory:
    adam_beta1: 0.9
    adam_beta2: 0.95
    adam_eps: 1.0e-08
    name: adamW

## ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ, 1๊ฐœ ๋…ธ๋“œ
parallelism:
  dp: 8  # 8๊ฐœ GPU์— ๊ฑธ์นœ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ
  tp: 1  # 1B ๊ทœ๋ชจ์—์„œ๋Š” ํ…์„œ ๋˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š” ์—†์Œ
  pp: 1

## ํ† ํฌ๋‚˜์ด์ €
tokenizer:
  tokenizer_max_length: 4096
  tokenizer_name_or_path: HuggingFaceTB/SmolLM3-3B

## ๋ฐฐ์น˜ ํฌ๊ธฐ, ์‹œํ€€์Šค ๊ธธ์ด ๋ฐ 30B ํ† ํฐ์— ๋Œ€ํ•œ ์ด ํ•™์Šต
tokens:
  batch_accumulation_per_replica: 16
  micro_batch_size: 3 # GBS (๊ธ€๋กœ๋ฒŒ ๋ฐฐ์น˜ ํฌ๊ธฐ)=dp * batch_acc* MBS * sequence=1.5M tokens
  sequence_length: 4096
  train_steps: 20000 # GBS * 20000 = 30B

 ...(์ƒ๋žต)

์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋‚ด์šฉ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ์„น์…˜๋“ค์„ ์ˆ˜์ •ํ•œ๋‹ค: ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ์œ„ํ•œ model ์„น์…˜, ์˜ตํ‹ฐ๋งˆ์ด์ € ๋ฐ ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์œ„ํ•œ optimizer ์„น์…˜, ๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์„ ์œ„ํ•œ data_stages ์„น์…˜.

โ˜๏ธํ•œ ๋ฒˆ์— ํ•˜๋‚˜๋งŒ ์ˆ˜์ •ํ•˜๊ธฐ

๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ์ œ๊ฑฐ ์‹คํ—˜๋‹น ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜๋งŒ ๋ณ€๊ฒฝํ•ด๋ผ. ์—ฌ๋Ÿฌ ๊ฐ€์ง€๋ฅผ ๋ณ€๊ฒฝํ•˜๊ณ  ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋ฉด, ๋ฌด์—‡์ด ์›์ธ์ธ์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค. ์ˆ˜์ • ์‚ฌํ•ญ๋“ค์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•œ ๋‹ค์Œ, ์„ฑ๊ณต์ ์ธ ๊ฒƒ๋“ค์„ ๊ฒฐํ•ฉํ•˜๊ณ  ์žฌํ‰๊ฐ€ํ•œ๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•  ๋•Œ, ์ผ๋ถ€ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, tied embedding ์—์„œ untied embedding ์œผ๋กœ ์ „ํ™˜ํ•˜๋ฉด ์ž„๋ฒ ๋”ฉ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋‘ ๋ฐฐ๊ฐ€ ๋˜๋Š” ๋ฐ˜๋ฉด, MHA์—์„œ GQA ๋˜๋Š” MQA๋กœ ๊ฐ€๋ฉด ์–ดํ…์…˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ƒ๋‹นํžˆ ๊ฐ์†Œํ•œ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ์ถ”์ ํ•˜๊ณ  ๋•Œ๋•Œ๋กœ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋Œ€๋žต ๋™์ผํ•˜๊ฒŒ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(์˜ˆ: ์€๋‹‰ ํฌ๊ธฐ ๋˜๋Š” ๋ ˆ์ด์–ด ์ˆ˜)๋ฅผ ์กฐ์ •ํ•ด์•ผ ํ•œ๋‹ค. ๋‹ค์Œ์€ ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฅธ ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ„๋‹จํ•œ ํ•จ์ˆ˜์ด๋‹ค:

from transformers import LlamaConfig, LlamaForCausalLM

def count_parameters(
    tie_embeddings=True,
    num_key_value_heads=4,
    num_attention_heads=32,
    hidden_size=2048,
    num_hidden_layers=16,
    intermediate_size=8192,
    vocab_size=128256,
    sequence_length=4096,
):
    config = LlamaConfig(
        hidden_size=hidden_size,
        num_hidden_layers=num_hidden_layers,
        num_attention_heads=num_attention_heads,
        num_key_value_heads=num_key_value_heads,
        intermediate_size=intermediate_size,
        vocab_size=vocab_size,
        max_position_embeddings=sequence_length,
        tie_word_embeddings=tie_embeddings,
    )
    model = LlamaForCausalLM(config)
    return f"{sum(p.numel() for p in model.parameters())/1e9:.2f}B"

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ Dense ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฒฝ์šฐ LLM ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋Š” ๋Œ€ํ™”ํ˜• ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Š” ์•„ํ‚คํ…์ฒ˜ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ฑฐ๋‚˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•œ ์„ค์ •์„ ํ•  ๋•Œ ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 2.27.04.png

๋ฌด์—‡์ด ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ: ํ‰๊ฐ€

์ œ๊ฑฐ ์‹คํ—˜์„ ์‹œ์ž‘ํ•˜๊ณ  ๋‚˜์„œ, ๋ฌด์—‡์ด ์ž‘๋™ํ•˜๋Š”์ง€ ์•„๋‹Œ์ง€ ์–ด๋–ป๊ฒŒ ์•Œ ์ˆ˜ ์žˆ์„๊นŒ?

๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์‚ฌ๋žŒ์ด๋ผ๋ฉด ๋ˆ„๊ตฌ๋‚˜ Loss ๋ฅผ ๋ณด๋Š” ๊ฒƒ์ด ์ฒซ ๋ฒˆ์งธ ๋ณธ๋Šฅ์ผ ์ˆ˜ ์žˆ๊ณ , ์‹ค์ œ๋กœ ๊ทธ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ Loss ๊ฐ€ ๊ฑฐ์นœ ๊ธ‰๋“ฑ์ด๋‚˜ ๋ถˆ์•ˆ์ •์„ฑ ์—†์ด ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ๋ณด๊ณ  ์‹ถ์–ด ํ•  ๊ฒƒ์ด๋‹ค. ๋งŽ์€ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์— ๋Œ€ํ•ด, loss ๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ๊ณผ ์ž˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ ์ถฉ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค (Y. Chen et al., 2025). ๊ทธ๋Ÿฌ๋‚˜ loss๋งŒ ๋ณด๋Š” ๊ฒƒ์€ ํ•ญ์ƒ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ์ง„ ์•Š๋‹ค. ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ ์‹คํ—˜์˜ ์˜ˆ๋ฅผ ๋“ค๋ฉด, ์œ„ํ‚คํ”ผ๋””์•„์—์„œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์›น ํŽ˜์ด์ง€์—์„œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋‚ฎ์€ loss๋ฅผ ๋ณด์—ฌ์ฃผ์ง€๋งŒ (๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๊ธฐ๊ฐ€ ๋” ์‰ฝ๊ธฐ ๋•Œ๋ฌธ์—), ๊ทธ๊ฒƒ์ด ๋” ์œ ๋Šฅํ•œ ๋ชจ๋ธ์„ ์–ป๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์‹คํ–‰ ๊ฐ„์— ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋ณ€๊ฒฝํ•˜๋ฉด, ํ…์ŠคํŠธ๊ฐ€ ๋‹ค๋ฅด๊ฒŒ ๋ถ„ํ• ๋˜๊ธฐ ๋•Œ๋ฌธ์— loss ๋ฅผ ์ง์ ‘ ๋น„๊ตํ•  ์ˆ˜ ์—†๋‹ค. ์ผ๋ถ€ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์€ ๋˜ํ•œ ์ถ”๋ก  ๋ฐ ์ˆ˜ํ•™๊ณผ ๊ฐ™์€ ํŠน์ • ๊ธฐ๋Šฅ์„ ํŠน๋ณ„ํžˆ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ  ํ‰๊ท  loss ์—์„œ๋Š” ๋ณด์ด์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋ชจ๋ธ์€ ์‚ฌ์ „ ํ•™์Šต loss๊ฐ€ ์ˆ˜๋ ด๋œ ํ›„์—๋„ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ๊ณ„์† ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋‹ค (Liu et al., 2022).

์šฐ๋ฆฌ๋Š” ์ „์ฒด ๊ทธ๋ฆผ์„ ๋ณด๊ณ  ์ด๋Ÿฌํ•œ ๋ฏธ๋ฌ˜ํ•œ ํšจ๊ณผ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋” ์„ธ๋ถ„ํ™”๋œ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์ž์—ฐ์Šค๋Ÿฌ์šด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ง€์‹, ์ดํ•ด, ์ถ”๋ก  ๋ฐ ์šฐ๋ฆฌ์—๊ฒŒ ์ค‘์š”ํ•œ ๊ธฐํƒ€ ๋„๋ฉ”์ธ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ์ œ๊ฑฐ ์‹คํ—˜์˜ ๊ฒฝ์šฐ, ์ข‹์€ ์ดˆ๊ธฐ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ž‘์—…์— ์ง‘์ค‘ํ•˜๊ณ  ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๋ฒค์น˜๋งˆํฌ๋Š” ํ”ผํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. FineTasks ๋ฐ FineWeb2์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€ ์ž‘์—…์€ ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ์›์น™์œผ๋กœ ์ •์˜๋œ๋‹ค:

์ž‘์—…์˜ ํ’ˆ์งˆ์€ ๋˜ํ•œ ์ž‘์—… ๊ณต์‹ํ™” (Task formulation, ๋ชจ๋ธ์—๊ฒŒ ์งˆ๋ฌธํ•˜๋Š” ๋ฐฉ์‹)์™€ ๋ฉ”ํŠธ๋ฆญ ์„ ํƒ (๋‹ต๋ณ€ ์ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹)์—๋„ ์˜์กดํ•œ๋‹ค.

์„ธ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ ์ž‘์—… ๊ณต์‹ํ™”๋Š”ย ๊ฐ๊ด€์‹ ํ˜•์‹(Multiple Choice Format, MCF),ย ํด๋กœ์ฆˆ ํ˜•์‹(Cloze Formulation, CF), ๊ทธ๋ฆฌ๊ณ  ์ž์œ  ํ˜•์‹ ์ƒ์„ฑ(Freeform Generation, FG)์ด๋‹ค. ๊ฐ๊ด€์‹ ํ˜•์‹์€ ๋ชจ๋ธ์ด ํ”„๋กฌํ”„ํŠธ์— ๋ช…์‹œ์ ์œผ๋กœ ์ œ์‹œ๋˜๊ณ  A/B/C/D๊ฐ€ ์ ‘๋‘์‚ฌ๋กœ ๋ถ™์€ ์—ฌ๋Ÿฌ ์„ ํƒ ์‚ฌํ•ญ ์ค‘์—์„œ ์˜ต์…˜์„ ์„ ํƒํ•˜๋„๋ก ์š”๊ตฌํ•œ๋‹ค (์˜ˆ๋ฅผ ๋“ค์–ด, MMLU์—์„œ ์ˆ˜ํ–‰๋˜๋Š” ๋ฐฉ์‹). ํด๋กœ์ฆˆ ํ˜•์‹์—์„œ๋Š”, ํ”„๋กฌํ”„ํŠธ์—์„œ ์ œ๊ณตํ•˜์ง€ ์•Š๊ณ  ์–ด๋–ค ์„ ํƒ์ง€๊ฐ€ ๋” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€์ง€ ๋ณด๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์„ ํƒ์ง€๋“ค์˜ ๊ฐ€๋Šฅ์„ฑ(likelihood)์„ ๋น„๊ตํ•œ๋‹ค. FG์—์„œ๋Š”, ์ฃผ์–ด์ง„ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ๊ทธ๋ฆฌ๋”” ์ƒ์„ฑ์˜ ์ •ํ™•๋„๋ฅผ ๋ณธ๋‹ค. FG๋Š” ๋ชจ๋ธ์— ๋งŽ์€ ์ž ์žฌ ์ง€์‹์„ ์š”๊ตฌํ•˜๋ฉฐ, ์ „์ฒด ํ•™์Šต ์ „์˜ ์งง์€ ์‚ฌ์ „ ํ•™์Šต ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์‹ค์ œ๋กœ ์œ ์šฉํ•˜๊ธฐ์—๋Š” ๋ณดํ†ต ๋„ˆ๋ฌด ์–ด๋ ค์šด ์ž‘์—…์ด๋‹ค. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ์ž‘์€ ๊ทœ๋ชจ์˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•  ๋•Œ ๊ฐ๊ด€์‹ ํ˜•์‹์— ์ง‘์ค‘ํ•ด์•ผ ํ•œ๋‹ค (MCF ๋˜๋Š” CF).

๐Ÿ“์ฃผ์˜ ์‚ฌํ•ญ

post-train ๋œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์œ ์šฉํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— FG๊ฐ€ ์ฃผ์š” ๊ณต์‹ํ™”๊ฐ€ ๋œ๋‹ค. ์šฐ๋ฆฌ๋Š” post-training ์ฑ•ํ„ฐ์—์„œ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค.

๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๋“ค์€ ๋ชจ๋ธ์€ ํ•™์Šต ์ดˆ๊ธฐ์— MCF์— ์–ด๋ ค์›€์„ ๊ฒช์œผ๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ํ•™์Šต ํ›„์—์•ผ ์ด ๊ธฐ์ˆ ์„ ๋ฐฐ์šฐ๋ฏ€๋กœ, CF๊ฐ€ ์ดˆ๊ธฐ ์‹ ํ˜ธ์— ๋” ๋‚ซ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค (Du et al., 2025; Gu et al., 2025; J. Li et al., 2025). ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ์ž‘์€ ์ œ๊ฑฐ ์‹คํ—˜์—๋Š” CF๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , MCF๋Š” ๋ชจ๋ธ์ด MCF์— ๋Œ€ํ•ด ์ถฉ๋ถ„ํžˆ ๋†’์€ ์‹ ํ˜ธ ๋Œ€ ๋…ธ์ด์ฆˆ ๋น„์œจ์„ ์–ป๊ธฐ ์œ„ํ•œ ์ž„๊ณ„๊ฐ’์„ ํ†ต๊ณผํ•œ ํ›„ ๋” ๋‚˜์€ ์ค‘๊ฐ„ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ ์ฃผ ์‹คํ–‰์— ํ†ตํ•ฉํ•œ๋‹ค. ๋˜ํ•œ, CF์™€ ๊ฐ™์€ ์‹œํ€€์Šค ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€์—์„œ ๋ชจ๋ธ์˜ ๋‹ต๋ณ€์— ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š”ย ์ •๋‹ต์ด ๋ฌธ์ž ์ˆ˜๋กœ ์ •๊ทœํ™”๋œ ๊ฐ€์žฅ ๋†’์€ ๋กœ๊ทธ ํ™•๋ฅ ์„ ๊ฐ€์ง€๋Š” ์งˆ๋ฌธ์˜ ๋น„์œจ์œผ๋กœ ์ •ํ™•๋„๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.(accuracy as the percentage of questions where the the correct answer has the highest log probability normalised by character count) ์ด ์ •๊ทœํ™”๋Š” ๋” ์งง์€ ๋‹ต๋ณ€์— ๋Œ€ํ•œ ํŽธํ–ฅ์„ ๋ฐฉ์ง€ํ•œ๋‹ค.

์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜ ํ‰๊ฐ€ ์Šค์œ„ํŠธ์—๋Š” FineWeb ์ œ๊ฑฐ ์‹คํ—˜์˜ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํฌํ•จ๋˜๋ฉฐ, ๋„ˆ๋ฌด ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๋‹ค๊ณ  ํŒ๋‹จํ•œ SIQA๋Š” ์ œ์™ธํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ธด ์ปจํ…์ŠคํŠธ ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด GSM8K ๋ฐ HumanEval๊ณผ ๊ฐ™์€ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ์™€ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ RULER๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ž‘์—…๋“ค์˜ ์ง‘ํ•ฉ์€ ์•„๋ž˜ ํ‘œ์— ํ‘œ์‹œ๋œ ๋Œ€๋กœ ๋‹ค์–‘ํ•œ ํ˜•์‹์— ๊ฑธ์ณ ์„ธ๊ณ„ ์ง€์‹, ์ถ”๋ก  ๋ฐ ์ƒ์‹์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์ผ๋ถ€ ์ถ”๊ฐ€ ๋…ธ์ด์ฆˆ๋ฅผ ๊ฐ์ˆ˜ํ•˜๊ณ  ํ‰๊ฐ€ ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ 1,000๊ฐœ์˜ ์งˆ๋ฌธ๋งŒ ํ‰๊ฐ€ํ–ˆ๋‹ค (GSM8K, HumanEval ๋ฐ RULER ์ œ์™ธ, ์ด๋Š” 3B SmolLM3 ์ œ๊ฑฐ ์‹คํ—˜์—๋Š” ์ „์ฒด๋ฅผ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ ์•„๋ž˜์˜ 1B ์‹คํ—˜์—์„œ๋Š” ์ƒ๋žตํ•œ๋‹ค). ๋˜ํ•œ ์œ„์—์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ ๋ชจ๋“  ๊ฐ๊ด€์‹ ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•ด ํด๋กœ์ฆˆ ํ˜•์‹(CF) ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋‹ค๊ตญ์–ด ์ œ๊ฑฐ ์‹คํ—˜ ๋ฐ ์‹ค์ œ ํ•™์Šต์˜ ๊ฒฝ์šฐ, ๋‹ค๊ตญ์–ด์„ฑ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ๋” ๋งŽ์€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉฐ, ์ด๋Š” ๋‚˜์ค‘์— ์ž์„ธํžˆ ์„ค๋ช…ํ•˜๊ฒ ๋‹ค. ์ด๋Ÿฌํ•œ ํ‰๊ฐ€๋Š” LightEval์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹คํ–‰๋˜๋ฉฐ, ์•„๋ž˜ ํ‘œ๋Š” ๊ฐ ๋ฒค์น˜๋งˆํฌ์˜ ์ฃผ์š” ํŠน์ง•์„ ์š”์•ฝํ•œ๋‹ค:

๋ฒค์น˜๋งˆํฌ๋„๋ฉ”์ธ์ž‘์—… ์œ ํ˜•์งˆ๋ฌธ ์ˆ˜ํ…Œ์ŠคํŠธํ•˜๋Š” ๋‚ด์šฉ
MMLU์ง€์‹๊ฐ๊ด€์‹14k57๊ฐœ ์ฃผ์ œ์— ๊ฑธ์นœ ๊ด‘๋ฒ”์œ„ํ•œ ํ•™์ˆ  ์ง€์‹
ARC๊ณผํ•™ ๋ฐ ์ถ”๋ก ๊ฐ๊ด€์‹7k์ดˆ๋“ฑํ•™๊ต ์ˆ˜์ค€์˜ ๊ณผํ•™ ์ถ”๋ก 
HellaSwag์ƒ์‹ ์ถ”๋ก ๊ฐ๊ด€์‹10k์ผ์ƒ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ƒ์‹ ์ถ”๋ก  (์ด์•ผ๊ธฐ ์™„์„ฑ)
WinoGrande์ƒ์‹ ์ถ”๋ก ์ด์ง„ ์„ ํƒ1.7k์„ธ๊ณ„ ์ง€์‹์ด ํ•„์š”ํ•œ ๋Œ€๋ช…์‚ฌ ํ•ด๊ฒฐ
CommonSenseQA์ƒ์‹ ์ถ”๋ก ๊ฐ๊ด€์‹1.1k์ผ์ƒ ๊ฐœ๋…์— ๋Œ€ํ•œ ์ƒ์‹ ์ถ”๋ก 
OpenBookQA๊ณผํ•™๊ฐ๊ด€์‹500์ถ”๋ก ์„ ํฌํ•จํ•œ ๊ธฐ์ดˆ ๊ณผํ•™ ์‚ฌ์‹ค
PIQA๋ฌผ๋ฆฌ์  ์ƒ์‹์ด์ง„ ์„ ํƒ1.8k์ผ์ƒ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ๋ฌผ๋ฆฌ์  ์ƒ์‹
GSM8K์ˆ˜ํ•™์ž์œ  ํ˜•์‹ ์ƒ์„ฑ1.3k์ดˆ๋“ฑํ•™๊ต ์ˆ˜ํ•™ ๋‹จ์–ด ๋ฌธ์ œ
HumanEval์ฝ”๋“œ์ž์œ  ํ˜•์‹ ์ƒ์„ฑ164๋…์ŠคํŠธ๋ง(docstring)์œผ๋กœ๋ถ€ํ„ฐ ํŒŒ์ด์ฌ ํ•จ์ˆ˜ ํ•ฉ์„ฑ

์ด๋Ÿฌํ•œ ํ‰๊ฐ€๋“ค์ด ์‹ค์ œ๋กœ ๋ฌด์—‡์„ ํ…Œ์ŠคํŠธํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ฐ๊ฐ์„ ์–ป๊ธฐ ์œ„ํ•ด ๊ฐ๊ฐ์˜ ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ ์งˆ๋ฌธ์„ ์‚ดํŽด๋ณด์ž:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 2.37.24.png

์œ„์˜ ์˜ˆ์‹œ๋“ค์„ ํ›‘์–ด๋ณด๋ฉด์„œ ๊ฐ ๋ฒค์น˜๋งˆํฌ์˜ ์งˆ๋ฌธ ์œ ํ˜•์„ ๋ณด์ž. MMLU์™€ ARC๊ฐ€ ๊ฐ๊ด€์‹์œผ๋กœ ์‚ฌ์‹ค์  ์ง€์‹์„ ํ…Œ์ŠคํŠธํ•˜๊ณ , GSM8K๊ฐ€ ์ˆ˜ํ•™ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ˆ˜์น˜์  ๋‹ต๋ณ€ ๊ณ„์‚ฐ์„ ์š”๊ตฌํ•˜๋ฉฐ, HumanEval์ด ์™„์ „ํ•œ ํŒŒ์ด์ฌ ์ฝ”๋“œ ์ƒ์„ฑ์„ ์š”๊ตฌํ•œ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•ด๋ผ. ์ด๋Ÿฌํ•œ ๋‹ค์–‘์„ฑ์€ ์ œ๊ฑฐ ์‹คํ—˜ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ชจ๋ธ ๋Šฅ๋ ฅ์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•œ๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์€ ๋ฌด์—‡์ธ๊ฐ€?

์•„ํ‚คํ…์ฒ˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์ž‘์—…์—์„œ ์ดˆ๊ธฐ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ณ ์ •๋œ ํ˜ผํ•ฉ์œผ๋กœ ํ•™์Šตํ•ด๋ณธ๋‹ค. ์šฐ๋ฆฌ๋Š” ์˜์–ด(FineWeb-Edu), ์ˆ˜ํ•™(FineMath), ๊ทธ๋ฆฌ๊ณ  ์ฝ”๋“œ(Stack-Edu-Python)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์•„ํ‚คํ…์ฒ˜ ๋ฐœ๊ฒฌ์€ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋„๋ฉ”์ธ์—๋„ ์ž˜ ์ถ”์ •๋˜์–ด์•ผ ํ•˜๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋ฐ˜๋Œ€ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค: ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ณ ์ •ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์†Œ์Šค๊ฐ€ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์ดํ•ดํ•œ๋‹ค.

๊ฒฌ๊ณ ํ•œ ์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •์˜ ์ง„์ •ํ•œ ๊ฐ€์น˜๋Š” ๋‹จ์ˆœํžˆ ์ข‹์€ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด์„ ๋‹ค. ์ฃผ ํ•™์Šต ์‹คํ–‰ ์ค‘์— ํ•„์—ฐ์ ์œผ๋กœ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ๋•Œ (๊ทธ๋ฆฌ๊ณ  ์•„๋ฌด๋ฆฌ ์ค€๋น„ํ•ด๋„ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฒƒ์ด๋‹ค), ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋‚ด๋ฆฐ ๋ชจ๋“  ๊ฒฐ์ •์— ๋Œ€ํ•ด ํ™•์‹ ํ•˜๊ณ , ์ œ๋Œ€๋กœ ํ…Œ์ŠคํŠธ๋˜์ง€ ์•Š์•˜๊ณ  ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋น ๋ฅด๊ฒŒ ์‹๋ณ„ํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ค€๋น„๋Š” ๋””๋ฒ„๊น… ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•˜๊ณ  ๋ฏธ๋ž˜์˜ ์ •์‹  ๊ฑด๊ฐ•์„ ๋ณด์žฅํ•œ๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜ ๋น„์šฉ ์ถ”์ •

์ œ๊ฑฐ ์‹คํ—˜์€ ๋†€๋ž์ง€๋งŒ GPU ์‹œ๊ฐ„์„ ์š”๊ตฌํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹คํ—˜์˜ ๋น„์šฉ์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” SmolLM3 ์‚ฌ์ „ ํ•™์Šต์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ์ „์ฒด ์ปดํ“จํŒ… ๋ถ„์„์„ ๋ณด์—ฌ์ค€๋‹ค: ์ฃผ ์‹คํ–‰ (๊ฐ€๋” ๋ฐœ์ƒํ•˜๋Š” ๋‹ค์šดํƒ€์ž„์„ ๊ณ ๋ ค), ํ•™์Šต ์ „ํ›„์˜ ์ œ๊ฑฐ ์‹คํ—˜, ๊ทธ๋ฆฌ๊ณ  ์žฌ์‹œ์ž‘์„ ๊ฐ•์ œํ•˜๊ณ  ์ผ๋ถ€ ๋””๋ฒ„๊น…์„ ์ดˆ๋ž˜ํ•œ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ํ™•์žฅ ๋ฌธ์ œ์— ์†Œ๋น„๋œ ์ปดํ“จํŒ… ์ž์› (์ด๋Š” ๋‚˜์ค‘์— ์ž์„ธํžˆ ์„ค๋ช…ํ•  ๊ฒƒ์ด๋‹ค).

๋‹จ๊ณ„GPU ์ˆ˜์ผ ์ˆ˜GPU-์‹œ๊ฐ„
์ฃผ ์‚ฌ์ „ ํ•™์Šต ์‹คํ–‰38430276,480
์ œ๊ฑฐ ์‹คํ—˜ (์‚ฌ์ „ ํ•™์Šต)1921569,120
์ œ๊ฑฐ ์‹คํ—˜ (์ค‘๊ฐ„ ํ•™์Šต)1921046,080
ํ•™์Šต ์žฌ์„ค์ • ๋ฐ ๋””๋ฒ„๊น…384/1923/446,080
์ด ๋น„์šฉ--437,760

์ด ์ˆ˜์น˜๋Š” ์ค‘์š”ํ•œ ์‚ฌ์‹ค์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค:ย ์ œ๊ฑฐ ์‹คํ—˜ ๋ฐ ๋””๋ฒ„๊น…์€ ์ด 161,280 GPU ์‹œ๊ฐ„์„ ์†Œ๋น„ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์šฐ๋ฆฌ์˜ ์ฃผ ํ•™์Šต ์‹คํ–‰ ๋น„์šฉ (276,480 GPU ์‹œ๊ฐ„)์˜ ์ ˆ๋ฐ˜ ์ด์ƒ์ด๋‹ค.ย ์šฐ๋ฆฌ๋Š” SmolLM3 ๊ฐœ๋ฐœ ์ „๋ฐ˜์— ๊ฑธ์ณ ์ด 100๊ฐœ ์ด์ƒ์˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค: ์‚ฌ์ „ ํ•™์Šต ์ œ๊ฑฐ ์‹คํ—˜์— 20์ผ, ์ค‘๊ฐ„ ํ•™์Šต ์ œ๊ฑฐ ์‹คํ—˜์— 10์ผ, ๊ทธ๋ฆฌ๊ณ  ์žฌ์‹œ์ž‘์„ ๊ฐ•์ œํ•˜๊ณ  ์ผ๋ถ€ ๋””๋ฒ„๊น…์„ ์ดˆ๋ž˜ํ•œ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ํ•™์Šต ๋ฌธ์ œ์—์„œ ํšŒ๋ณตํ•˜๋Š” ๋ฐ 7์ผ์„ ๋ณด๋ƒˆ๋‹ค (์ด๋Š” ๋‚˜์ค‘์— ์ž์„ธํžˆ ์„ค๋ช…ํ•  ๊ฒƒ์ด๋‹ค).

์ด๊ฒƒ์€ ์™œ ์ œ๊ฑฐ ์‹คํ—˜ ๋น„์šฉ์ด ์—ฌ๋Ÿฌ๋ถ„์˜ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์— ํฌํ•จ๋˜์–ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๊ฐ•์กฐํ•œ๋‹ค: ํ•™์Šต ๋น„์šฉ, ์ œ๊ฑฐ ์‹คํ—˜ ๋น„์šฉ, ๊ทธ๋ฆฌ๊ณ  ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋ฒ„ํผ๋ฅผ ๊ณ„ํšํ•ด์•ผ ํ•œ๋‹ค. SOTA ์„ฑ๋Šฅ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ฑฐ๋‚˜, ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์„ ๊ตฌํ˜„ํ•˜๊ฑฐ๋‚˜, ์ด๋ฏธ ๊ฒ€์ฆ๋œ ๋ ˆ์‹œํ”ผ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ, ์ œ๊ฑฐ ์‹คํ—˜์€ ์‚ฌ์†Œํ•œ ์‹คํ—˜์ด ์•„๋‹ˆ๋ผ ์ƒ๋‹นํ•œ ๋น„์šฉ ์„ผํ„ฐ๊ฐ€ ๋œ๋‹ค.

๋‹ค์Œ ์„น์…˜์œผ๋กœ ๋„˜์–ด๊ฐ€๊ธฐ ์ „์—, ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๋Š” ๋ชจ๋“  ์‚ฌ๋žŒ์ด ๋”ฐ๋ผ์•ผ ํ•  ๋ช‡ ๊ฐ€์ง€ ๊ธฐ๋ณธ ๊ทœ์น™์„ ํ™•๋ฆฝํ•˜๊ฒ ๋‹ค.

์ฐธ์—ฌ ๊ทœ์น™

์š”์•ฝ:ย ํŽธ์ง‘์ฆ์„ ๊ฐ€์ ธ๋ผ(Be paranoid).

ํ‰๊ฐ€ ์Šค์œ„ํŠธ(Evaluation suite)๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค.ย ์–ด๋–ค ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์ „์—, ์—ฌ๋Ÿฌ๋ถ„์ด ๋น„๊ตํ•  ๋ชจ๋ธ๋“ค์˜ ๊ณต๊ฐœ๋œ ๊ฒฐ๊ณผ๋ฅผ ์—ฌ๋Ÿฌ๋ถ„์˜ ํ‰๊ฐ€ ์Šค์œ„ํŠธ๊ฐ€ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•œ๋‹ค. ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ƒ์„ฑ์ ์ธ ์„ฑ๊ฒฉ(์˜ˆ: GSM8k)์„ ๊ฐ€์ง„๋‹ค๋ฉด, ๋”์šฑ ํŽธ์ง‘์ฆ์ ์œผ๋กœ ๋ช‡ ๊ฐ€์ง€ ์ƒ˜ํ”Œ์„ ์ˆ˜๋™์œผ๋กœ ๊ฒ€์‚ฌํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ˜•์‹ํ™”๋˜์—ˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋“  ์‚ฌํ›„ ๊ณผ์ •์ด ์ •ํ™•ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š”์ง€ ํ™•์ธํ•œ๋‹ค. ํ‰๊ฐ€๋Š” ๋ชจ๋“  ๋‹จ์ผ ๊ฒฐ์ •์„ ์•ˆ๋‚ดํ•  ๊ฒƒ์ด๋ฏ€๋กœ, ์ด ๋‹จ๊ณ„๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ํ”„๋กœ์ ํŠธ ์„ฑ๊ณต์— ์ค‘์š”ํ•˜๋‹ค!

๋ชจ๋“  ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์•„๋ฌด๋ฆฌ ์ž‘๋”๋ผ๋„ ์ƒ๊ด€์—†๋‹ค.ย ๊ฒ‰๋ณด๊ธฐ์—๋Š” ๋ฌดํ•ดํ•ด ๋ณด์ด๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์—…๊ทธ๋ ˆ์ด๋“œ๋‚˜ โ€œ๋‘ ์ค„๋งŒ ๋ณ€๊ฒฝํ•œโ€ ์ปค๋ฐ‹์˜ ์˜ํ–ฅ์„ ๊ณผ์†Œํ‰๊ฐ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋Ÿฌํ•œ ์ž‘์€ ๋ณ€๊ฒฝ ์‚ฌํ•ญ๋“ค์€ ์—ฌ๋Ÿฌ๋ถ„์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ค์—ผ์‹œํ‚ฌ ๋ฏธ๋ฌ˜ํ•œ ๋ฒ„๊ทธ๋‚˜ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ๋‹ค. ํšŒ๊ท€๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ๋ถ„์—๊ฒŒ ์ค‘์š”ํ•œ ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ํ…Œ์ŠคํŠธ ์Šค์œ„ํŠธ๋ฅผ ๊ฐ€์ง„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

(์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ๋ฒ„๊ทธ๊ฐ€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ตœ์‹  ๋ฒ„์ „์œผ๋กœ ์—…๊ทธ๋ ˆ์ด๋“œํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ์•„๋ฆ„๋‹ค์šด ์˜ˆ์‹œ์™€ ์ผ๋ถ€ ํƒ์ • ๋””๋ฒ„๊น…์€ Elana Simon์˜ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ https://elanapearl.github.io/blog/2025/the-bug-that-taught-me-pytorch/?t=1 ์„ ์ฐธ์กฐํ•ด๋ผ.)

ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ๋ณ€๊ฒฝํ•œ๋‹ค.ย ์‹คํ—˜ ๊ฐ„์— ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์„ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€ํ•œ๋‹ค. ์ผ๋ถ€ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์€ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ฐฉ์‹์œผ๋กœ ์„œ๋กœ ์ƒํ˜ธ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋จผ์ € ๊ฐ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์˜ ๊ฐœ๋ณ„ ๊ธฐ์—ฌ๋„๋ฅผ ํ‰๊ฐ€ํ•œ ๋‹ค์Œ, ์ „์ฒด ์˜ํ–ฅ์„ ๋ณด๊ธฐ ์œ„ํ•ด ๊ทธ๊ฒƒ๋“ค์„ ๊ฒฐํ•ฉํ•ด ๋ณด๋ ค ํ•œ๋‹ค.

์ถฉ๋ถ„ํ•œ ํ† ํฐ์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์ถฉ๋ถ„ํ•œ ํ‰๊ฐ€๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.ย ์•ž์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์šฐ๋ฆฌ๋Š” ํ‰๊ฐ€ ์Šค์œ„ํŠธ์—์„œ ์ข‹์€ ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ ํ™•๋ณดํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์‹ ํ˜ธ๋ฅผ ์–ป์„ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์˜ค๋ž˜ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ง€๋ฆ„๊ธธ์„ ํƒํ•˜๋Š” ๊ฒƒ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๊ฒฐ๊ณผ์™€ ๋‚˜์œ ๊ฒฐ์ •์œผ๋กœ ์ด์–ด์งˆ ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ๊ทœ์น™๋“ค์„ ๋”ฐ๋ฅด๋Š” ๊ฒƒ์ด ์ง€๋‚˜์น˜๊ฒŒ ์กฐ์‹ฌ์Šค๋Ÿฝ๊ฒŒ ๋А๊ปด์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋Œ€์•ˆ์€ ๋ฉฐ์น  ์ „์— ์ผ์–ด๋‚œ ๋ฌด๊ด€ํ•œ ์ข…์†์„ฑ ์—…๋ฐ์ดํŠธ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•œ ๊ฒƒ์œผ๋กœ ๋ฐํ˜€์ง€๋Š” ๋ถˆ๊ฐ€์‚ฌ์˜ํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์„ ๋ณด๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ํ™ฉ๊ธˆ ์›์น™: ์ผ๋‹จ ์ข‹์€ ์„ค์ •์„ ๊ฐ–์ถ”์—ˆ๋‹ค๋ฉด, ํ…Œ์ŠคํŠธ๋˜์ง€ ์•Š์€ ์ฑ„๋กœ ๋„˜์–ด๊ฐ€์„œ๋Š” ์•ˆ ๋˜๋Š” ๋ณ€๊ฒฝ ์‚ฌํ•ญ์€ ์—†๋‹ค!

Designing the model architecture

์ด์ œ ์‹คํ—˜ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋งˆ๋ จ๋˜์—ˆ์œผ๋ฏ€๋กœ, ๋ชจ๋ธ์„ ์ •์˜ํ•  ์ค‘์š”ํ•œ ๊ฒฐ์ •๋“ค์„ ๋‚ด๋ฆด ์‹œ๊ฐ„์ด๋‹ค. ๋ชจ๋ธ ํฌ๊ธฐ๋ถ€ํ„ฐ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ํ† ํฌ๋‚˜์ด์ € ์„ ํƒ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ์šฐ๋ฆฌ๊ฐ€ ๋‚ด๋ฆฌ๋Š” ๋ชจ๋“  ์„ ํƒ์€ ๋ชจ๋ธ ํ•™์Šต ๋ฐ ์‚ฌ์šฉ์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ œ์•ฝ๊ณผ ๊ธฐํšŒ๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค.

ํ•™์Šต ๋‚˜์นจ๋ฐ˜์„ ๊ธฐ์–ตํ•ด๋ผ: ๊ธฐ์ˆ ์  ์„ ํƒ์„ ํ•˜๊ธฐ ์ „์—,ย ์™œ์™€ย ๋ฌด์—‡์— ๋Œ€ํ•œ ๋ช…ํ™•์„ฑ์ด ํ•„์š”ํ•˜๋‹ค. ์™œ ์ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ณ , ๊ทธ๊ฒƒ์€ ์–ด๋–ป๊ฒŒ ๋ณด์—ฌ์•ผ ํ•˜๋Š”๊ฐ€?

์ด๊ฒƒ์€ ์ž๋ช…ํ•˜๊ฒŒ ๋“ค๋ฆฌ๊ฒ ์ง€๋งŒ, ์ด์ „์— ๋…ผ์˜ํ–ˆ๋˜ ํ•™์Šต ๋‚˜์นจ๋ฐ˜์—์„œ ์„ค๋ช…ํ–ˆ๋“ฏ์ด, ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•œ ์‹คํ—˜์˜ ๋ฌดํ•œํ•œ ๊ณต๊ฐ„์—์„œ ๊ธธ์„ ์žƒ์ง€ ์•Š์œผ๋ ค๋ฉด ์—ฌ๊ธฐ์„œ ์‹ ์ค‘ํ•˜๊ฒŒ ๋Œ€ํ•ด์•ผ ์ข‹์€ ๊ฒฐ์ •์„ ํ˜•์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์˜์–ด์—์„œ SOTA ๋ชจ๋ธ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š”๊ฐ€? ๊ธด ์ปจํ…์ŠคํŠธ๊ฐ€ ์šฐ์„ ์ˆœ์œ„์ธ๊ฐ€? ์•„๋‹ˆ๋ฉด ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฒ€์ฆํ•˜๋ ค ํ•˜๋Š”๊ฐ€? ํ•™์Šต ๋ฃจํ”„๋Š” ์ด ๋ชจ๋“  ๊ฒฝ์šฐ์— ์œ ์‚ฌํ•˜๊ฒŒ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ์‹คํ–‰ํ•˜๋Š” ์‹คํ—˜๊ณผ ์šฐ๋ฆฌ๊ฐ€ ์ˆ˜์šฉํ•˜๋Š” ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” ๋‹ค๋ฅผ ๊ฒƒ์ด๋‹ค. ์ด ์งˆ๋ฌธ์— ์ผ์ฐ ๋‹ตํ•˜๋Š” ๊ฒƒ์€ ๋ฐ์ดํ„ฐ ์ž‘์—…๊ณผ ์•„ํ‚คํ…์ฒ˜ ์ž‘์—… ์‚ฌ์ด์— ์šฐ๋ฆฌ์˜ ์‹œ๊ฐ„์„ ์–ด๋–ป๊ฒŒ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ฐฐ๋ถ„ํ• ์ง€, ๊ทธ๋ฆฌ๊ณ  ์‹คํ–‰์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ๊ฐ๊ฐ์—์„œ ์–ผ๋งˆ๋‚˜ ํ˜์‹ ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

๋”ฐ๋ผ์„œ, ๋ชจ๋ฒ”์„ ๋ณด์—ฌ SmolLM3์˜ ์„ค๊ณ„๋ฅผ ์•ˆ๋‚ดํ•œ ๋ชฉํ‘œ๋“ค์„ ์‚ดํŽด๋ณธ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๋‹ค๊ตญ์–ด ์„ฑ๋Šฅ, ๊ฒฌ๊ณ ํ•œ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ  ๊ฐ•๋ ฅํ•œ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๋ฅผ ๊ฐ–์ถ˜ ์˜จ๋””๋ฐ”์ด์Šค ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ์›ํ–ˆ๋‹ค. ์ด์ „์— ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๋ฅผย 3B ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ Dense ๋ชจ๋ธ๋กœ ์ด๋Œ์—ˆ๋‹ค: ๊ฐ•๋ ฅํ•œ ๋Šฅ๋ ฅ์„ ์œ„ํ•ด ์ถฉ๋ถ„ํžˆ ํฌ์ง€๋งŒ, ํœด๋Œ€ํฐ์— ํŽธ์•ˆํ•˜๊ฒŒ ๋งž์„ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์ž‘๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค์˜ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ๊ณผ ์šฐ๋ฆฌ์˜ ํ”„๋กœ์ ํŠธ ํƒ€์ž„๋ผ์ธ(์•ฝ 3๊ฐœ์›”)์„ ๊ณ ๋ คํ•˜์—ฌ MoE ๋˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ ๋Œ€์‹  ๋ฐ€์ง‘ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์„ ํƒํ–ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋” ์ž‘์€ ๊ทœ๋ชจ(1.7B ๋งค๊ฐœ๋ณ€์ˆ˜)์˜ ์˜์–ด์šฉ SmolLM2์—์„œ ์ž‘๋™ํ•˜๋Š” ๋ ˆ์‹œํ”ผ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์ง€๋งŒ, ๊ทœ๋ชจ๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์€ ๋ชจ๋“  ๊ฒƒ์„ ์žฌ๊ฒ€์ฆํ•˜๊ณ  ๋‹ค๊ตญ์–ด์„ฑ ๋ฐ ํ™•์žฅ๋œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋„์ „ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ–ˆ๋‹ค. ์ด๋Š” ์ž˜ ์ •์˜๋œ ๋ชฉํ‘œ๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์ด ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์˜ˆ์‹œ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, SmolLM2์—์„œ๋Š” ์‚ฌ์ „ ํ•™์Šต์ด ๋๋‚  ๋ฌด๋ ต ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ํ™•์žฅํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์œผ๋ฏ€๋กœ, SmolLM3์—์„œ๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ NoPE ๋ฐ ๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น(intra-document masking)๊ณผ ๊ฐ™์€ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ํ•˜์—ฌ (๋‚˜์ค‘์— ์ฐธ์กฐ) ๊ทธ๊ฒƒ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์–ป์„ ๊ฐ€๋Šฅ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ๊ณ , ๊ทธ๊ฒƒ์€ ํšจ๊ณผ๊ฐ€ ์žˆ์—ˆ๋‹ค.

(SmolLM2๋Š” ์šฐ๋ฆฌ์˜ ์ด์ „ ์„ธ๋Œ€ ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ์ด์—ˆ์œผ๋ฉฐ, ์˜จ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ๋ฅผ ์œ„ํ•ด ์„ค๊ณ„๋œ 1์–ต 3500๋งŒ, 3์–ต 6์ฒœ๋งŒ, ๊ทธ๋ฆฌ๊ณ  17์–ต ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์„ธ ๊ฐ€์ง€ ๋ณ€ํ˜•์ด ์žˆ์—ˆ๋‹ค. ๊ทธ๊ฒƒ๋“ค์€ 8k ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๊ฐ€์ง„ ์˜์–ด ์ „์šฉ์ด์—ˆ๋‹ค.)

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๊ฐ€ ๋ช…ํ™•ํ•ด์ง€๋ฉด, ์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ๋“ค์„ ์‹คํ˜„ํ•  ๊ธฐ์ˆ ์  ๊ฒฐ์ •๋“ค์„ ๋‚ด๋ฆฌ๊ธฐ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ์ฑ•ํ„ฐ์—์„œ๋Š” ์•„ํ‚คํ…์ฒ˜, ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ฐ™์€ ์ด๋Ÿฌํ•œ ํ•ต์‹ฌ ๊ฒฐ์ •๋“ค์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ์ฒด๊ณ„์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค. ์ด๊ฒƒ์„ ์šฐ๋ฆฌ์˜ย ์ „๋žต์  ๊ณ„ํš ๋‹จ๊ณ„๋กœ ์ƒ๊ฐํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ ์‚ฌํ•ญ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํŒŒ์•…ํ•˜๋ฉด ์‹ค์ œ ํ•™์Šต ๋งˆ๋ผํ†ค ๋™์•ˆ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ์‹ค์ˆ˜๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ๋‹ค.

์•„ํ‚คํ…์ฒ˜ ์„ ํƒ

Qwen3, Gemma3, ๋˜๋Š” DeepSeek v3์™€ ๊ฐ™์€ ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์„ ๋ณด๋ฉด, ๊ทธ๋“ค์˜ ์ฐจ์ด์ ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ทธ๋“ค ๋ชจ๋‘๊ฐ€ 2017๋…„์— ๋„์ž…๋œ ๋™์ผํ•œ ๊ธฐ๋ฐ˜์ธ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ณต์œ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค (Vaswani et al., 2023). ์ˆ˜๋…„์— ๊ฑธ์ณ ๋ฐ”๋€ ๊ฒƒ์€ ๊ทผ๋ณธ์ ์ธ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ, ๊ทธ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์ด๋‹ค. ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ, ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(Mixture of Experts), ๋˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ตฌ์ถ•ํ•˜๋“ , ์—ฌ๋Ÿฌ๋ถ„์€ ์ด๋Ÿฌํ•œ ๋™์ผํ•œ ๋นŒ๋”ฉ ๋ธ”๋ก๋“ค์„ ๊ฐ€์ง€๊ณ  ์ž‘์—…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐœ์„  ์‚ฌํ•ญ๋“ค์€ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ถ”๊ตฌํ•˜๊ณ  ํŠน์ • ๋„์ „ ๊ณผ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ํŒ€๋“ค๋กœ๋ถ€ํ„ฐ ๋‚˜ํƒ€๋‚ฌ๋‹ค: ์ถ”๋ก  ์ค‘ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ, ๋Œ€๊ทœ๋ชจ์—์„œ์˜ ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ, ๋˜๋Š” ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ํ•„์š”์„ฑ์ด ๋ฐ”๋กœ ๊ทธ๊ฒƒ๋“ค์ด๋‹ค. Multi-Head Attention (MHA)์—์„œ Grouped Query Attention (GQA) (Ainslie et al., 2023)๊ณผ ๊ฐ™์€ ๋” ์ปดํ“จํŒ… ํšจ์œจ์ ์ธ ์–ดํ…์…˜ ๋ณ€ํ˜•์œผ๋กœ์˜ ์ „ํ™˜๊ณผ ๊ฐ™์€ ์ผ๋ถ€ ์ˆ˜์ • ์‚ฌํ•ญ์€ ์ด์ œ ๋„๋ฆฌ ์ฑ„ํƒ๋˜์—ˆ๋‹ค. ๋‹ค๋ฅธ ๊ฒƒ๋“ค, ์˜ˆ๋ฅผ ๋“ค์–ด ๋‹ค๋ฅธ Positional ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹๋“ค์€ ์—ฌ์ „ํžˆ ๋…ผ์˜ ์ค‘์ด๋‹ค. ๊ฒฐ๊ตญ, ์˜ค๋Š˜๋‚ ์˜ ์‹คํ—˜๋“ค์€ ๋‚ด์ผ์˜ ๊ธฐ์ค€์„ ์œผ๋กœ ๊ตฌ์ฒดํ™”๋  ๊ฒƒ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์˜ค๋Š˜๋‚  ํ˜„๋Œ€ LLM์€ ์‹ค์ œ๋กœ ๋ฌด์—‡์„ ์‚ฌ์šฉํ•˜๋Š”๊ฐ€? ์„ ๋„์ ์ธ ๋ชจ๋ธ๋“ค์ด ์ˆ˜๋ ดํ•œ ๋ชจ์Šต์„ ์‚ดํŽด๋ณด์ž. ๋ถˆํ–‰ํžˆ๋„, ๋ชจ๋“  ๋ชจ๋ธ์ด ๊ทธ๋“ค์˜ ํ•™์Šต ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๊ณต๊ฐœํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ, DeepSeek, OLMo, Kimi, ๊ทธ๋ฆฌ๊ณ  SmolLM๊ณผ ๊ฐ™์€ ํŒจ๋ฐ€๋ฆฌ๋กœ๋ถ€ํ„ฐ ํ˜„์žฌ์˜ ํ’๊ฒฝ์„ ์ถฉ๋ถ„ํžˆ ํˆฌ๋ช…ํ•˜๊ฒŒ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค:

๋ชจ๋ธ์•„ํ‚คํ…์ฒ˜๋งค๊ฐœ๋ณ€์ˆ˜ํ•™์Šต ํ† ํฐ์–ดํ…์…˜์ปจํ…์ŠคํŠธ ๊ธธ์ด (์ตœ์ข…)์œ„์น˜ ์ธ์ฝ”๋”ฉ์ •๋ฐ€๋„์ดˆ๊ธฐํ™” (std)์˜ตํ‹ฐ๋งˆ์ด์ €์ตœ๋Œ€ LRLR ์Šค์ผ€์ค„์›œ์—… ์Šคํ…๋ฐฐ์น˜ ํฌ๊ธฐ
DeepSeek LLM 7BDense7B2TGQA4KRoPEBF160.006AdamW4.2ร—10โˆ’44.2ร—10โˆ’4Multi-Step2K9.4M
DeepSeek LLM 67BDense67B2TGQA4KRoPEBF160.006AdamW3.2ร—10โˆ’43.2ร—10โˆ’4Multi-Step2K18.9M
DeepSeek V2MoE236B (21B active)8.1TMLA128KPartial RoPE-0.006AdamW2.4ร—10โˆ’42.4ร—10โˆ’4Multi-Step2K9.4Mโ†’37.7M (warmup 225B)
DeepSeek V3MoE671B (37B active)14.8TMLA129KPartial RoPEFP80.006AdamW2.2ร—10โˆ’42.2ร—10โˆ’4Multi-Step + Cosine2K12.6Mโ†’62.9M (warmup 469B)
MiniMax-01MoE + ํ•˜์ด๋ธŒ๋ฆฌ๋“œ456B (45.9 active)11.4TLinear attention + GQA4MPartial RoPE-Xavier init with deepnorm scalingAdamW2ร—10โˆ’42ร—10โˆ’4Multi-Step50016Mโ†’32Mโ†’64Mโ†’128M
Kimi K2MoE1T (32B active)15.5TMLA128KPartial RoPEBF16likely 0.006MuonClip2ร—10โˆ’42ร—10โˆ’4WSD50067M
OLMo 2 7BDense7B5TMHA4KRoPEBF160.02AdamW3ร—10โˆ’43ร—10โˆ’4Cosine2K4.2M
SmolLM3Dense3B11TGQA128KNoPEBF160.02AdamW2ร—10โˆ’42ร—10โˆ’4WSD2K2.3M

์•„์ง MLA, NoPE ๋˜๋Š” WSD์™€ ๊ฐ™์€ ์šฉ์–ด๋ฅผ ์ดํ•ดํ•˜์ง€ ๋ชปํ•ด๋„ ๊ฑฑ์ •ํ•˜์ง€ ์•Š์•„๋„ ์ข‹๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ์„น์…˜์—์„œ ์ถ”ํ›„ ๊ฐ๊ฐ์„ ์„ค๋ช…ํ•  ๊ฒƒ์ด๋‹ค. ์ง€๊ธˆ์€ ๋‹ค์–‘์„ฑ์ด ์–ด๋””์„œ ๋‚˜ํƒ€๋‚˜๋Š”์ง€์— ๋Œ€ํ•ด ์ฃผ๋ชฉํ•ด๋ผ: ๋‹ค๋ฅธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ (MHA, GQA, MLA), ์œ„์น˜ ์ธ์ฝ”๋”ฉ (RoPE, NoPE, partial RoPE), ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„ (Cosine, Multi-Step, WSD)์ด๋‹ค.

์ด ๊ธด ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ ๋ชฉ๋ก์„ ๋ณด๋ฉด ์–ด๋””์„œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์•ผ ํ• ์ง€ ํŒŒ์•…ํ•˜๊ธฐ๊ฐ€ ๋‹ค์†Œ ๋ฒ…์ฐจ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ์™€ ๊ฐ™์ด, ์šฐ๋ฆฌ๋Š” ํ•œ ๋‹จ๊ณ„์”ฉ ์ง„ํ–‰ํ•˜๋ฉฐ ํ•„์š”ํ•œ ๋ชจ๋“  ๋…ธํ•˜์šฐ๋ฅผ ์ ์ง„์ ์œผ๋กœ ๊ตฌ์ถ•ํ•  ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋จผ์ € ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜(๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ)์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ๊ฐ ์•„ํ‚คํ…์ฒ˜ ์ธก๋ฉด์„ ์ž์„ธํžˆ ์กฐ์‚ฌํ•  ๊ฒƒ์ด๋‹ค. ๋‚˜์ค‘์—, ์šฐ๋ฆฌ๋Š” MoE ๋ฐ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์— ๊นŠ์ด ๋›ฐ์–ด๋“ค์–ด ๊ทธ๊ฒƒ๋“ค์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹์€ ์„ ํƒ์ธ ๋•Œ๋ฅผ ๋…ผ์˜ํ•  ๊ฒƒ์ด๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์šฐ๋ฆฌ๋Š” ์ข…์ข… ๊ฐ„๊ณผ๋˜๊ณ  ์ €ํ‰๊ฐ€๋˜๋Š” ๊ตฌ์„ฑ ์š”์†Œ์ธ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ํƒ์ƒ‰ํ•œ๋‹ค. ๊ธฐ์กด ๊ฒƒ์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€ ์•„๋‹ˆ๋ฉด ์ž์ฒด์ ์œผ๋กœ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ์šฐ๋ฆฌ์˜ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์ข‹์€์ง€ ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š”๊ฐ€?

๐Ÿ“ย ์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •

์ด ์ฑ•ํ„ฐ์˜ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์—์„œ, ์šฐ๋ฆฌ๋Š” ์œ„์— ์„ค๋ช…๋œ ์„ค์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๋ถ€๋ถ„์˜ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ์ œ๊ฑฐ ์‹คํ—˜์„ ํ†ตํ•ด ๊ฒ€์ฆํ•  ๊ฒƒ์ด๋‹ค: FineWeb-Edu, FineMath, ๊ทธ๋ฆฌ๊ณ  Python-Edu์˜ ํ˜ผํ•ฉ์œผ๋กœ๋ถ€ํ„ฐ 45B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ ์šฐ๋ฆฌ์˜ 1B baseline ๋ชจ๋ธ (Llama3.2 1B ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋”ฐ๋ฆ„)์„ ๊ธฐ๋ฐ˜์œผ๋กœ. ๊ฐ ์‹คํ—˜์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ ์ˆ˜์ • ์‚ฌํ•ญ์˜ ์˜ํ–ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ์†์‹ค ๊ณก์„ ๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€ ์ ์ˆ˜๋ฅผ ๋ชจ๋‘ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค. ๋ชจ๋“  ์‹คํ–‰์„ ์œ„ํ•œ ์„ค์ •์€ HuggingFaceTB/training-guide-nanotron-configs์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

์ด์ œ ๋ชจ๋“  LLM์˜ ํ•ต์‹ฌ์ธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด๋ณด์ž.

์–ดํ…์…˜

ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜ ์ฃผ๋ณ€์˜ ๊ฐ€์žฅ ํ™œ๋ฐœํ•œ ์—ฐ๊ตฌ ๋ถ„์•ผ ์ค‘ ํ•˜๋‚˜๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค. ํ”ผ๋“œํฌ์›Œ๋“œ ๋ ˆ์ด์–ด๋Š” ์‚ฌ์ „ ํ•™์Šต ์ค‘ ์ปดํ“จํŒ…์„ ์ง€๋ฐฐํ•˜๋Š” ๋ฐ˜๋ฉด, ์–ดํ…์…˜์€ ์ถ”๋ก  ์‹œ (ํŠนํžˆ ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ) ์ฃผ์š” ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋˜๋ฉฐ, ์—ฌ๊ธฐ์„œ ์ปดํ“จํŒ… ๋น„์šฉ์ด ๋†’์•„์ง€๊ณ  KV ์บ์‹œ๊ฐ€ ๋น ๋ฅด๊ฒŒ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์†Œ๋น„ํ•˜์—ฌ Throughput ์„ ๊ฐ์†Œ์‹œํ‚จ๋‹ค. ์ฃผ์š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๋“ค์ด ๋Šฅ๋ ฅ๊ณผ ์†๋„๋ฅผ ์–ด๋–ป๊ฒŒ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ฐ„๋žตํ•œ ๋‘˜๋Ÿฌ๋ณด๊ธฐ๋ฅผ ํ•ด๋ณด์ž.

๋‚ด ์–ดํ…์…˜์„ ์œ„ํ•œ ํ—ค๋“œ ์ˆ˜๋Š” ๋ช‡ ๊ฐœ์ธ๊ฐ€?

(Jay Alamar์˜ ์œ ๋ช…ํ•œ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ https://jalammar.github.io/illustrated-transformer/์„ ํ™•์ธํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ๋ณต์Šตํ•ด๋ผ!)

**Multi-head attention (MHA)**๋Š” ์˜ค๋ฆฌ์ง€๋„ ํŠธ๋žœ์Šคํฌ๋จธ์™€ ํ•จ๊ป˜ ๋„์ž…๋œ ํ‘œ์ค€ ์–ดํ…์…˜์ด๋‹ค (Vaswani et al., 2023). ์ฃผ์š” ์•„์ด๋””์–ด๋Š” N๊ฐœ์˜ ์–ดํ…์…˜ ํ—ค๋“œ๊ฐ€ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ๋™์ผํ•œ ๊ฒ€์ƒ‰ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค: ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ฟผ๋ฆฌ, ํ‚ค, ๊ทธ๋ฆฌ๊ณ  ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ ๋‹ค์Œ, ํ˜„์žฌ ์ฟผ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‚ค ์ผ์น˜๋ฅผ ํ†ตํ•ด ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ์ด ๋†’์€ ํ† ํฐ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ ์ผ์น˜ํ•˜๋Š” ํ† ํฐ๊ณผ ์—ฐ๊ฒฐ๋œ ๊ฐ’์„ ์ „๋‹ฌํ•œ๋‹ค. ์ถ”๋ก  ์‹œ ์šฐ๋ฆฌ๋Š” ๊ณผ๊ฑฐ ํ† ํฐ์— ๋Œ€ํ•œ KV ๊ฐ’์„ ๋‹ค์‹œ ๊ณ„์‚ฐํ•  ํ•„์š”๊ฐ€ ์—†์œผ๋ฉฐ ๊ทธ๊ฒƒ๋“ค์„ ์žฌ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ณผ๊ฑฐ KV ๊ฐ’์— ๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผย KV-Cache๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ์ปจํ…์ŠคํŠธ ์ฐฝ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ, ์ด ์บ์‹œ๋Š” ๋น ๋ฅด๊ฒŒ ์ถ”๋ก  ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ GPU ๋ฉ”๋ชจ๋ฆฌ์˜ ํฐ ๋ถ€๋ถ„์„ ์†Œ๋น„ํ•œ๋‹ค. ๋‹ค์Œ์€ MHA์™€ 8192์˜ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ๊ฐ€์ง„ Llama 3 ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ KV-Cache ๋ฉ”๋ชจ๋ฆฌ sKVs_{KV} ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฐ„๋‹จํ•œ ๊ณ„์‚ฐ์ด๋‹ค:

sKV=2ร—nbytesร—seqร—nlayersร—nheadsร—dimheads=2ร—2ร—8192ร—32ร—32ร—128=4GBย ย (Llama38B)=2ร—2ร—8192ร—80ร—64ร—128=20GBย ย (Llama370B)s_{KV}=2ร—nbytesร—seqร—nlayersร—nheadsร—dim_{heads}\\=2ร—2ร—8192ร—32ร—32ร—128=4 GB \space \space (Llama 3 8B)\\=2ร—2ร—8192ร—80ร—64ร—128=20 GB \space \space (Llama 3 70B)

์•ž์˜ ๊ณ„์ˆ˜ 2๋Š” ํ‚ค ๋ฐ ๊ฐ’ ์บ์‹œ๋ฅผ ๋ชจ๋‘ ์ €์žฅํ•˜๋Š” ๊ฒƒ์—์„œ ๋น„๋กฏ๋œ๋‹ค๋Š” ์ ์— ์ฃผ์˜ํ•ด๋ผ. ๋ณด์‹œ๋‹ค์‹œํ”ผ, ์บ์‹œ๋Š” ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์ง€๋งŒ, ์ปจํ…์ŠคํŠธ ์ฐฝ์€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ ์ด์ œ ์ˆ˜๋ฐฑ๋งŒ ํ† ํฐ์— ์ด๋ฅธ๋‹ค. ๋”ฐ๋ผ์„œ ์บ์‹œ์˜ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์€ ์ถ”๋ก  ์‹œ ์ปจํ…์ŠคํŠธ ํ™•์žฅ์„ ํ›จ์”ฌ ์‰ฝ๊ฒŒ ๋งŒ๋“ค ๊ฒƒ์ด๋‹ค.

๋ฌป๊ฒŒ ๋˜๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ์งˆ๋ฌธ์€: ๊ฐ ํ—ค๋“œ์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด KV ๊ฐ’์ด ์ •๋ง๋กœ ํ•„์š”ํ•œ๊ฐ€? ์ด๋‹ค. ์•„๋งˆ๋„ ์•„๋‹ ๊ฒƒ์ด๋ฉฐ,ย Multi-Query Attention (MQA)ย (Shazeer, 2019)์™€ย Grouped Query Attention (GQA)ย (Ainslie et al., 2023) ๋‘˜ ๋‹ค ์ด๊ฒƒ์„ ๋‹ค๋ฃฌ๋‹ค. ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๊ฒฝ์šฐ๋Š” ๋ชจ๋“  ํ—ค๋“œ์— ๊ฑธ์ณ KV ๊ฐ’์„ ๊ณต์œ ํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ์ด ๊ฒฝ์šฐ KV ์บ์‹œ์˜ ํฌ๊ธฐ๋ฅผ nheadsn_{heads} ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ์˜ˆ๋ฅผ ๋“ค์–ด Llama 3 70B์˜ ๊ฒฝ์šฐ 64๋ถ„์˜ 1 ๊ฐ์†Œ์ด๋‹ค! ์ด๊ฒƒ์ด MQA์˜ ์•„์ด๋””์–ด์ด๋ฉฐ MHA์˜ ๋Œ€์•ˆ์œผ๋กœ StarCoder์™€ ๊ฐ™์€ ์ผ๋ถ€ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ธฐ๊บผ์ด ํฌ๊ธฐํ•˜๋ ค๋Š” ๊ฒƒ๋ณด๋‹ค ์กฐ๊ธˆ ๋” ๋งŽ์€ ์–ดํ…์…˜ ๋Šฅ๋ ฅ์„ ํฌ๊ธฐํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์ค‘๊ฐ„ ์ง€์ ์„ ๊ณ ๋ คํ•˜๊ณ  ํ—ค๋“œ ๊ทธ๋ฃน์— ๊ฑธ์ณ KV ๊ฐ’์„ ๊ณต์œ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 4๊ฐœ์˜ ํ—ค๋“œ๊ฐ€ ๋™์ผํ•œ KV ๊ฐ’์„ ๊ณต์œ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๊ฒƒ์ด GQA ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ฉฐ MQA์™€ MHA ์‚ฌ์ด์˜ ์ค‘๊ฐ„ ์ง€์ ์„ ์ฐพ๋Š”๋‹ค.

๋” ์ตœ๊ทผ์—, DeepSeek-v2 (๊ทธ๋ฆฌ๊ณ  v3์—์„œ๋„ ์‚ฌ์šฉ๋จ)๋Š”ย Multi-Latent Attention (MLA)ย (DeepSeek-AI et al., 2024)๋ฅผ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์บ์‹œ๋ฅผ ์••์ถ•ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์ „๋žต์„ ์‚ฌ์šฉํ•œ๋‹ค: KV ๊ฐ’์˜ ์ˆ˜๋ฅผ ์ค„์ด๋Š” ๋Œ€์‹  ๊ทธ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ์‹คํ–‰ ์‹œ๊ฐ„์— KV ๊ฐ’์œผ๋กœ ์••์ถ• ํ•ด์ œ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ์ €์žฅํ•œ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ทธ๋“ค์€ MHA๋ณด๋‹ค ๋” ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉด์„œ 2.25๊ฐœ์˜ ๊ทธ๋ฃน์„ ๊ฐ€์ง„ GQA์— ํ•ด๋‹นํ•˜๋Š” ์บ์‹œ๋กœ ์ค„์ด๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค! ์ด๊ฒƒ์ด RoPE์™€ ํ•จ๊ป˜ ์ž‘๋™ํ•˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด, ์—ฌ๋ถ„์˜ ์ž‘์€ ์ž ์žฌ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง„ ์ž‘์€ ์กฐ์ •์ด ํ•„์š”ํ•˜๋‹ค. DeepSeek-v2์—์„œ ๊ทธ๋“ค์€ ์ฃผ ์ž ์žฌ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด 4โˆ—dimhead4*dimhead ๋ฅผ, RoPE ๋ถ€๋ถ„์— ๋Œ€ํ•ด 12โˆ—dimhead\frac{1}{2}*dim_{head} ๋ฅผ ์„ ํƒํ•˜์—ฌ ์ด 4.5โˆ—dimhead4.5*dim_{head}

๋ฅผ ์„ ํƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” K์™€ V ๋ชจ๋‘์— ๋™์‹œ์— ์‚ฌ์šฉ๋˜์–ด ์•ž์˜ ๊ณ„์ˆ˜ 2๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค.

(RoPE (Rotary Position Embeddings)๋Š” ์‹œํ€€์Šค ๋‚ด ์œ„์น˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฟผ๋ฆฌ ๋ฐ ํ‚ค ๋ฒกํ„ฐ๋ฅผ ํšŒ์ „์‹œ์ผœ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์˜ค๋Š˜๋‚  LLM์—์„œ ํ”ํžˆ ์‚ฌ์šฉ๋œ๋‹ค.)

๋‹ค์Œ ๊ทธ๋ž˜ํ”ฝ์—์„œ ๊ฐ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์‹œ๊ฐ์  ์„ค๋ช…์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.49.20.png

Multi-Head Attention (MHA), Grouped-Query Attention (GQA), Multi-Query Attention (MQA), ๋ฐ Multi-head Latent Attention (MLA)์˜ ๋‹จ์ˆœํ™”๋œ ๊ทธ๋ฆผ์ด๋‹ค. MLA๋Š” ํ‚ค์™€ ๊ฐ’์„ ์ž ์žฌ ๋ฒกํ„ฐ๋กœ ๊ณต๋™ ์••์ถ•ํ•จ์œผ๋กœ์จ, ์ถ”๋ก  ์ค‘ KV ์บ์‹œ๋ฅผ ์ƒ๋‹นํžˆ ๊ฐ์†Œ์‹œํ‚จ๋‹ค.

๋‹ค์Œ ํ‘œ๋Š” ์ด ์„น์…˜์—์„œ ๋ฐฉ๊ธˆ ๋…ผ์˜ํ•œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋น„๊ตํ•œ๋‹ค. ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด ํ† ํฐ๋‹น ์‚ฌ์šฉ๋˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋น„๊ตํ•œ๋‹ค. ์ด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋ ค๋ฉด ๋‹จ์ˆœํžˆ ๋งค๊ฐœ๋ณ€์ˆ˜๋‹น ๋ฐ”์ดํŠธ (์ผ๋ฐ˜์ ์œผ๋กœ 2)์™€ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ๊ณฑํ•˜๋ฉด ๋œ๋‹ค:

์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ํ† ํฐ๋‹น KV-์บ์‹œ ๋งค๊ฐœ๋ณ€์ˆ˜
MHA2ร—nheadsร—nlayersร—dimhead2 \times n_{heads} \times n_{layers} \times dim_{head}
MQA2ร—1ร—nlayersร—dimhead2 \times 1 \times n_{layers} \times dim_{head}
GQA2ร—gร—nlayersร—dimhead2 \times g \times n_{layers} \times dim_{head} (์ผ๋ฐ˜์ ์œผ๋กœ g=2,4,8)
MLA4.5ร—nlayersร—dimhead4.5 \times n_{layers} \times dim_{head}

์ด์ œ ์ด๋Ÿฌํ•œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์‹ค์ œ ์‹คํ—˜์—์„œ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ๋ณด์ž!

์ œ๊ฑฐ ์‹คํ—˜ - GQA๊ฐ€ MHA๋ฅผ ์ด๊ธด๋‹ค

์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ๋‹ค๋ฅธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋น„๊ตํ•œ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ ๋ชจ๋ธ์€ 32๊ฐœ์˜ ํ—ค๋“œ์™€ 8๊ฐœ์˜ KV ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Š” ๋น„์œจ 32/8=4๋ฅผ ๊ฐ€์ง„ GQA์— ํ•ด๋‹นํ•œ๋‹ค. MHA๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜, ๋˜๋Š” ํ›จ์”ฌ ๋” ์ ์€ KV ํ—ค๋“œ์™€ ๋” ๋†’์€ GQA ๋น„์œจ๋กœ ๊ฐ„๋‹ค๋ฉด ์„ฑ๋Šฅ์€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ• ๊นŒ?

(์ผ๋ถ€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” GQA ๋น„์œจ์„ ์ด๋ ‡๊ฒŒ ๋ถ€๋ฅธ๋‹ค: ์ฟผ๋ฆฌ ๊ทธ๋ฃน = ์ฟผ๋ฆฌ ํ—ค๋“œ / KV ํ—ค๋“œ)

KV ํ—ค๋“œ ์ˆ˜๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์€ ํŠนํžˆ MHA์˜ ๊ฒฝ์šฐ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด, MHA ์‹คํ–‰์˜ ๊ฒฝ์šฐ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ์กฐ์ •ํ–ˆ๋‹ค. ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 1์–ต ์ด์ƒ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ถˆ์ผ์น˜๊ฐ€ ๋ฐœ์ƒํ•  ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋‚˜๋จธ์ง€๋Š” ๊ธฐ๋ณธ 16๊ฐœ ๋ ˆ์ด์–ด๋ฅผ ์œ ์ง€ํ–ˆ๋‹ค.

์–ดํ…์…˜ ์œ ํ˜•์ฟผ๋ฆฌ ํ—ค๋“œKV ํ—ค๋“œ๋ ˆ์ด์–ด๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋น„๊ณ 
MQA321161.21B
GQA (๋น„์œจ 16)322161.21B
GQA (๋น„์œจ 8)324161.22B์šฐ๋ฆฌ์˜ Baseline
GQA (๋น„์œจ 4)328161.24B
GQA (๋น„์œจ 2)3216151.22B๋ ˆ์ด์–ด ๊ฐ์†Œ
MHA3232141.20B๋ ˆ์ด์–ด ๊ฐ์†Œ
GQA (๋น„์œจ 2)3216161.27B๋„ˆ๋ฌด ํผ - ์ œ๊ฑฐ ์‹คํ—˜ ์•ˆ ํ•จ
MHA3232161.34B๋„ˆ๋ฌด ํผ - ์ œ๊ฑฐ ์‹คํ—˜ ์•ˆ ํ•จ

๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” MHA, MQA, ๊ทธ๋ฆฌ๊ณ  4๊ฐœ์˜ GQA ์„ค์ • (๋น„์œจ 2, 4, 8, 16)์„ ๋น„๊ตํ–ˆ๋‹ค. nanotron ์„ค์ •์€ ์—ฌ๊ธฐ์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/tree/main/attention

์ œ๊ฑฐ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, MQA์™€ 16๊ฐœ ๊ทธ๋ฃน์„ ๊ฐ€์ง„ GQA (๊ฐ๊ฐ 1๊ฐœ์™€ 2๊ฐœ์˜ KV ํ—ค๋“œ๋งŒ ๋‚จ๊น€)๊ฐ€ MHA๋ณด๋‹ค ํ˜„์ €ํžˆ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. ๋ฐ˜๋ฉด์—, 2, 4, 8๊ฐœ ๊ทธ๋ฃน์„ ๊ฐ€์ง„ GQA ๊ตฌ์„ฑ์€ MHA ์„ฑ๋Šฅ๊ณผ ๋Œ€๋žต ์ผ์น˜ํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.49.36.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.49.47.png

๊ฒฐ๊ณผ๋Š” ์†์‹ค ๊ณก์„ ๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€ ๋ชจ๋‘์—์„œ ์ผ๊ด€๋˜์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” HellaSwag, MMLU, ARC์™€ ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ด๊ฒƒ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ด€์ฐฐํ•˜๋Š” ๋ฐ˜๋ฉด, OpenBookQA์™€ WinoGrande์™€ ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ๋Š” ์•ฝ๊ฐ„์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๋ณด์˜€๋‹ค.

์ด๋Ÿฌํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ, GQA๋Š” MHA์˜ ๊ฒฌ๊ณ ํ•œ ๋Œ€์•ˆ์ด๋‹ค. ์ด๋Š” ์ถ”๋ก ์—์„œ ๋” ํšจ์œจ์ ์ด๋ฉด์„œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•œ๋‹ค. ์ผ๋ถ€ ์ตœ์‹  ๋ชจ๋ธ์€ ํ›จ์”ฌ ๋” ํฐ KV ์บ์‹œ ์••์ถ•์„ ์œ„ํ•ด MLA๋ฅผ ์ฑ„ํƒํ–ˆ์ง€๋งŒ, ์•„์ง ๋„๋ฆฌ ์ฑ„ํƒ๋˜์ง€๋Š” ์•Š์•˜๋‹ค. ์ œ๊ฑฐ ์‹คํ—˜ ๋‹น์‹œ nanotron์— MLA๊ฐ€ ๊ตฌํ˜„๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ ์šฐ๋ฆฌ๋Š” MLA๋ฅผ ์ œ๊ฑฐ ์‹คํ—˜ํ•˜์ง€ ์•Š์•˜๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 4๊ฐœ ๊ทธ๋ฃน์„ ๊ฐ€์ง„ GQA๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

์–ดํ…์…˜ ์•„ํ‚คํ…์ฒ˜ ์ž์ฒด๋ฅผ ๋„˜์–ด, ์šฐ๋ฆฌ๊ฐ€ ํ•™์Šต ์ค‘์— ์‚ฌ์šฉํ•˜๋Š” ์–ดํ…์…˜ ํŒจํ„ด๋„ ์ค‘์š”ํ•˜๋‹ค. ์–ดํ…์…˜ ๋งˆ์Šคํ‚น์„ ์‚ดํŽด๋ณด์ž.

๋ฌธ์„œ ๋งˆ์Šคํ‚น

์šฐ๋ฆฌ๊ฐ€ ํ•™์Šต ์‹œํ€€์Šค ์ „๋ฐ˜์— ๊ฑธ์ณ ์–ดํ…์…˜์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ชจ๋‘์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ด๋Š” ๋ฌธ์„œ ๋งˆ์Šคํ‚น๊ณผ ๋ฐ์ดํ„ฐ๋กœ๋”์—์„œ ํ•™์Šต ์ƒ˜ํ”Œ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๋” ๋„“์€ ์งˆ๋ฌธ์œผ๋กœ ์ด์–ด์ง„๋‹ค.

์‚ฌ์ „ ํ•™์Šต ์ค‘์—, ์šฐ๋ฆฌ๋Š” ๊ณ ์ •๋œ ์‹œํ€€์Šค ๊ธธ์ด๋กœ ํ•™์Šตํ•˜์ง€๋งŒ ์šฐ๋ฆฌ์˜ ๋ฌธ์„œ๋Š” ๊ฐ€๋ณ€์ ์ธ ๊ธธ์ด๋ฅผ ๊ฐ€์ง„๋‹ค. ์—ฐ๊ตฌ ๋…ผ๋ฌธ์€ 10k ํ† ํฐ์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, ์งง์€ ์ฝ”๋“œ ์Šค๋‹ˆํŽซ์€ ์ˆ˜๋ฐฑ ํ† ํฐ๋งŒ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค. ๊ฐ€๋ณ€ ๊ธธ์ด ๋ฌธ์„œ๋ฅผ ๊ณ ์ • ๊ธธ์ด ํ•™์Šต ์‹œํ€€์Šค์— ์–ด๋–ป๊ฒŒ ๋งž์ถ”๋Š”๊ฐ€? ์งง์€ ๋ฌธ์„œ๋ฅผ ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ ๊ธธ์ด์— ๋„๋‹ฌํ•˜๋„๋ก ํŒจ๋”ฉํ•˜๋Š” ๊ฒƒ์€ ๋ฌด์˜๋ฏธํ•œ ํŒจ๋”ฉ ํ† ํฐ์— ์ปดํ“จํŒ… ์ž์›์„ ๋‚ญ๋น„ํ•œ๋‹ค. ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” **ํŒจํ‚น(packing)**์„ ์‚ฌ์šฉํ•œ๋‹ค: ๋ฌธ์„œ๋“ค์„ ์‹œํ€€์Šค ๋(EOS) ํ† ํฐ๊ณผ ํ•จ๊ป˜ ์„ž๊ณ  ์—ฐ๊ฒฐํ•œ ๋‹ค์Œ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์‹œํ€€์Šค ํฌ๊ธฐ์™€ ์ผ์น˜ํ•˜๋Š” ๊ณ ์ • ๊ธธ์ด ๋ฉ์–ด๋ฆฌ๋กœ ๋‚˜๋ˆˆ๋‹ค.

(์šฐ๋ฆฌ๋Š” ๋ฌธ์„œ ์‹œ์ž‘(BOS) ํ† ํฐ์„ ๋ฌธ์„œ ์‹œ์ž‘ ๋ถ€๋ถ„์— ์ถ”๊ฐ€ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ชจ๋ธ/ํ† ํฌ๋‚˜์ด์ € ์„ค์ •์—์„œ ๋‹ค๋ฅธย bos_token_id๊ฐ€ ์žˆ์Œ์„ ์•Œ๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.)

์‹ค์ œ์—์„œ ์ด๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ๋ณด์ด๋Š”์ง€ ๋ณด์ž:

File 1: "Recipe for granola bars..." (400 tokens) <EOS>
File 2: "def hello_world()..." (300 tokens) <EOS>
File 3: "Climate change impacts..." (1000 tokens) <EOS>
File 4: "import numpy as np..." (3000 tokens) <EOS>
...

After concatenation and chunking into 4k sequences:
Sequence 1: [File 1] + [File 2] + [File 3] + [partial File 4]
Sequence 2: [rest of File 4] + [File 5] + [File 6] + ...

ํ•™์Šต ์‹œํ€€์Šค๋Š” 4k ์ปจํ…์ŠคํŠธ๋ฅผ ์ฑ„์šธ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ๊ธธ๋‹ค๋ฉด ํ•˜๋‚˜์˜ ์™„์ „ํ•œ ํŒŒ์ผ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ํŒŒ์ผ์ด ์งง์œผ๋ฏ€๋กœ, ์‹œํ€€์Šค๋Š” ์—ฌ๋Ÿฌ ๋žœ๋ค ํŒŒ์ผ์˜ ์—ฐ๊ฒฐ์„ ํฌํ•จํ•œ๋‹ค.

ํ‘œ์ค€ causal masking ์„ ์‚ฌ์šฉํ•˜๋ฉด, ํ† ํฐ์€ ํŒจํ‚น๋œ ์‹œํ€€์Šค์˜ ๋ชจ๋“  ์ด์ „ ํ† ํฐ์— ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์œ„ ์˜ˆ์‹œ๋“ค์—์„œ, ํŒŒ์ผ 4์˜ ํ•ด๋‹น ํŒŒ์ด์ฌ ํ•จ์ˆ˜ ๋‚ด์˜ ํ† ํฐ์€ ๊ทธ๋ž˜๋†€๋ผ ๋ฐ” ๋ ˆ์‹œํ”ผ, ๊ธฐํ›„ ๋ณ€ํ™” ๊ธฐ์‚ฌ, ๊ทธ๋ฆฌ๊ณ  ํ•จ๊ป˜ ํŒจํ‚น๋œ ๋‹ค๋ฅธ ๋ชจ๋“  ์ฝ˜ํ…์ธ ์— ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ 4k ์‚ฌ์ „ ํ•™์Šต ์ปจํ…์ŠคํŠธ๊ฐ€ ๋ฌด์—‡์„ ํฌํ•จํ•˜๋Š”์ง€ ๋น ๋ฅด๊ฒŒ ์‚ดํŽด๋ณด์ž. ๋น ๋ฅธ ๋ถ„์„ (https://www.harmdevries.com/post/context-length/)์— ๋”ฐ๋ฅด๋ฉด CommonCrawl ๋ฐ GitHub์˜ ํŒŒ์ผ ์ค‘ ์ƒ๋‹น ๋ถ€๋ถ„(์•ฝ 80-90%)์ด 2k ํ† ํฐ๋ณด๋‹ค ์งง๋‹ค.

์•„๋ž˜ ์ฐจํŠธ๋Š” ์ด ๋ธ”๋กœ๊ทธ ์ „์ฒด์—์„œ ์‚ฌ์šฉ๋œ ๋” ์ตœ๊ทผ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ† ํฐ ๋ถ„ํฌ๋ฅผ ์กฐ์‚ฌํ•œ ๊ฒฐ๊ณผ์ด๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.49.59.png

FineWeb-Edu, DCLM, FineMath ๋ฐ Python-Edu์˜ ๋ฌธ์„œ ์ค‘ 80% ์ด์ƒ์ด 2k ํ† ํฐ ๋ฏธ๋งŒ์„ ํฌํ•จํ•œ๋‹ค. ์ด๋Š” 2k ๋˜๋Š” 4k ํ•™์Šต ์‹œํ€€์Šค์™€ ํ‘œ์ค€ ์ธ๊ณผ์  ๋งˆ์Šคํ‚น์„ ์‚ฌ์šฉํ•˜๋ฉด, ํ† ํฐ์˜ ๋Œ€๋‹ค์ˆ˜๊ฐ€ ํ•จ๊ป˜ ํŒจํ‚น๋œ ๊ด€๋ จ ์—†๋Š” ๋ฌธ์„œ์— ์–ดํ…์…˜ํ•˜๋Š” ๋ฐ ์ปดํ“จํŒ… ์ž์›์„ ์†Œ๋น„ํ•  ๊ฒƒ์ž„์„ ์˜๋ฏธํ•œ๋‹ค.

PDF์˜ ๋” ๊ธด ๋ฌธ์„œ

๋Œ€๋ถ€๋ถ„์˜ ์›น ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์€ ์งง์€ ๋ฌธ์„œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์ง€๋งŒ, PDF ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์€ ์ƒ๋‹นํžˆ ๋” ๊ธด ์ฝ˜ํ…์ธ ๋ฅผ ํฌํ•จํ•œ๋‹ค. FinePDFs ๋ฌธ์„œ๋Š” ์›น ํ…์ŠคํŠธ๋ณด๋‹ค ํ‰๊ท  2๋ฐฐ ๋” ๊ธธ๋ฉฐ, FineWeb-Edu ๋ฐ DCLM๊ณผ ํ˜ผํ•ฉ๋  ๋•Œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

๊ณ„์‚ฐ ๋น„ํšจ์œจ์„ฑ ์™ธ์—๋„, Zhao et al. (2024)์€ ์ด ์ ‘๊ทผ ๋ฐฉ์‹์ด ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ด€๋ จ ์—†๋Š” ์ฝ˜ํ…์ธ ๋กœ๋ถ€ํ„ฐ ๋…ธ์ด์ฆˆ๋ฅผ ์œ ๋ฐœํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•œ๋‹ค. ๊ทธ๋“ค์€ **๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น(intra-document masking)**์„ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ์ œ์•ˆํ•˜๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ์–ดํ…์…˜ ๋งˆ์Šคํฌ๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ ํ† ํฐ์ด ๋™์ผํ•œ ๋ฌธ์„œ ๋‚ด์˜ ์ด์ „ ํ† ํฐ์—๋งŒ ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ์•„๋ž˜ ์‹œ๊ฐํ™”๋Š” ์ด๋Ÿฌํ•œ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.50.11.png

SkyLadder์˜ Zhu et al. (2025)์€ ๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น์—์„œ ์œ ์‚ฌํ•œ ์ด์ ์„ ๋ฐœ๊ฒฌํ–ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์„ค๋ช…์„ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋“ค์€ ๋” ์งง์€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๊ฐ€ ํ•™์Šต์— ๋” ์ž˜ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น์€ ํ‰๊ท  ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ธ๋‹ค.

image.png

SkyLadder์˜ ์ด ํ”Œ๋กฏ๋“ค์€ ์—ฌ๋Ÿฌ ๋ฐœ๊ฒฌ์„ ๋ณด์—ฌ์ค€๋‹ค: (a) ๋” ์งง์€ ์ปจํ…์ŠคํŠธ๊ฐ€ ์‚ฌ์ „ ํ•™์Šต ์ค‘ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ณ  (๋” ๋‚ฎ์€ ๊ฒ€์ฆ ํ˜ผ๋ž€๋„), (b) ๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น(IntraDoc)์ด ๋žœ๋ค ํŒจํ‚น(Random) ๋ฐ ์˜๋ฏธ๋ก ์  ๊ทธ๋ฃนํ™”(BM25)๋ณด๋‹ค ๋” ๋‚ฎ์€ ํ˜ผ๋ž€๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, (c) ๋” ์งง์€ ์ปจํ…์ŠคํŠธ ์ด์ ์€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์—†์ด๋„ ์œ ์ง€๋˜๊ณ , (d) IntraDoc์€ ๋” ์งง์€ ์œ ํšจ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋กœ ํŽธํ–ฅ๋œ ๋ถ„ํฌ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Llama3 (Grattafiori et al., 2024)๋„ ๋ฌธ์„œ ๋‚ด ๋งˆ์Šคํ‚น์œผ๋กœ ํ•™์Šตํ–ˆ์œผ๋ฉฐ, ๊ทธ๋“ค์€ ์งง์€ ์ปจํ…์ŠคํŠธ ์‚ฌ์ „ ํ•™์Šต ์ค‘์—๋Š” ์ œํ•œ๋œ ์˜ํ–ฅ์„ ๋ฐœ๊ฒฌํ–ˆ์ง€๋งŒ, ์–ดํ…์…˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋” ์ค‘์š”ํ•ด์ง€๋Š” ๊ธด ์ปจํ…์ŠคํŠธ ํ™•์žฅ์—๋Š” ์ƒ๋‹นํ•œ ์ด์ ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๋˜ํ•œ, ProLong ๋…ผ๋ฌธ (Gao et al., 2025)์€ ๋ฌธ์„œ ๋งˆ์Šคํ‚น์„ ์‚ฌ์šฉํ•˜์—ฌ Llama3 8B์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต์—์„œ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ๊ธด ์ปจํ…์ŠคํŠธ ๋ฐ ์งง์€ ์ปจํ…์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ ๋ชจ๋‘์— ์ด์ ์„ ์ค€๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ 1B ๊ธฐ์ค€ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ณ  ๋ฌธ์„œ ๋งˆ์Šคํ‚น์ด ์งง์€ ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. ์„ค์ •์€ ์—ฌ๊ธฐ(https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/blob/main/doc_masking/doc_masking.yaml) ์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜ ์ฐจํŠธ์— ํ‘œ์‹œ๋œ ๋Œ€๋กœ ํ‘œ์ค€ ์ธ๊ณผ์  ๋งˆ์Šคํ‚น๊ณผ ๋น„๊ตํ•˜์—ฌ ๋™์ผํ•œ ์†์‹ค ๊ณก์„ ๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€ ์ ์ˆ˜๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

nanotron์—์„œ ๋ฌธ์„œ ๋งˆ์Šคํ‚น์„ ํ™œ์„ฑํ™”ํ•˜๋ ค๋ฉด, ๋ชจ๋ธ ์„ค์ •์—์„œ ์ด ํ”Œ๋ž˜๊ทธ๋ฅผ ์ฐธ(true)์œผ๋กœ ์„ค์ •ํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด ๋œ๋‹ค:

model_config:
  _attn_implementation: flash_attention_2
  _fused_rms_norm: true
  _fused_rotary_emb: true
 _use_doc_masking: true # ์ด ๋ถ€๋ถ„์„ true๋กœ ์„ค์ •

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.50.42.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.50.51.png

Llama3์™€ ์œ ์‚ฌํ•˜๊ฒŒ, PIQA์—์„œ์˜ ์ž‘์€ ๊ฐœ์„ ์„ ์ œ์™ธํ•˜๋ฉด, ์งง์€ ์ปจํ…์ŠคํŠธ ์ž‘์—…์— ๋ˆˆ์— ๋„๋Š” ์˜ํ–ฅ์€ ๊ด€์ฐฐ๋˜์ง€ ์•Š์•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฌธ์„œ ๋งˆ์Šคํ‚น์€ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ๊ธด ์‹œํ€€์Šค๋กœ ํ™•์žฅํ•  ๋•Œ ์ค‘์š”ํ•ด์ง„๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ 4k์—์„œ 64k ํ† ํฐ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ธด ์ปจํ…์ŠคํŠธ ํ™•์žฅ์— ํŠนํžˆ ์ค‘์š”ํ•˜๋‹ค (ํ•™์Šต ๋งˆ๋ผํ†คย ์ฑ•ํ„ฐ์—์„œ ์ž์„ธํžˆ ์„ค๋ช…). ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” SmolLM3์˜ ์ „์ฒด ํ•™์Šต ์‹คํ–‰ ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ทธ๊ฒƒ์„ ์ฑ„ํƒํ–ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด ์„น์…˜์—์„œ ์–ดํ…์…˜์ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์—ˆ๋‹ค. ์ด์ œ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋˜ ๋‹ค๋ฅธ ์ฃผ์š” ํŒŒ๋ผ๋ฏธํ„ฐ ๋ธ”๋ก์ธ ์ž„๋ฒ ๋”ฉ์„ ์‚ดํŽด๋ณด์ž.

์ž„๋ฒ ๋”ฉ ๊ณต์œ 

์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ ์ œ๊ฑฐ ์‹คํ—˜ ๋ชจ๋ธ์˜ ์„ค์ •(config)์„ ๋ณด๋ฉด, ํ‘œ์ค€ ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๋‹ค๋ฅธ ํ•œ ๊ฐ€์ง€๋Š”ย tie_word_embeddingsย ํ”Œ๋ž˜๊ทธ๋กœ ํ™œ์„ฑํ™”๋œย ์ž„๋ฒ ๋”ฉ ๊ณต์œ ์ด๋‹ค.

LLM์—๋Š” ๋‘ ๊ฐ€์ง€ ์ž„๋ฒ ๋”ฉ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ๋‹ค: ํ† ํฐ ๋Œ€ ๋ฒกํ„ฐ ์กฐํšŒ ํ…Œ์ด๋ธ” ์—ญํ• ์„ ํ•˜๋Š”ย ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉย (ํฌ๊ธฐย vocab_sizeย ร—ย hidden_dim)๊ณผ, ์€๋‹‰ ์ƒํƒœ๋ฅผ ์–ดํœ˜ ๋กœ์ง“์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ์ตœ์ข… ์„ ํ˜• ๋ ˆ์ด์–ด์ธย ์ถœ๋ ฅ ์ž„๋ฒ ๋”ฉย (hidden_dimย ร—ย vocab_size)์ด๋‹ค. ์ด๊ฒƒ๋“ค์ด ๋ณ„๊ฐœ์˜ ํ–‰๋ ฌ์ธ ๊ณ ์ „์ ์ธ ๊ฒฝ์šฐ, ์ด ์ž„๋ฒ ๋”ฉ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” 2 ร— vocab_size ร— hidden_dim ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ์—์„œ๋Š”, ํŠนํžˆ ํฐ vocabulary size ์—์„œ๋Š” ์ž„๋ฒ ๋”ฉ์ด ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์˜ ํฐ ๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์ž„๋ฒ ๋”ฉ ๊ณต์œ  (์ถœ๋ ฅ์—์„œ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์„ ์žฌ์‚ฌ์šฉ)๋Š” ์†Œํ˜• ๋ชจ๋ธ์—๊ฒŒ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ตœ์ ํ™”๊ฐ€ ๋œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.51.06.png

๋” ํฐ ๋ชจ๋ธ์€ ์ž„๋ฒ ๋”ฉ์ด ๋งค๊ฐœ๋ณ€์ˆ˜ ์˜ˆ์‚ฐ์˜ ๋” ์ž‘์€ ๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ ์ด ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์•„๋ž˜ ์›ํ˜• ์ฐจํŠธ์— ํ‘œ์‹œ๋œ ๋Œ€๋กœ ๊ณต์œ  ์—†๋Š” ์ด ์ž„๋ฒ ๋”ฉ์€ Llama3.2 8B์—์„œ๋Š” 13%, Llama3.1 70B์—์„œ๋Š” 3%๋งŒ์„ ์ฐจ์ง€ํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.51.56.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.52.03.png

์ œ๊ฑฐ ์‹คํ—˜ - Tied ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ง„ ๋ชจ๋ธ์€ ๋” ํฐ Untied ๋ณ€ํ˜•๊ณผ ์ผ์น˜ํ•œ๋‹ค

์ด์ œ ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ž„๋ฒ ๋”ฉ ๊ณต์œ ์˜ ์˜ํ–ฅ์„ ํ‰๊ฐ€ํ•  ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” MobileLLM์ด 125M ๊ทœ๋ชจ์—์„œ ์ด ๊ธฐ์ˆ ์— ๋Œ€ํ•ด ์ˆ˜ํ–‰ํ•œ ํฌ๊ด„์ ์ธ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ํ†ต์ฐฐ๋ ฅ์„ ์–ป๋Š”๋‹ค. ๊ฑฐ๊ธฐ์„œ ๊ทธ๋“ค์€ ๊ณต์œ ๊ฐ€ ์ตœ์†Œํ•œ์˜ ์ •ํ™•๋„ ์ €ํ•˜๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ 11.8% ๊ฐ์†Œ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ๋‹ค.

๋ฌถ์ด์ง€ ์•Š์€ ์ž„๋ฒ ๋”ฉ์€ ์šฐ๋ฆฌ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ 1.2B์—์„œ 1.46B์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋งž์ถ”๊ธฐ ์œ„ํ•ด Untied ํŒŒ๋ผ๋ฏธํ„ฐ์ด์ง€๋งŒ ๋” ์ ์€ ๋ ˆ์ด์–ด(12 ๋ ˆ์ด์–ด)๋ฅผ ๊ฐ€์ง„ ๋˜ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐœ์˜ 1.2B ๋ชจ๋ธ์„ ๋น„๊ตํ•  ๊ฒƒ์ด๋‹ค: ๋ฌถ์ธ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ง„ ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€์„  (16 ๋ ˆ์ด์–ด) ๋Œ€ ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜ ์˜ˆ์‚ฐ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋” ์ ์€ ๋ ˆ์ด์–ด (12 ๋ ˆ์ด์–ด)๋ฅผ ๊ฐ€์ง„ ๋ฌถ์ด์ง€ ์•Š์€ ๋ฒ„์ „, ๊ทธ๋ฆฌ๊ณ  ์ถ”๊ฐ€ ์ฐธ์กฐ์ ์œผ๋กœ ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€์„ ๊ณผ ๋™์ผํ•œ ๋ ˆ์ด์–ด ์ˆ˜ (16)๋ฅผ ๊ฐ€์ง„ 14์–ต 6์ฒœ๋งŒ ๋ฌถ์ด์ง€ ์•Š์€ ๋ชจ๋ธ์˜ ๋น„๊ต์ด๋‹ค. nanotron ์„ค์ •์€ ์—ฌ๊ธฐ (https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/blob/main/baseline_config_1B.yaml) ์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.52.15.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.52.24.png

์†์‹ค ๋ฐ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ 1.2B ๋ชจ๋ธ์ด Tied Embedding ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , WinoGrande๋ฅผ ์ œ์™ธํ•œ ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์—์„œ 18% ๋” ์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  1.46B Untied ๋ชจ๋ธ๊ณผ ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. Untied Embedding ๊ณผ ๊ฐ์†Œ๋œ ๋ ˆ์ด์–ด(16 vs 12)๋ฅผ ๊ฐ€์ง„ 1.2์–ต ๋ชจ๋ธ์€ ๋” ๋†’์€ ์†์‹ค๊ณผ ๋” ๋‚ฎ์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€ ์ ์ˆ˜๋ฅผ ๋ณด์ด๋ฉด์„œ ๋‘ ๊ตฌ์„ฑ ๋ชจ๋‘๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ด๊ฒƒ์€ ๋ชจ๋ธ ๊นŠ์ด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜ ์˜ˆ์‚ฐ์—์„œ ์ž„๋ฒ ๋”ฉ์„ ๋ฌถ์ง€ ์•Š๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ํฐ ์ด์ ์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ์šฐ๋ฆฌ๋Š” SmolLM3 3B ๋ชจ๋ธ์— ๋ฌถ์ธ ์ž„๋ฒ ๋”ฉ(tied embeddings)์„ ์œ ์ง€ํ–ˆ๋‹ค.

์ด์ œ ์šฐ๋ฆฌ๋Š” ์ž„๋ฒ ๋”ฉ ๊ณต์œ  ์ „๋žต๊ณผ ๊ทธ ์žฅ๋‹จ์ ์„ ํƒ์ƒ‰ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ž„๋ฒ ๋”ฉ๋งŒ์œผ๋กœ๋Š” ์‹œํ€€์Šค์—์„œ ํ† ํฐ์˜ ์ˆœ์„œ๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ดย ์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding)์˜ ์—ญํ• ์ด๋‹ค. ๋‹ค์Œ ์„น์…˜์—์„œ๋Š” ํ‘œ์ค€ RoPE์—์„œ๋ถ€ํ„ฐ ๊ธด ์ปจํ…์ŠคํŠธ์— ๋Œ€ํ•œ ๋” ํšจ๊ณผ์ ์ธ ๋ชจ๋ธ๋ง์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” NoPE (No Positional Encoding)์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์ „๋žต์ด ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ–ˆ๋Š”์ง€ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค.

์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding) ๋ฐ ๊ธด ์ปจํ…์ŠคํŠธ

ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, ๊ทผ๋ณธ์ ์ธ ๋„์ „์— ์ง๋ฉดํ•œ๋‹ค: ๊ทธ๋“ค์€ ๋ณ‘๋ ฌ ์–ดํ…์…˜ ์ž‘์—…์„ ํ†ตํ•ด ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ๋™์‹œ์— ์†Œ๋น„ํ•˜๋ฏ€๋กœ, ๋ณธ์งˆ์ ์œผ๋กœ ๋‹จ์–ด ์ˆœ์„œ์— ๋Œ€ํ•œ ๊ฐ๊ฐ์ด ์—†๋‹ค. ์ด๊ฒƒ์€ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์ง€๋งŒ ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ ๋‹ค. ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ •๋ณด ์—†์ด๋Š”, ๋ชจ๋ธ์˜ ๊ด€์ ์—์„œ โ€œAdam์€ Muon์„ ์ด๊ธด๋‹คโ€๋Š” โ€œMuon์€ Adam์„ ์ด๊ธด๋‹คโ€์™€ ๋น„์Šทํ•˜๊ฒŒ ๋ณด์ธ๋‹ค.

ํ•ด๊ฒฐ์ฑ…์€ย ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์ด๋‹ค: ๊ฐ ํ† ํฐ์— ์‹œํ€€์Šค์—์„œ ๊ณ ์œ ํ•œ โ€œ์ฃผ์†Œโ€๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ˆ˜ํ•™์  ์ธ์ฝ”๋”ฉ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ดˆ๊ธฐ BERT์˜ 512 ํ† ํฐ์—์„œ๋ถ€ํ„ฐ ์˜ค๋Š˜๋‚ ์˜ ๋ฐฑ๋งŒ ํ† ํฐ ๋ชจ๋ธ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ์ ์  ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ๋‚˜์•„๊ฐ์— ๋”ฐ๋ผ, ์œ„์น˜ ์ธ์ฝ”๋”ฉ์˜ ์„ ํƒ์€ ์„ฑ๋Šฅ๊ณผ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๋ชจ๋‘์— ์ ์  ๋” ์ค‘์š”ํ•ด์ ธ์™”๋‹ค.

์œ„์น˜ ์ธ์ฝ”๋”ฉ์˜ ์ง„ํ™”

์ดˆ๊ธฐ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ฐ„๋‹จํ•œ **์ ˆ๋Œ€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(Absolute Position Embeddings, APE)**์„ ์‚ฌ์šฉํ–ˆ๋‹ค (Vaswani et al., 2023). ์ด๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ ์œ„์น˜ (1, 2, 3โ€ฆ)๋ฅผ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์— ์ถ”๊ฐ€๋˜๋Š” ๋ฒกํ„ฐ์— ๋งคํ•‘ํ•˜๋Š” ํ•™์Šต๋œ ์กฐํšŒ ํ…Œ์ด๋ธ”์ด์—ˆ๋‹ค. ์ด๊ฒƒ์€ ์งง์€ ์‹œํ€€์Šค์—๋Š” ์ž˜ ์ž‘๋™ํ–ˆ์ง€๋งŒ, ์ฃผ์š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค: ๋ชจ๋ธ์˜ ์ตœ๋Œ€ ์ž…๋ ฅ ์‹œํ€€์Šค ๊ธธ์ด๋Š” ํ•™์Šต๋œ ์ตœ๋Œ€ ์ž…๋ ฅ ์‹œํ€€์Šค ๊ธธ์ด๋กœ ์ œํ•œ๋˜์—ˆ๋‹ค. ๊ทธ๋“ค์€ ๋” ๊ธด ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์ฆ‰๊ฐ์ ์ธ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์—†์—ˆ๋‹ค.

์ด ๋ถ„์•ผ๋Š” ์ ˆ๋Œ€ ์œ„์น˜ ๋Œ€์‹  ํ† ํฐ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ํฌ์ฐฉํ•˜๋Š”ย ์ƒ๋Œ€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์œผ๋กœ ์ง„ํ™”ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์ง๊ด€์ ์œผ๋กœ ํ•ฉ๋ฆฌ์ ์ด๋‹ค. ๋‘ ๋‹จ์–ด๊ฐ€ (5, 8) ๋Œ€ (105, 108) ์œ„์น˜์— ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋ณด๋‹ค 3 ์œ„์น˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๊ฐ€ ๋” ์ค‘์š”ํ•œ๋‹ค.

(์œ„์น˜ ์ธ์ฝ”๋”ฉ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ํƒ๊ตฌ๋ฅผ ์œ„ํ•ด, ์ด ๋ธ”๋กœ๊ทธ (https://huggingface.co/blog/designing-positional-encoding) ๋Š” ๊ธฐ๋ณธ ์œ„์น˜ ์ง€์ •์—์„œ ํšŒ์ „ ์ธ์ฝ”๋”ฉ์œผ๋กœ์˜ ๋‹จ๊ณ„๋ณ„ ๊ฐœ๋ฐœ ๊ณผ์ •์„ ์•ˆ๋‚ดํ•œ๋‹ค.)

ALiBi (Attention with Linear Biases)ย (Press et al., 2022)๋Š” ํŠนํžˆ ํ† ํฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์–ดํ…์…˜ ์ ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•œ๋‹ค. ๋‘ ํ† ํฐ์ด ๋” ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ์„์ˆ˜๋ก, ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜์— ์ ์šฉ๋˜๋Š” ๊ฐ„๋‹จํ•œ ์„ ํ˜• ํŽธํ–ฅ์„ ํ†ตํ•ด ๊ทธ๋“ค์˜ ์–ดํ…์…˜์€ ๋” ๋งŽ์ด ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ฐ›๋Š”๋‹ค. Alibi์˜ ์ž์„ธํ•œ ๊ตฌํ˜„์€ ์ด ์ž๋ฃŒ(https://nn.labml.ai/transformers/alibi/index.html) ๋ฅผ ํ™•์ธํ•˜๋ฉด ๋œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ์ง€๋ฐฐํ•ด ์˜จ ๊ธฐ์ˆ ์€ **ํšŒ์ „ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(Rotary Position Embedding, RoPE)**์ด๋‹ค (Su et al., 2023).

RoPE: ํšŒ์ „์œผ๋กœ์„œ์˜ ์œ„์น˜

RoPE์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์€ ์œ„์น˜ ์ •๋ณด๋ฅผ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ย ํšŒ์ „ ๊ฐ๋„๋กœ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํ† ํฐ ์ž„๋ฒ ๋”ฉ์— ์œ„์น˜ ๋ฒกํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๋Œ€์‹ , RoPE๋Š” ์ฟผ๋ฆฌ ๋ฐ ํ‚ค ๋ฒกํ„ฐ๋ฅผ ๊ทธ๋“ค์˜ ์ ˆ๋Œ€ ์œ„์น˜์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๊ฐ๋„๋กœ ํšŒ์ „์‹œํ‚จ๋‹ค.

์ง๊ด€์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: ์šฐ๋ฆฌ๋Š” ์ž„๋ฒ ๋”ฉ์˜ ๊ฐ ์ฐจ์› ์Œ์„ ์› ์œ„์˜ ์ขŒํ‘œ๋กœ ์ทจ๊ธ‰ํ•˜๊ณ , ๋‹ค์Œ ๋‘ ๊ฐ€์ง€์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ๊ฐ๋„๋กœ ๊ทธ๊ฒƒ๋“ค์„ ํšŒ์ „์‹œํ‚จ๋‹ค:

import torch

def apply_rope_simplified(x, pos, dim=64, base=10000):
    """
    Rotary Position Embedding (RoPE)

    ์•„์ด๋””์–ด:
    - ๊ฐ ํ† ํฐ์€ ์œ„์น˜ ์ธ๋ฑ์Šค p (0, 1, 2, ...)๋ฅผ ๊ฐ€์ง„๋‹ค.
    - ๋ฒกํ„ฐ ์ฐจ์›์˜ ๊ฐ ์Œ์€ ์ธ๋ฑ์Šค k (0 .. dim/2 - 1)๋ฅผ ๊ฐ€์ง„๋‹ค.
    - RoPE๋Š” ๋ชจ๋“  ์Œ [x[2k], x[2k+1]]์„ ๊ฐ๋„ ฮธ_{p,k}๋งŒํผ ํšŒ์ „์‹œํ‚จ๋‹ค.

    ๊ณต์‹:
      ฮธ_{p,k} = p * base^(-k / (dim/2))

    - ์ž‘์€ k (์ดˆ๊ธฐ ์ฐจ์› ์Œ) โ†’ ๋А๋ฆฐ ์ง„๋™ โ†’ ์žฅ๊ฑฐ๋ฆฌ ์ •๋ณด ํฌ์ฐฉ.
    - ํฐ k (ํ›„๊ธฐ ์ฐจ์› ์Œ) โ†’ ๋น ๋ฅธ ์ง„๋™ โ†’ ์„ธ๋ถ€ ์ •๋ณด ํฌ์ฐฉ.

    """
    rotated = []
    for i in range(0, dim, 2):
        k = i // 2  # ์ด ์ฐจ์› ์Œ์˜ ์ธ๋ฑ์Šค

        # ์ฃผํŒŒ์ˆ˜ ํ•ญ: k๊ฐ€ ๋†’์„์ˆ˜๋ก โ†’ ์ง„๋™์ด ๋น ๋ฆ„
        inv_freq = 1.0 / (base ** (k / (dim // 2)))
        theta = pos * inv_freq  # ์œ„์น˜ p์™€ ์Œ k์— ๋Œ€ํ•œ ํšŒ์ „ ๊ฐ๋„

        cos_t = torch.cos(torch.tensor(theta, dtype=x.dtype, device=x.device))
        sin_t = torch.sin(torch.tensor(theta, dtype=x.dtype, device=x.device))

        x1, x2 = x[i], x[i+1]

        # 2D ํšŒ์ „ ์ ์šฉ
        rotated.extend([x1 * cos_t - x2 * sin_t,
                        x1 * sin_t + x2 * cos_t])

    return torch.stack(rotated)

## Q, K: [batch, heads, seq, d_head]
Q = torch.randn(1, 2, 4, 8)
K = torch.randn(1, 2, 4, 8)

## ๐Ÿ‘‰ Q์™€ K์— ๋‚ด์  *์ „์—* RoPE ์ ์šฉ
Q_rope = torch.stack([apply_rope(Q[0,0,p], p) for p in range(Q.size(2))])
K_rope = torch.stack([apply_rope(K[0,0,p], p) for p in range(K.size(2))])

scores = (Q_rope @ K_rope.T) / math.sqrt(Q.size(-1))
attn_weights = torch.softmax(scores, dim=-1)

์ด ์ฝ”๋“œ๊ฐ€ ๋ณต์žกํ•ด ๋ณด์ผ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ตฌ์ฒด์ ์ธ ์˜ˆ์‹œ๋กœ ๋ถ„์„ํ•ด๋ณด์ž. ๋ฌธ์žฅ โ€œThe quick brown foxโ€์—์„œ ๋‹จ์–ด โ€œfoxโ€๋ฅผ ๊ณ ๋ คํ•ด๋ณด์ž. ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ 1B ๋ชจ๋ธ์—์„œ, ๊ฐ ์–ดํ…์…˜ ํ—ค๋“œ๋Š” 64์ฐจ์› ์ฟผ๋ฆฌ/ํ‚ค ๋ฒกํ„ฐ๋กœ ์ž‘์—…ํ•œ๋‹ค. RoPE๋Š” ์ด ๋ฒกํ„ฐ๋ฅผ 32์Œ์œผ๋กœ ๊ทธ๋ฃนํ™”ํ•œ๋‹ค: (x1,x2), (x3, x4), (x5, x6) ๋“ฑ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” 2D ๊ณต๊ฐ„์—์„œ ์›์„ ์ค‘์‹ฌ์œผ๋กœ ํšŒ์ „ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์Œ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์ด๋‹ค ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด, ์ฒซ ๋ฒˆ์งธ ์Œ (x1,x2) ์— ์ดˆ์ ์„ ๋งž์ถฐ ๋ณด์ž. ๋‹จ์–ด โ€œfoxโ€๋Š” ์šฐ๋ฆฌ ๋ฌธ์žฅ์—์„œ ์œ„์น˜ 3์— ๋‚˜ํƒ€๋‚˜๋ฏ€๋กœ, RoPE๋Š” ์ด ์ฒซ ๋ฒˆ์งธ ์ฐจ์› ์Œ์„ ๋‹ค์Œ์œผ๋กœ ํšŒ์ „์‹œํ‚ฌ ๊ฒƒ์ด๋‹ค:

rotation_angle = position ร— ฮธโ‚€
                = 3 ร— (1/10000^(0/32))
                = 3 ร— 1.0
                = 3.0 radians
                = 172ยฐ degrees

์šฐ๋ฆฌ์˜ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜๋Š” 10000์ด์ง€๋งŒ, ์ฒซ ๋ฒˆ์งธ ์ฐจ์› ์Œ (k=0)์˜ ๊ฒฝ์šฐ ์šฐ๋ฆฌ์˜ ์ง€์ˆ˜๋Š” 0์ด๋ฏ€๋กœ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜๋Š” ๊ณ„์‚ฐ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š”๋‹ค (์šฐ๋ฆฌ๋Š” 0์ œ๊ณฑ์„ ํ•œ๋‹ค). ์•„๋ž˜ ์‹œ๊ฐํ™”๋Š” ์ด๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.52.40.png

์ด์ œ ๋‘ ํ† ํฐ์ด ์–ดํ…์…˜์„ ํ†ตํ•ด ์ƒํ˜ธ ์ž‘์šฉํ•  ๋•Œ ๋งˆ๋ฒ•์ด ๋ฐœ์ƒํ•œ๋‹ค. ๊ทธ๋“ค์˜ ํšŒ์ „๋œ ํ‘œํ˜„ ๊ฐ„์˜ ๋‚ด์ ์€ ๊ทธ๋“ค์˜ ํšŒ์ „ ๊ฐ๋„ ๊ฐ„์˜ ์œ„์ƒ์ฐจ๋ฅผ ํ†ตํ•ด ๊ทธ๋“ค์˜ ์ƒ๋Œ€ ๊ฑฐ๋ฆฌ๋ฅผ ์ง์ ‘ ์ธ์ฝ”๋”ฉํ•˜๊ฒŒ ๋œ๋‹ค. (์—ฌ๊ธฐ์„œ m ๊ณผ n์€ ํ† ํฐ ์œ„์น˜์ด๋‹ค)

dot_product(RoPE(x, m), RoPE(y, n)) = ฮฃโ‚– [xโ‚– * yโ‚– * cos((m-n) * ฮธโ‚–)]

์–ดํ…์…˜ ํŒจํ„ด์€ (m - n)์—๋งŒ ์˜์กดํ•˜๋ฏ€๋กœ, 5 ์œ„์น˜ ๋–จ์–ด์ง„ ํ† ํฐ์€ ์‹œํ€€์Šค ๋‚ด ๊ทธ๋“ค์˜ ์ ˆ๋Œ€ ์œ„์น˜์™€ ๊ด€๊ณ„์—†์ด ํ•ญ์ƒ ๋™์ผํ•œ ๊ฐ๋„ ๊ด€๊ณ„๋ฅผ ๊ฐ€์งˆ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์€ ์‹œํ€€์Šค ๋‚ด ์–ด๋А ์ ˆ๋Œ€ ์œ„์น˜์—์„œ๋“  ์ž‘๋™ํ•˜๊ณ  ๋” ๊ธด ์‹œํ€€์Šค๋กœย ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ํŒจํ„ด์„ ํ•™์Šตํ•˜๊ฒŒ ๋œ๋‹ค.

RoPE ์ฃผํŒŒ์ˆ˜๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•?

์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š”, ๋Œ€๋ถ€๋ถ„์˜ LLM ์‚ฌ์ „ ํ•™์Šต์€ 10K ๋˜๋Š” 50K์™€ ๊ฐ™์€ ์ˆ˜๋งŒ ๋‹จ์œ„์˜ RoPE ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ๋Œ€์ ์œผ๋กœ ์งง์€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด (2K-4K ํ† ํฐ)๋กœ ์‹œ์ž‘ํ•œ๋‹ค. ์ฒ˜์Œ๋ถ€ํ„ฐ ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์–ดํ…์…˜์˜ ์‹œํ€€์Šค ๊ธธ์ด์— ๋Œ€ํ•œ 2์ฐจ ํ™•์žฅ๊ณผ ์ด์ „์— ๋ฌธ์„œ ๋งˆ์Šคํ‚น ์„น์…˜์—์„œ ๋ณด์•˜๋“ฏ์ด ๊ธด ์ปจํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ (4K ์ด์ƒ์˜ ์ƒ˜ํ”Œ)์˜ ์ œํ•œ๋œ ๊ฐ€์šฉ์„ฑ์œผ๋กœ ์ธํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค ๊ฒƒ์ด๋‹ค. ์—ฐ๊ตฌ๋Š” ๋˜ํ•œ ์งง์€ ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ํ•ด์น  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค (Zhu et al., 2025). ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ์–ด ๊ฐ„์˜ ๋‹จ๊ฑฐ๋ฆฌ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์‹œ์ž‘ํ•˜๋ฏ€๋กœ ๊ธด ์‹œํ€€์Šค๋Š” ํฌ๊ฒŒ ๋„์›€์ด ๋˜์ง€ ์•Š๋Š”๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋” ์งง์€ ์‹œํ€€์Šค๋กœ ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•œ ๋‹ค์Œ, ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต์„ ํ•˜๊ฑฐ๋‚˜ ์ตœ์ข… ์ˆ˜์ฒœ์–ต ํ† ํฐ์„ ๋” ๊ธด ์‹œํ€€์Šค์— ์†Œ๋น„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ, ํ† ํฐ ์œ„์น˜์— ๋น„๋ก€ํ•˜๋Š” ํšŒ์ „ ๊ฐ๋„๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ , ์ด๋Š” ๋จผ ํ† ํฐ์— ๋Œ€ํ•œ ์–ดํ…์…˜ ์ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋น ๋ฅด๊ฒŒ ๊ฐ์‡ ํ•˜๋„๋ก ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ๋‹ค (Roziรจre et al., 2024; Xiong et al., 2023):

ฮธ = position x 1 / (base^(k/(dim/2)))

ํ•ด๊ฒฐ์ฑ…์€ ABF ๋ฐ YaRN๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ๊ทธ๋Ÿฌํ•œ ๊ฐ์‡ ๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

RoPE ABF (RoPE with Adjusted Base Frequency)ย (Xiong et al., 2023b): RoPE ๊ณต์‹์—์„œ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œ์ผœ ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ์˜ ์–ดํ…์…˜ ๊ฐ์‡  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์ด ์กฐ์ •์€ ํ† ํฐ ์œ„์น˜ ๊ฐ„์˜ ํšŒ์ „ ๊ฐ๋„๋ฅผ ๋Šฆ์ถ”์–ด ๋จผ ํ† ํฐ์˜ ์–ดํ…์…˜ ์ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋น ๋ฅด๊ฒŒ ๊ฐ์‡ ํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•œ๋‹ค. ABF๋Š” ๋‹จ์ผ ๋‹จ๊ณ„ (์ง์ ‘์ ์ธ ์ฃผํŒŒ์ˆ˜ ๋ถ€์ŠคํŠธ) ๋˜๋Š” ๋‹ค๋‹จ๊ณ„ (์ปจํ…์ŠคํŠธ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ ์ง„์  ์ฆ๊ฐ€)๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ตฌํ˜„์ด ๊ฐ„๋‹จํ•˜๋ฉฐ, ์ž„๋ฒ ๋””๋“œ ๋ฒกํ„ฐ๋ฅผ ์ฆ๊ฐ€๋œ ์„ธ๋ถ„์„ฑ์œผ๋กœ ๋ถ„์‚ฐ์‹œ์ผœ ๋ชจ๋ธ์ด ๋จผ ์œ„์น˜๋ฅผ ๋” ์‰ฝ๊ฒŒ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ๊ฐ„๋‹จํ•˜๊ณ  ํšจ๊ณผ์ ์ด์ง€๋งŒ, ABF์˜ ๋ชจ๋“  ์ฐจ์›์— ๊ฑธ์นœ ๊ท ์ผํ•œ ์Šค์ผ€์ผ๋ง์€ ๊ทน๋„๋กœ ๊ธด ์ปจํ…์ŠคํŠธ์—๋Š” ์ตœ์ ์ด ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค.

YaRN (Yet another RoPE extensioN)ย (Peng et al., 2023): ๋žจํ”„ ๋˜๋Š” ์Šค์ผ€์ผ๋ง ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ RoPE ์ฐจ์›์— ๊ฑธ์ณ ์ฃผํŒŒ์ˆ˜๋ฅผ ๋ถˆ๊ท ์ผํ•˜๊ฒŒ ๋ณด๊ฐ„ํ•˜๋Š” ๋” ์ •๊ตํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค. ABF์˜ ๊ท ์ผํ•œ ์กฐ์ •๊ณผ ๋‹ฌ๋ฆฌ, YaRN์€ ๋‹ค๋ฅธ ์ฃผํŒŒ์ˆ˜ ๊ตฌ์„ฑ ์š”์†Œ์— ๋‹ค๋ฅธ ์Šค์ผ€์ผ๋ง ๊ณ„์ˆ˜๋ฅผ ์ ์šฉํ•˜์—ฌ ํ™•์žฅ๋œ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์ตœ์ ํ™”ํ•œ๋‹ค. ์ด๋Š” ๋™์  ์–ดํ…์…˜ ์Šค์ผ€์ผ๋ง ๋ฐ ์–ดํ…์…˜ ๋กœ์ง“์—์„œ์˜ ์˜จ๋„ ์กฐ์ •๊ณผ ๊ฐ™์€ ์ถ”๊ฐ€ ๊ธฐ์ˆ ์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ๋งค์šฐ ํฐ ์ปจํ…์ŠคํŠธ ํฌ๊ธฐ์—์„œ ์„ฑ๋Šฅ์„ ๋ณด์กดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. YaRN์€ ๊ฐ•๋ ฅํ•œ ์ถ”์ •์„ ์œ„ํ•ด ๋” ์ ์€ ํ† ํฐ๊ณผ ๋” ์ ์€ ํŒŒ์ธ ํŠœ๋‹์„ ์š”๊ตฌํ•˜๋Š” ํšจ์œจ์ ์ธ โ€œ์งง๊ฒŒ ํ•™์Šตํ•˜๊ณ  ๊ธธ๊ฒŒ ํ…Œ์ŠคํŠธํ•˜๋Š”โ€ ์ „๋žต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ABF๋ณด๋‹ค ๋” ๋ณต์žกํ•˜์ง€๋งŒ, YaRN์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ๋ถ€๋“œ๋Ÿฌ์šด ์Šค์ผ€์ผ๋ง์„ ์ œ๊ณตํ•˜๊ณ  ์น˜๋ช…์ ์ธ ์–ดํ…์…˜ ์†์‹ค์„ ์™„ํ™”ํ•จ์œผ๋กœ์จ ๊ทน๋„๋กœ ๊ธด ์ปจํ…์ŠคํŠธ์— ๋Œ€ํ•ด ๋” ๋‚˜์€ ๊ฒฝํ—˜์  ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Š” ํŒŒ์ธ ํŠœ๋‹ ์—†์ด๋„ ์ถ”๋ก  ๋‹จ๋…์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜๋„ ์žˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ฃผํŒŒ์ˆ˜ ์กฐ์ • ๋ฐฉ๋ฒ•๋“ค์€ ์–ดํ…์…˜ ์ ์ˆ˜ ๊ฐ์‡  ํšจ๊ณผ๋ฅผ ๋Šฆ์ถ”๊ณ  ๋จผ ํ† ํฐ์˜ ๊ธฐ์—ฌ๋ฅผ ์œ ์ง€ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Qwen3์˜ ํ•™์Šต์€ ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ 4k ์ปจํ…์ŠคํŠธ์—์„œ 32k๋กœ ํ™•์žฅ๋จ์— ๋”ฐ๋ผ ABF๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฃผํŒŒ์ˆ˜๋ฅผ 10k์—์„œ 1M์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์„ ํฌํ•จํ–ˆ๋‹ค (ํŒ€์€ ๊ทธ ํ›„ YaRN์„ ์ ์šฉํ•˜์—ฌ 131k, 4๋ฐฐ ์ถ”์ •์— ๋„๋‹ฌํ•œ๋‹ค). ์ตœ์  ๊ฐ’์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ํ•ฉ์˜๋Š” ์—†์œผ๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ปจํ…์ŠคํŠธ ํ™•์žฅ ๋‹จ๊ณ„์—์„œ ๋‹ค๋ฅธ RoPE ๊ฐ’์„ ์‹คํ—˜ํ•˜์—ฌ ํŠน์ • ์„ค์ • ๋ฐ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ฒƒ์„ ์ฐพ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

์˜ค๋Š˜๋‚  ๋Œ€๋ถ€๋ถ„์˜ ์ฃผ์š” ๋ชจ๋ธ์€ RoPE๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค: Llama, Qwen, Gemma, ๊ทธ๋ฆฌ๊ณ  ๋‹ค๋ฅธ ๋งŽ์€ ๋ชจ๋ธ๋“ค์ด ๊ทธ๋ ‡๋‹ค. ์ด ๊ธฐ์ˆ ์€ ๋‹ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์•„ํ‚คํ…์ฒ˜ (๋ฐ€์ง‘ํ˜•, MoE, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ)์— ๊ฑธ์ณ Robust ํ•˜๋‹ค๋Š” ๊ฒƒ์ด ์ž…์ฆ๋˜์—ˆ๋‹ค. ์ตœ๊ทผ์— ๋‚˜ํƒ€๋‚œ ๋ช‡ ๊ฐ€์ง€ RoPE ๋ณ€ํ˜•์„ ๋” ์‚ดํŽด๋ณด์ž.

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์ ‘๊ทผ ๋ฐฉ์‹

๋ชจ๋ธ์ด ์ ์  ๋” ํฐ ์ปจํ…์ŠคํŠธ๋กœ ๋‚˜์•„๊ฐ์— ๋”ฐ๋ผ (Meta AI, 2025; Yang et al., 2025), RoPE์กฐ์ฐจ๋„ ์„ฑ๋Šฅ ๋ฌธ์ œ์— ๋ถ€๋”ชํžˆ๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค. ๊ธด ์ปจํ…์ŠคํŠธ ํ™•์žฅ ์ค‘ RoPE์˜ ์ฃผํŒŒ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ํ‘œ์ค€ ์ ‘๊ทผ ๋ฐฉ์‹์€ Needle in the Haystack (NIAH) (Kamradt, 2023)๋ณด๋‹ค ๋” ๋„์ „์ ์ธ Ruler ๋ฐ HELMET (Hsieh et al., 2024; Yen et al., 2025)๊ณผ ๊ฐ™์€ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€๋  ๋•Œ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์—ฌ๊ธฐ์— ๋„์›€์ด ๋˜๋Š” ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ๋“ค์ด ๋„์ž…๋˜์—ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํ† ํฐ ์ˆœ์„œ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•˜๋‹ค๊ณ  ๋งํ•จ์œผ๋กœ์จ ์ด ์„น์…˜์„ ์‹œ์ž‘ํ–ˆ์ง€๋งŒ, ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ์ด ๊ฐ€์ •์— ๋„์ „ํ•˜๊ณ  ์žˆ๋‹ค. ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์ด ๊ฒฐ๊ตญ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค๋ฉด ์–ด๋–จ๊นŒ?

NoPE (No Position Embedding)ย (Kazemnejad et al., 2023)๋Š” ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์—†์ด ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ•™์Šต์‹œ์ผœ, ๋ชจ๋ธ์ด ์ธ๊ณผ์  ๋งˆ์Šคํ‚น ๋ฐ ์–ดํ…์…˜ ํŒจํ„ด์„ ํ†ตํ•ด ์œ„์น˜ ์ •๋ณด๋ฅผ ์•”์‹œ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ์ €์ž๋“ค์€ ์ด ์ ‘๊ทผ ๋ฐฉ์‹์ด ALiBi ๋ฐ RoPE์— ๋น„ํ•ด ๋” ๋‚˜์€ ๊ธธ์ด ์ผ๋ฐ˜ํ™”๋ฅผ ๋ณด์—ฌ์ค€๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ํ•™์Šต ๊ธธ์ด๋ฅผ ๋„˜์–ด ์™ธ์‚ฝ(extrapolate) ํ•˜๊ธฐ ์œ„ํ•œ ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์—†์ด, NoPE๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ๋Š”, NoPE ๋ชจ๋ธ์€ RoPE์— ๋น„ํ•ด ์งง์€ ์ปจํ…์ŠคํŠธ ์ถ”๋ก  ๋ฐ ์ง€์‹ ์ž‘์—…์—์„œ ๋” ์•ฝํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค (Yang et al.). ์ด๊ฒƒ์€ ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์ด ์™ธ์‚ฝ์„ ์ œํ•œํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•™์Šต ์ปจํ…์ŠคํŠธ ๊ธธ์ด ๋‚ด์˜ ์ž‘์—…์— ์œ ์šฉํ•œ ๊ท€๋‚ฉ์  ํŽธํ–ฅ์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

RNoPE ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ ๋ฐฉ์‹:ย ์ด๋Ÿฌํ•œ ์žฅ๋‹จ์ ์„ ๊ณ ๋ คํ•  ๋•Œ; B. Yang et al. (2025)์€ ๋‹ค๋ฅธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์ „๋žต์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด ํฅ๋ฏธ๋กœ์šธ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ œ์•ˆํ•œ๋‹ค. ๊ทธ๋“ค์€ ๋ชจ๋ธ ์ „์ฒด์— ๊ฑธ์ณ RoPE ๋ ˆ์ด์–ด์™€ NoPE ๋ ˆ์ด์–ด๋ฅผ ๋ฒˆ๊ฐˆ์•„ ์‚ฌ์šฉํ•˜๋Š” RNoPE๋ฅผ ๋„์ž…ํ•œ๋‹ค. RoPE ๋ ˆ์ด์–ด๋Š” ๋ช…์‹œ์ ์ธ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๊ณ  ์ตœ๊ทผ์„ฑ ํŽธํ–ฅ์„ ๊ฐ€์ง„ ๋กœ์ปฌ ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ˜๋ฉด, NoPE ๋ ˆ์ด์–ด๋Š” ๊ธด ๊ฑฐ๋ฆฌ์— ๊ฑธ์นœ ์ •๋ณด ๊ฒ€์ƒ‰์„ ๊ฐœ์„ ํ•œ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ์ตœ๊ทผ Llama4, Command A ๋ฐ SmolLM3์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

๐Ÿ“๋ช…๋ช… ๊ทœ์น™

๋‚˜๋จธ์ง€ ์ด ๋ธ”๋กœ๊ทธ์—์„œ๋Š” ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด RNoPE๋ฅผ โ€œNoPEโ€๋ผ๊ณ  ๋ถ€๋ฅผ ๊ฒƒ์ด๋‹ค. (๋‹น์‹ ์€ ํ† ๋ก ์—์„œ ์‚ฌ๋žŒ๋“ค์ด RNoPE๋ฅผ ์˜๋ฏธํ•˜๊ธฐ ์œ„ํ•ด โ€œNoPEโ€๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ข…์ข… ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค).

์ œ๊ฑฐ ์‹คํ—˜ - NoPE๋Š” ์งง์€ ์ปจํ…์ŠคํŠธ์—์„œ RoPE์™€ ์ผ์น˜ํ•œ๋‹ค

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ NoPE ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ˆœ์ˆ˜ RoPE 1B ์ œ๊ฑฐ ์‹คํ—˜ ๊ธฐ์ค€์„ ๊ณผ 4๋ฒˆ์งธ ๋ ˆ์ด์–ด๋งˆ๋‹ค ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์ œ๊ฑฐํ•˜๋Š” NoPE ๋ณ€ํ˜•, ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ  ๊ฐ„์˜ ์ƒํ˜ธ ์ž‘์šฉ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด NoPE์™€ ๋ฌธ์„œ ๋งˆ์Šคํ‚น์„ ๊ฒฐํ•ฉํ•œ ์„ธ ๋ฒˆ์งธ ์„ค์ •์„ ๋น„๊ตํ•  ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ์˜ ๊ธฐ๋ณธ ์งˆ๋ฌธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: ๋” ๋‚˜์€ ๊ธด ์ปจํ…์ŠคํŠธ ๊ธฐ๋Šฅ์„ ์–ป์œผ๋ฉด์„œ ๊ฐ•๋ ฅํ•œ ์งง์€ ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.52.54.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.53.07.png

์†์‹ค ๋ฐ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ๋ชจ๋‘์—์„œ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, NoPE๊ฐ€ ๋” ๋‚˜์€ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ๋™์‹œ์— ๊ฐ•๋ ฅํ•œ ์งง์€ ์ปจํ…์ŠคํŠธ ๊ธฐ๋Šฅ์„ ์œ ์ง€ํ•จ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ์šฐ๋ฆฌ๋Š” SmolLM3์—ย NoPE + ๋ฌธ์„œ ๋งˆ์Šคํ‚นย ์กฐํ•ฉ์„ ์ฑ„ํƒํ–ˆ๋‹ค.

Partial/Fractional RoPE:ย ๋˜ ๋‹ค๋ฅธ ๋ณด์™„์ ์ธ ์•„์ด๋””์–ด๋Š” ๋ชจ๋ธ ์ฐจ์›์˜ ์ผ๋ถ€์—๋งŒ RoPE๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ „์ฒด ๋ ˆ์ด์–ด๋ฅผ RoPE์™€ NoPE ์‚ฌ์ด์— ๋ฒˆ๊ฐˆ์•„ ์‚ฌ์šฉํ•˜๋Š” RNoPE์™€ ๋‹ฌ๋ฆฌ, Partial RoPE๋Š” ๋™์ผํ•œ ๋ ˆ์ด์–ด ๋‚ด์—์„œ ๊ทธ๊ฒƒ๋“ค์„ ํ˜ผํ•ฉํ•œ๋‹ค. GLMโ€‘4.5 (5 Team et al., 2025) ๋˜๋Š” Minimax-01 (MiniMax et al., 2025)๊ณผ ๊ฐ™์€ ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์ด ์ด ์ „๋žต์„ ์ฑ„ํƒํ•˜์ง€๋งŒ, ์ด๊ฒƒ์€ gpt-j (Wang & Komatsuzaki, 2021)์™€ ๊ฐ™์€ ๋” ์˜ค๋ž˜๋œ ๋ชจ๋ธ์—๋„ ์กด์žฌํ–ˆ๋‹ค. ํ•ฉ๋ฆฌ์ ์ธ ์ถ”๋ก  ๋น„์šฉ์„ ๊ฐ–๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์ด๊ธฐ ๋•Œ๋ฌธ์— MLA๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋“  ๋ชจ๋ธ์—์„œ ์ด๊ฒƒ์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

๐Ÿ”ง๊ธฐ์ˆ ์  ์„ค๋ช…: Partial RoPE๊ฐ€ MLA์— ํ•„์ˆ˜์ ์ธ ์ด์œ 

MLA๋Š” ํˆฌ์˜ ํก์ˆ˜(projection absorption)๋กœ ์ถ”๋ก ์„ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ ๋‹ค: ํ—ค๋“œ๋ณ„ ํ‚ค ki(h)k_i^{(h)}๋ฅผ ์ €์žฅํ•˜๋Š” ๋Œ€์‹ , ์ž‘์€ ๊ณต์œ  latent ci=xiWcโˆˆRdcc_i = x_i W_c โˆˆ R^{d_c} ๋ฅผ ์บ์‹œํ•˜๊ณ  ํ—ค๋“œ์˜ ์ฟผ๋ฆฌ/ํ‚ค ๋งต์„ ๋ณ‘ํ•ฉํ•˜์—ฌ ๊ฐ ์ ์ˆ˜๊ฐ€ ์ €๋ ดํ•ด์ง€๋„๋ก ํ•œ๋‹ค. qt(h)=xtWq(h)q_t^{(h)} = x_t W_q^{(h)} ๋ฐ ki(h)=ciE(h)k_i^{(h)} = c_i E^{(h)}๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ U(h)=Wq(h)E(h)U^{(h)} = W_q^{(h)} E^{(h)}๋ฅผ ์ •์˜ํ•˜๋ฉด ๋‹ค์Œ์„ ์–ป๋Š”๋‹ค:

s(t,i)(h)=1(dk)(qt(h))โŠคki(h)=1(dk)(xtU(h))โŠคcis_(t,i)^{(h)} = \frac{1}{\sqrt{(d_k)}} (q_t^{(h)})^โŠค k_i^{(h)} = \frac{1}{\sqrt{(d_k)}} (x_t U^{(h)})^โŠค c_i

๋”ฐ๋ผ์„œ ์ž‘์€ ์บ์‹œ cic_i ์— ๋Œ€ํ•ด q~t(h)=xtU(h)โˆˆRdcqฬƒ_t^{(h)} = x_t U^{(h)} โˆˆ R^{d_c}๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค (ํ—ค๋“œ๋ณ„ k ๋Š” ์ €์žฅ๋˜์ง€ ์•Š์Œ). ํ•˜์ง€๋งŒ RoPE๋Š” ๋‘ ๋งต ์‚ฌ์ด์— ์Œ ์˜์กด์  ํšŒ์ „์„ ์‚ฝ์ž…ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์„ ๊นจ๋œจ๋ฆฐ๋‹ค: ์ „์ฒด ์ฐจ์› RoPE๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด,

st,i(h)=1(dk)(xtWq(h))โŠคRtโˆ’i(ciE(h))s_{t,i}^{(h)} = \frac{1}{\sqrt{(d_k)}} (x_t W_q^{(h)})^โŠค R_{t-i} (c_i E^{(h)})

์ธ๋ฐ, Rtโˆ’iR_{t-i}๊ฐ€ t-i ์— ์˜์กดํ•œ๋‹ค. ๋”ฐ๋ผ์„œ Wq(h)W_q^{(h)} ์™€ E(h)E^{(h)}๋ฅผ ๊ณ ์ •๋œ U(h)U^{(h)}๋กœ ๋ฏธ๋ฆฌ ๋ณ‘ํ•ฉํ•  ์ˆ˜ ์—†๋‹ค. ํ•ด๊ฒฐ์ฑ…์ด Partial RoPE์ด๋‹ค. ํ—ค๋“œ ์ฐจ์› dk=dnope+droped_k = d_{nope} + d_{rope}๋ฅผ ๋ถ„ํ• ํ•˜๊ณ , ํฐ ๋ธ”๋ก์—๋Š” ํšŒ์ „์„ ์ ์šฉํ•˜์ง€ ์•Š๊ณ  (์ด์ „๊ณผ ๊ฐ™์ด ํก์ˆ˜: (xtUnope(h))โŠคci(x_t U_{nope}^{(h)})^โŠค c_i) ์ž‘์€ ๋ธ”๋ก์—๋งŒ RoPE๋ฅผ ์ ์šฉํ•œ๋‹ค.

๊ธด ์ปจํ…์ŠคํŠธ์— ๋Œ€ํ•œ ์–ดํ…์…˜ ๋ฒ”์œ„ ์ œํ•œ

์ง€๊ธˆ๊นŒ์ง€ ์šฐ๋ฆฌ๋Š” ๊ธด ์ปจํ…์ŠคํŠธ์— ๋Œ€ํ•œ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•: RoPE ํ™œ์„ฑํ™”, ๋น„ํ™œ์„ฑํ™” (NoPE), ์ผ๋ถ€ ๋ ˆ์ด์–ด์— ๋ถ€๋ถ„์ ์œผ๋กœ ์ ์šฉ (RNoPE) ๋˜๋Š” ์ผ๋ถ€ ์€๋‹‰ ์ฐจ์›์— ์ ์šฉ (Partial RoPE), ๋˜๋Š” ๊ทธ ์ฃผํŒŒ์ˆ˜ ์กฐ์ • (ABF, YaRN)์„ ํƒ์ƒ‰ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹๋“ค์€ ๋ชจ๋ธ์ด ํ•™์Šต ์ค‘์— ๋ณธ ๊ฒƒ๋ณด๋‹ค ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ์‹์„ ์ˆ˜์ •ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ณด์™„์ ์ธ ์ „๋žต์ด ์žˆ๋‹ค: ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์กฐ์ •ํ•˜๋Š” ๋Œ€์‹ , ์„œ๋กœ์—๊ฒŒ ์–ดํ…์…˜ํ•˜๋Š” ํ† ํฐ์„ ์ œํ•œํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฒƒ์ด ์™œ ์ค‘์š”ํ•œ์ง€ ๋ณด๊ธฐ ์œ„ํ•ด, 8๊ฐœ์˜ ํ† ํฐ ์‹œํ€€์Šค๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ณ ๋ คํ•ด๋ณด์ž. ์ถ”๋ก  ์‹œ, ์šฐ๋ฆฌ๋Š” 16๊ฐœ์˜ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•˜๊ณ ์ž ํ•œ๋‹ค (ํ•™์Šต ๊ธธ์ด๋ณด๋‹ค ๊ธธ๋‹ค). ์œ„์น˜ 8-15๋Š” ๋ชจ๋ธ์˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์— ๋Œ€ํ•ด ๋ถ„ํฌ๋ฅผ ๋ฒ—์–ด๋‚œ๋‹ค. RoPE ABF์™€ ๊ฐ™์€ ๊ธฐ์ˆ ์ด ์œ„์น˜ ์ฃผํŒŒ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ˜๋ฉด, ์–ดํ…์…˜ ๋ฒ”์œ„ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค: ๊ทธ๋“ค์€ ์ „๋žต์ ์œผ๋กœ ์„œ๋กœ์—๊ฒŒ ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋Š” ํ† ํฐ์„ ์ œํ•œํ•˜์—ฌ, ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ๋„ ์–ดํ…์…˜ ํŒจํ„ด์„ ์ต์ˆ™ํ•œ ๋ฒ”์œ„ ๋‚ด๋กœ ์œ ์ง€ํ•œ๋‹ค. ์ด๊ฒƒ์€ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์„ ๋ชจ๋‘ ์ค„์ธ๋‹ค. ์•„๋ž˜ ๋‹ค์ด์–ด๊ทธ๋žจ์€ 8์˜ ์‚ฌ์ „ ํ•™์Šต ์ฐฝ์„ ๊ฐ€์ง„ ์šฐ๋ฆฌ์˜ 16 ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋‹ค์„ฏ ๊ฐ€์ง€ ์ „๋žต์„ ๋น„๊ตํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.54.15.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.53.26.png

**์ฒญํฌํ˜• ์–ดํ…์…˜(Chunked Attention)**์€ ์‹œํ€€์Šค๋ฅผ ๊ณ ์ • ํฌ๊ธฐ ์ฒญํฌ๋กœ ๋‚˜๋ˆ„๋ฉฐ, ํ† ํฐ์€ ๊ทธ๋“ค์˜ ์ฒญํฌ ๋‚ด์—์„œ๋งŒ ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ ์˜ˆ์‹œ์—์„œ, 16๊ฐœ์˜ ํ† ํฐ์€ ๋‘ ๊ฐœ์˜ 8 ํ† ํฐ ์ฒญํฌ (0์—์„œ 7, 8์—์„œ 15)๋กœ ๋ถ„ํ• ๋˜๋ฉฐ, ๊ฐ ํ† ํฐ์€ ์ž์‹ ์˜ ์ฒญํฌ ๋‚ด์˜ ๋‹ค๋ฅธ ํ† ํฐ๋งŒ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํ† ํฐ 8์—์„œ 15๊ฐ€ ์ด์ „ ์ฒญํฌ์— ์ „ํ˜€ ์–ดํ…์…˜ํ•  ์ˆ˜ ์—†์Œ์— ์ฃผ๋ชฉํ•œ๋‹ค. ์ด๊ฒƒ์€ ์ฒญํฌ ๊ฒฝ๊ณ„์—์„œ ์žฌ์„ค์ •๋˜๋Š” ๊ณ ๋ฆฝ๋œ ์–ดํ…์…˜ ์ฐฝ์„ ๋งŒ๋“ ๋‹ค. Llama 4 (Meta AI, 2025)๋Š” RoPE ๋ ˆ์ด์–ด (4๊ฐœ์˜ ๋””์ฝ”๋” ๋ ˆ์ด์–ด ์ค‘ 3๊ฐœ)์—์„œ 8192 ํ† ํฐ ์ฒญํฌ๋กœ ์ฒญํฌํ˜• ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด, NoPE ๋ ˆ์ด์–ด๋Š” ์ „์ฒด ์ปจํ…์ŠคํŠธ ์ ‘๊ทผ์„ ์œ ์ง€ํ•œ๋‹ค. ์ด๊ฒƒ์€ ๋ ˆ์ด์–ด๋‹น KV ์บ์‹œ ํฌ๊ธฐ๋ฅผ ์ œํ•œํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ค„์ด์ง€๋งŒ, ํ† ํฐ์ด ์ด์ „ ์ฒญํฌ์— ์–ดํ…์…˜ํ•  ์ˆ˜ ์—†์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๋Š” ์ผ๋ถ€ ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.53.37.png

**์Šฌ๋ผ์ด๋”ฉ ์ฐฝ ์–ดํ…์…˜(Sliding Window Attention, SWA)**์€ Mistral 7B (Child et al., 2019; Jiang et al., 2023)์— ์˜ํ•ด ๋Œ€์ค‘ํ™”๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ€์žฅ ์ตœ๊ทผ ํ† ํฐ์ด ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ์ด ๋†’๋‹ค๋Š” ์ง๊ด€์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค. ํ•˜๋“œ ์ฒญํฌ ๊ฒฝ๊ณ„ ๋Œ€์‹ , ๊ฐ ํ† ํฐ์€ ๊ฐ€์žฅ ์ตœ๊ทผ N๊ฐœ์˜ ํ† ํฐ์—๋งŒ ์–ดํ…์…˜ํ•œ๋‹ค. ๋‹ค์ด์–ด๊ทธ๋žจ์—์„œ, ๋ชจ๋“  ํ† ํฐ์€ 8๊ฐœ ์œ„์น˜ ๋’ค๊นŒ์ง€ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹œํ€€์Šค ์ „์ฒด์— ๊ฑธ์ณ ์—ฐ์†์ ์œผ๋กœ ์ด๋™ํ•˜๋Š” ์Šฌ๋ผ์ด๋”ฉ ์ฐฝ์„ ๋งŒ๋“ ๋‹ค. ํ† ํฐ 15๋Š” ์œ„์น˜ 8์—์„œ 15๊นŒ์ง€ ์–ดํ…์…˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, ํ† ํฐ 10์€ ์œ„์น˜ 3์—์„œ 10๊นŒ์ง€ ์–ดํ…์…˜ํ•œ๋‹ค. ์ฐฝ์€ ์•ž์œผ๋กœ ๋ฏธ๋„๋Ÿฌ์ง€๋ฉฐ, ์ฒญํ‚น์˜ ์ธ๊ณต์ ์ธ ์žฅ๋ฒฝ ์—†์ด ์ „์ฒด ์‹œํ€€์Šค์— ๊ฑธ์ณ ๋กœ์ปฌ ์ปจํ…์ŠคํŠธ๋ฅผ ์œ ์ง€ํ•œ๋‹ค. Gemma 3์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฅธ ์ „๋žต์„ ํ˜ผํ•ฉํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, SWA๋ฅผ ์ „์ฒด ์–ดํ…์…˜๊ณผ ๋ฒˆ๊ฐˆ์•„ ๊ฐ€๋ฉฐ ์‚ฌ์šฉํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.53.50.png

๋“€์–ผ ์ฒญํฌ ์–ดํ…์…˜(Dual Chunk Attention, DCA)ย (An et al., 2024)์€ ์ฒญํฌ ๊ฐ„ ์ •๋ณด ํ๋ฆ„์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฒญํฌํ˜• ์–ดํ…์…˜์„ ํ™•์žฅํ•˜๋Š” ํ•™์Šต ์—†๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์šฐ๋ฆฌ ์˜ˆ์‹œ์—์„œ, ์šฐ๋ฆฌ๋Š” ์ฒญํฌ ํฌ๊ธฐ s=4 ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, 16๊ฐœ์˜ ํ† ํฐ์„ 4๊ฐœ์˜ ์ฒญํฌ๋กœ ๋‚˜๋ˆˆ๋‹ค (๋Œ€๊ฐ์„ ์„ ๋”ฐ๋ผ 4x4 ์‚ฌ๊ฐํ˜•์„ ์‹œ๊ฐํ™”ํ•œ๋‹ค). DCA๋Š” ์„ธ ๊ฐ€์ง€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•œ๋‹ค: (1) ํ† ํฐ์ด ๊ทธ๋“ค์˜ ์ฒญํฌ ๋‚ด์—์„œ ์ •์ƒ์ ์œผ๋กœ ์–ดํ…์…˜ํ•˜๋Š” ์ฒญํฌ ๋‚ด ์–ดํ…์…˜ (๋Œ€๊ฐ์„  ํŒจํ„ด). (2) ์ฟผ๋ฆฌ๊ฐ€ ์ด์ „ ์ฒญํฌ์— ์–ดํ…์…˜ํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜ ์ธ๋ฑ์Šค cโˆ’1=7 ์„ ์‚ฌ์šฉ, ์ƒ๋Œ€ ์œ„์น˜๋Š” 7๋กœ ์ œํ•œ๋˜๋Š” ์ฒญํฌ ๊ฐ„ ์–ดํ…์…˜ (3) ์ด์›ƒ ์ฒญํฌ ๊ฐ„์˜ ์ง€์—ญ์„ฑ์„ ๋ณด์กดํ•˜๋Š” ๋กœ์ปฌ ์ฐฝ w=3 ์„ ๊ฐ€์ง„ ์—ฐ์† ์ฒญํฌ ์–ดํ…์…˜. ์ด๊ฒƒ์€ ๋ชจ๋“  ์ƒ๋Œ€ ์œ„์น˜๋ฅผ ํ•™์Šต ๋ถ„ํฌ (0์—์„œ 7) ๋‚ด๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฒญํฌ ๊ฒฝ๊ณ„ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ถ€๋“œ๋Ÿฌ์šด ์ „ํ™˜์„ ์œ ์ง€ํ•œ๋‹ค. DCA๋Š” Qwen2.5์™€ ๊ฐ™์€ ๋ชจ๋ธ์ด ๋ฐฑ๋งŒ ํ† ํฐ ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์ง€์†์ ์ธ ํ•™์Šต์„ ์š”๊ตฌํ•˜์ง€ ์•Š๊ณ ๋„ ์ถ”๋ก  ์‹œ ์ตœ๋Œ€ 100๋งŒ ํ† ํฐ์˜ ์ดˆ์žฅ๊ธฐ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์ง€์›ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ค์—ˆ๋‹ค.

๐Ÿ“Š์–ดํ…์…˜ ์‹ฑํฌ

ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์—์„œ ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ํฅ๋ฏธ๋กœ์šด ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚œ๋‹ค: ๋ชจ๋ธ์€ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์ค‘์š”ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋„ ์‹œํ€€์Šค์˜ ์ดˆ๊ธฐ ํ† ํฐ์— ๋น„์ •์ƒ์ ์œผ๋กœ ๋†’์€ ์–ดํ…์…˜ ์ ์ˆ˜๋ฅผ ํ• ๋‹นํ•œ๋‹ค. ์ด ๋™์ž‘์„ **์–ดํ…์…˜ ์‹ฑํฌ(attention sinks)**๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค (Xiao et al.). ์ด ์ดˆ๊ธฐ ํ† ํฐ์€ ์–ดํ…์…˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์•ˆ์ •ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—ญํ• ์„ ํ•˜๋ฉฐ, ์–ดํ…์…˜์ด ์ถ•์ ๋  ์ˆ˜ ์žˆ๋Š” โ€œ์‹ฑํฌโ€ ์—ญํ• ์„ ํ•œ๋‹ค.

์ด๋กœ๋ถ€ํ„ฐ์˜ ์‹ค์šฉ ์ธก๋ฉด์—์„œ์˜ ํ†ต์ฐฐ์€ ์ปจํ…์ŠคํŠธ๊ฐ€ ์บ์‹œ ํฌ๊ธฐ๋ฅผ ์ดˆ๊ณผํ•  ๋•Œ, ๊ฐ€์žฅ ์ตœ๊ทผ ํ† ํฐ์˜ ์Šฌ๋ผ์ด๋”ฉ ์ฐฝ๊ณผ ํ•จ๊ป˜ ๋‹จ์ง€ ์ดˆ๊ธฐ ๋ช‡ ๊ฐœ์˜ ํ† ํฐ์˜ KV ์บ์‹œ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํšŒ๋ณตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๊ฐ„๋‹จํ•œ ์ˆ˜์ •์€ ๋ชจ๋ธ์ด ํŒŒ์ธ ํŠœ๋‹์ด๋‚˜ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ํ›จ์”ฌ ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

ํ˜„๋Œ€์ ์ธ ๊ตฌํ˜„์€ ์–ดํ…์…˜ ์‹ฑํฌ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ™œ์šฉํ•œ๋‹ค. ์›๋ž˜ ์—ฐ๊ตฌ๋Š” ๋ช…์‹œ์ ์ธ ์–ดํ…์…˜ ์‹ฑํฌ ์—ญํ• ์„ ํ•˜๋Š” ์ „์šฉ ํ”Œ๋ ˆ์ด์Šคํ™€๋” ํ† ํฐ์„ ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ์ถ”๊ฐ€ํ•  ๊ฒƒ์„ ์ œ์•ˆํ•œ๋‹ค. ๋” ์ตœ๊ทผ์—, gpt-oss์™€ ๊ฐ™์€ ๋ชจ๋ธ์€ ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ์‹ค์ œ ํ† ํฐ ๋Œ€์‹  ์–ดํ…์…˜ ์ ์ˆ˜์— ์ถ”๊ฐ€๋˜๋Š” ํ•™์Šต๋œ ํ—ค๋“œ๋ณ„ ํŽธํ–ฅ ๋กœ์ง“์œผ๋กœ ์–ดํ…์…˜ ์‹ฑํฌ๋ฅผ ๊ตฌํ˜„ํ•œ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ† ํฐํ™”๋œ ์ž…๋ ฅ์„ ์ˆ˜์ •ํ•˜์ง€ ์•Š๊ณ ๋„ ๋™์ผํ•œ ์•ˆ์ •ํ™” ํšจ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค.

ํฅ๋ฏธ๋กญ๊ฒŒ๋„, gpt-oss๋Š” ๋˜ํ•œ ์–ดํ…์…˜ ๋ ˆ์ด์–ด ์ž์ฒด์— ํŽธํ–ฅ ์œ ๋‹›์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” GPT-2 ์ดํ›„ ๊ฑฐ์˜ ๋ณผ ์ˆ˜ ์—†๋Š” ์„ค๊ณ„ ์„ ํƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ ํŽธํ–ฅ ์œ ๋‹›์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œ์ค€ ์–ดํ…์…˜ ์ž‘์—…์— ๋Œ€ํ•ด ๋ถˆํ•„์š”ํ•˜๋‹ค๊ณ  ๊ฐ„์ฃผ๋˜์ง€๋งŒ (Dehghani et al.์˜ ๊ฒฝํ—˜์  ๊ฒฐ๊ณผ๋Š” ํ…Œ์ŠคํŠธ ์†์‹ค์— ๋ฏธ๋ฏธํ•œ ์˜ํ–ฅ์„ ๋ณด์—ฌ์ค€๋‹ค), ์–ดํ…์…˜ ์‹ฑํฌ๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ์ „๋ฌธํ™”๋œ ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ์€: ํŠน์ˆ˜ ํ† ํฐ, ํ•™์Šต๋œ ํŽธํ–ฅ, ๋˜๋Š” ํ—ค๋“œ๋ณ„ ๋กœ์ง“์œผ๋กœ ๊ตฌํ˜„๋˜๋“ , ์–ดํ…์…˜ ์‹ฑํฌ๋Š” ๊ธด ์ปจํ…์ŠคํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์–ดํ…์…˜ ๋ถ„ํฌ๋ฅผ ์œ„ํ•œ ์•ˆ์ •์ ์ธ โ€œ์•ต์ปคโ€๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ์ปจํ…์ŠคํŠธ๊ฐ€ ์ž„์˜๋กœ ๊ธธ์–ด์ง€๋”๋ผ๋„ ๋ชจ๋ธ์ด ์ „์ฒด ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์ผ๋ฐ˜์ ์œผ๋กœ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ด์ œ ์šฐ๋ฆฌ๋Š” ์–ดํ…์…˜์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ๋‹ค๋ฃจ์—ˆ๋‹ค: ๋ฉ”๋ชจ๋ฆฌ์™€ ์ปดํ“จํŒ…์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๋‹ค๋ฅธ ํ—ค๋“œ ๊ตฌ์„ฑ (MHA, GQA, MLA), ๋ชจ๋ธ์ด ํ† ํฐ ์ˆœ์„œ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์ „๋žต (RoPE, NoPE, ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋“ค์˜ ๋ณ€ํ˜•), ๊ทธ๋ฆฌ๊ณ  ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์‰ฝ๊ฒŒ ๋งŒ๋“œ๋Š” ์–ดํ…์…˜ ๋ฒ”์œ„ ๊ธฐ์ˆ  (์Šฌ๋ผ์ด๋”ฉ ์ฐฝ, ์ฒญํ‚น, ๊ทธ๋ฆฌ๊ณ  ์–ดํ…์…˜ ์‹ฑํฌ)์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜๊ณ  ์ดˆ๊ธฐํ™”๋˜์–ด์•ผ ํ•˜๋Š”์ง€ ๊ฒ€ํ† ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์€ ๋ชจ๋ธ์ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ์ •์˜ํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์˜ฌ๋ฐ”๋ฅธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์€ ์ „์Ÿ์˜ ์ ˆ๋ฐ˜์— ๋ถˆ๊ณผํ•˜๋‹ค. ์ž˜ ์„ค๊ณ„๋œ ๋ชจ๋ธ์กฐ์ฐจ๋„ ํŠนํžˆ ๋Œ€๊ทœ๋ชจ์—์„œ ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์œผ๋กœ ๊ณ ํ†ต๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค. ํ•™์Šต์„ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๊ธฐ์ˆ ๋“ค์„ ์‚ดํŽด๋ณด์ž.

์•ˆ์ •์„ฑ ๊ฐœ์„ 

์ด์ œ LLM ์‚ฌ์ „ ํ•™์Šต์—์„œ ๊ฐ€์žฅ ํฐ ๋„์ „ ๊ณผ์ œ ์ค‘ ํ•˜๋‚˜์ธย ๋ถˆ์•ˆ์ •์„ฑ์œผ๋กœ ๋„˜์–ด๊ฐ€์ž. ์ข…์ข… ์†์‹ค ๊ธ‰๋“ฑ(loss spikes)์ด๋‚˜ ํ•™์Šต ์†์‹ค์˜ ๊ธ‰๊ฒฉํ•œ ์ ํ”„๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์€ ๋Œ€๊ทœ๋ชจ์—์„œ ํŠนํžˆ ํ”ํ•ด์ง„๋‹ค.

์šฐ๋ฆฌ๋Š”ย ํ•™์Šต ๋งˆ๋ผํ†คย ์„น์…˜์—์„œ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๊ธ‰๋“ฑ๊ณผ ๊ทธ๊ฒƒ๋“ค์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋” ๊นŠ์ด ๋‹ค๋ฃฐ ๊ฒƒ์ด์ง€๋งŒ (๋ถ€๋™ ์†Œ์ˆ˜์  ์ •๋ฐ€๋„, ์˜ตํ‹ฐ๋งˆ์ด์ €, ํ•™์Šต๋ฅ ์— ๋Œ€ํ•ด ์ž์„ธํžˆ ๋‹ค๋ฃฌ๋‹ค), ํŠน์ • ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ๊ธฐ์ˆ ๋„ ๋ถˆ์•ˆ์ •์„ฑ์„ ์ค„์ด๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์—ฌ๊ธฐ์„œ ์ž ์‹œ ๊ทธ๊ฒƒ๋“ค์„ ์‚ดํŽด๋ณธ๋‹ค. ์šฐ๋ฆฌ๋Š” ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹คํ–‰์—์„œ ์‚ฌ์šฉ๋œ ๋ช‡ ๊ฐ€์ง€ ๊ฐ„๋‹จํ•œ ๊ธฐ์ˆ  (์˜ˆ: Olmo2 (OLMo et al., 2025) ๋ฐ Qwen3 (A. Yang, Li, et al., 2025))์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค:ย Z-์†์‹ค, ์ž„๋ฒ ๋”ฉ์—์„œ ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ์ œ๊ฑฐ, ๋ฐ QK-์ •๊ทœํ™”์ด๋‹ค.

Z-์†์‹ค (Z-loss)

Z-์†์‹ค (Chowdhery et al., 2022)์€ ์†์‹ค ํ•จ์ˆ˜์— ํŽ˜๋„ํ‹ฐ ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ตœ์ข… ์ถœ๋ ฅ ๋กœ์ง“์ด ๋„ˆ๋ฌด ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๋Š” ์ •๊ทœํ™” ๊ธฐ์ˆ ์ด๋‹ค. ์ด ์ •๊ทœํ™”๋Š” ๋กœ์ง“์— ๋Œ€ํ•œ ์†Œํ”„ํŠธ๋งฅ์Šค์˜ ๋ถ„๋ชจ๊ฐ€ ํ•ฉ๋ฆฌ์ ์ธ ๋ฒ”์œ„ ๋‚ด์— ๋จธ๋ฌด๋ฅด๋„๋ก ์žฅ๋ คํ•˜๋ฉฐ, ์ด๋Š” ํ•™์Šต ์ค‘ ์ˆ˜์น˜์  ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

Lzโˆ’loss=ฮปโ‹…logโก2(Z)L_{z-loss}=ฮปโ‹…{log}^{โก2}(Z)

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.54.30.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.54.42.png

์šฐ๋ฆฌ์˜ 1B ๋ชจ๋ธ์— ๋Œ€ํ•œ ์•„๋ž˜ ์ œ๊ฑฐ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” Z-์†์‹ค์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ํ•™์Šต ์†์‹ค์ด๋‚˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, Z-์†์‹ค ๊ตฌํ˜„์ด ๋„์ž…์ด ์šฐ๋ฆฌ๊ฐ€ ํ•™์Šต์„ ์‹œ์ž‘ํ•  ๋•Œ๊นŒ์ง€ ์ตœ์ ํ™”ํ•˜์ง€ ๋ชปํ•œ ํ•™์Šต ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋ฐœ์ƒ์‹œ์ผฐ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ตญ ๊ทธ๊ฒƒ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค.

์ž„๋ฒ ๋”ฉ์—์„œ ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ์ œ๊ฑฐ

๊ฐ€์ค‘์น˜ ๊ฐ์‡ ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ •๊ทœํ™” ๊ธฐ์ˆ ๋กœ ๋ชจ๋“  ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜์— ์ ์šฉ๋˜์ง€๋งŒ, OLMo et al. (2025)์€ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ์—์„œ ์ œ์™ธํ•˜๋Š” ๊ฒƒ์ด ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ๊ฐ€ ํ•™์Šต ์ค‘์— ์ž„๋ฒ ๋”ฉ ๋…ธ๋ฆ„์„ ์ ์ง„์ ์œผ๋กœ ๊ฐ์†Œ์‹œํ‚ค๋Š”๋ฐ, ์ด๋Š” ๋ ˆ์ด์–ด ์ •๊ทœํ™”์˜ ์•ผ์ฝ”๋น„ ํ–‰๋ ฌ์ด ์ž…๋ ฅ ๋…ธ๋ฆ„์— ๋ฐ˜๋น„๋ก€ํ•˜๋ฏ€๋กœ ์ดˆ๊ธฐ ๋ ˆ์ด์–ด์—์„œ ๋” ํฐ ๊ธฐ์šธ๊ธฐ(gradients)๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค (Takase et al., 2025).

์šฐ๋ฆฌ๋Š” ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ์„ ํ•™์Šต์‹œ์ผœ ์ด ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ…Œ์ŠคํŠธํ–ˆ๋‹ค: ํ‘œ์ค€ ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ๋ฅผ ๊ฐ€์ง„ ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€์„ , ์ž„๋ฒ ๋”ฉ์— ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ๊ฐ€ ์—†๋Š” ๋ณ€ํ˜•, ๊ทธ๋ฆฌ๊ณ  ๊ธฐ์ˆ  ๊ฐ„์˜ ๋ถ€์ •์ ์ธ ์ƒํ˜ธ ์ž‘์šฉ์ด ์—†๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ฑ„ํƒ๋œ ๋ชจ๋“  ๋ณ€๊ฒฝ ์‚ฌํ•ญ (์ž„๋ฒ ๋”ฉ์— ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ์—†์Œ + NoPE + ๋ฌธ์„œ ๋งˆ์Šคํ‚น)์„ ๊ฒฐํ•ฉํ•œ ์„ธ ๋ฒˆ์งธ ๊ตฌ์„ฑ์ด๋‹ค. ์†์‹ค ๊ณก์„ ๊ณผ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ๋ชจ๋‘์—์„œ ๊ฑฐ์˜ ๋™์ผํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” SmolLM3 ํ•™์Šต์—์„œ 3๊ฐ€์ง€ ๋ณ€๊ฒฝ ์‚ฌํ•ญ ๋ชจ๋‘๋ฅผ ์ฑ„ํƒํ–ˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.54.56.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.55.06.png

QK-์ •๊ทœํ™” (QK-norm)

QK-์ •๊ทœํ™” (Dehghani et al., 2023)๋Š” ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์ „์— ์ฟผ๋ฆฌ ๋ฐ ํ‚ค ๋ฒกํ„ฐ ๋ชจ๋‘์— ๋ ˆ์ด์–ด ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ•œ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ์–ดํ…์…˜ ๋กœ์ง“์ด ๋„ˆ๋ฌด ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋ฉฐ, ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋งŽ์€ ์ตœ์‹  ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ B. Yang et al. (2025)์€ QK-์ •๊ทœํ™”๊ฐ€ ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์„ ํ•ด์นœ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๊ทธ๋“ค์˜ ๋ถ„์„์€ QK-์ •๊ทœํ™”๊ฐ€ ๊ด€๋ จ ํ† ํฐ (๋ฐ”๋Š˜, needles)์— ๋Œ€ํ•œ ๋” ๋‚ฎ์€ ์–ดํ…์…˜ ์งˆ๋Ÿ‰๊ณผ ๊ด€๋ จ ์—†๋Š” ์ปจํ…์ŠคํŠธ์— ๋Œ€ํ•œ ๋” ๋†’์€ ์–ดํ…์…˜ ์งˆ๋Ÿ‰์„ ์ดˆ๋ž˜ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋ƒˆ๋‹ค. ๊ทธ๋“ค์€ ์ •๊ทœํ™” ์ž‘์—…์ด ์ฟผ๋ฆฌ-ํ‚ค ๋‚ด์ ์—์„œ ํฌ๊ธฐ ์ •๋ณด๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ์–ดํ…์…˜ ๋กœ์ง“์˜ ํฌ๊ธฐ์˜ ์ธก๋ฉด์—์„œ ๋” ๊ฐ€๊นŒ์›Œ์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ, ์šฐ๋ฆฌ๋Š” SmolLM3์—์„œ QK-์ •๊ทœํ™”๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ, ์šฐ๋ฆฌ๊ฐ€ ํ•™์Šตํ•  ๋ชจ๋ธ์€ 3B ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ž‘์€ ๋ชจ๋ธ๋กœ์„œ, QK-์ •๊ทœํ™”๊ฐ€ ๊ฐ€์žฅ ์œ ์ตํ•˜๋‹ค๋Š” ๊ฒƒ์ด ์ž…์ฆ๋œ ๋” ํฐ ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์˜ ์œ„ํ—˜์ด ์ ์—ˆ๋‹ค.

๋‹ค๋ฅธ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ

์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃฌ ๊ตฌ์„ฑ ์š”์†Œ๋“ค ์™ธ์—๋„, ์™„๋ฒฝํ•จ์„ ์œ„ํ•ด ์ฃผ๋ชฉํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ๋ช‡ ๊ฐ€์ง€ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜ ๊ฒฐ์ •๋“ค์ด ์žˆ๋‹ค.

๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ดˆ๊ธฐํ™”ํ•  ๋•Œ, ํ˜„๋Œ€ ๋ชจ๋ธ๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœย ์ ˆ๋‹จ ์ •๊ทœ ์ดˆ๊ธฐํ™”(truncated normal initialization)ย (ํ‰๊ท =0, std=0.02 ๋˜๋Š” std=0.006) ๋˜๋Š” muP ์™€ ๊ฐ™์€ ์ดˆ๊ธฐํ™” ๋ฐฉ์‹(G. Yang & Hu, 2022)์„ ์‚ฌ์šฉํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Cohere์˜ Command A (Cohere et al., 2025)๊ฐ€ ๊ทธ๋ ‡๋‹ค. ์ด๊ฒƒ์€ ์ œ๊ฑฐ ์‹คํ—˜์˜ ๋˜ ๋‹ค๋ฅธ ์ฃผ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

ํ™œ์„ฑํ™” ํ•จ์ˆ˜ย ์ธก๋ฉด์—์„œ,ย SwiGLU๋Š” ํ˜„๋Œ€ LLM์—์„œ ์‚ฌ์‹ค์ƒ์˜ ํ‘œ์ค€์ด ๋˜์—ˆ๋‹ค (GeGLU๋ฅผ ์‚ฌ์šฉํ•˜๋Š” Gemma2, relu^2 ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” Nvidia๋ฅผ ์ œ์™ธํ•˜๊ณ  (Nvidia et al., 2024; NVIDIA et al., 2025)). ์ด๋Š” ReLU ๋˜๋Š” GELU์™€ ๊ฐ™์€ ์ด์ „ ์„ ํƒ์„ ๋Œ€์ฒดํ–ˆ๋‹ค.

๋” ๋„“์€ ๊ทœ๋ชจ์—์„œ,ย ์•„ํ‚คํ…์ฒ˜ ๋ ˆ์ด์•„์›ƒ ์„ ํƒย ๋˜ํ•œ ๋ชจ๋ธ ๋™์ž‘์„ ํ˜•์„ฑํ•˜๋Š” ๋ฐ ์—ญํ• ์„ ํ•œ๋‹ค. ์ด ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๊ฒฐ์ •ํ•˜์ง€๋งŒ, ๊ทธ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์ด ๊นŠ์ด์™€ ๋„ˆ๋น„์— ๊ฑธ์ณ ์–ด๋–ป๊ฒŒ ๋ถ„ํฌ๋˜๋Š”์ง€๋„ ์ค‘์š”ํ•˜๋‹ค. Petty et al. (2024)์€ ์ด์ ์ด ํฌํ™”๋  ๋•Œ๊นŒ์ง€ ๋” ๊นŠ์€ ๋ชจ๋ธ์ด ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฐ ํ•ฉ์„ฑ ์ž‘์—…์—์„œ ๋™์ผํ•œ ํฌ๊ธฐ์˜ ๋” ๋„“์€ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด โ€œ๊นŠ๊ณ  ์–‡์€(deep-and-thin)โ€ ์ „๋žต์€ MobileLLM ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์ˆ˜์‹ญ์–ต ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฏธ๋งŒ์˜ LLM์— ๋Œ€ํ•ด ์ž˜ ์ž‘๋™ํ•˜๋Š” ๋ฐ˜๋ฉด (Z. Liu et al., 2024), ๋” ๋„“์€ ๋ชจ๋ธ์€ ๋” ํฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋•๋ถ„์— ๋” ๋น ๋ฅธ ์ถ”๋ก ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค. ํ˜„๋Œ€ ์•„ํ‚คํ…์ฒ˜๋“ค์€ ์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ (https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html) ์— ์–ธ๊ธ‰๋œ ๋Œ€๋กœ ์ด ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋‹ค๋ฅด๊ฒŒ ๋ฐ˜์˜ํ•˜๊ณ  ์žˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด์ œ ๋‹น์‹ ์˜ ํ•™์Šต ์‹คํ–‰์„ ์œ„ํ•ด ์ตœ์ ํ™”ํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” Dense ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ธก๋ฉด๋“ค์„ ๋‹ค๋ฃจ์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ์—๋Š” ๋ชจ๋ธ ์ „์ฒด์™€ ๊ด€๋ จ๋œ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์ž…, ์ฆ‰ MoE ๋ฐ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์ด ๋“ฑ์žฅํ–ˆ๋‹ค. MoE๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์—ฌ, ๊ทธ๊ฒƒ๋“ค์ด ๋ฌด์—‡์„ ์ œ๊ณตํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

ํฌ์†Œํ™”๋กœ ๊ฐ€๊ธฐ: MoE (Mixture-of-Experts)

์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(Mixture-of-Experts, MoE) ์˜ ์ง๊ด€์€ ์šฐ๋ฆฌ์˜ ๋‡Œ๊ฐ€ ๋‹น๋ฉดํ•œ ์ž‘์—…์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ์˜์—ญ (์˜ˆ: ์‹œ๊ฐ ๋˜๋Š” ์šด๋™ ํ”ผ์งˆ)์„ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, ๋ชจ๋“  ํ† ํฐ ์˜ˆ์ธก์— ์ „์ฒด ๋ชจ๋ธ์ด ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. LLM์˜ ๊ฒฝ์šฐ ์ด๋Š” ๋ชจ๋ธ์ด ๋ฒˆ์—ญ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ์ฝ”๋”ฉ ๊ตฌ๋ฌธ์— ๋Œ€ํ•ด ํ•™์Šตํ•œ ๋ถ€๋ถ„์ด ์‚ฌ์šฉ๋  ํ•„์š”๊ฐ€ ์—†์Œ์„ ์˜๋ฏธํ•  ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์ด๊ฒƒ์„ ์ž˜ ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์ถ”๋ก  ์‹œ ์ „์ฒด ๋ชจ๋ธ์˜ ์ผ๋ถ€๋งŒ ์‹คํ–‰ํ•˜๋ฉด ๋˜๋ฏ€๋กœ ๋งŽ์€ ์ปดํ“จํŒ… ์ž์›์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

๊ธฐ์ˆ ์ ์ธ ์ˆ˜์ค€์—์„œ MoE๋Š” ๊ฐ„๋‹จํ•œ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„๋‹ค: ๊ฐ ํ† ํฐ์— ๋Œ€ํ•œ โ€œํ™œ์„ฑโ€ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ์ง€ ์•Š์œผ๋ฉด์„œ ์ด ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋Š˜๋ฆฐ๋‹ค. ๋‹ค์†Œ ๋‹จ์ˆœํ™”ํ•˜๋ฉด ์ด ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ๋ชจ๋ธ์˜ ์ „์ฒด ํ•™์Šต ๋Šฅ๋ ฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๋ฐ˜๋ฉด, ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ํ•™์Šต ๋น„์šฉ ๋ฐ ์ถ”๋ก  ์†๋„๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ์ด๊ฒƒ์ด ์˜ค๋Š˜๋‚  ๋งŽ์€ ์„ ๋„์ ์ธ ์‹œ์Šคํ…œ (์˜ˆ: DeepSeek V3, K2, ๊ทธ๋ฆฌ๊ณ  Gemini, Grok์™€ ๊ฐ™์€ ํ์‡„ํ˜• ๋ชจ๋ธโ€ฆ)์ด MoE ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ์ด๋‹ค. Ling 1.5 ๋…ผ๋ฌธ (L. Team et al., 2025)์˜ ์ด ํ”Œ๋กฏ์€ MoE์™€ Dense ๋ชจ๋ธ์˜ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ๋น„๊ตํ•œ๋‹ค:

image.png

๋งŒ์•ฝ ๋‹น์‹ ์ด MoE๋ฅผ ์ฒ˜์Œ ์ ‘ํ•˜๋Š” ๊ฒฝ์šฐ์—๋„, ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋ณต์žกํ•˜์ง€ ์•Š์œผ๋‹ˆ ๊ฑฑ์ •ํ•˜์ง€ ์•Š์•„๋„ ์ข‹๋‹ค. ํ‘œ์ค€ Dense ์•„ํ‚คํ…์ฒ˜๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์—ฌ MoE์— ํ•„์š”ํ•œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ์‚ดํŽด๋ณด์ž (Sebastian Raschka์˜ ๊ทธ๋ฆผ):

image.png

MoE๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ๋‹จ์ผ MLP๋ฅผ ์—ฌ๋Ÿฌ MLP(โ€œ์ „๋ฌธ๊ฐ€โ€)๋กœ ๋Œ€์ฒดํ•˜๊ณ  MLP ์•ž์— ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ผ์šฐํ„ฐ(router)๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค. ๊ฐ ํ† ํฐ์— ๋Œ€ํ•ด ๋ผ์šฐํ„ฐ๋Š” ์‹คํ–‰ํ•  ์ „๋ฌธ๊ฐ€์˜ ์ž‘์€ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ์„ ํƒํ•œ๋‹ค. ์ด ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ตฌ๋ถ„์ด ์—ฌ๊ธฐ์„œ ๋น„๋กฏ๋œ๋‹ค: ๋ชจ๋ธ์€ ๋งŽ์€ ์ „๋ฌธ๊ฐ€๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ์ฃผ์–ด์ง„ ํ† ํฐ์€ ์ผ๋ถ€๋งŒ ์‚ฌ์šฉํ•œ๋‹ค.

MoE ๋ ˆ์ด์–ด ์„ค๊ณ„๋Š” ๋ช‡ ๊ฐ€์ง€ ํ•ต์‹ฌ ์งˆ๋ฌธ์„ ์ œ๊ธฐํ•œ๋‹ค:

์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ํ•˜๋‚˜์˜ ๋ชฉํ‘œ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค: ๊ณ ์ •๋œ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋Š” MoE ๊ตฌ์„ฑ์„ ์–ด๋–ป๊ฒŒ ์„ ํƒํ• ๊นŒ? ์ด๊ฒƒ์€ ์ˆœ์ˆ˜ํ•œ ์‹œ์Šคํ…œ ํšจ์œจ์„ฑ (์ฒ˜๋ฆฌ๋Ÿ‰/์ง€์—ฐ ์‹œ๊ฐ„)๊ณผ๋Š” ๋‹ค๋ฅธ ์งˆ๋ฌธ์ด๋ฉฐ, ์šฐ๋ฆฌ๋Š” ๋‚˜์ค‘์— ๊ทธ๊ฒƒ์œผ๋กœ ๋Œ์•„์˜ฌ ๊ฒƒ์ด๋‹ค. ์ด ์„น์…˜์˜ ๋Œ€๋ถ€๋ถ„์€ Ant Group์˜ MoE ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ ๋…ผ๋ฌธ (Tian et al., 2025)์˜ ๋ถ„์„์„ ๋”ฐ๋ฅธ๋‹ค.

์šฐ๋ฆฌ๋Š” ๊ทธ๋“ค์˜ย ํšจ์œจ์„ฑ ๋ ˆ๋ฒ„๋ฆฌ์ง€(Efficiency Leverage, EL)ย ๊ฐœ๋…์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, EL์€ FLOPs๋ฅผ ์ธก์ • ๋‹จ์œ„๋กœ ํ•˜์—ฌ MoE ์„ค๊ณ„๋กœ ๋‹ฌ์„ฑ๋œ ์†์‹ค๊ณผ ์ผ์น˜ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ dense ์ปดํ“จํŒ…์˜ ์–‘์„ ์ธก์ •ํ•œ๋‹ค. ๋” ๋†’์€ EL์€ MoE ๊ตฌ์„ฑ์ด Dense ํ•™์Šต์— ๋น„ํ•ด ์ปดํ“จํŒ… ๋‹จ์œ„๋‹น ๋” ๋งŽ์€ ์†์‹ค ๊ฐœ์„ ์„ ์ œ๊ณตํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.55.23.png

MoE์˜ ํฌ์†Œ์„ฑ์„ ์„ค์ •ํ•˜์—ฌ ํšจ์œจ์„ฑ ๋ ˆ๋ฒ„๋ฆฌ์ง€๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณด์ž.

ํฌ์†Œ์„ฑ / ํ™œ์„ฑํ™” ๋น„์œจ

์š”์•ฝ:ย ํฌ์†Œ์„ฑ์ด ๋†’์„์ˆ˜๋ก โ†’ FLOPs ํšจ์œจ์„ฑ์ด ์ข‹์•„์ง„๋‹ค โ†’ ๋งค์šฐ ๋†’์€ ํฌ์†Œ์„ฑ์—์„œ๋Š” ์ ์ง„์  ์ด๋“ ๊ฐ์†Œ โ†’ ์ตœ์ ์ ์€ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.

์ด ์„น์…˜์—์„œ ์šฐ๋ฆฌ๋Š” ์–ด๋–ค MoE ์„ค์ •์ด ์ตœ๊ณ ์ธ์ง€ ์•Œ์•„๋‚ด๊ณ ์ž ํ•œ๋‹ค. ์ ๊ทผ์ ์œผ๋กœ ๋‘ ๊ทน๋‹จ์€ ์ด์ƒ์ ์ธ ์„ค์ •์ด ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์„ ์‰ฝ๊ฒŒ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ํ•œ์ชฝ ๊ทน๋‹จ์˜ ๊ฒฝ์šฐ๋Š”, ํ•ญ์ƒ ๋ชจ๋“  ์ „๋ฌธ๊ฐ€๋ฅผ ํ™œ์„ฑํ™”ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ ์ด๋Š” ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ•ญ์ƒ ์‚ฌ์šฉ๋˜๋Š” Dense ์„ค์ •์œผ๋กœ ์šฐ๋ฆฌ๋ฅผ ๋˜๋Œ๋ฆฐ๋‹ค. ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์˜ ๊ทน๋‹จ์€, ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋งค์šฐ ๋‚ฎ๋‹ค๋ฉด (๊ทน๋‹จ์ ์œผ๋กœ ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ 1๊ฐœ๋ฟ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค) ์ข์€ ๋„๋ฉ”์ธ์—์„œ๋„ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ๊ฒƒ์ด ๋ถ„๋ช…ํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ๋ช…ํ™•ํžˆ ์ค‘๊ฐ„ ์ง€์ ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ตœ์ ์˜ ์„ค์ •์„ ์ฐพ๋Š” ๋ฐ ๋” ๊นŠ์ด ๋“ค์–ด๊ฐ€๊ธฐ ์ „์— ๋‘ ๊ฐ€์ง€ ์–‘์„ ์ •์˜ํ•˜๋Š” ๊ฒƒ์ด ์œ ์šฉํ•˜๋‹ค:ย **ํ™œ์„ฑํ™” ๋น„์œจ(activation ratio)**๊ณผ ๊ทธ ์—ญ์ˆ˜์ธย **ํฌ์†Œ์„ฑ(sparsity)**์ด๋‹ค:

ํ™œ์„ฑํ™”๋น„์œจ=#ํ™œ์„ฑ๋œย ์ „๋ฌธ๊ฐ€#์ด์ „๋ฌธ๊ฐ€ํ™œ์„ฑํ™” ๋น„์œจ = \frac{\#ํ™œ์„ฑ๋œ \space ์ „๋ฌธ๊ฐ€}{\#์ด ์ „๋ฌธ๊ฐ€} ํฌ์†Œ์„ฑ=#์ด์ „๋ฌธ๊ฐ€#ํ™œ์„ฑ๋œย ์ „๋ฌธ๊ฐ€=1ํ™œ์„ฑํ™”๋น„์œจํฌ์†Œ์„ฑ = \frac{\#์ด ์ „๋ฌธ๊ฐ€}{\#ํ™œ์„ฑ๋œ \space ์ „๋ฌธ๊ฐ€} = \frac{1}{ํ™œ์„ฑํ™” ๋น„์œจ}

์ปดํ“จํŒ… ๊ด€์ ์—์„œ ๋น„์šฉ์€ ํ™œ์„ฑ ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ์œผ๋กœ ๊ฒฐ์ •๋œ๋‹ค. ํ™œ์„ฑ ์ „๋ฌธ๊ฐ€์˜ ์ˆ˜(๋ฐ ํฌ๊ธฐ)๋ฅผ ๊ณ ์ •ํ•˜๊ณ  ์ด ์ „๋ฌธ๊ฐ€ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด, ์ถ”๋ก /ํ•™์Šต FLOPs ์˜ˆ์‚ฐ์€ ๋‹ค์†Œ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€๋˜์ง€๋งŒ, ๋ชจ๋ธ ๋Šฅ๋ ฅ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋ฏ€๋กœ ์ถฉ๋ถ„ํžˆ ์˜ค๋ž˜ ํ•™์Šตํ•œ๋‹ค๋ฉด ๋ชจ๋ธ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ์ข‹์•„์ ธ์•ผ ํ•œ๋‹ค.

์ตœ๊ทผ MoE ๋…ผ๋ฌธ์„ ์กฐ์‚ฌํ•˜๋ฉด ๋ช‡ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ๊ฒฝํ—˜์  ์‹œ์‚ฌ์ ์ด ์žˆ๋‹ค: ํ™œ์„ฑ ์ „๋ฌธ๊ฐ€์˜ ์ˆ˜์™€ ํฌ๊ธฐ๋ฅผ ๊ณ ์ •ํ•œ ์ฑ„, ์ด ์ „๋ฌธ๊ฐ€ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด (์ฆ‰, ํ™œ์„ฑํ™” ๋น„์œจ์„ ๋‚ฎ์ถ”๊ณ  / ํฌ์†Œ์„ฑ์„ ๋†’์ด๋ฉด) ์†์‹ค์ด ๊ฐœ์„ ๋˜์ง€๋งŒ, ํฌ์†Œ์„ฑ์ด ๋งค์šฐ ๋†’์•„์ง€๋ฉด ์ ์ง„์ ์œผ๋กœ ์ด๋“์ด ๊ฐ์†Œํ•œ๋‹ค.

๋‘ ๊ฐ€์ง€ ์˜ˆ์‹œ๊ฐ€ ์žˆ๋‹ค:

image.png

image.png

๋‹ค์Œ์€ ์ผ๋ถ€ MoE ๋ชจ๋ธ์˜ ํฌ์†Œ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ‘œ์ด๋‹ค:

๋ชจ๋ธ์ด ์ „๋ฌธ๊ฐ€ ์ˆ˜ํ† ํฐ๋‹น ํ™œ์„ฑ ์ „๋ฌธ๊ฐ€ ์ˆ˜ (๊ณต์œ  ์ „๋ฌธ๊ฐ€ ํฌํ•จ)ํฌ์†Œ์„ฑ
Mixtral-8ร—7B824.0
Grok-1824.0
Grok-2824.0
OLMoE-1B-7B-09246488.0
gpt-oss 20b3248
Step-3๋ผ์šฐํŒ…๋œ 48 + ๊ณต์œ  1 = 49๋ผ์šฐํŒ…๋œ 3 + ๊ณต์œ  1 = 412.25
GLM-4.5-Air๋ผ์šฐํŒ…๋œ 128 + ๊ณต์œ  1 = 129๋ผ์šฐํŒ…๋œ 8 + ๊ณต์œ  1 = 914.3
Qwen3-30B-A3B128816.0
Qwen3-235B-A22B128816.0
GLM-4.5๋ผ์šฐํŒ…๋œ 160 + ๊ณต์œ  1 = 161๋ผ์šฐํŒ…๋œ 8 + ๊ณต์œ  1 = 917.8
DeepSeek-V2๋ผ์šฐํŒ…๋œ 160 + ๊ณต์œ  2 = 162๋ผ์šฐํŒ…๋œ 6 + ๊ณต์œ  2 = 820.25
DeepSeek-V3๋ผ์šฐํŒ…๋œ 256 + ๊ณต์œ  1 = 257๋ผ์šฐํŒ…๋œ 8 + ๊ณต์œ  1 = 928.6
gpt-oss 120b128432
Kimi K2๋ผ์šฐํŒ…๋œ 384 + ๊ณต์œ  1 = 385๋ผ์šฐํŒ…๋œ 8 + ๊ณต์œ  1 = 942.8
Qwen3-Next-80B-A3B-Instruct๋ผ์šฐํŒ…๋œ 512 + ๊ณต์œ  1 = 513์ด ํ™œ์„ฑ 10 + ๊ณต์œ  1 = 1146.6

์ตœ๊ทผ ์ถ”์„ธ๋Š” ๋ช…ํ™•ํ•˜๋‹ค: MoE ๋ชจ๋ธ์€ ๋” ํฌ์†Œํ•ด์ง€๊ณ  ์žˆ๋‹ค. ๊ทธ๋ ‡๊ธด ํ•˜์ง€๋งŒ, ์ตœ์ ์˜ ํฌ์†Œ์„ฑ์€ ์—ฌ์ „ํžˆ ํ•˜๋“œ์›จ์–ด์™€ ์ข…๋‹จ ๊ฐ„ ํšจ์œจ์„ฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Step-3์€ ์ตœ๊ณ  ํšจ์œจ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ํŠน์ • ํ•˜๋“œ์›จ์–ด ๋ฐ ๋Œ€์—ญํญ ์ œ์•ฝ ์กฐ๊ฑด์— ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์˜๋„์ ์œผ๋กœ ํฌ์†Œ์„ฑ์„ ์ตœ๋Œ€ํ™”ํ•˜์ง€ ์•Š๋Š” ๋ฐ˜๋ฉด, gpt-oss-20b๋Š” ์˜จ๋””๋ฐ”์ด์Šค ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ์ธํ•ด ๋‚ฎ์€ ํฌ์†Œ์„ฑ์„ ๊ฐ€์ง„๋‹ค (์ˆ˜๋™ ์ „๋ฌธ๊ฐ€๋„ ์—ฌ์ „ํžˆ ์ผ๋ถ€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ฐจ์ง€ํ•œ๋‹ค).

์„ธ๋ถ„์„ฑ (Granularity)

ํฌ์†Œ์„ฑ์„ ๋„˜์–ด, ๊ฐ ์ „๋ฌธ๊ฐ€๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ปค์•ผ ํ•˜๋Š”์ง€ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด๊ฒƒ์€ Ant Group์ด ๋„์ž…ํ•œ ์ธก์ • ๊ธฐ์ค€์ธย ์„ธ๋ถ„์„ฑ(Granularity) ์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค. ์ด ์šฉ์–ด๋กœ ์šฐ๋ฆฌ๊ฐ€ ์˜๋ฏธํ•˜๋Š” ๋ฐ”๋ฅผ ์ •ํ™•ํžˆ ์งš์–ด๋ณด์ž. ์šฉ์–ด๋Š” ๋…ผ๋ฌธ๋งˆ๋‹ค ๋‹ค๋ฅด๋ฉฐ, ์ผ๋ถ€๋Š” ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ๊ณต์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ฐธ์กฐํ•˜๋Š” ํ”Œ๋กฏ๊ณผ ์ผ์น˜ํ•˜๋Š” ์ •์˜๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค:

G=ฮฑร—dmodeldexpertย withย ฮฑ=2ย orย 4G=\frac{ฮฑร—d_{model}}{d_{expert}} \space with \space ฮฑ=2 \space or \space 4

๋” ๋†’์€ ์„ธ๋ถ„์„ฑ ๊ฐ’์€ ๋” ์ž‘์€ ์ฐจ์›์„ ๊ฐ€์ง„ ๋” ๋งŽ์€ ์ „๋ฌธ๊ฐ€๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์— ํ•ด๋‹นํ•œ๋‹ค (๊ณ ์ •๋œ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ). ์ด ์ธก์ • ๊ธฐ์ค€์€ ์ „๋ฌธ๊ฐ€ ์ฐจ์› (d_expert)๊ณผ ๋ชจ๋ธ ์ฐจ์› (d_model) ๊ฐ„์˜ ๋น„์œจ์ด๋‹ค.

๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์—์„œ ์ผ๋ฐ˜์ ์ธ ๊ฒฝํ—˜ ๋ฒ•์น™์€ MLP์˜ ์ฐจ์›์„ dintermediate=4ร—dmodeld_{intermediate}=4ร—d_{model} ๋กœ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

ฮฑ=4 ์ธ ๊ฒฝ์šฐ (Krajewski et al. (2024)์™€ ๊ฐ™์ด). ๋‹น์‹ ์€์€ ์„ธ๋ถ„์„ฑ์„ ๋ฐ€์ง‘ํ˜• MLP ๋„ˆ๋น„์™€ ์ผ์น˜ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ „๋ฌธ๊ฐ€ ์ˆ˜๋กœ ๋А์Šจํ•˜๊ฒŒ ๋ณผ ์ˆ˜ ์žˆ๋‹ค ( 4dmodel=dintermediate=Gdexpert4d_{model}=d_{intermediate}=Gd_{expert}).

์ด ํ•ด์„์€ ๋Œ€๋žต์ ์ธ ๋ฐœ๊ฒฌ์  ๋ฐฉ๋ฒ•์ผ ๋ฟ์ด๋‹ค: ํ˜„๋Œ€ MoE ์„ค๊ณ„๋Š” ๋‹จ์ผ ๋ฐ€์ง‘ํ˜• MLP๋ณด๋‹ค ํ›จ์”ฌ ๋” ํฐ ์ด ๋Šฅ๋ ฅ์„ ํ• ๋‹นํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฏ€๋กœ, ์ผ๋Œ€์ผ ์ผ์น˜๋Š” ์‹ค์ œ ์ƒํ™ฉ์—์„œ ๋ฌด๋„ˆ์ง„๋‹ค. Ant ํŒ€ ์„ค์ •์€ ฮฑ=2 ๋ฅผ ์„ ํƒํ•˜๋Š”๋ฐ, ์ด๋Š” ๋‹จ์ˆœํžˆ ๋‹ค๋ฅธ ์ •๊ทœํ™” ์„ ํƒ์ด๋‹ค. ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ์ด ๊ด€๋ก€๋ฅผ ๋”ฐ๋ฅผ ๊ฒƒ์ด๋‹ค.

๋‹ค์Œ์€ ์ผ๋ถ€ MoE ๋ฆด๋ฆฌ์Šค์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ€์ง„ ํ‘œ์ด๋‹ค:

๋ชจ๋ธd_modeld_expertG=2d_model/d_expert์—ฐ๋„
Mixtral-8ร—7B4,09614,3360.5712023
gpt-oss-120b2,8802,8802.02025
gpt-oss-20b2,8802,8802.02025
Grok 28,19216,3841.02024
StepFun Step-37,1685,1202.82025
OLMoE-1B-7B2,0481,0244.02025
Qwen3-30B-A3B2,0487685.32025
Qwen3-235B-A22B4,0961,5365.32025
GLM-4.5-Air4,0961,4085.82025
DeepSeek V25,1201,5366.62024
GLM-4.55,1201,5366.62025
Kimi K27,1682,0487.02025
DeepSeek V37,1682,0487.02024
Qwen3-Next-80B-A3B2,0485128.02025

์„ธ๋ถ„์„ฑ์ด ๋™์ž‘์„ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ•˜๋Š”์ง€์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•ด๋ณด์ž (Ant Group์˜ ๋…ผ๋ฌธ์—์„œ):

image.png

์„ธ๋ถ„์„ฑ์€ EL์˜ ์ฃผ๋œ ๋™์ธ์ฒ˜๋Ÿผ ๋ณด์ด์ง€ ์•Š๋Š”๋‹ค. ํŠนํžˆ 2๋ฅผ ๋„˜์–ด์„œ๋Š” ๋ฐ ๋„์›€์ด ๋˜์ง€๋งŒ, ์†์‹ค์„ ๊ฒฐ์ •ํ•˜๋Š” ์ง€๋ฐฐ์ ์ธ ์š”์ธ์€ ์•„๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ตœ์ ์˜ ์ง€์ ์ด ์žˆ๋‹ค: ์„ธ๋ถ„์„ฑ์„ ๋” ๋†’์ด๋Š” ๊ฒƒ์€ ์–ด๋А ์ง€์ ๊นŒ์ง€๋Š” ๋„์›€์ด ๋˜๋‹ค๊ฐ€ ์ด๋“์ด ํ‰ํƒ„ํ•ด์ง„๋‹ค. ๋”ฐ๋ผ์„œ ์„ธ๋ถ„์„ฑ์€ ์ตœ๊ทผ ๋ฆด๋ฆฌ์Šค์—์„œ ๋” ๋†’์€ ๊ฐ’์œผ๋กœ ๊ฐ€๋Š” ๋ช…ํ™•ํ•œ ์ถ”์„ธ๊ฐ€ ์žˆ๋Š” ์œ ์šฉํ•œ ํŠœ๋‹ ๋…ธ๋ธŒ์ด์ง€๋งŒ, ๊ณ ๋ฆฝ๋˜์–ด ์ตœ์ ํ™”๋˜์–ด์„œ๋Š” ์•ˆ ๋œ๋‹ค.

MoE๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ๊ณต์œ  ์ „๋ฌธ๊ฐ€(shared experts)์˜ ๊ฐœ๋…์ด๋‹ค. ์‚ดํŽด๋ณด์ž!

๊ณต์œ  ์ „๋ฌธ๊ฐ€

๊ณต์œ  ์ „๋ฌธ๊ฐ€ ์„ค์ •์€ ๋ชจ๋“  ํ† ํฐ์„ ์ƒ์‹œ ํ™œ์„ฑํ™”๋˜๋Š” ์†Œ์ˆ˜์˜ ์ „๋ฌธ๊ฐ€ ์„ธํŠธ๋กœ ๋ผ์šฐํŒ…ํ•œ๋‹ค. ์ด ๊ณต์œ  ์ „๋ฌธ๊ฐ€๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ธฐ๋ณธ์ ์ด๊ณ  ๋ฐ˜๋ณต๋˜๋Š” ํŒจํ„ด์„ ํก์ˆ˜ํ•˜์—ฌ ๋‚˜๋จธ์ง€ ์ „๋ฌธ๊ฐ€๋“ค์ด ๋” ๊ณต๊ฒฉ์ ์œผ๋กœ ์ „๋ฌธํ™”๋  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ์‹ค์ œ์—์„œ๋Š”, ๋งŽ์€ ์ˆ˜๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค. ๋ชจ๋ธ ์„ค๊ณ„์ž๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜๋‚˜, ๋งŽ์•„์•ผ ๋‘ ๊ฐœ๋ฅผ ์„ ํƒํ•œ๋‹ค. ์„ธ๋ถ„์„ฑ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ (์˜ˆ: Qwen3 ์Šคํƒ€์ผ ์„ค์ •์—์„œ Qwen3-Next์— ๋” ๊ฐ€๊นŒ์šด ๊ฒƒ์œผ๋กœ ์ด๋™), ๊ณต์œ  ์ „๋ฌธ๊ฐ€๋Š” ๋” ์œ ์šฉํ•ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค. ๋‹ค์Œ ํ”Œ๋กฏ์„ ๋ณด๋ฉด, ์ „๋ฐ˜์ ์ธ ์˜ํ–ฅ์€ ๋ฏธ๋ฏธํ•˜๋ฉฐ, EL์„ ๊ทน์ ์œผ๋กœ ๋ณ€ํ™”์‹œํ‚ค์ง€๋Š” ์•Š๋Š”๋‹ค. ๊ฐ„๋‹จํ•œ ๊ฒฝํ—˜ ๋ฒ•์น™์ด ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ์— ์ž˜ ์ž‘๋™ํ•œ๋‹ค: DeepSeek V3, K2, Qwen3-Next์™€ ๊ฐ™์€ ๋ชจ๋ธ์˜ ์„ ํƒ๊ณผ ์ผ์น˜ํ•˜๋Š” ํ•˜๋‚˜์˜ ๊ณต์œ  ์ „๋ฌธ๊ฐ€๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ถˆํ•„์š”ํ•œ ๋ณต์žก์„ฑ์„ ์ถ”๊ฐ€ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค. (Tian et al. (2025)์˜ ๊ทธ๋ฆผ)

image.png

๊ณต์œ  ์ „๋ฌธ๊ฐ€๋Š” ์ผ๋ถ€ ํ† ํฐ์ด ํ•ญ์ƒ ๋ผ์šฐํŒ…๋˜๋Š” ์ „๋ฌธ๊ฐ€์ด๋‹ค. ๋‹ค๋ฅธ ์ „๋ฌธ๊ฐ€๋“ค์€ ์–ด๋– ํ•œ๊ฐ€? ๊ฐ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์–ธ์ œ ๋ผ์šฐํŒ…ํ• ์ง€ ์–ด๋–ป๊ฒŒ ํ•™์Šตํ•˜๊ณ , ์†Œ์ˆ˜์˜ ์ „๋ฌธ๊ฐ€๋งŒ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋„๋ก ์–ด๋–ป๊ฒŒ ๋ณด์žฅํ•˜๋Š”๊ฐ€? ๋‹ค์Œ์œผ๋กœ ์šฐ๋ฆฌ๋Š” ์ •ํ™•ํžˆ ๊ทธ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š”ย ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์— ๋Œ€ํ•ด ๋…ผ์˜ํ•  ๊ฒƒ์ด๋‹ค.

๋ถ€ํ•˜ ๋ถ„์‚ฐ (๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ)

๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์€ MoE์—์„œ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด๋‹ค. ์ œ๋Œ€๋กœ ์„ค์ •๋˜์ง€ ์•Š์œผ๋ฉด, ๋‹ค๋ฅธ ๋ชจ๋“  ์„ค๊ณ„ ์„ ํƒ์„ ์•ฝํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์ด ์ œ๋Œ€๋กœ ๋˜์ง€ ์•Š์œผ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ˆ์‹œ๋ฅผ ๊ณ ๋ คํ•ด๋ณด๋ฉด ์™œ ๋งŽ์€ ๊ณ ํ†ต์„ ๊ฒช๊ฒŒ ๋˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ์˜ 4๋ช…์˜ ์ „๋ฌธ๊ฐ€๋ฅผ GPU์— ๊ณ ๋ฅด๊ฒŒ ๋ถ„์‚ฐํ•˜๋Š” 4๊ฐœ์˜ GPU๊ฐ€ ์žˆ๋Š” ๋งค์šฐ ๊ฐ„๋‹จํ•œ ๋ถ„์‚ฐ ํ•™์Šต ์„ค์ •์„ ๊ณ ๋ คํ•ด๋ณด์ž. ๋ผ์šฐํŒ…์ด ๋ถ•๊ดด๋˜์–ด ๋ชจ๋“  ํ† ํฐ์ด ์ „๋ฌธ๊ฐ€ 1๋กœ ๋ผ์šฐํŒ…๋˜๋ฉด, ์ด๋Š” GPU์˜ 1/4๋งŒ ํ™œ์šฉ๋จ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๋Š” ํ•™์Šต ๋ฐ ์ถ”๋ก  ํšจ์œจ์„ฑ์— ๋งค์šฐ ๋‚˜์œ ์˜ํ–ฅ์„ ์ฃผ๊ฒŒ ๋œ๋‹ค. ๊ทธ ์™ธ์—๋„, ๋ชจ๋“  ์ „๋ฌธ๊ฐ€๊ฐ€ ํ™œ์„ฑํ™”๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ์œ ํšจ ํ•™์Šต ๋Šฅ๋ ฅ์ด ๊ฐ์†Œํ–ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ผ์šฐํ„ฐ์— ์ถ”๊ฐ€ ์†์‹ค ํ•ญ์„ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜๋Š” ํ‘œ์ค€ ๋ณด์กฐ ์†์‹ค ๊ธฐ๋ฐ˜ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ(LBL)์ด๋‹ค:

LBal=ฮฑโˆ‘Nri=1fiPiL_{Bal}=ฮฑโˆ‘^Nr_{i=1}f_iP_i

์ด ๊ฐ„๋‹จํ•œ ๊ณต์‹์€ ์„ธ ๊ฐ€์ง€ ์š”์†Œ๋งŒ ์‚ฌ์šฉํ•œ๋‹ค: ๊ณ„์ˆ˜ ฮฑ ๋Š” ์†์‹ค์˜ ๊ฐ•๋„๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ , f_i

๋Š” ์ „๋ฌธ๊ฐ€ i ๋ฅผ ํ†ต๊ณผํ•˜๋Š” ํ† ํฐ์˜ ๋น„์œจ์ธ ํŠธ๋ž˜ํ”ฝ ๋น„์œจ์ด๋ฉฐ, ๋งˆ์ง€๋ง‰์œผ๋กœ P_i ๋Š” ํ™•๋ฅ  ์งˆ๋Ÿ‰(probability mass)์ด๋ฉฐ ์ „๋ฌธ๊ฐ€๋ฅผ ํ†ต๊ณผํ•˜๋Š” ํ† ํฐ์˜ ํ™•๋ฅ ์„ ๋‹จ์ˆœํžˆ ํ•ฉ์‚ฐํ•œ๋‹ค. f_i ๋Š” ์‹ค์ œ ๊ท ํ˜•์— ํ•ด๋‹นํ•˜๊ณ , P_i ๋Š” ๋ถ€๋“œ๋Ÿฝ๊ณ  ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ๊ฐ€ ํ๋ฅผ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋‘˜ ๋‹ค ํ•„์š”ํ•˜๋‹ค. ์™„๋ฒฝํ•œ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ๋‹ฌ์„ฑํ•˜๋ฉด fi=Pi=1/Nrf_i=P_i=1/N_r ์„ ์–ป์ง€๋งŒ, ฮฑ ๋ฅผ ๋„ˆ๋ฌด ์ž‘๊ฒŒ ์กฐ์ •ํ•˜๋ฉด ๋ผ์šฐํŒ…์„ ์ถฉ๋ถ„ํžˆ ์•ˆ๋‚ดํ•˜์ง€ ๋ชปํ•˜๊ณ , ๋„ˆ๋ฌด ํฌ๋ฉด ๋ผ์šฐํŒ… ๊ท ์ผ์„ฑ์ด ๊ธฐ๋ณธ ์–ธ์–ด ๋ชจ๋ธ ์†์‹ค๋ณด๋‹ค ๋” ์ค‘์š”ํ•ด์ง€๋ฏ€๋กœ ์‹ ์ค‘ํ•ด์•ผ ํ•œ๋‹ค.

๐Ÿ’ก์†์‹ค ์—†๋Š” ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ

๋ช…์‹œ์ ์ธ ์†์‹ค ํ•ญ ์—†์ด๋„ ๊ท ํ˜•์„ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. DeepSeek v3 (DeepSeek-AI et al., 2025)๋Š” ๋ผ์šฐํŒ… ์†Œํ”„ํŠธ๋งฅ์Šค์— ๋“ค์–ด๊ฐ€๋Š” ์–ดํ”ผ๋‹ˆํ‹ฐ ์ ์ˆ˜(affinity scores)์— ์ถ”๊ฐ€๋˜๋Š” ๊ฐ„๋‹จํ•œ ํŽธํ–ฅ ํ•ญ์„ ๋„์ž…ํ–ˆ๋‹ค. ๋ผ์šฐํ„ฐ๊ฐ€ ๊ณผ๋ถ€ํ•˜๋˜๋ฉด ์ ์ˆ˜๋ฅผ ์•ฝ๊ฐ„ ์ค„์—ฌ์„œ (์ƒ์ˆ˜ ๊ณ„์ˆ˜ ฮณ) ์„ ํƒ๋  ๊ฐ€๋Šฅ์„ฑ์„ ๋‚ฎ์ถ”๊ณ , ์ „๋ฌธ๊ฐ€๊ฐ€ ํ™œ์šฉ๋˜์ง€ ์•Š์œผ๋ฉด ฮณ ๋งŒํผ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค. ์ด ๊ฐ„๋‹จํ•œ ์ ์‘ ๊ทœ์น™์œผ๋กœ ๊ทธ๋“ค์€ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ๋„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

ํ•ต์‹ฌ ์„ธ๋ถ€ ์‚ฌํ•ญ์€ ๋ผ์šฐํŒ… ํ†ต๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฒ”์œ„์ด๋‹ค: f_i ์™€ P_i๊ฐ€ ๋กœ์ปฌ ๋ฐฐ์น˜(๊ฐ ์ž‘์—…์ž์˜ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜)๋ณ„๋กœ ๊ณ„์‚ฐ๋˜๋Š”๊ฐ€ ์•„๋‹ˆ๋ฉด ์ „์—ญ์ ์œผ๋กœ(์ž‘์—…์ž/์žฅ์น˜ ์ „๋ฐ˜์— ๊ฑธ์ณ ์ง‘๊ณ„) ๊ณ„์‚ฐ๋˜๋Š”๊ฐ€? Qwen ํŒ€์˜ ๋ถ„์„ (Qiu et al., 2025)์€ ๊ฐ ๋กœ์ปฌ ๋ฐฐ์น˜์— ์ถฉ๋ถ„ํ•œ ํ† ํฐ ๋‹ค์–‘์„ฑ์ด ์—†์„ ๋•Œ ๋กœ์ปฌ ๊ณ„์‚ฐ์ด ์ „๋ฌธ๊ฐ€ ์ „๋ฌธํ™” (expert specialization, ๋ผ์šฐํŒ… ๊ฑด์ „์„ฑ์— ๋Œ€ํ•œ ์ข‹์€ ๋Œ€๋ฆฌ ์ง€ํ‘œ)์™€ ์ „๋ฐ˜์ ์ธ ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ชจ๋‘๋ฅผ ํ•ด์น  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ „๋ฌธ๊ฐ€ ์ „๋ฌธํ™”๋Š” ํŠน์ • ๋„๋ฉ”์ธ์— ๋Œ€ํ•ด ํ•˜๋‚˜ ์ด์ƒ์˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋‹ค๋ฅธ ์ „๋ฌธ๊ฐ€๋ณด๋‹ค ๋” ์ž์ฃผ ํ™œ์„ฑํ™”๋˜๋Š” ํ˜„์ƒ์ด๋‹ค. ์ฆ‰, ๋กœ์ปฌ ๋ฐฐ์น˜๊ฐ€ ์ข์œผ๋ฉด ๋ผ์šฐํŒ… ํ†ต๊ณ„๊ฐ€ ๋…ธ์ด์ฆˆ/ํŽธํ–ฅ๋˜์–ด ์ข‹์€ ๊ท ํ˜•์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š๋Š”๋‹ค. ์ด๋Š” ๊ฐ€๋Šฅํ•  ๋•Œ๋งˆ๋‹ค ์ „์—ญ ํ†ต๊ณ„ (๋˜๋Š” ์ ์–ด๋„ ์žฅ์น˜ ๊ฐ„ ์ง‘๊ณ„)๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค. ํŠนํžˆ, ํ•ด๋‹น ๋…ผ๋ฌธ ๋‹น์‹œ Megatron์„ ํฌํ•จํ•œ ๋งŽ์€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ํ†ต๊ณ„๋ฅผ ๋กœ์ปฌ๋กœ ๊ณ„์‚ฐํ–ˆ์—ˆ๋‹ค.

Qwen ๋…ผ๋ฌธ์˜ ๋‹ค์Œ ํ”Œ๋กฏ์€ ๋งˆ์ดํฌ๋กœ ๋ฐฐ์น˜ ๋Œ€ ์ „์—ญ ๋ฐฐ์น˜ ์ง‘๊ณ„์˜ ์ฐจ์ด์™€ ๊ทธ๊ฒƒ์ด ์„ฑ๋Šฅ ๋ฐ ์ „๋ฌธํ™”์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ณด์—ฌ์ค€๋‹ค:

image.png

์ผ๋ฐ˜์ ์œผ๋กœ, MoE ์ฃผ๋ณ€์˜ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ์ œ๊ฑฐ ์‹คํ—˜ํ•˜๋Š” ๊ฒƒ์€ ๋งŽ์€ ์ธก๋ฉด๊ณผ์˜ ์ƒํ˜ธ ์ž‘์šฉ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊นŒ๋‹ค๋กญ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ณต์œ  ์ „๋ฌธ๊ฐ€์˜ ์œ ์šฉ์„ฑ์€ ๋ชจ๋ธ์˜ ์„ธ๋ถ„์„ฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฌ๋Ÿฌ๋ถ„์ด ์ฐพ๊ณ  ์žˆ๋Š” ํ†ต์ฐฐ๋ ฅ์„ ์‹ค์ œ๋กœ ์–ป๊ธฐ ์œ„ํ•ด ์ข‹์€ ์‹คํ—˜ ์„ธํŠธ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์„ ํˆฌ์žํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค!

์šฐ๋ฆฌ๋Š” ์ด์ œ MoE์˜ ๊ธฐ๋ณธ ์‚ฌํ•ญ์„ ๋‹ค๋ฃจ์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋” ๋ฐœ๊ฒฌํ•  ๊ฒƒ์ด ์žˆ๋‹ค. ๋” ์—ฐ๊ตฌํ•  ํ•ญ๋ชฉ์˜ ์ „์ฒด๋Š” ์•„๋‹ˆ์ง€๋งŒ ์ผ๋ถ€ ๋ชฉ๋ก์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์šฐ๋ฆฌ๋Š” ์ด์ œ ๋งˆ์ง€๋ง‰ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์ธย ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ๋กœ ๋„˜์–ด๊ฐ€๋ฏ€๋กœ, ๋” ๊นŠ์€ ๊ณณ์œผ๋กœ ํ† ๋ผ๊ตด์„ ๋”ฐ๋ผ๊ฐ€๋Š” ๊ฒƒ์€ ์—ด๋ ฌํ•œ ๋…์ž์—๊ฒŒ ๋งก๊ธด๋‹ค!

ํƒ๊ตฌ: ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ

์ตœ๊ทผ ์ถ”์„ธ๋Š” ํ‘œ์ค€ ๋ฐ€์ง‘ํ˜• ๋˜๋Š” MoE ์•„ํ‚คํ…์ฒ˜๋ฅผย ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(State Space Models, SSM)ย ๋˜๋Š”ย ์„ ํ˜• ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๋ณด๊ฐ•ํ•˜๋Š” ๊ฒƒ์ด๋‹ค (MiniMax et al., 2025; Zuo et al., 2025). ์ด๋Ÿฌํ•œ ์ƒˆ๋กœ์šด ์ข…๋ฅ˜์˜ ๋ชจ๋ธ๋“ค์€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ทผ๋ณธ์ ์ธ ์•ฝ์  ์ค‘ ์ผ๋ถ€๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ์‹œ๋„ํ•œ๋‹ค:ย ๋งค์šฐ ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋“ค์€ ์ž„์˜์˜ ๊ธธ์ด ์ปจํ…์ŠคํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์„ ํ˜•์ ์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ปจํ…์ŠคํŠธ ๋‚ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์„ ์ˆ˜ ์žˆ๋Š” ์ˆœํ™˜ ๋ชจ๋ธ๊ณผ, ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ ๋งค์šฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค์ง€๋งŒ ์ปจํ…์ŠคํŠธ ๋‚ด ํŒจํ„ด์„ ๋งค์šฐ ์ž˜ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์‚ฌ์ด์˜ ์ค‘๊ฐ„ ์ง€์ ์„ ์ทจํ•˜๊ณ ์ž ํ•œ๋‹ค.

SSM์˜ ํ•œ ํ˜•ํƒœ์ธ Mamba ๋ชจ๋ธ (A. Gu & Dao, 2024)์˜ ์•ฝ์ ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์ผ๋ถ€ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์—ˆ์œผ๋ฉฐ (Waleffe et al., 2024), ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์ด ๋งŽ์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ž˜ ์ˆ˜ํ–‰ํ•˜์ง€๋งŒ, ์˜ˆ๋ฅผ ๋“ค์–ด MMLU์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋ฉฐ, ์ปจํ…์ŠคํŠธ ๋‚ด ํ•™์Šต(in-context learning)์˜ ๋ถ€์กฑ์ด ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์œ ๋ฐœํ•œ๋‹ค๊ณ  ๊ฐ€์„ค์„ ์„ธ์› ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๊ทธ๋“ค์ด Dense ๋˜๋Š” MoE ๋ชจ๋ธ์˜ ๋ธ”๋ก๊ณผ ๊ฒฐํ•ฉํ•ด ๋‘ ์„ธ๊ณ„์˜ ์žฅ์ ์„ ๋ชจ๋‘ ์–ป์œผ๋ ค๋Š” ์ด์œ ์ด๋ฉฐ, ๋”ฐ๋ผ์„œย ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์ด๋ผ๋Š” ์ด๋ฆ„์ด ๋ถ™๊ฒŒ ๋˜์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์„ ํ˜• ์–ดํ…์…˜ ๋ฐฉ๋ฒ•๋“ค์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์–ดํ…์…˜์ด ๋” ์ด์ƒ ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ ๋‹ค๋ฃจ๊ธฐ ํž˜๋“ค์–ด์ง€๋Š”, O(n2d)O(n^2d) ์˜ ๋น„์šฉ์ด ๋“ค์ง€ ์•Š๋„๋ก ๊ณ„์‚ฐ ์ˆœ์„œ๋ฅผ ์žฌ์ •๋ ฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์–ด๋–ป๊ฒŒ ๊ทธ๊ฒŒ ๋ ๊นŒ? ๋จผ์ €, ์ถ”๋ก  ์‹œ ์–ดํ…์…˜ ๊ณต์‹์„ ๊ธฐ์–ตํ•ด๋ณด์ž. ํ† ํฐ t ์— ๋Œ€ํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

ot=โˆ‘j=1texpโก(qtโŠคkj)vjโˆ‘l=1texpโก(qtโŠคkl)o_t = \frac{\sum_{j=1}^{t} \exp(q_t^\top k_j)v_j}{\sum_{l=1}^{t} \exp(q_t^\top k_l)}

์ด์ œ ์†Œํ”„ํŠธ๋งฅ์Šค๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค:

ot=โˆ‘j=1t(qtโŠคkj)vjo_t = \sum_{j=1}^{t} (q_t^\top k_j) v_j

์žฌ์ •๋ ฌํ•˜๋ฉด ๋‹ค์Œ์„ ์–ป๋Š”๋‹ค:

โˆ‘j=1t(qtโŠคkj)vj=(โˆ‘j=1tvjkjโŠค)qt\sum_{j=1}^{t} (q_t^\top k_j) v_j = \left(\sum_{j=1}^{t} v_j k_j^\top\right) q_t

์‹คํ–‰ ์ƒํƒœ(running state)๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค:

Stโ‰œโˆ‘j=1tkjvjโŠค=K1:tโŠคV1:tโˆˆRdร—dS_t \triangleq \sum_{j=1}^{t} k_j v_j^\top = K_{1:t}^\top V_{1:t} \in \mathbb{R}^{d \times d}

๊ฐ„๋‹จํ•œ ์—…๋ฐ์ดํŠธ๋ฅผ ํ†ตํ•ด:

St=Stโˆ’1+ktvtโŠคS_t = S_{t-1} + k_t v_t^\top

๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค:

ot=Stqt=Stโˆ’1qt+vt(ktโŠคqt)o_t=S_tq_t=S_{tโˆ’1}q_t+v_t(k_tโŠคq_t)

์žฌ์ •๋ ฌ์ด ์™œ ์ค‘์š”ํ•œ๊ฐ€? ์™ผ์ชฝ ํ˜•ํƒœ โˆ‘jโ‰คt(qtโŠคkj)vj\sum_{j \leq t} (q_t^\top k_j) v_j ๋Š” โ€œ๊ฐ ๊ณผ๊ฑฐ ํ† ํฐ jj ์— ๋Œ€ํ•ด, ๋‚ด์  qtโŠคkjq_t^\top k_j (์Šค์นผ๋ผ)๋ฅผ ์ทจํ•˜๊ณ , ๊ทธ๊ฒƒ์„ vjv_j ๋ฅผ ์Šค์ผ€์ผ๋งํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด tt ๊ฐœ์˜ ๋ฒกํ„ฐ๋“ค์„ ๋ชจ๋‘ ๋”ํ•œ๋‹คโ€ ๋ฅผ ์˜๋ฏธํ•œ๋‹ค โ€”์ด๋Š” ์Šคํ… tt ์—์„œ ์•ฝ O(td)O(td) ์ž‘์—…์ด๋‹ค. ์˜ค๋ฅธ์ชฝ ํ˜•ํƒœ๋Š” ์ด๊ฒƒ์„ (โˆ‘jโ‰คtvjkjโŠค)qt(\sum_{j \leq t} v_j k_j^\top) q_t ๋กœ ๋‹ค์‹œ ์ž‘์„ฑํ•œ๋‹ค: ๋‹น์‹ ์€ ์ด๋ฏธ ๋ชจ๋“  ๊ณผ๊ฑฐ (kj,vj)(k_j, v_j) ๋ฅผ ์š”์•ฝํ•˜๋Š” ๋‹จ์ผ ์‹คํ–‰ ์ƒํƒœ ํ–‰๋ ฌ St=โˆ‘jโ‰คtvjkjโŠคโˆˆRdร—dS_t = \sum_{j \leq t} v_j k_j^\top \in \mathbb{R}^{d \times d} ๋ฅผ ์œ ์ง€ํ•œ๋‹ค. ๊ฐ ์ƒˆ ํ† ํฐ์€ ํ•˜๋‚˜์˜ ์™ธ์  vtktโŠคv_t k_t^\top (O(d2)O(d^2) ๋น„์šฉ)์œผ๋กœ ๊ทธ๊ฒƒ์„ ์—…๋ฐ์ดํŠธํ•œ ๋‹ค์Œ, ์ถœ๋ ฅ์€ ๋‹จ์ง€ ํ•˜๋‚˜์˜ ํ–‰๋ ฌ-๋ฒกํ„ฐ ๊ณฑ์…ˆ StqtS_t q_t (๋˜ ๋‹ค๋ฅธ O(d2)O(d^2))์ด๋‹ค. ๋”ฐ๋ผ์„œ ์™ผ์ชฝ ํ˜•ํƒœ๋กœ TT ๊ฐœ์˜ ํ† ํฐ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ O(T2d)O(T^2 d) ์ธ ๋ฐ˜๋ฉด, StS_t ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ์˜ค๋ฅธ์ชฝ ํ˜•ํƒœ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ O(Td2)O(T d^2) ์ด๋‹ค. ์ง๊ด€์ ์œผ๋กœ: ์™ผ์ชฝ = โ€œ๊ฐ ์Šคํ…๋งˆ๋‹ค ๋งŽ์€ ์ž‘์€ ๋‚ด์ -์Šค์ผ€์ผ-๋ง์…ˆโ€; ์˜ค๋ฅธ์ชฝ = โ€œ๋‹จ์ผํ•œ ์‚ฌ์ „์— ์š”์•ฝ๋œ ํ–‰๋ ฌ์— ์ฟผ๋ฆฌ๋ฅผ ๊ณฑํ•จโ€์ด๋ฉฐ, ์‹œํ€€์Šค ๊ธธ์ด์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ์ฐจ์›์— ๋Œ€ํ•œ ์˜์กด์„ฑ์œผ๋กœ ๊ตํ™˜ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ ์ถ”๋ก  ๋ฐ ์ˆœํ™˜ ํ˜•ํƒœ์— ์ดˆ์ ์„ ๋งž์ถ”์ง€๋งŒ, ์žฌ์ •๋ ฌ์ด ๋‹ค์Œ ๋ฐฉ์ •์‹๋งŒํผ ๊ฐ„๋‹จํ•œ ํ•™์Šต์—์„œ๋„ ๋” ํšจ์œจ์ ์ด๋‹ค:

(QKโŠค)nร—nV=Q(KโŠคV)dร—d(QK^\top)_{n \times n} V = Q (K^\top V)_{d \times d}

๋”ฐ๋ผ์„œ ์ด๊ฒƒ์ด RNN๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์™€ ๋งค์šฐ ์œ ์‚ฌํ•˜๊ฒŒ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์ด ์šฐ๋ฆฌ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ๊ฒƒ์ธ๊ฐ€? ๊ฑฐ์˜ ๊ทธ๋ ‡๋‹ค. ์‹ค์ œ ์ƒํ™ฉ์—์„œ, ์†Œํ”„ํŠธ๋งฅ์Šค๋Š” ์ค‘์š”ํ•œ ์•ˆ์ •ํ™” ์—ญํ• ์„ ํ•˜๋ฉฐ, ์ˆœ์ง„ํ•œ ์„ ํ˜• ํ˜•ํƒœ๋Š” ์ผ๋ถ€ ์ •๊ทœํ™” ์—†์ด๋Š” ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์€ ๋ผ์ดํŠธ๋‹(lightning) ์–ดํ…์…˜ ๋˜๋Š” ๋…ธ๋ฆ„(norm) ์–ดํ…์…˜์ด๋ผ๋Š” ์‹ค์šฉ์ ์ธ ๋ณ€ํ˜•์„ ์ด‰๋ฐœํ–ˆ๋‹ค!

๋ผ์ดํŠธ๋‹ ๋ฐ ๋…ธ๋ฆ„ ์–ดํ…์…˜

์ด ๊ณ„์—ด์€ Minimax01 (MiniMax et al., 2025)๊ณผ, ๋” ์ตœ๊ทผ์—๋Š” Ring-linear (L. Team, Han, et al., 2025)์—์„œ ๋‚˜ํƒ€๋‚œ๋‹ค. ์ด๋Š” ๋…ธ๋ฆ„ ์–ดํ…์…˜ ์•„์ด๋””์–ด (Qin et al., 2022)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งŒ๋“ค์–ด์ง„๋‹ค. ํ•ต์‹ฌ ๋‹จ๊ณ„๋Š” ๊ฐ„๋‹จํ•˜๋‹ค: ์ถœ๋ ฅ์„ ์ •๊ทœํ™”ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. โ€œ๋ผ์ดํŠธ๋‹โ€ ๋ณ€ํ˜•์€ ๊ตฌํ˜„์„ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ ๊ณต์‹์„ ์•ฝ๊ฐ„ ๋‹ค๋ฅด๊ฒŒ ๋งŒ๋“ ๋‹ค. ๋‘˜ ๋‹ค์— ๋Œ€ํ•œ ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

NormAttention:

RMSNorm(Q(KTV))\text{RMSNorm}(Q(K^T V))

LightningAttention:

Q=Silu(Q),K=Silu(K),V=Silu(V)Q = \text{Silu}(Q), \quad K = \text{Silu}(K), \quad V = \text{Silu}(V) O=SRMSNorm(Q(KVT))O = \text{SRMSNorm}(Q(KV^T))

๊ฒฝํ—˜์ ์œผ๋กœ, Norm attention์„ ๊ฐ€์ง„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์€ Minimax01์— ๋”ฐ๋ฅด๋ฉด ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์†Œํ”„ํŠธ๋งฅ์Šค์™€ ์ผ์น˜ํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.55.43.png

์—ฌ๊ธฐ์„œ ํฅ๋ฏธ๋กœ์šด ์ ์€ Needle in a Haystack (NIAH)๊ณผ ๊ฐ™์€ ๊ฒ€์ƒ‰ ์ž‘์—…์—์„œ ์ „์ฒด ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ž˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ๋†€๋ž๊ฒŒ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์†Œํ”„ํŠธ๋งฅ์Šค์™€ ์„ ํ˜• ๋ ˆ์ด์–ด๊ฐ€ ํ•จ๊ป˜ ์ž‘๋™ํ•  ๋•Œ ์–ด๋–ค ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ์Œ์„ ์‹œ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค!

MiniMax M2

๋†€๋ž๊ฒŒ๋„, ์ตœ๊ทผ ์ถœ์‹œ๋œ MiniMax M2๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋˜๋Š” ์„ ํ˜• ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ๋“ค์˜ ์‚ฌ์ „ ํ•™์Šต ๋ฆฌ๋“œ์— ๋”ฐ๋ฅด๋ฉด, ๋ผ์ดํŠธ๋‹ ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•œ ์ดˆ๊ธฐ MiniMax M1 ์‹คํ—˜์ด ๋‹น์‹œ ์ธ๊ธฐ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ (MMLU, BBH, MATH)์—์„œ ๋” ์ž‘์€ ๊ทœ๋ชจ์—์„œ ์œ ๋งํ•ด ๋ณด์˜€์ง€๋งŒ, ๊ทธ๋“ค์€ ๋” ํฐ ๊ทœ๋ชจ์—์„œ โ€œ๋ณต์žกํ•œ, ๋ฉ€ํ‹ฐ-ํ™‰ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋ช…ํ™•ํ•œ ๊ฒฐํ•จโ€์ด ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๊ทธ๋“ค์€ ๋˜ํ•œ RL ํ•™์Šต ์ค‘ ์ˆ˜์น˜ ์ •๋ฐ€๋„ ๋ฌธ์ œ ๋ฐ ์ธํ”„๋ผ ์„ฑ์ˆ™๋„๋ฅผ ํ•ต์‹ฌ ์žฅ์• ๋ฌผ๋กœ ์–ธ๊ธ‰ํ•œ๋‹ค. ๊ทธ๋“ค์€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋Œ€๊ทœ๋ชจ์—์„œ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ, ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ฏผ๊ฐ๋„๋กœ ์ธํ•ด ์–ด๋ ต๊ณ  ์ปดํ“จํŒ… ์ง‘์•ฝ์ ์ธ ๋‹ค๋ณ€์ˆ˜ ๋ฌธ์ œ๋ผ๊ณ  ๊ฒฐ๋ก ์ง“๋Š”๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๋“ค์€ โ€œGPU ์ปดํ“จํŒ… ์„ฑ์žฅ์ด ๋‘”ํ™”๋˜๋Š” ๋™์‹œ์— ๋ฐ์ดํ„ฐ ๊ธธ์ด๋Š” ๊ณ„์† ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ, ์„ ํ˜• ๋ฐ ํฌ์†Œ ์–ดํ…์…˜์˜ ์ด์ ์ด ์ ์ง„์ ์œผ๋กœ ๋‚˜ํƒ€๋‚  ๊ฒƒโ€์ž„์„ ์ธ์ •ํ•œ๋‹ค. ์ด๊ฒƒ์€ ์•„ํ‚คํ…์ฒ˜ ์ œ๊ฑฐ ์‹คํ—˜์˜ ๋ณต์žก์„ฑ๊ณผ ์—ฐ๊ตฌ์™€ ์ƒ์‚ฐ ํ˜„์‹ค ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ๋ชจ๋‘ ๊ฐ•์กฐํ•œ๋‹ค.

์ด์ œ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค ์ค‘ ์ผ๋ถ€๋ฅผ ๋” ์‚ดํŽด๋ณด๊ณ  ๊ทธ๊ฒƒ๋“ค์ด ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์–ด๋–ป๊ฒŒ ์ดํ•ด๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณธ๋‹ค.

๊ณ ๊ธ‰ ์„ ํ˜• ์–ดํ…์…˜

์ˆœํ™˜ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ์˜ ์œ ์šฉํ•œ ๊ตํ›ˆ์€ ์ƒํƒœ๊ฐ€ ๋•Œ๋•Œ๋กœ ๊ณผ๊ฑฐ๋ฅผ ๋†“์•„์ฃผ๋„๋ก ํ—ˆ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์‹ค์ œ์—์„œ, ์ด๋Š” ์ด์ „ ์ƒํƒœ์— ๋Œ€ํ•œ ๊ฒŒ์ดํŠธย Gt ๋ฅผ ๋„์ž…ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค:

St=GtโŠ™Stโˆ’1+vtktโŠคS_t = G_t \odot S_{t-1} + v_t k_t^\top

๊ฑฐ์˜ ๋ชจ๋“  ์ตœ์‹  ์„ ํ˜• ์–ดํ…์…˜ ๋ฐฉ๋ฒ•์€ Gt์˜ ๋‹ค๋ฅธ ๊ตฌํ˜„๋งŒ์„ ๊ฐ€์ง„ ์ด ๊ฒŒ์ดํŒ…(gating) ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๊ฐ€์ง„๋‹ค. ๋‹ค์Œ์€ ์ด ๋…ผ๋ฌธ์—์„œ ๊ฐ€์ ธ์˜จ ๊ฒŒ์ดํŠธ ๋ฐ ํ•ด๋‹น ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ๋ณ€ํ˜• ๋ชฉ๋ก์ด๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-01 แ„‹แ…ฉแ„’แ…ฎ 8.57.26.png

์ตœ์‹  ๋ชจ๋ธ์˜ ๊ฒŒ์ดํŠธํ˜• ์„ ํ˜• ์–ดํ…์…˜ ๊ณต์‹์€ Gt์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”์—์„œ ๋‹ค์–‘ํ•˜๋‹ค. ํŽธํ–ฅ ํ•ญ์€ ์ƒ๋žต๋˜์—ˆ๋‹ค.

๋ชฉ๋ก์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ํ•œ ๋ณ€ํ˜•์€ย Mamba-2ย (Dao & Gu, 2024)์ด๋‹ค. ์ด๋Š” Nemotron-H (NVIDIA, :, Blakeman, et al., 2025), Falcon H1 (Zuo et al., 2025), ๊ทธ๋ฆฌ๊ณ  Granite-4.0-h (IBM Research, 2025)์™€ ๊ฐ™์€ ๋งŽ์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์ด๋ฉฐ ๋Œ€๊ทœ๋ชจ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ๋กœ ํ™•์žฅํ•  ๋•Œ ๊ณ ๋ คํ•ด์•ผ ํ•  ์ค‘์š”ํ•œ ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ์ด๋“ค์€ ์œ ๋งํ•จ์„ ๋ณด์ด์ง€๋งŒ, MiniMax๊ฐ€ M2์—์„œ ๊ฒฝํ—˜ํ•œ ๊ฒƒ์€ ์ž‘์€ ๊ทœ๋ชจ์—์„œ์˜ ์ด์ ์ด ํ•ญ์ƒ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…, RL ํ•™์Šต ์•ˆ์ •์„ฑ ๋ฐ ์ธํ”„๋ผ ์„ฑ์ˆ™๋„์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ํ”„๋กœ๋•์…˜ ์‹œ์Šคํ…œ์œผ๋กœ ์ด์ „๋˜๋Š” ๊ฒƒ์€ ์•„๋‹˜์„ ๊ฐ•์กฐํ•œ๋‹ค. ํ•˜์ง€๋งŒ, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์€ ๋น ๋ฅด๊ฒŒ ์›€์ง์ด๊ณ  ์žˆ์œผ๋ฉฐ ์„ ๋„์ ์ธ ํ•™์Šต์„ ์œ„ํ•œ ๊ฒฌ๊ณ ํ•œ ์„ ํƒ์œผ๋กœ ๋‚จ์•„์žˆ๋‹ค. Qwen3-Next (๊ฒŒ์ดํŠธํ˜• DeltaNet ์—…๋ฐ์ดํŠธ ํฌํ•จ) (Qwen Team, 2025)๋Š” ๊ธด ์ปจํ…์ŠคํŠธ์—์„œ ์ถ”๋ก ์ด ๋” ๋น ๋ฅด๊ณ , ํ•™์Šต์ด ๋” ๋น ๋ฅด๋ฉฐ, ์ผ๋ฐ˜์ ์ธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋” ๊ฐ•ํ•˜๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ Kimi์˜ ๋‹ค์Œ ๋ชจ๋ธ์ด ๊ทธ๋“ค์˜ ์ƒˆ๋กœ์šด โ€œKimi Delta Attentionโ€์„ ์‚ฌ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ๊ธฐ๋Œ€ํ•˜๊ณ  ์žˆ๋‹ค. ๋ธ”๋ก ๋˜๋Š” ์ฟผ๋ฆฌ๋ฅผ ์„ ํƒํ•˜์—ฌ ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ์„ ํ˜• ์–ดํ…์…˜๊ณผ ๋™์ผํ•œ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ํฌ์†Œ ์–ดํ…์…˜(Sparse Attention)๋„ ์–ธ๊ธ‰ํ•ด์•ผ ํ•œ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋Š” Native Sparse Attention (Yuan et al., 2025), DeepSeek Sparse Attention (DeepSeek-AI, 2025) ๋ฐ InfLLM v2 (M. Team, Xiao, et al., 2025)์ด๋‹ค.

์ด์ œ ๋ฐ€์ง‘ํ˜•, MoE ๋˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ ์ค‘ ๋ฌด์—‡์„ ํ•™์Šตํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ž‘์€ ์˜์‚ฌ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ, ํ† ํฌ๋‚˜์ด์ €๋กœ ๋„˜์–ด๊ฐ€๊ธฐ ์ „์— ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ๋งˆ๋ฌด๋ฆฌํ•ด๋ณด์ž.

MoE๋กœ ๊ฐˆ ๊ฒƒ์ธ๊ฐ€, ๊ฐ€์ง€ ์•Š์„ ๊ฒƒ์ธ๊ฐ€: ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ

์šฐ๋ฆฌ๋Š” ์ด์ œ Dense, MoE, ๊ทธ๋ฆฌ๊ณ  ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์„ ๋ณด์•˜์œผ๋ฏ€๋กœ, ์–ด๋–ค ๊ฒƒ์„ ์‚ฌ์šฉํ•ด์•ผ ํ• ์ง€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์˜๋ฌธ์Šค๋Ÿฌ์›Œ์กŒ์„ ๊ฒƒ์ด๋‹ค. ๋‹น์‹ ์˜ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ์„ ๋ฐฐํฌํ•  ์œ„์น˜, ํŒ€์˜ ์ „๋ฌธ ์ง€์‹, ๊ทธ๋ฆฌ๊ณ  ํƒ€์ž„๋ผ์ธ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฐ ์•„ํ‚คํ…์ฒ˜์˜ ์žฅ๋‹จ์ ์„ ๊ฐ„๋žตํ•˜๊ฒŒ ์‚ดํŽด๋ณด๊ณ  ์—ฌ๋Ÿฌ๋ถ„์—๊ฒŒ ์ ํ•ฉํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•œ ๊ฐ„๋‹จํ•œ ์•ˆ๋‚ด ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ณ ์•ˆํ•œ๋‹ค.

**๋ฐ€์ง‘ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ(Dense transformers)**๋Š” ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด ํ™œ์„ฑํ™”๋˜๋Š” ๊ธฐ๋ณธ ํ‘œ์ค€ ๋””์ฝ”๋” ์ „์šฉ ํŠธ๋žœ์Šคํฌ๋จธ์ด๋‹ค. ์ˆ˜ํ•™์— ๋Œ€ํ•ด์„œ๋Š”ย The Annotated Transformers๋ฅผ, ์ง๊ด€์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ๋Š”ย The Illustrated Transformers๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ.

์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์ด ์žˆ๋Š” ์‚ฌ์šฉ ์‚ฌ๋ก€๋‚˜ ์ƒˆ๋กœ์šด LLM ํ•™์Šต์ž์—๊ฒŒ ๊ธฐ๋ณธ ์„ ํƒ์ด๋‹ค.

**์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(Mixture of Experts, MoE)**์€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ”ผ๋“œํฌ์›Œ๋“œ ๋ ˆ์ด์–ด๋ฅผ ์—ฌ๋Ÿฌ โ€œ์ „๋ฌธ๊ฐ€โ€๋กœ ๋Œ€์ฒดํ•œ๋‹ค. ๊ฐ ํ† ํฐ์— ๋Œ€ํ•ด ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ทธ๊ฒƒ์„ ์†Œ์ˆ˜์˜ ์ „๋ฌธ๊ฐ€์—๊ฒŒ๋งŒ ๋ผ์šฐํŒ…ํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋Š” ์ ์€ ์ปดํ“จํŒ…์œผ๋กœ ํฐ ๋„คํŠธ์›Œํฌ์˜ ๋Šฅ๋ ฅ์„ ์–ป๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Kimi K2๋Š” ์ด 1์กฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง€์ง€๋งŒ ํ† ํฐ๋‹น 32B๋งŒ ํ™œ์„ฑ๋œ๋‹ค. ๋ฌธ์ œ๋Š” ๋ชจ๋“  ์ „๋ฌธ๊ฐ€๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ์— ๋กœ๋“œ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์‹œ๊ฐ์  ๊ฐ€์ด๋“œ ๋ฐ ์ƒ๊ธฐ๋ฅผ ์œ„ํ•ด ์ด ๋ธ”๋กœ๊ทธ(https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts) ๋ฅผ ํ™•์ธํ•˜๋ผ.

๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์ด ์—†๊ณ  ์ปดํ“จํŒ…๋‹น ์ตœ๋Œ€ ์„ฑ๋Šฅ์„ ์›ํ•  ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์€ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ Mamba์™€ ๊ฐ™์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์–ดํ…์…˜์˜ 2์ฐจ ํ™•์žฅ๊ณผ ๋น„๊ตํ•˜์—ฌ ์ผ๋ถ€ ์ž‘์—…์— ๋Œ€ํ•ด ์„ ํ˜• ๋ณต์žก์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค. (์ˆ˜ํ•™์  ๋ธ”๋กœ๊ทธ https://srush.github.io/annotated-mamba/hard.htmlย |ย ์‹œ๊ฐ์  ๊ฐ€์ด๋“œ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state)

ํ‘œ์ค€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ถ”๋ก  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๋ฉด์„œ ๋งค์šฐ ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ํ™•์žฅํ•˜๊ณ ์ž ํ•  ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.

์š”์•ฝํ•˜์ž๋ฉด, ๋ชจ๋ธ์ด ์–ด๋””์— ๋ฐฐํฌ๋ ์ง€ ๋ฌป๋Š” ๊ฒƒ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ํŒ€์˜ ์ „๋ฌธ ์ง€์‹๊ณผ ํ•™์Šต ํƒ€์ž„๋ผ์ธ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ฐ๋‹นํ•  ์ˆ˜ ์žˆ๋Š” ํƒ์ƒ‰์˜ ์ •๋„๋ฅผ ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.56.05.png

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์˜จ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ์†Œํ˜• ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ ์ž ํ–ˆ๊ณ , ๋Œ€๋žต 3๊ฐœ์›”์˜ ํƒ€์ž„๋ผ์ธ์„ ๊ฐ€์กŒ์œผ๋ฉฐ, ๊ณผ๊ฑฐ์— ์ฃผ๋กœ ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค. ์ด๊ฒƒ์€ MoE (๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ)์™€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ (์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ํƒ์ƒ‰ํ•˜๊ธฐ์—๋Š” ์งง์€ ํƒ€์ž„๋ผ์ธ, ๊ทธ๋ฆฌ๊ณ  ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์ด ์šฐ๋ฆฌ๊ฐ€ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ตœ๋Œ€ 128k ํ† ํฐ์˜ ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Œ)๋ฅผ ๋ฐฐ์ œํ–ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š”ย Llama ์Šคํƒ€์ผ์˜ ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์„ ์„ ํƒํ–ˆ๋‹ค.

์ด์ œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ๋‚ด๋ถ€๋ฅผ ์—ฐ๊ตฌํ–ˆ์œผ๋ฏ€๋กœ, ๋ฐ์ดํ„ฐ์™€ ์šฐ๋ฆฌ ๋ชจ๋ธ ์‚ฌ์ด์˜ ๋‹ค๋ฆฌ๋ฅผ ํ˜•์„ฑํ•˜๋Š”ย ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์‚ดํŽด๋ณด์ž.

ํ† ํฌ๋‚˜์ด์ €

ํ† ํฐํ™” ๋ฐฉ์‹์€ ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ๋ชฉ์„ ๋ฐ›๋Š” ์ผ์€ ๊ฑฐ์˜ ์—†์ง€๋งŒ, ์•„๋งˆ๋„ ๋ชจ๋“  ์–ธ์–ด ๋ชจ๋ธ์—์„œ ๊ฐ€์žฅ ์ €ํ‰๊ฐ€๋œ ๊ตฌ์„ฑ ์š”์†Œ ์ค‘ ํ•˜๋‚˜์ผ ๊ฒƒ์ด๋‹ค. ํ† ํฌ๋‚˜์ด์ €๋Š” ์ธ๊ฐ„ ์–ธ์–ด์™€ ๋ชจ๋ธ์ด ์กด์žฌํ•˜๋Š” ์ˆ˜ํ•™์  ์„ธ๊ณ„ ์‚ฌ์ด์˜ ๋ฒˆ์—ญ๊ฐ€๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ๋ฒˆ์—ญ๊ฐ€์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ฒˆ์—ญ์˜ ํ’ˆ์งˆ์€ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์šฐ๋ฆฌ์˜ ํ•„์š”์— ๋งž๋Š” ์˜ฌ๋ฐ”๋ฅธ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์–ด๋–ป๊ฒŒ ๊ตฌ์ถ•ํ•˜๊ฑฐ๋‚˜ ์„ ํƒํ•  ์ˆ˜ ์žˆ์„๊นŒ?

ํ† ํฌ๋‚˜์ด์ €์˜ ๊ธฐ๋ณธ

ํ•ต์‹ฌ์ ์œผ๋กœ, ํ† ํฌ๋‚˜์ด์ €๋Š” ์‹คํ–‰ ์ค‘์ธ ํ…์ŠคํŠธ๋ฅผ ํ† ํฐ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ๊ฐœ๋ณ„์ ์œผ๋กœ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•œ ๋‹จ์œ„๋กœ ๋ถ„ํ• ํ•˜์—ฌ, ์›์‹œ ํ…์ŠคํŠธ๋ฅผ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž์˜ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ์šฐ๋ฆฌ์˜ ํ† ํฌ๋‚˜์ด์ € ์„ค๊ณ„๋ฅผ ์•ˆ๋‚ดํ•  ๋ช‡ ๊ฐ€์ง€ ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์— ๋จผ์ € ๋‹ตํ•ด์•ผ ํ•œ๋‹ค:

์ด๋Ÿฌํ•œ ์งˆ๋ฌธ์— ๋‹ตํ–ˆ๋‹ค๋ฉด, ์ฃผ์š” ์„ค๊ณ„ ๊ฒฐ์ •์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ๋‹ค:

(ํ† ํฐํ™” ๊ธฐ๋ณธ ์‚ฌํ•ญ์— ๋Œ€ํ•œ ๊นŠ์€ ํƒ๊ตฌ๋ฅผ ์œ„ํ•ด, Andrej Karpathy์˜ โ€œLetโ€™s build the GPT Tokenizerโ€๋Š” ํ›Œ๋ฅญํ•œ ์‹ค์Šต ํŠœํ† ๋ฆฌ์–ผ์ด๋‹ค. ํ† ํฌ๋‚˜์ด์ € ์†Œ๊ฐœ ๋ฐ ๋‹ค์ˆ˜์˜ ์™ธ๋ถ€ ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ด ์ž๋ฃŒ https://github.com/huggingface/evaluation-guidebook/blob/main/contents/general-knowledge/tokenization.md ๋ฅผ ํ™•์ธํ•  ์ˆ˜๋„ ์žˆ๋‹ค.)

์–ดํœ˜ ํฌ๊ธฐ (Vocabulary size)

์–ดํœ˜ Vocabulary ****๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋ชจ๋ธ์ด ์ธ์‹ํ•˜๋Š” ๋ชจ๋“  ํ† ํฐ (๋‹จ์–ด, ํ•˜์œ„ ๋‹จ์–ด, ๋˜๋Š” ๊ธฐํ˜ธ์™€ ๊ฐ™์€ ์ตœ์†Œ ํ…์ŠคํŠธ ๋‹จ์œ„)์„ ๋‚˜์—ดํ•˜๋Š” ์‚ฌ์ „์ด๋‹ค.

์–ดํœ˜๊ฐ€ ํด์ˆ˜๋ก ๋ฌธ์žฅ๋‹น ๋” ์ ์€ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋ฏ€๋กœ ํ…์ŠคํŠธ๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์••์ถ•ํ•˜์ง€๋งŒ, ๊ณ„์‚ฐ์ƒ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๊ฐ€ ์žˆ๋‹ค. ์–ดํœ˜ ํฌ๊ธฐ๋Š” ์šฐ๋ฆฌ์˜ ์ž„๋ฒ ๋”ฉ ํ–‰๋ ฌ์˜ ํฌ๊ธฐ์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ V ์ด๊ณ  ์€๋‹‰ ์ฐจ์›์ด h

๋ผ๋ฉด, ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์€ Vร—h ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ถœ๋ ฅ ๋ ˆ์ด์–ด๋Š” ๋˜ ๋‹ค๋ฅธ Vร—h ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„๋‹ค. โ€œ์ž„๋ฒ ๋”ฉ ๊ณต์œ โ€ ์„น์…˜์—์„œ ๋ณด์•˜๋“ฏ์ด, ์†Œํ˜• ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ์ด๊ฒƒ์ด ์ „์ฒด ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ƒ๋‹นํ•œ ๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•˜์ง€๋งŒ, ๋ชจ๋ธ์ด ํ™•์žฅ๋จ์— ๋”ฐ๋ผ ์ƒ๋Œ€์  ๋น„์šฉ์€ ์ค„์–ด๋“ ๋‹ค.

์ตœ์ ์ ์€ ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ ๋ฒ”์œ„ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. ์˜์–ด ์ „์šฉ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ์•ฝ 50k ํ† ํฐ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ์ถฉ๋ถ„ํ•˜์ง€๋งŒ, ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฌธ์ž ์ฒด๊ณ„ ๋ฐ ์–ธ์–ด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ข…์ข… 100k+๊ฐ€ ํ•„์š”ํ•˜๋‹ค. Llama3์™€ ๊ฐ™์€ ํ˜„๋Œ€์˜ SOTA ๋ชจ๋ธ๋“ค์€ ๋‹ค์–‘ํ•œ ์–ธ์–ด์— ๊ฑธ์ณ ํ† ํฐ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด 128k+ ๋ฒ”์œ„์˜ ์–ดํœ˜๋ฅผ ์ฑ„ํƒํ–ˆ๋‹ค. ๋™์ผํ•œ ํŒจ๋ฐ€๋ฆฌ์˜ ์†Œํ˜• ๋ชจ๋ธ๋“ค์€ ๋” ํฐ ์–ดํœ˜์˜ ์ด์ ์„ ์—ฌ์ „ํžˆ ์–ป์œผ๋ฉด์„œ ์ž„๋ฒ ๋”ฉ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๋น„์œจ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ž„๋ฒ ๋”ฉ ๊ณต์œ ๋ฅผ ์ ์šฉํ•œ๋‹ค. Dagan et al. (2024)์€ ์–ดํœ˜ ํฌ๊ธฐ๊ฐ€ ์••์ถ•, ์ถ”๋ก  ๋ฐ ๋ฉ”๋ชจ๋ฆฌ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ–ˆ๋‹ค. ๊ทธ๋“ค์€ ๋” ํฐ ์–ดํœ˜๋กœ๋ถ€ํ„ฐ์˜ ์••์ถ• ์ด๋“์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œํ•˜์—ฌ ์ตœ์ ์˜ ํฌ๊ธฐ๊ฐ€ ์กด์žฌํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ๋‹ค. ์ถ”๋ก ์˜ ๊ฒฝ์šฐ, ์••์ถ•์ด ์†Œํ”„ํŠธ๋งฅ์Šค์—์„œ ์ถ”๊ฐ€ ์ž„๋ฒ ๋”ฉ ํ† ํฐ ๋น„์šฉ๋ณด๋‹ค ์ˆœ๋ฐฉํ–ฅ ์ „๋‹ฌ์—์„œ ๋” ๋งŽ์ด ์ ˆ์•ฝ๋˜๋ฏ€๋กœ ๋” ํฐ ์–ดํœ˜๊ฐ€ ๋” ํฐ ๋ชจ๋ธ์— ์ด์ ์„ ์ค€๋‹ค. ๋ฉ”๋ชจ๋ฆฌ์˜ ๊ฒฝ์šฐ, ์ตœ์ ์˜ ํฌ๊ธฐ๋Š” ์‹œํ€€์Šค ๊ธธ์ด์™€ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค: ๋” ๊ธด ์ปจํ…์ŠคํŠธ์™€ ํฐ ๋ฐฐ์น˜๋Š” ๋” ์ ์€ ํ† ํฐ์„ ๊ฐ€์ง์œผ๋กœ์จ KV ์บ์‹œ ์ ˆ์•ฝ ๋•Œ๋ฌธ์— ๋” ํฐ ์–ดํœ˜๋กœ๋ถ€ํ„ฐ ์ด์ ์„ ์–ป๋Š”๋‹ค.

ํ† ํฐํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜

BPE (Byte-Pair Encoding)ย (Sennrich et al., 2016)๋Š” ๊ฐ€์žฅ ์ธ๊ธฐ ์žˆ๋Š” ์„ ํƒ์œผ๋กœ ๋‚จ์•„ ์žˆ์œผ๋ฉฐ, WordPiece ๋˜๋Š” SentencePiece์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์กด์žฌํ•˜์ง€๋งŒ ๋œ ์ฑ„ํƒ๋œ๋‹ค. ๋˜ํ•œ ๋ฐ”์ดํŠธ ๋˜๋Š” ๋ฌธ์ž์— ์ง์ ‘ ์ž‘๋™ํ•˜๋Š” ํ† ํฌ๋‚˜์ด์ € ์—†๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ๊ด€์‹ฌ์ด ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๊ทธ๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์€ ์ž ์žฌ์ ์œผ๋กœ ํ† ํฐํ™”๋ฅผ ์™„์ „ํžˆ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ๋‹ค.

์ด์ œ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์ •์˜ํ•˜๋Š” ์ฃผ์š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋ณด์•˜์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์‹ค์šฉ์ ์ธ ๊ฒฐ์ •์„ ๋‚ด๋ ค์•ผ ํ•œ๋‹ค: ๊ธฐ์กด ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€ ์•„๋‹ˆ๋ฉด ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ๋‹ต์€ ๋ฒ”์œ„(coverage)์— ๋‹ฌ๋ ค์žˆ๋‹ค: ๋ชฉํ‘œ ์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„ ๊ธฐ์กด ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์šฐ๋ฆฌ์˜ ์–ธ์–ด์™€ ๋„๋ฉ”์ธ์„ ์ž˜ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€ ์—ฌ๋ถ€์ด๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ GPT-2์˜ ์˜์–ด ์ „์šฉ ํ† ํฌ๋‚˜์ด์ € (Radford et al., 2019)์™€ Gemma 3์˜ ๋‹ค๊ตญ์–ด ํ† ํฌ๋‚˜์ด์ € (G. Team, Kamath, et al., 2025)๊ฐ€ ๋™์ผํ•œ ์˜์–ด ๋ฐ ์•„๋ž์–ด ๋ฌธ์žฅ์„ ์–ด๋–ป๊ฒŒ ๋ถ„ํ• ํ•˜๋Š”์ง€ ๋น„๊ตํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.56.19.png

๋‘ ํ† ํฌ๋‚˜์ด์ €๋Š” ์˜์–ด์—์„œ๋Š” ์œ ์‚ฌํ•˜๊ฒŒ ๋ถ„ํ• ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, ์•„๋ž์–ด์˜ ๊ฒฝ์šฐ ๊ทธ ์ฐจ์ด๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง„๋‹ค: GPT2๋Š” ํ…์ŠคํŠธ๋ฅผ 100๊ฐœ ์ด์ƒ์˜ ์กฐ๊ฐ์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐ˜๋ฉด, Gemma3๋Š” ๋‹ค๊ตญ์–ด ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๋” ํฌ๊ณ  ํฌ๊ด„์ ์ธ ์–ดํœ˜ ๋•๋ถ„์— ํ›จ์”ฌ ๋” ์ ์€ ํ† ํฐ์„ ์ƒ์„ฑํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํ† ํฌ๋‚˜์ด์ €์˜ ํ’ˆ์งˆ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ํ† ํฐํ™” ์˜ˆ์‹œ๋ฅผ ๋ˆˆ์œผ๋กœ ํ›‘์–ด๋ณด๊ณ  ์ข‹๋‹ค๊ณ  ํ•  ์ˆ˜๋Š” ์—†๋‹ค. ์ด๋Š” ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜์ง€ ์•Š๊ณ  ์ง๊ด€์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์„ ํ•  ์ˆ˜ ์—†๋Š” ๊ฒƒ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€์ด๋‹ค. ํ† ํฌ๋‚˜์ด์ € ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๊ตฌ์ฒด์ ์ธ ์ธก์ • ๊ธฐ์ค€์ด ํ•„์š”ํ•˜๋‹ค.

ํ† ํฌ๋‚˜์ด์ € ํ’ˆ์งˆ ์ธก์ •

ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, FineWeb2์—์„œ ์‚ฌ์šฉ๋œ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ธก์ • ๊ธฐ์ค€์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค (Penedo et al., 2025).

์ƒ์‚ฐ์„ฑ (Fertility):

์ด๊ฒƒ์€ ๋‹จ์–ด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ํ† ํฐ ์ˆ˜๋ฅผ ์ธก์ •ํ•œ๋‹ค.ย ์ƒ์‚ฐ์„ฑ์ด ๋‚ฎ์„์ˆ˜๋กย ๋” ๋‚˜์€ ์••์ถ•์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๋Š” ๋” ๋น ๋ฅธ ํ•™์Šต ๋ฐ ์ถ”๋ก ์œผ๋กœ ์ด์–ด์ง„๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ๊ฐํ•œ๋‹ค: ํ•œ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ๋Œ€๋ถ€๋ถ„์˜ ๋‹จ์–ด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐ ํ•œ๋‘ ๊ฐœ์˜ ํ† ํฐ์ด ๋” ํ•„์š”ํ•œ ๋ฐ˜๋ฉด ๋‹ค๋ฅธ ํ† ํฌ๋‚˜์ด์ €๋Š” ๋” ์ ์€ ํ† ํฐ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค๋ฉด, ํ›„์ž๊ฐ€ ๋ถ„๋ช…ํžˆ ๋” ํšจ์œจ์ ์ด๋‹ค.

์ƒ์‚ฐ์„ฑ์„ ์ธก์ •ํ•˜๋Š” ํ‘œ์ค€ ์ ‘๊ทผ ๋ฐฉ์‹์€ **๋‹จ์–ด ๋Œ€ ํ† ํฐ ๋น„์œจ (word fertility)**์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ํ‰๊ท ์ ์œผ๋กœ ๋‹จ์–ด๋‹น ๋ช‡ ๊ฐœ์˜ ํ† ํฐ์ด ํ•„์š”ํ•œ์ง€ ์ธก์ •ํ•œ๋‹ค. ์ด ์ธก์ • ๊ธฐ์ค€์€ ์ ์ ˆํ•œ ๋‹จ์–ด ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•  ๋•Œ (์˜ˆ: Spacy ๋ฐ Stanza์—์„œ) ์˜๋ฏธ ์žˆ๋Š” ๊ต์ฐจ ์–ธ์–ด ๋น„๊ต๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์—ย ๋‹จ์–ดย ๊ฐœ๋…์„ ์ค‘์‹ฌ์œผ๋กœ ์ •์˜๋œ๋‹ค (Penedo et al., 2025).

๋‹จ์ผ ์–ธ์–ด์— ๋Œ€ํ•œ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋น„๊ตํ•  ๋•Œ, ๋‹จ์–ด ๋Œ€์‹  ๋ฌธ์ž ๋˜๋Š” ๋ฐ”์ดํŠธ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌย ๋ฌธ์ž ๋Œ€ ํ† ํฐ ๋น„์œจย ๋˜๋Š”ย ๋ฐ”์ดํŠธ ๋Œ€ ํ† ํฐ ๋น„์œจ์„ ์–ป์„ ์ˆ˜๋„ ์žˆ๋‹ค (Dagan et al., 2024). ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ธก์ • ๊ธฐ์ค€์€ ๊ต์ฐจ ์–ธ์–ด ๋น„๊ต์— ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋‹ค๋ฅธ ์Šคํฌ๋ฆฝํŠธ์˜ ๋ฌธ์ž๊ฐ€ ๋‹ค๋ฅธ ๋ฐ”์ดํŠธ ํ‘œํ˜„์„ ์š”๊ตฌํ•˜๋ฏ€๋กœ (์˜ˆ: ์ค‘๊ตญ์–ด ๋ฌธ์ž๋Š” UTF-8์—์„œ 3๋ฐ”์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด ๋ผํ‹ด์–ด ๋ฌธ์ž๋Š” 1~2๋ฐ”์ดํŠธ๋ฅผ ์‚ฌ์šฉ), ๋ฐ”์ดํŠธ๋Š” ์™œ๊ณก๋  ์ˆ˜ ์žˆ๋‹ค. ์œ ์‚ฌํ•˜๊ฒŒ, ๋ฌธ์ž ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์–ธ์–ด๋งˆ๋‹ค ๋‹จ์–ด ๊ธธ์ด๊ฐ€ ๊ทน์ ์œผ๋กœ ๋‹ค๋ฅด๋‹ค๋Š” ์‚ฌ์‹ค์„ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ค‘๊ตญ์–ด ๋‹จ์–ด๋Š” ๋…์ผ์–ด ๋ณตํ•ฉ์–ด๋ณด๋‹ค ํ›จ์”ฌ ์งง์€ ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค.

๋ถ„ํ• ๋œ ๋‹จ์–ด์˜ ๋น„์œจ (Proportion of continued words, PCW):

์ด ์ธก์ • ๊ธฐ์ค€์€ ๋‹จ์–ด์˜ ๋ช‡ ํผ์„ผํŠธ๊ฐ€ ์—ฌ๋Ÿฌ ์กฐ๊ฐ์œผ๋กœ ๋ถ„ํ• ๋˜๋Š”์ง€ ์•Œ๋ ค์ค€๋‹ค. ๋” ๋‚ฎ์€ ๋น„์œจ์ด ๋” ์ข‹๋‹ค. ์ด๋Š” ๋” ์ ์€ ๋‹จ์–ด๊ฐ€ ์กฐ๊ฐํ™”๋˜์–ด ๋” ํšจ์œจ์ ์ธ ํ† ํฐํ™”๋กœ ์ด์–ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์•„๋ž˜๋Š” ์ด๋Ÿฌํ•œ ์ธก์ • ๊ธฐ์ค€์˜ ๊ตฌํ˜„์ด๋‹ค:

import numpy as np

def compute_tokenizer_metrics(tokenizer, word_tokenizer, text):
    """
    ์ƒ์‚ฐ์„ฑ(fertility)๊ณผ ๋ถ„ํ• ๋œ ๋‹จ์–ด์˜ ๋น„์œจ(proportion of continued words)์„ ๊ณ„์‚ฐํ•œ๋‹ค.

    ๋ฐ˜ํ™˜๊ฐ’:
        tuple: (fertility, proportion_continued_words)
            - fertility: ๋‹จ์–ด๋‹น ํ‰๊ท  ํ† ํฐ (๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ)
            - proportion_continued_words: 2๊ฐœ ์ด์ƒ์˜ ํ† ํฐ์œผ๋กœ ๋ถ„ํ• ๋œ ๋‹จ์–ด์˜ ๋ฐฑ๋ถ„์œจ (๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ)

    """
    words = word_tokenizer.word_tokenize(text)
    tokens = tokenizer.batch_encode_plus(words, add_special_tokens=False)
    tokens_per_word = np.array(list(map(len, tokens["input_ids"])))

    fertility = np.mean(tokens_per_word).item()
    proportion_continued_words = (tokens_per_word >= 2).sum() / len(tokens_per_word)

    return fertility, proportion_continued_words

ํ•˜์ง€๋งŒ ์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™๊ณผ ๊ฐ™์€ ์ „๋ฌธํ™”๋œ ๋„๋ฉ”์ธ์˜ ๊ฒฝ์šฐ, ์ƒ์‚ฐ์„ฑ ์™ธ์—๋„ ๋„๋ฉ”์ธ๋ณ„ ํŒจํ„ด์„ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€ ๋” ๊นŠ์ด ํŒŒ๊ณ ๋“ค์–ด์•ผ ํ•œ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ํ˜„๋Œ€ ํ† ํฌ๋‚˜์ด์ €๋Š” ๋‹จ์ผ ์ˆซ์ž ๋ถ„ํ• ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค (๋”ฐ๋ผ์„œ โ€œ123โ€์€ [โ€œ1โ€, โ€œ2โ€, โ€œ3โ€]์ด ๋œ๋‹ค) (Chowdhery et al., 2022; DeepSeek-AI et al., 2024). ์ˆซ์ž๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์ง๊ด€์— ๋ฐ˜ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ๋ชจ๋ธ์ด ์‚ฐ์ˆ  ํŒจํ„ด์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. โ€œ342792โ€๊ฐ€ ํ•˜๋‚˜์˜ ๋ถ„๋ฆฌ ๋ถˆ๊ฐ€๋Šฅํ•œ ํ† ํฐ์œผ๋กœ ์ธ์ฝ”๋”ฉ๋˜๋ฉด, ๋ชจ๋ธ์€ ๊ทธ ํŠน์ • ํ† ํฐ์„ ๋‹ค๋ฅธ ๋ชจ๋“  ์ˆซ์ž ํ† ํฐ๊ณผ ๋”ํ•˜๊ฑฐ๋‚˜, ๋นผ๊ฑฐ๋‚˜, ๊ณฑํ•  ๋•Œ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ์•”๊ธฐํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๊ฒƒ์ด ๋ถ„ํ• ๋  ๋•Œ, ๋ชจ๋ธ์€ ์ˆซ์ž ์ˆ˜์ค€ ์—ฐ์‚ฐ์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ํ•™์Šตํ•œ๋‹ค. Llama3 (Grattafiori et al., 2024)์™€ ๊ฐ™์€ ์ผ๋ถ€ ํ† ํฌ๋‚˜์ด์ €๋Š” 1๋ถ€ํ„ฐ 999๊นŒ์ง€์˜ ์ˆซ์ž๋ฅผ ๊ณ ์œ ํ•œ ํ† ํฐ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ๋‚˜๋จธ์ง€๋Š” ์ด๋Ÿฌํ•œ ํ† ํฐ๋“ค๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

(ํ† ํฐํ™”๊ฐ€ ์‚ฐ์ˆ  ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ํƒ๊ตฌ๋ฅผ ์œ„ํ•ด, From Digits to Decisions: How Tokenization Impacts Arithmetic in LLMs๋Š” ์ˆ˜ํ•™ ์ž‘์—…์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ํ† ํฐํ™” ๋ฐฉ์‹์„ ๋น„๊ตํ•œ๋‹ค.)

๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ํ† ํฌ๋‚˜์ด์ €์˜ ์•ฝ์ ๊ณผ ๊ฐ•์ ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ชฉํ‘œ ๋„๋ฉ”์ธ์—์„œ ์ƒ์‚ฐ์„ฑ์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” ๋‹ค๋ฅธ ์–ธ์–ด ๋ฐ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์ธ๊ธฐ ์žˆ๋Š” ํ† ํฌ๋‚˜์ด์ €์˜ ์ƒ์‚ฐ์„ฑ์„ ๋น„๊ตํ•œ๋‹ค.

ํ† ํฌ๋‚˜์ด์ € ํ‰๊ฐ€

๋‹ค๋ฅธ ์–ธ์–ด์— ๊ฑธ์ณ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์œ„ํ‚คํ”ผ๋””์•„ ๊ธฐ์‚ฌ๋ฅผ ํ‰๊ฐ€ ์ฝ”ํผ์Šค๋กœ ์‚ฌ์šฉํ•˜์—ฌ FineWeb2 ํ† ํฌ๋‚˜์ด์ € ๋ถ„์„์˜ ์„ค์ •์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค. ๊ฐ ์–ธ์–ด์— ๋Œ€ํ•ด, ๊ณ„์‚ฐ์„ ๊ด€๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์œผ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์˜๋ฏธ ์žˆ๋Š” ์ƒ˜ํ”Œ์„ ์–ป๊ธฐ ์œ„ํ•ด 100๊ฐœ์˜ ๊ธฐ์‚ฌ๋ฅผ ์ƒ˜ํ”Œ๋งํ•  ๊ฒƒ์ด๋‹ค.

๋จผ์ €, ์ข…์†์„ฑ์„ ์„ค์น˜ํ•˜๊ณ  ๋น„๊ตํ•˜๊ณ ์ž ํ•˜๋Š” ํ† ํฌ๋‚˜์ด์ €์™€ ์–ธ์–ด๋ฅผ ์ •์˜ํ•œ๋‹ค:

pip install transformers datasets sentencepiece 'datatrove[multilingual]'
## ๋‹จ์–ด ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋กœ๋“œํ•˜๊ธฐ ์œ„ํ•ด datatrove๊ฐ€ ํ•„์š”ํ•˜๋‹ค
tokenizers = [
    ("Llama3", "meta-llama/Llama-3.2-1B"),
    ("Gemma3", "google/gemma-3-1b-pt"),
    ("Mistral (S)", "mistralai/Mistral-Small-24B-Instruct-2501"),
    ("Qwen3", "Qwen/Qwen3-4B")
]

languages = [
    ("English", "eng_Latn", "en"),
    ("Chinese", "cmn_Hani", "zh"),
    ("French", "fra_Latn", "fr"),
    ("Arabic", "arb_Arab", "ar"),
]

์ด์ œ ์šฐ๋ฆฌ์˜ ์œ„ํ‚คํ”ผ๋””์•„ ์ƒ˜ํ”Œ์„ ๋กœ๋“œํ•œ๋‹ค. ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๊ฒƒ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์ŠคํŠธ๋ฆฌ๋ฐ์„ ์‚ฌ์šฉํ•˜์ž:

from datasets import load_dataset

wikis = {}
for lang_name, lang_code, short_lang_code in languages:
	wiki_ds = load_dataset("wikimedia/wikipedia", f"20231101.{short_lang_code}", streaming=True, split="train")
	wiki_ds = wiki_ds.shuffle(seed=42, buffer_size=10_000)
	# ์–ธ์–ด๋‹น 100๊ฐœ ๊ธฐ์‚ฌ ์ƒ˜ํ”Œ๋ง
  ds_iter = iter(wiki_ds)
  wikis[lang_code] = "\n".join([next(ds_iter)["text"] for _ in range(100)])

๋ฐ์ดํ„ฐ๊ฐ€ ์ค€๋น„๋˜์—ˆ์œผ๋ฏ€๋กœ, ์ด์ œ ๊ฐ ์–ธ์–ด์— ๋Œ€ํ•ด ๊ฐ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ์กฐํ•ฉ์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” datatrove์—์„œ ์ ์ ˆํ•œ ๋‹จ์–ด ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋กœ๋“œํ•˜๊ณ  ๋‘ ์ธก์ • ๊ธฐ์ค€์„ ๋ชจ๋‘ ๊ณ„์‚ฐํ•œ๋‹ค:

from transformers import AutoTokenizer
from datatrove.utils.word_tokenizers import load_word_tokenizer
import pandas as pd

results = []

for tokenizer_name, tokenizer_path in tokenizers:
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True)

    for lang_name, lang_code, short_lang_code in languages:
        word_tokenizer = load_word_tokenizer(lang_code)

        # ์œ„ํ‚คํ”ผ๋””์•„์—์„œ ์ธก์ • ๊ธฐ์ค€ ๊ณ„์‚ฐ
        fertility, pcw = compute_tokenizer_metrics(tokenizer, word_tokenizer, wikis[lang_code])

        results.append({
            "tokenizer": tokenizer_name,
            "language": lang_name,
            "fertility": fertility,
            "pcw": pcw
        })

df = pd.DataFrame(results)
print(df)
      tokenizer    language  fertility       pcw
0        Llama3     English   1.481715  0.322058
1        Llama3     Chinese   1.601615  0.425918
2        Llama3      French   1.728040  0.482036
3        Llama3     Spanish   1.721480  0.463431
4        Llama3  Portuguese   1.865398  0.491938
5        Llama3     Italian   1.811955  0.541326
6        Llama3      Arabic   2.349994  0.718284
7        Gemma3     English   1.412533  0.260423
8        Gemma3     Chinese   1.470705  0.330617
9        Gemma3      French   1.562824  0.399101
10       Gemma3     Spanish   1.586070  0.407092
11       Gemma3  Portuguese   1.905458  0.460791
12       Gemma3     Italian   1.696459  0.484186
13       Gemma3      Arabic   2.253702  0.700607
14  Mistral (S)     English   1.590875  0.367867
15  Mistral (S)     Chinese   1.782379  0.471219
16  Mistral (S)      French   1.686307  0.465154
17  Mistral (S)     Spanish   1.702656  0.456864
18  Mistral (S)  Portuguese   2.013821  0.496445
19  Mistral (S)     Italian   1.816314  0.534061
20  Mistral (S)      Arabic   2.148934  0.659853
21        Qwen3     English   1.543511  0.328073
22        Qwen3     Chinese   1.454369  0.307489
23        Qwen3      French   1.749418  0.477866
24        Qwen3     Spanish   1.757938  0.468954
25        Qwen3  Portuguese   2.064296  0.500651
26        Qwen3     Italian   1.883456  0.549402
27        Qwen3      Arabic   2.255253  0.660318

๊ฒฐ๊ณผ๋Š” ์šฐ์„ ์ˆœ์œ„์— ๋”ฐ๋ผ ์Šน์ž์™€ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.56.33.png

Gemma3 ํ† ํฌ๋‚˜์ด์ €๋Š” ๋‹ค๊ตญ์–ด ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ Llama3์˜ 128k๋ณด๋‹ค ์•ฝ 2๋ฐฐ ๋” ํฐ 262k์˜ ๋งค์šฐ ํฐ ์–ดํœ˜ ํฌ๊ธฐ๋กœ ์„ค๋ช…๋  ์ˆ˜ ์žˆ๋Š” ์˜์–ด, ํ”„๋ž‘์Šค์–ด, ์ŠคํŽ˜์ธ์–ด๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์–ธ์–ด์— ๊ฑธ์ณ ๋‚ฎ์€ ์ƒ์‚ฐ์„ฑ๊ณผ ๋‹จ์–ด ๋ถ„ํ•  ๋น„์œจ์„ ๋‹ฌ์„ฑํ•œ๋‹ค. Qwen3 ํ† ํฌ๋‚˜์ด์ €๋Š” ์ค‘๊ตญ์–ด์—์„œ ํƒ์›”ํ•˜์ง€๋งŒ, ์˜์–ด, ํ”„๋ž‘์Šค์–ด, ์ŠคํŽ˜์ธ์–ด์—์„œ๋Š” Llama3 ํ† ํฌ๋‚˜์ด์ €์— ๋’ค์ฒ˜์ง„๋‹ค. Mistral Small์˜ ํ† ํฌ๋‚˜์ด์ € (Mistral AI, 2025)๋Š” ์•„๋ž์–ด์—์„œ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์˜์–ด์™€ ์ค‘๊ตญ์–ด์—์„œ๋Š” ๋‹ค๋ฅธ ํ† ํฌ๋‚˜์ด์ €์— ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค.

๊ธฐ์กด ํ† ํฌ๋‚˜์ด์ €์™€ ๋งž์ถคํ˜• ํ† ํฌ๋‚˜์ด์ € ์‚ฌ์ด์˜ ์„ ํƒ

ํ˜„์žฌ, ๊ฐ•๋ ฅํ•œ ํ† ํฌ๋‚˜์ด์ €์˜ ์ข‹์€ ์„ ํƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋งŽ์€ ์ตœ์‹  ๋ชจ๋ธ์€ GPT4์˜ ํ† ํฌ๋‚˜์ด์ € (OpenAI et al., 2024)์™€ ๊ฐ™์€ ๊ฒƒ์œผ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ์ถ”๊ฐ€ ๋‹ค๊ตญ์–ด ํ† ํฐ์œผ๋กœ ๋ณด๊ฐ•ํ•œ๋‹ค. ์œ„ ํ‘œ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, Llama 3์˜ ํ† ํฌ๋‚˜์ด์ €๋Š” ๋‹ค๊ตญ์–ด ํ…์ŠคํŠธ ๋ฐ ์ฝ”๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ ํ‰๊ท ์ ์œผ๋กœ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ฐ˜๋ฉด, Qwen 2.5๋Š” ํŠนํžˆ ์ค‘๊ตญ์–ด ๋ฐ ์ผ๋ถ€ ์ €์ž์› ์–ธ์–ด์—์„œ ํƒ์›”ํ•˜๋‹ค.

์—ฌ๋Ÿฌ๋ถ„์˜ ํ† ํฌ๋‚˜์ด์ € ์„ ํƒ์€ ๊ธฐ์ˆ ์ ์ธ ์„ธ๋ถ€ ์‚ฌํ•ญ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ชจ๋ธ ์„ฑ๋Šฅ์˜ ๋ชจ๋“  ์ธก๋ฉด์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ๋”ฐ๋ผ์„œ ๊ทธ๊ฒƒ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์„ ํˆฌ์žํ•˜๋Š” ๊ฒƒ์„ ๋‘๋ ค์›Œํ•˜์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค.

SmolLM3

์ด์ œ ์•„ํ‚คํ…์ฒ˜ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๊ณ  ์ฒด๊ณ„์ ์ธ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ์œผ๋ฏ€๋กœ, SmolLM3์™€ ๊ฐ™์€ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ด ๋ชจ๋“  ๊ฒƒ์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ํ•˜๋‚˜๋กœ ํ•ฉ์ณ์ง€๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

SmolLM ํŒจ๋ฐ€๋ฆฌ๋Š” ์†Œํ˜• ๋ชจ๋ธ๋กœ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์˜ ๊ฒฝ๊ณ„๋ฅผ ๋„“ํžˆ๋Š” ๊ฒƒ์— ๊ด€ํ•œ ์‹œ๋„์˜€๋‹ค. SmolLM2๋Š” ๋ชจ๋‘ ์˜จ๋””๋ฐ”์ด์Šค์—์„œ ํšจ์œจ์ ์œผ๋กœ ์‹คํ–‰๋˜๋„๋ก ์„ค๊ณ„๋œ 1์–ต 3500๋งŒ, 3์–ต 6์ฒœ๋งŒ, ๊ทธ๋ฆฌ๊ณ  17์–ต ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์„ธ ๊ฐ€์ง€ ์œ ๋Šฅํ•œ ๋ชจ๋ธ์„ ์ œ๊ณตํ–ˆ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ํœด๋Œ€ํฐ์— ์ถฉ๋ถ„ํžˆ ์ž‘๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ์„ฑ๋Šฅ์„ ํ™•์žฅํ•˜๊ณ  SmolLM2์˜ ์•ฝ์ ์ธย ๋‹ค๊ตญ์–ด์„ฑ, ๋งค์šฐ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ, ๊ทธ๋ฆฌ๊ณ  ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๊ท ํ˜•์„ ์œ„ํ•œ ์ตœ์ ์ ์œผ๋กœย 3B ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ–ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๊ฒ€์ฆ๋œ ๋ ˆ์‹œํ”ผ๋ฅผ ํ™•์žฅํ•˜๊ณ  ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒย ํŒ๋‹จ์€ ๋ฐ€์ง‘ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ๊ธฐ์šธ์–ด์กŒ๋‹ค. MoE๋Š” nanotron์— ์•„์ง ๊ตฌํ˜„๋˜์ง€ ์•Š์•˜์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ์ด๋ฏธ ๊ฐ•๋ ฅํ•œ ์†Œํ˜• ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ „๋ฌธ ์ง€์‹๊ณผ ์ธํ”„๋ผ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๋‹ค. ๋” ์ค‘์š”ํ•˜๊ฒŒ๋Š”, ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ์˜ ๊ฒฝ์šฐ ์šฐ๋ฆฌ๋Š” ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์ด ์žˆ๋Š”๋ฐ, ๋น„๋ก ์ผ๋ถ€ ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ ํ™œ์„ฑ๋˜๋”๋ผ๋„ ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ MoE๋Š” ๋ชจ๋“  ์ „๋ฌธ๊ฐ€๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ๋กœ๋“œํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ œํ•œ์ ์ด๋ฉฐ, ์ด๋Š” ๋ฐ€์ง‘ํ˜• ๋ชจ๋ธ์„ ์šฐ๋ฆฌ์˜ ์—ฃ์ง€ ๋ฐฐํฌ ๋ชฉํ‘œ์— ๋” ์‹ค์šฉ์ ์œผ๋กœ ๋งŒ๋“ค์—ˆ๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜:ย ์šฐ๋ฆฌ๋Š” SmolLM2 17์–ต์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹œ์ž‘ํ•œ ๋‹ค์Œ, Qwen2.5-3B ๋ ˆ์ด์•„์›ƒ์„ ์‚ฌ์šฉํ•˜์—ฌ 100B ํ† ํฐ์œผ๋กœ 3B ์ œ๊ฑฐ ์‹คํ—˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค. ์ด๊ฒƒ์€ ๊ฐ ์ˆ˜์ • ์‚ฌํ•ญ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•œ ๊ฒฌ๊ณ ํ•œ ๊ธฐ์ค€์„ ์„ ์ œ๊ณตํ–ˆ๋‹ค. ๊ฐ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์€ ์˜์–ด ๋ฒค์น˜๋งˆํฌ์—์„œ ์†์‹ค ๋ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜ ํ’ˆ์งˆ ์ €ํ•˜ ์—†์ด ์ถ”๋ก  ์†๋„์™€ ๊ฐ™์€ ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ด์ ์„ ์ œ๊ณตํ•ด์•ผ ํ–ˆ๋‹ค.

๋‹ค์Œ์€ ์šฐ๋ฆฌ๊ฐ€ ์‹คํ–‰์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ํ…Œ์ŠคํŠธํ•˜์—ฌ ์ฑ„ํƒ๋œ ์‚ฌํ•ญ์ด๋‹ค:

ํ† ํฌ๋‚˜์ด์ €:ย ์•„ํ‚คํ…์ฒ˜ ์ˆ˜์ •์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ์šฐ๋ฆฌ๋Š” ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์„ ํƒํ•ด์•ผ ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ชฉํ‘œ ์–ธ์–ด์™€ ๋„๋ฉ”์ธ์„ ํฌ๊ด„ํ•˜๋Š” ์ข‹์€ ํ† ํฌ๋‚˜์ด์ €๋“ค์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์ƒ์‚ฐ์„ฑ ๋ถ„์„์„ ๊ธฐ๋ฐ˜์œผ๋กœ, Llama3.2์˜ ํ† ํฌ๋‚˜์ด์ €๋Š” ์šฐ๋ฆฌ์˜ 6๊ฐœ ๋ชฉํ‘œ ์–ธ์–ด ์‚ฌ์ด์—์„œ ์ตœ์ ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋™์‹œ์—, ๋‹ค๊ตญ์–ด ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ถฉ๋ถ„ํžˆ ํฌ์ง€๋งŒ ์ž„๋ฒ ๋”ฉ ๊ฐ€์ค‘์น˜๋กœ 3B ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ๋ถ€ํ’€๋ฆฌ์ง€ ์•Š์„ ๋งŒํผ ์ ๋‹นํ•œ 128k์˜ ์–ดํœ˜๋ฅผ ์œ ์ง€ํ–ˆ๋‹ค.

๊ทธ๋ฃน ์ฟผ๋ฆฌ ์–ดํ…์…˜ (GQA):ย ์šฐ๋ฆฌ๋Š” 4๊ฐœ ๊ทธ๋ฃน์„ ๊ฐ€์ง„ GQA๊ฐ€ Multi-Head Attention ์„ฑ๋Šฅ๊ณผ ์ผ์น˜ํ•œ๋‹ค๋Š” ์šฐ๋ฆฌ์˜ ์ดˆ๊ธฐ ๋ฐœ๊ฒฌ์„ ์žฌํ™•์ธํ–ˆ์ง€๋งŒ, ์ด๋ฒˆ์—๋Š” 100B ํ† ํฐ์„ ๊ฐ€์ง„ 3B ๊ทœ๋ชจ์—์„œ์˜€๋‹ค. KV ์บ์‹œ ํšจ์œจ์„ฑ ์ด์ ์€ ํฌ๊ธฐํ•˜๊ธฐ์—๋Š” ๋„ˆ๋ฌด ์ข‹์•˜์œผ๋ฉฐ, ํŠนํžˆ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์†Œ์ค‘ํ•œ ์˜จ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ์— ์ค‘์š”ํ–ˆ๋‹ค.

๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์œ„ํ•œ NoPE:ย ์šฐ๋ฆฌ๋Š” 4๋ฒˆ์งธ ๋ ˆ์ด์–ด๋งˆ๋‹ค RoPE๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ NoPE๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค. ์šฐ๋ฆฌ์˜ 3B ์ œ๊ฑฐ ์‹คํ—˜์€ ์œ„ ์„น์…˜์˜ ๋ฐœ๊ฒฌ์„ ํ™•์ธํ–ˆ๋‹ค. NoPE๋Š” ์งง์€ ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ํฌ์ƒํ•˜์ง€ ์•Š๊ณ  ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๋ฅผ ๊ฐœ์„ ํ–ˆ๋‹ค.

๋ฌธ์„œ ๋‚ด ์–ดํ…์…˜ ๋งˆ์Šคํ‚น:ย ์šฐ๋ฆฌ๋Š” ๋งค์šฐ ํฐ ์‹œํ€€์Šค๋กœ ํ•™์Šตํ•  ๋•Œ ํ•™์Šต ์†๋„์™€ ์•ˆ์ •์„ฑ์„ ๋•๊ธฐ ์œ„ํ•ด ํ•™์Šต ์ค‘ ๋ฌธ์„œ ๊ฐ„ ์–ดํ…์…˜์„ ๋ฐฉ์ง€ํ–ˆ๋‹ค. ๋‹ค์‹œ ํ•œ๋ฒˆ ์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•œ๋‹ค.

๋ชจ๋ธ ๋ ˆ์ด์•„์›ƒ ์ตœ์ ํ™”:ย ์šฐ๋ฆฌ๋Š” ๋ฌธํ—Œ์˜ ์ตœ๊ทผ 3B ๋ชจ๋ธ๋“ค์˜ ๋ ˆ์ด์•„์›ƒ์„ ๋น„๊ตํ–ˆ๋‹ค. ์ผ๋ถ€๋Š” ๊นŠ์ด๋ฅผ ์šฐ์„ ์‹œํ•˜๊ณ , ๋‹ค๋ฅธ ์ผ๋ถ€๋Š” ๋„ˆ๋น„๋ฅผ ์šฐ์„ ์‹œํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Qwen2.5-3B (31์–ต), Llama3.2-3B (32์–ต), ๊ทธ๋ฆฌ๊ณ  Falcon3-H1-3B (31์–ต) ๋ ˆ์ด์•„์›ƒ์„ ์šฐ๋ฆฌ์˜ ํ•™์Šต ์„ค์ •์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ๊นŠ์ด์™€ ๋„ˆ๋น„๊ฐ€ ๋‹ค์–‘ํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ํฅ๋ฏธ๋กœ์› ๋‹ค: Qwen2.5-3B๊ฐ€ ์‹ค์ œ๋กœ๋Š” ๋” ์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์กŒ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋ชจ๋“  ๋ ˆ์ด์•„์›ƒ์ด ๊ฑฐ์˜ ๋™์ผํ•œ ์†์‹ค๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Qwen2.5-3B์˜ ๋” ๊นŠ์€ ์•„ํ‚คํ…์ฒ˜๋Š” ๋„คํŠธ์›Œํฌ ๊นŠ์ด๊ฐ€ ์ผ๋ฐ˜ํ™”์— ๋„์›€์ด ๋œ๋‹ค๋Š” ์—ฐ๊ตฌ์™€ ์ผ์น˜ํ–ˆ๋‹ค (Petty et al., 2024). ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ๋„์›€์ด ๋  ๊ฒƒ์ด๋ผ๊ณ  ์˜ˆ์ƒํ•˜๋ฉฐ, ๋” ๊นŠ์€ ๋ ˆ์ด์•„์›ƒ์„ ์„ ํƒํ–ˆ๋‹ค.

์•ˆ์ •์„ฑ ๊ฐœ์„ :ย ์šฐ๋ฆฌ๋Š” SmolLM2์—์„œ ๋ฌถ์ธ ์ž„๋ฒ ๋”ฉ์„ ์œ ์ง€ํ–ˆ์ง€๋งŒ, OLMo2์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ ์ƒˆ๋กœ์šด ํŠธ๋ฆญ์ธ ์ž„๋ฒ ๋”ฉ์—์„œ ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ์ œ๊ฑฐ๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜์€ ์ด๊ฒƒ์ด ์„ฑ๋Šฅ์„ ํ•ด์น˜์ง€ ์•Š์œผ๋ฉด์„œ ์ž„๋ฒ ๋”ฉ ๋…ธ๋ฆ„์„ ๋‚ฎ์ถ”์–ด, ํ•™์Šต ๋ฐœ์‚ฐ์„ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ฒด๊ณ„์ ์ธ ์ œ๊ฑฐ ์‹คํ—˜ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ์•„๋ฆ„๋‹ค์›€์€ ๊ฐ๊ฐ์ด ๊ฒ€์ฆ๋˜์—ˆ์Œ์„ ์•Œ๊ณ  ๋ชจ๋“  ์ด๋Ÿฌํ•œ ์ˆ˜์ • ์‚ฌํ•ญ์„ ์ž์‹  ์žˆ๊ฒŒ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๐Ÿ’ก์ œ๊ฑฐ ์‹คํ—˜์—์„œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ ๊ฒฐํ•ฉ

์‹ค์ œ์—์„œ๋Š” ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ์ ์ง„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ–ˆ๋‹ค: ์ผ๋‹จ ๊ธฐ๋Šฅ์ด ๊ฒ€์ฆ๋˜๋ฉด, ๊ทธ๊ฒƒ์€ ๋‹ค์Œ ๊ธฐ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ์ค€์„ ์˜ ์ผ๋ถ€๊ฐ€ ๋˜์—ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์ˆœ์„œ๊ฐ€ ์ค‘์š”ํ•˜๋‹ค: ์‹ค์ „ ๊ฒ€์ฆ๋œ ๊ธฐ๋Šฅ๋ถ€ํ„ฐ ์‹œ์ž‘ํ–ˆ๋‹ค. (์ž„๋ฒ ๋”ฉ ๋ฌถ๊ธฐ โ†’ GQA โ†’ ๋ฌธ์„œ ๋งˆ์Šคํ‚น โ†’ NoPE โ†’ ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ์ œ๊ฑฐ).

์ฐธ์—ฌ ๊ทœ์น™

์š”์•ฝ:ย ์—ฌ๋Ÿฌ๋ถ„์˜ use case๊ฐ€ ์„ ํƒ์„ ์ฃผ๋„ํ•˜๊ฒŒ ํ•ด๋ผ.

๋ฐฐํฌ ๋Œ€์ƒ์„ ์•„ํ‚คํ…์ฒ˜ ๊ฒฐ์ •์˜ ์ง€์นจ์œผ๋กœ ์‚ผ์•„์•ผ ํ•œ๋‹ค.ย ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ์„ ํ‰๊ฐ€ํ•  ๋•Œ ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ, ์–ด๋””์„œ ์‹คํ–‰๋ ์ง€ ๊ณ ๋ คํ•˜๋ผ.

ํ˜์‹ ๊ณผ ์‹ค์šฉ์ฃผ์˜ ์‚ฌ์ด์˜ ์˜ฌ๋ฐ”๋ฅธ ๊ท ํ˜•์„ ๋งž์ถ˜๋‹ค.ย ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜ ๋ฐœ์ „์„ ๋ฌด์‹œํ•  ์ˆ˜๋Š” ์—†๋‹ค. GQA ๋ฐ ๋” ๋‚˜์€ ๋Œ€์•ˆ์ด ์กด์žฌํ•˜๋Š” ์˜ค๋Š˜๋‚  Multi-Head Attention์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ข‹์ง€ ์•Š์€ ๊ธฐ์ˆ ์  ์„ ํƒ์ผ ๊ฒƒ์ด๋‹ค. ์ตœ์‹  ์—ฐ๊ตฌ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์–ป๊ณ , ๋Œ€๊ทœ๋ชจ์—์„œ ๋ช…ํ™•ํ•˜๊ณ  ๊ฒ€์ฆ๋œ ์ด์ ์„ ์ œ๊ณตํ•˜๋Š” ๊ธฐ์ˆ ์„ ์ฑ„ํƒํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์†Œํ•œ ์ด๋“์„ ์•ฝ์†ํ•˜๋Š” ๋ชจ๋“  ์ƒˆ๋กœ์šด ๋…ผ๋ฌธ์„ ์ซ“์œผ๋ ค๋Š” ์œ ํ˜น์— ์ €ํ•ญํ•ด์•ผ ํ•œ๋‹ค (๊ทธ๋ ‡๊ฒŒ ํ•  ์ž์›์ด ์žˆ๊ฑฐ๋‚˜ ๋ชฉํ‘œ๊ฐ€ ์•„ํ‚คํ…์ฒ˜ ์—ฐ๊ตฌ์ธ ๊ฒฝ์šฐ๊ฐ€ ์•„๋‹ˆ๋ผ๋ฉด).

์ฒด๊ณ„์ ์ธ ๊ฒƒ์ด ์ง๊ด€์ ์ธ ๊ฒƒ์„ ์ด๊ธด๋‹ค.ย ์•„๋ฌด๋ฆฌ ์œ ๋งํ•ด ๋ณด์ด๋”๋ผ๋„ ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ์„ ๊ฒ€์ฆํ•˜๋ผ. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์˜ํ–ฅ๋ ฅ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ฒฐํ•ฉํ•˜๊ธฐ ์ „์— ์ˆ˜์ • ์‚ฌํ•ญ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•ด๋ผ.

๊ทœ๋ชจ ํšจ๊ณผ๋Š” ์‹ค์žฌํ•œ๋‹ค - ๊ฐ€๋Šฅํ•˜๋ฉด ๋ชฉํ‘œ ํฌ๊ธฐ์—์„œ ๋‹ค์‹œ ์ œ๊ฑฐ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜๋ผ.ย ์†Œ๊ทœ๋ชจ ์ œ๊ฑฐ ์‹คํ—˜์ด ๋ชฉํ‘œ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ์™„๋ฒฝํ•˜๊ฒŒ ์œ ์ง€๋  ๊ฒƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค. ์ปดํ“จํŒ… ์ž์›์ด ์žˆ๋‹ค๋ฉด, ๊ทธ๊ฒƒ๋“ค์„ ์žฌํ™•์ธํ•˜๋ ค๊ณ  ์‹œ๋„ํ•ด๋ผ.

์‹ค์ œ ๋„๋ฉ”์ธ์—์„œ ํ† ํฌ๋‚˜์ด์ € ํšจ์œจ์„ฑ์„ ๊ฒ€์ฆํ•˜๋ผ.ย ๋ชฉํ‘œ ์–ธ์–ด ๋ฐ ๋„๋ฉ”์ธ ์ „๋ฐ˜์˜ ์ƒ์‚ฐ์„ฑ ์ธก์ • ๊ธฐ์ค€์€ ์ตœ์‹  ๋ชจ๋ธ์ด ์‚ฌ์šฉํ•œ ๊ฒƒ์„ ๋”ฐ๋ฅด๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์ค‘์š”ํ•˜๋‹ค. ์ง„์ง€ํ•œ ๋‹ค๊ตญ์–ด ์ž‘์—…์„ ์œ„ํ•ด 50k ์˜์–ด ํ† ํฌ๋‚˜์ด์ €๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜์ง€๋งŒ, ๊ทธ๋ ‡๊ฒŒ ๋งŽ์€ ์–ธ์–ด๋ฅผ ๋‹ค๋ฃจ์ง€ ์•Š๋Š”๋‹ค๋ฉด 256k ์–ดํœ˜๋„ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค.

์ด์ œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๊ฒฐ์ •๋˜์—ˆ์œผ๋ฏ€๋กœ, ํ•™์Šต ํ”„๋กœ์„ธ์Šค๋ฅผ ์ฃผ๋„ํ•  ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ์ฐจ๋ก€์ด๋‹ค.

์˜ตํ‹ฐ๋งˆ์ด์ € ๋ฐ ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ

์กฐ๊ฐ๋“ค์ด ์ œ์ž๋ฆฌ๋ฅผ ์ฐพ๊ณ  ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๊ณ , ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฒฐ์ •ํ–ˆ์œผ๋ฉฐ, ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ๋กœ ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์—, ์—ฌ์ „ํžˆ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋ˆ„๋ฝ๋œ ์กฐ๊ฐ๋“ค์ด ์žˆ๋‹ค: ์–ด๋–ค ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ์–ด๋–ค ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ํ•™์Šต ์ „๋ฐ˜์— ๊ฑธ์ณ ํ•™์Šต๋ฅ ์„ ์–ด๋–ป๊ฒŒ ์Šค์ผ€์ค„๋งํ•ด์•ผ ํ• ๊นŒ?

์—ฌ๊ธฐ์„œ ์‹œ๋„ํ•˜๊ณ  ์‹ถ์€ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ฌธํ—Œ์˜ ๋‹ค๋ฅธ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์—์„œ ๊ฐ’์„ ๋นŒ๋ ค์˜ค๋Š” ๊ฒƒ์ผ ์ˆ˜ ์žˆ๋‹ค. ๊ฒฐ๊ตญ, ๊ทธ๊ฒƒ์ด ํฐ ์—ฐ๊ตฌ์†Œ์—์„œ ์ž‘๋™ํ–ˆ๋‹ค๋ฉด, ์šฐ๋ฆฌ์—๊ฒŒ๋„ ์ž‘๋™ํ•ด์•ผ ํ•˜์ง€ ์•Š์„๊นŒ? ๊ทธ๋ฆฌ๊ณ  ์œ ์‚ฌํ•œ ์•„ํ‚คํ…์ฒ˜์™€ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ๊ฐ’์„ ๊ฐ€์ ธ์˜ค๋Š” ๊ฒฝ์šฐ ๋งŽ์€ ๊ฒฝ์šฐ์— ์ž˜ ์ž‘๋™ํ•  ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ์˜ ํŠน์ • ์„ค์ •์— ๋Œ€ํ•ด ์ด๋Ÿฌํ•œ ๊ฐ’๋“ค์„ ํŠœ๋‹ํ•˜์ง€ ์•Š์Œ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ…Œ์ด๋ธ” ์œ„์— ๋‚จ๊ฒจ๋‘˜ ์œ„ํ—˜์ด ์žˆ๋‹ค. ๋ฌธํ—Œ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํŠน์ • ๋ฐ์ดํ„ฐ์™€ ์ œ์•ฝ ์กฐ๊ฑด์— ๋Œ€ํ•ด ์ตœ์ ํ™”๋˜์—ˆ์œผ๋ฉฐ, ๋•Œ๋กœ๋Š” ๊ทธ๋Ÿฌํ•œ ์ œ์•ฝ ์กฐ๊ฑด์ด ์„ฑ๋Šฅ์— ๊ด€ํ•œ ๊ฒƒ๋„ ์•„๋‹ ์ˆ˜๋„ ์žˆ๋‹ค. ์•„๋งˆ๋„ ๊ทธ ํ•™์Šต๋ฅ ์€ ๊ฐœ๋ฐœ ์ดˆ๊ธฐ์— ์„ ํƒ๋˜์—ˆ๊ณ  ๋‹ค์‹œ ๊ฒ€ํ† ๋˜์ง€ ์•Š์•˜์„ ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ ์ €์ž๋“ค์ด ์ฒ ์ €ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์œ•์„ ์ˆ˜ํ–‰ํ•˜๋”๋ผ๋„, ๊ทธ ์ตœ์  ๊ฐ’์€ ์šฐ๋ฆฌ์˜ ๊ฒƒ์ด ์•„๋‹Œ, ๊ทธ๋“ค์˜ ์ •ํ™•ํ•œ ์•„ํ‚คํ…์ฒ˜, ๋ฐ์ดํ„ฐ ๋ฐ ํ•™์Šต ์ฒด์ œ์˜ ์กฐํ•ฉ์— ๋Œ€ํ•ด ๋ฐœ๊ฒฌ๋œ ๊ฒƒ์ด๋‹ค. ๋ฌธํ—Œ ๊ฐ’์€ ํ•ญ์ƒ ์ข‹์€ ์ถœ๋ฐœ์ ์ด์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ์ฃผ๋ณ€์—์„œ ๋” ๋‚˜์€ ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์€ ์ƒ๊ฐ์ด๋‹ค.

์ด ์ฑ•ํ„ฐ์—์„œ๋Š” ์ตœ์‹  ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  (์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์˜ค๋ž˜๋œ AdamW (Kingma, 2014)๊ฐ€ ์—ฌ์ „ํžˆ ์‹œ๊ฐ„์˜ ์‹œํ—˜์„ ๊ฒฌ๋””๋Š”์ง€ ๋ณธ๋‹ค ๐ŸŽ‰), ํ‘œ์ค€ ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ๋ฅผ ๋„˜์–ด์„  ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์— ๊นŠ์ด ๋›ฐ์–ด๋“ค๊ณ , ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋‚ผ ๊ฒƒ์ด๋‹ค.

์˜ตํ‹ฐ๋งˆ์ด์ € ์ „์Ÿ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์ž.

์˜ตํ‹ฐ๋งˆ์ด์ €: AdamW ๋ฐ ๊ทธ ์ด์ƒ

์˜ตํ‹ฐ๋งˆ์ด์ €๋Š” ์ „์ฒด LLM ํ•™์Šต ์ž‘์—…์˜ ํ•ต์‹ฌ์— ์žˆ๋‹ค. ๊ทธ๊ฒƒ์€ ๊ณผ๊ฑฐ ์—…๋ฐ์ดํŠธ, ํ˜„์žฌ ๊ฐ€์ค‘์น˜ ๋ฐ ์†์‹ค์—์„œ ํŒŒ์ƒ๋œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋“  ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•ด ์‹ค์ œ ์—…๋ฐ์ดํŠธ ๋‹จ๊ณ„๊ฐ€ ๋ฌด์—‡์ด ๋ ์ง€ ๊ฒฐ์ •ํ•œ๋‹ค. ๋™์‹œ์— ๊ทธ๊ฒƒ์€ ๋˜ํ•œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์ปดํ“จํŒ…์„ ๋งŽ์ด ์žก์•„๋จน๋Š” ๊ดด๋ฌผ์ด๋ฏ€๋กœ, ํ•„์š”ํ•œ GPU ์ˆ˜์™€ ํ•™์Šต ์†๋„์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค.

(์˜ตํ‹ฐ๋งˆ์ด์ €๊ฐ€ ๋ฌด์—‡์ด๋ฉฐ ๋ฌด์—‡์— ์œ ์šฉํ•œ์ง€ ํ™•์‹คํ•˜์ง€ ์•Š๋‹ค๋ฉด, ์ฃผ๋ชฉํ•  ๋งŒํ•˜๊ฒŒ ๋ฉ‹์ง„ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ๋น„๊ตํ•˜๋Š” Ruder์˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๋ฐ ์˜ตํ‹ฐ๋งˆ์ด์ €์— ๋Œ€ํ•œ ๋ธ”๋กœ๊ทธ https://www.ruder.io/optimizing-gradient-descent/๋ฅผ ํ™•์ธํ•ด๋ผ.)

์šฐ๋ฆฌ๋Š” LLM ์‚ฌ์ „ ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ €์˜ ํ˜„์žฌ ์ƒํ™ฉ์„ ์š”์•ฝํ•˜๋Š” ๋ฐ ๋…ธ๋ ฅ์„ ์•„๋ผ์ง€ ์•Š์•˜๋‹ค:

๋ชจ๋ธ์˜ตํ‹ฐ๋งˆ์ด์ €
Kimi K2, GLM 4.5Muon
๋‹ค๋ฅธ ๋ชจ๋“  ๋ชจ๋ธAdamW

๊ทธ๋ž˜์„œ, ์—ฌ๋Ÿฌ๋ถ„์€ ์™œ ๋ชจ๋“  ์‚ฌ๋žŒ์ด AdamW๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€ ๊ถ๊ธˆํ•  ๊ฒƒ์ด๋‹ค.

์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์˜ ์ด ๋ถ€๋ถ„์„ ์ž‘์„ฑํ•˜๋Š” ์‚ฌ๋žŒ์€ โ€œ์‚ฌ๋žŒ๋“ค์ด ๊ฒŒ์œผ๋ฅด๊ธฐ ๋•Œ๋ฌธ์—โ€๋ผ๊ณ  ์ƒ๊ฐํ•˜์ง€๋งŒ , ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์€ AdamW๊ฐ€ ์˜ค๋žซ๋™์•ˆ ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ์—์„œ ์ž˜/๋” ์ž˜ ์ž‘๋™ํ•ด ์™”์œผ๋ฉฐ, ํŠนํžˆ ๋งค์šฐ ๊ธด ํ•™์Šต์—์„œ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์–ด๋ ต๊ฑฐ๋‚˜ (์ฆ‰, ๋น„์‹ธ๊ฑฐ๋‚˜) ๋น„์šฉ์ด ๋งŽ์ด ๋“ ๋‹ค๋ฉด ๊ทธ๋Ÿฌํ•œ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์ด ํ•ญ์ƒ ์กฐ๊ธˆ ๋ฌด์„ญ๋‹ค๊ณ  ๋” ํ˜„์‹ค์ ์œผ๋กœ ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฒŒ๋‹ค๊ฐ€, ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•˜๋Š” ๊ฒƒ์€ ๋ณด์ด๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์–ด๋ ต๋‹ค. ๊ทœ๋ชจ๋Š” ์ž‘์€ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ์—ญํ•™์„ ๋ณ€ํ™”์‹œํ‚ค๋ฏ€๋กœ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์ด ๋ณต์žกํ•˜๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ โ€œ๊ดœ์ฐฎ๋‹ค, ๋‚˜๋Š” AdamW๋ฅผ ๋ช‡ ์ฃผ ๋™์•ˆ ํŠœ๋‹ํ–ˆ๊ณ , ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋™์ผํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค!โ€๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์ด ์‚ฌ์‹ค์ด๊ธฐ๋ฅผ ์ •๋ง๋กœ ๋ฐ”๋ž€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ถˆํ–‰ํžˆ๋„, ๊ฐ ์˜ตํ‹ฐ๋งˆ์ด์ €์— ๋Œ€ํ•ด ์ ์ ˆํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰ (1D? 2D? 3D?)์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋ฉฐ, ์ด๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ € ์—ฐ๊ตฌ๋ฅผ ์–ด๋ ต๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ฒŒ ๋งŒ๋“ ๋‹ค.

(์ข…์ข…, ๊ธฐ์ค€์„ ์ด ์ž˜ ํŠœ๋‹๋˜์ง€ ์•Š์•„, ์ƒˆ๋กœ์šด ์˜ตํ‹ฐ๋งˆ์ด์ €๊ฐ€ ์•ฝํ•œ AdamW ์„ค์ •๊ณผ ๋น„๊ต๋œ๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ (Wen et al., 2025)๋Š” ๊ทธ๊ฒƒ๋งŒ์œผ๋กœ ๋ณด๊ณ ๋œ ์ด๋“์ด ์–ผ๋งˆ๋‚˜ ์™œ๊ณก๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.)

๊ทธ๋Ÿฌ๋ฏ€๋กœ Durk Kingma์˜ ๋ฌด์„œ์šด Google ์Šค์นผ๋ผ ์ง€๋ฐฐ๋ ฅ์˜ ๊ธฐ๋ฐ˜์ธ ๊ณ ์ „, AdamW๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค.

AdamW

Adam (Adaptive Momentum Estimation)์€ 1์ฐจ ์ตœ์ ํ™” ๊ธฐ์ˆ ์ด๋‹ค. ์ด๋Š” ๊ธฐ์šธ๊ธฐ๋งŒ ๋ณด๋Š” ๊ฒƒ ์™ธ์—๋„, ์ด์ „ ๋‹จ๊ณ„์—์„œ ๊ฐ€์ค‘์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ–ˆ๋Š”์ง€๋„ ๊ณ ๋ คํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๊ฒƒ์€ ๊ฐ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ•™์Šต๋ฅ ์ด ๋ชจ๋ฉ˜ํ…€์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ ์‘ํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค.

์กฐ์‹ฌ์Šค๋Ÿฌ์šด ๋…์ž๋Š” ๊ถ๊ธˆํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค: ์ด๋ด, W๊ฐ€ ๋น ์กŒ์ž–์•„? ๋ฌผ๋ก ์ด๋‹ค! ์šฐ๋ฆฌ๊ฐ€ ๊ตฌ์ฒด์ ์œผ๋กœ W (=๊ฐ€์ค‘์น˜ ๊ฐ์‡ )๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ํ‘œ์ค€ SGD์—์„œ ์šฐ๋ฆฌ๋Š” L2 ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์†์‹ค ํ•จ์ˆ˜์— ฮปฮธ2ฮปฮธ^2 (ฮธ๋Š” ๊ฐ€์ค‘์น˜)๋ฅผ ๊ฐ„๋‹จํžˆ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Adam์—์„œ ๋˜‘๊ฐ™์€ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด, ์ ์‘ํ˜• ํ•™์Šต๋ฅ ์ด L2 ์ •๊ทœํ™”์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ฒŒ ๋˜๋Š”๋ฐ, ์ด๋Š” ์ •๊ทœํ™” ๊ฐ•๋„๊ฐ€ ๊ธฐ์šธ๊ธฐ ํฌ๊ธฐ์— ์˜์กดํ•˜๋„๋ก ๋งŒ๋“ค์–ด ๊ทธ ํšจ๊ณผ๋ฅผ ์•ฝํ™”์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์—, AdamW๋Š” ์ด๊ฒƒ์„ ํ•ด๊ฒฐํ•˜๊ณ ์ž ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ๋ฅผ ์ฃผ ์ตœ์ ํ™” ๋ฃจํ”„์™€ ๋ถ„๋ฆฌํ•˜์—ฌ ์ ์šฉํ•œ๋‹ค.

ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ์ง€๋‚œ ๋ช‡ ๋…„ ๋™์•ˆ AdamW ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ฑฐ์˜ ์›€์ง์ด์ง€ ์•Š์•˜๋‹ค:

๋™์ผํ•œ ์„ธ ์„ค์ •์ด Llama 1, 2, 3์—์„œ DeepSeek-V1, 2, 3 671B๊นŒ์ง€ ๊ฑฐ์˜ ์žฌ์‚ฌ์šฉ๋˜๋ฉฐ, ๋ณ€๊ฒฝ์ด ์—†๋‹ค. Durk Kingma๊ฐ€ ์ฒ˜์Œ๋ถ€ํ„ฐ ์˜ณ์•˜๋˜ ๊ฑธ๊นŒ, ์•„๋‹ˆ๋ฉด ์šฐ๋ฆฌ๊ฐ€ ๋” ์ž˜ํ•  ๋ฐฉ๋ฒ•์ด ์žˆ์„๊นŒ?

Muon ํ•œ ์ค„ ์š”์•ฝ

Adam์€ ๊ธฐ์šธ๊ธฐ๋งŒ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ 1์ฐจ ๋ฐฉ๋ฒ•์ด๋‹ค. Muon์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ํ…์„œ์˜ ํ–‰๋ ฌ ๋ทฐ์— ์ž‘์šฉํ•˜๋Š” 2์ฐจ ์˜ตํ‹ฐ๋งˆ์ด์ €์ด๋‹ค.

Gt=โˆ‡ฮธLt(ฮธtโˆ’1)G_t = \nabla_\theta L_t(\theta_{t-1}) Bt=ฮผBtโˆ’1+GtB_t = \mu B_{t-1} + G_t Ot=NewtonSchulz5(Bt)โ‰ˆUVโŠคย ifย Bt=UฮฃVโŠคย (SVD)O_t = \text{NewtonSchulz}_5(B_t) \approx UV^\top \text{ if } B_t = U\Sigma V^\top \text{ (SVD)} ฮธt=ฮธtโˆ’1โˆ’ฮทOt\theta_t = \theta_{t-1} - \eta O_t

์ด๋Ÿฌํ•œ ๋ฐฉ์ •์‹๋“ค์„ ๋ณด๋ฉด, ๊ธฐ์šธ๊ธฐ๋งŒ ๋ณด์ด๊ณ  ๋” ๋†’์€ ์ฐจ์ˆ˜์˜ ํ•ญ์€ ๋ณด์ด์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์ด๊ฒƒ์ด ์™œ 2์ฐจ ๋ฐฉ๋ฒ•์ธ์ง€ ๊ถ๊ธˆํ•  ์ˆ˜ ์žˆ๋‹ค. 2์ฐจ ์ตœ์ ํ™”๋Š” ์‹ค์ œ๋กœ๋Š” Newton Schulz ๋‹จ๊ณ„ ๋‚ด์—์„œ ๋ฐœ์ƒํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๋” ์ด์ƒ ์ž์„ธํžˆ ์„ค๋ช…ํ•˜์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. Muon์„ ๊นŠ์ด ์žˆ๊ฒŒ ์„ค๋ช…ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ๋ธ”๋กœ๊ทธ๊ฐ€ ์ด๋ฏธ ์žˆ์œผ๋ฏ€๋กœ, ์—ฌ๊ธฐ์„œ๋Š” Muon์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋งŒ ๋‚˜์—ดํ•œ๋‹ค:

  1. ๋งค๊ฐœ๋ณ€์ˆ˜๋ณ„ ์—…๋ฐ์ดํŠธ ๋Œ€ ํ–‰๋ ฌ๋ณ„ ๊ธฐํ•˜ํ•™: AdamW๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ณ„๋กœ ์‚ฌ์ „ ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•œ๋‹ค (๋Œ€๊ฐ 2์ฐจ ๋ชจ๋ฉ˜ํŠธ). Muon์€ ๊ฐ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๋‹จ์ผ ๊ฐ์ฒด๋กœ ์ทจ๊ธ‰ํ•˜๊ณ  G=UVโŠค์„ ๋”ฐ๋ผ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ, ์ด๋Š” ํ–‰/์—ด ๋ถ€๋ถ„ ๊ณต๊ฐ„ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ•œ๋‹ค.
  2. ์ง๊ตํ™”๋ฅผ ํ†ตํ•œ ๋“ฑ๋ฐฉ์„ฑ ๋‹จ๊ณ„: ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ G=UฮฃVโŠค๋ฅผ ๋ถ„ํ•ดํ•˜๋Š” ๊ฒƒ์€ ํฌ๊ธฐ (ฮฃ)์™€ ๋ฐฉํ–ฅ (์™ผ์ชฝ/์˜ค๋ฅธ์ชฝ ๋ถ€๋ถ„ ๊ณต๊ฐ„ U,V)์ด ๋ถ„๋ฆฌ๋œ๋‹ค. G๋ฅผ UVโŠค๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์€ ํŠน์ด๊ฐ’์„ ๋ฒ„๋ฆฌ๋Š” ๊ฒƒ์œผ๋กœ, ์ด๋Š” ํ™œ์„ฑ ๋ถ€๋ถ„ ๊ณต๊ฐ„์—์„œ ์—…๋ฐ์ดํŠธ ๋‹จ๊ณ„๋ฅผ **๋“ฑ๋ฐฉ์„ฑ(isotropic)**์œผ๋กœ ๋งŒ๋“ ๋‹ค. ์ด๋Š” ์ •๋ณด๋ฅผ ์žƒ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด๋ฏ€๋กœ ์ฒ˜์Œ์—๋Š” ๋‹ค์†Œ ์ง๊ด€์— ๋ฐ˜ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋Š” ์ถ• ์ •๋ ฌ ํŽธํ–ฅ์„ ์ค„์ด๊ณ , ์ด๋ฅผ ํ•˜์ง€ ์•Š์•˜์„ ๊ฒฝ์šฐ์—๋Š” ๋งค์šฐ ์ž‘์€ ํŠน์ด๊ฐ’์— ์˜ํ•ด ์–ต์ œ๋˜์—ˆ์„ ๋ฐฉํ–ฅ๋“ค์— ๋Œ€ํ•œ ํƒ์ƒ‰์„ ์žฅ๋ คํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์˜ ํƒ์ƒ‰์€ ๋‹จ์ˆœํžˆ ์†์‹ค๊ฐ’๋งŒ ๋ด์„œ๋Š” ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ๋‹ค๋ฅธ ๋Šฅ๋ ฅ๋“ค์„ ๋ชจ๋ธ์—๊ฒŒ ๋ถ€์—ฌํ•˜๋Š”์ง€์— ๋Œ€ํ•ด์„œ๋Š” ์—ฌ์ „ํžˆ ์—ด๋ฆฐ ์งˆ๋ฌธ์œผ๋กœ ๋‚จ์•„์žˆ๋‹ค.
  3. ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๊ฒฝํ—˜์  ํ—ˆ์šฉ ์˜ค์ฐจ: ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์—์„œ, Muon์€ ์ข…์ข… ๋” ๋†’์€ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ž˜ ๊ฒฌ๋ŽŒ๋‚ธ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ ์„น์…˜์—์„œ ์ด๊ฒƒ์— ๋Œ€ํ•ด ๋” ๊นŠ์ด ์ด์•ผ๊ธฐํ•  ๊ฒƒ์ด์ง€๋งŒ, ์ด๊ฒƒ์ด Muon ์ฑ„ํƒ์˜ ํ•ต์‹ฌ ํฌ์ธํŠธ์ผ ์ˆ˜ ์žˆ๋‹ค!

์ˆ˜๋…„ ๋™์•ˆ ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ์ฃผ๋กœ AdamW์— ์ •์ฐฉํ–ˆ์œผ๋ฉฐ ์„ ๋„์ ์ธ ์—ฐ๊ตฌ์†Œ์˜ ์˜ตํ‹ฐ๋งˆ์ด์ € ๋ ˆ์‹œํ”ผ๋Š” ์ข…์ข… ๋น„๋ฐ€๋กœ ์œ ์ง€๋˜์ง€๋งŒ (์˜ˆ๋ฅผ ๋“ค์–ด Qwen์€ ๊ทธ๋“ค์˜ ๊ฒƒ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•˜์ง€ ์•Š๋Š”๋‹ค), ์ตœ๊ทผ Muon์€ ๋†’์€ ๊ด€์‹ฌ์˜ ์ถœ์‹œ์—์„œ ์ฑ„ํƒ๋˜์—ˆ๋‹ค (์˜ˆ: Kimi K2, GLM-4.5). ๋” ๊ฐœ๋ฐฉ์ ์ด๊ณ  ๊ฒฌ๊ณ ํ•œ ๋ ˆ์‹œํ”ผ๊ฐ€ ๋‚˜์˜ค๊ธฐ๋ฅผ ๋ฐ”๋ž€๋‹ค.

์˜ตํ‹ฐ๋งˆ์ด์ €์˜ ์•ผ์ƒ ๋™๋ฌผ์›์€ ์กด์žฌํ•˜๋Š”๋ฐ, ์—ฐ๊ตฌ์ž๋“ค์ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๋ชจ๋ฉ˜ํ…€๊ณผ ๋„ํ•จ์ˆ˜๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์ฐฝ์˜์ ์ธ ์œ ์ผํ•œ ๊ฒƒ์€ ๊ทธ๊ฒƒ๋“ค์— ๋Œ€ํ•œ ์ด๋ฆ„์„ ์ƒ๊ฐํ•ด๋‚ด๋Š” ๊ฒƒ์ด๋‹ค: Shampoo, SOAP, PSGD, CASPR, DION, Sophia, Lionโ€ฆ ์‹ฌ์ง€์–ด AdamW๋„ NAdamW, StableAdamW ๋“ฑ๊ณผ ๊ฐ™์€ ์ž์ฒด ๋ณ€ํ˜•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด ๋ชจ๋“  ์˜ตํ‹ฐ๋งˆ์ด์ €์— ๊นŠ์ด ๋›ฐ์–ด๋“œ๋Š” ๊ฒƒ์€ ๊ทธ ์ž์ฒด๋กœ ๋ธ”๋กœ๊ทธ ๊ธ€๋กœ ์ž‘์„ฑ๋  ๊ฐ€์น˜๊ฐ€ ์žˆ์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ์„ ๋‹ค์Œ ๊ธฐํšŒ๋กœ ๋ฏธ๋ฃฌ๋‹ค. ๋Œ€์‹ , ์˜ตํ‹ฐ๋งˆ์ด์ € ๊ฐ„ ๋น„๊ต๋ฅผ ํ•  ๋•Œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์ด ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด ๋งŽ์€ ๋‹ค์–‘ํ•œ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ๋ฒค์น˜๋งˆํ‚นํ•œ stanford/marin ํŒ€์˜ ์ด ๋†€๋ผ์šด ๋…ผ๋ฌธ (Wen et al., 2025)์„ ์ถ”์ฒœํ•œ๋‹ค.

๊ฑฐ์˜ ๋ชจ๋“  ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ ๋–ผ๋ ค์•ผ ๋—„ ์ˆ˜ ์—†๋Š” ์งˆ๋ฌธ์€ ๋ฐ”๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์–ผ๋งˆ๋‚˜ ๊ฐ•ํ•˜๊ฒŒ ์—…๋ฐ์ดํŠธํ•  ๊ฒƒ์ธ๊ฐ€์ด๋‹ค. ์ด๋Š” ํ†ต์ƒ ์˜ตํ‹ฐ๋งˆ์ด์ € ๋ฐฉ์ •์‹์—์„œ ๋‹จ์ˆœํ•œ ์Šค์นผ๋ผ ๊ฐ’์œผ๋กœ ๋“ฑ์žฅํ•˜๋Š” ํ•™์Šต๋ฅ (learning rate) ์— ์˜ํ•ด ๊ฒฐ์ •๋œ๋‹ค. ๊ฒ‰๋ณด๊ธฐ์—๋Š” ๋‹จ์ˆœํ•ด ๋ณด์ด๋Š” ์ด ์ฃผ์ œ๊ฐ€ ์‹ค์ œ๋กœ๋Š” ์–ผ๋งˆ๋‚˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ์ง€๋‹ˆ๊ณ  ์žˆ๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

ํ•™์Šต๋ฅ 

ํ•™์Šต๋ฅ ์€ ์šฐ๋ฆฌ๊ฐ€ ์„ค์ •ํ•ด์•ผ ํ•  ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ๊ฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ, ๊ทธ๊ฒƒ์€ ๊ณ„์‚ฐ๋œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์กฐ์ •ํ• ์ง€ ์ œ์–ดํ•œ๋‹ค. ํ•™์Šต๋ฅ ์„ ๋„ˆ๋ฌด ๋‚ฎ๊ฒŒ ์„ ํƒํ•˜๋ฉด ํ•™์Šต์ด ๊ณ ํ†ต์Šค๋Ÿฝ๊ฒŒ ๋А๋ ค์ง€๊ณ  ๋‚˜์œ ์ง€์—ญ ์ตœ์†Œ๊ฐ’(local minima)์— ๊ฐ‡ํž ์ˆ˜ ์žˆ๋‹ค. ์†์‹ค ๊ณก์„ ์€ ํ‰ํ‰ํ•˜๊ฒŒ ๋ณด์ผ ๊ฒƒ์ด๊ณ , ์šฐ๋ฆฌ๋Š” ์˜๋ฏธ ์žˆ๋Š” ์ง„์ „์„ ์ด๋ฃจ์ง€ ๋ชปํ•œ ์ฑ„ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์„ ์†Œ์ง„ํ•  ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด์— ํ•™์Šต๋ฅ ์„ ๋„ˆ๋ฌด ๋†’๊ฒŒ ์„ค์ •ํ•˜๋ฉด ์˜ตํ‹ฐ๋งˆ์ด์ €๊ฐ€ ์ตœ์ ์˜ ์†”๋ฃจ์…˜์„ ์ง€๋‚˜์น˜๋Š” ๊ฑฐ๋Œ€ํ•œ ๋‹จ๊ณ„๋ฅผ ๋ฐŸ์•„ ์ ˆ๋Œ€ ์ˆ˜๋ ดํ•˜์ง€ ์•Š๊ฑฐ๋‚˜, ์ƒ์ƒํ•  ์ˆ˜ ์—†๋Š” ์ผ์ด ๋ฐœ์ƒํ•˜์—ฌ ์†์‹ค์ด ๋ฐœ์‚ฐํ•˜๊ณ  ๋‹ฌ๊นŒ์ง€ ์น˜์†Ÿ์„ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํ•™์Šต ์—ญํ•™์ด ํ•™์Šต์„ ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ณ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ตœ๊ณ ์˜ ํ•™์Šต๋ฅ ์กฐ์ฐจ๋„ ์ผ์ •ํ•˜์ง€ ์•Š๋‹ค. ๋†’์€ ํ•™์Šต๋ฅ ์€ ์šฐ๋ฆฌ๊ฐ€ ์ข‹์€ ์†”๋ฃจ์…˜์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ๋Š” ์ดˆ๊ธฐ์— ํšจ๊ณผ๊ฐ€ ์žˆ์ง€๋งŒ, ์ˆ˜๋ ด ๊ทผ์ฒ˜์—์„œ๋Š” ๋ถˆ์•ˆ์ •์„ฑ์„ ์œ ๋ฐœํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์ด ๋“ฑ์žฅํ•œ๋‹ค: ์ดˆ๊ธฐ ํ˜ผ๋ž€์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด 0์—์„œ ์›œ์—…ํ•œ ๋‹ค์Œ, ์ข‹์€ ์ตœ์†Œ๊ฐ’์— ์ •์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ์‡ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํŒจํ„ด (์˜ˆ: ์›œ์—… + ์ฝ”์‚ฌ์ธ ๊ฐ์‡ )์€ ์‹ ๊ฒฝ๋ง ํ•™์Šต์„ ์œ„ํ•ด ์ˆ˜๋…„ ๋™์•ˆ ๊ฒ€์ฆ๋˜์—ˆ๋‹ค.

๐Ÿ’ก์›œ์—… ๋‹จ๊ณ„

๋Œ€๋ถ€๋ถ„์˜ ํ˜„๋Œ€ LLM์€ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ํ•™์Šต ๊ธธ์ด์— ๊ด€๊ณ„์—†์ด ๊ณ ์ •๋œ ์ˆ˜์˜ ์›œ์—… ๋‹จ๊ณ„ (์˜ˆ: 2000)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค (ํ‘œ 1 ์ฐธ์กฐ). ์šฐ๋ฆฌ๋Š” ๊ธด ํ•™์Šต์˜ ๊ฒฝ์šฐ ์›œ์—… ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์ง€๋งŒ, ๋งค์šฐ ์งง์€ ํ•™์Šต์˜ ๊ฒฝ์šฐ ์‚ฌ๋žŒ๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์Šต ๋‹จ๊ณ„์˜ 1%์—์„œ 5%๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค

์ผ๋ฐ˜์ ์ธ ์Šค์ผ€์ค„์„ ์‚ดํŽด๋ณธ ๋‹ค์Œ, ํ”ผํฌ ๊ฐ’์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋…ผ์˜ํ•ด๋ณด์ž.

ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„: ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ๋ฅผ ๋„˜์–ด์„œ

ํ•™์Šต๋ฅ ์„ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์ด ์ˆ˜๋ ด์— ๋„์›€์ด ๋œ๋‹ค๋Š” ๊ฒƒ์€ ์ˆ˜๋…„ ๋™์•ˆ ์•Œ๋ ค์ ธ ์™”์œผ๋ฉฐ (Smith & Topin, 2018), ์ฝ”์‚ฌ์ธ ๊ฐ์‡  (Loshchilov & Hutter, 2017)๋Š” LLM ํ•™์Šต์„ ์œ„ํ•œ ๊ธฐ๋ณธ ์Šค์ผ€์ค„์ด์—ˆ๋‹ค: ์›œ์—… ํ›„ ํ”ผํฌ ํ•™์Šต๋ฅ ์—์„œ ์‹œ์ž‘ํ•œ ๋‹ค์Œ, ์ฝ”์‚ฌ์ธ ๊ณก์„ ์„ ๋”ฐ๋ผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๊ฐ์†Œํ•œ๋‹ค. ๊ฐ„๋‹จํ•˜๊ณ  ์ž˜ ์ž‘๋™ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ฃผ์š” ๋‹จ์ ์€ ์œ ์—ฐ์„ฑ ๋ถ€์กฑ์ด๋‹ค; ์ฝ”์‚ฌ์ธ ์ฃผ๊ธฐ ๊ธธ์ด๋Š” ์ด ํ•™์Šต ๊ธฐ๊ฐ„๊ณผ ์ผ์น˜ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ด ํ•™์Šต ๋‹จ๊ณ„๋ฅผ ๋ฏธ๋ฆฌ ์•Œ์•„์•ผ ํ•œ๋‹ค. ์ด๊ฒƒ์€ ์ผ๋ฐ˜์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค: ๋ชจ๋ธ์ด ์•„์ง ์ •์ฒด๊ธฐ์— ๋„๋‹ฌํ•˜์ง€ ์•Š์•˜๊ฑฐ๋‚˜, ๋” ๋งŽ์€ ์ปดํ“จํŒ…์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์–ด ๋” ์˜ค๋ž˜ ํ•™์Šตํ•˜๊ณ  ์‹ถ๊ฑฐ๋‚˜, ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์‹คํ–‰ํ•˜๊ณ  ์žˆ์–ด ๋™์ผํ•œ ๋ชจ๋ธ์„ ๋‹ค๋ฅธ ํ† ํฐ ์ˆ˜๋กœ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ์ด๋‹ค. ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‹ค์‹œ ์‹œ์ž‘ํ•˜๋„๋ก ๊ฐ•์š”ํ•œ๋‹ค.

๋งŽ์€ ํŒ€๋“ค์ด ์ด์ œ ์›œ์—… ์งํ›„์— ๊ฐ์‡ ๋ฅผ ์‹œ์ž‘ํ•  ํ•„์š”๊ฐ€ ์—†๋Š” ์Šค์ผ€์ค„์„ ์‚ฌ์šฉํ•œ๋‹ค. ์•„๋ž˜ ํ”Œ๋กฏ์— ํ‘œ์‹œ๋œย Warmup-Stable-Decay (WSD)ย (Hu et al., 2024) ๋ฐย Multi-Stepย (DeepSeek-AI, :, et al., 2024) ๋ณ€ํ˜•์ด ๊ทธ๋ ‡๋‹ค. ํ•™์Šต์˜ ๋Œ€๋ถ€๋ถ„ ๋™์•ˆ ์ผ์ •ํ•œ ๋†’์€ ํ•™์Šต๋ฅ ์„ ์œ ์ง€ํ•˜๊ณ , WSD์˜ ๊ฒฝ์šฐ ์ตœ์ข… ๋‹จ๊ณ„ (์ผ๋ฐ˜์ ์œผ๋กœ ํ† ํฐ์˜ ๋งˆ์ง€๋ง‰ 10-20%)์—์„œ ๊ธ‰๊ฒฉํžˆ ๊ฐ์‡ ํ•˜๊ฑฐ๋‚˜, DeepSeek LLM์˜ Multi-Step ์Šค์ผ€์ค„์—์„œ ์ˆ˜ํ–‰๋œ ๊ฒƒ์ฒ˜๋Ÿผ ์˜ˆ๋ฅผ ๋“ค์–ด ํ•™์Šต์˜ 80% ํ›„, ๊ทธ๋ฆฌ๊ณ  90% ํ›„์— ํ•™์Šต๋ฅ ์„ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด ์ด์‚ฐ์ ์ธ ํ•˜๋ฝ (๋‹จ๊ณ„)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.26.28.png

์ด๋Ÿฌํ•œ ์Šค์ผ€์ค„์€ ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ๋ณด๋‹ค ์‹ค์งˆ์ ์ธ ์ด์ ์„ ์ œ๊ณตํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ฒ˜์Œ์— ๊ณ„ํšํ–ˆ๋˜ ๊ฒƒ๋ณด๋‹ค ๋” ์˜ค๋ž˜ ํ•™์Šตํ•˜๊ณ  ์‹ถ๊ฑฐ๋‚˜, ํ•™์Šต ์ง„ํ–‰ ์ƒํ™ฉ์„ ๋” ์ž˜ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ผ์ฐ ๊ฐ์‡ ํ•˜๊ฑฐ๋‚˜, ํ•˜๋‚˜์˜ ์ฃผ์š” ํ•™์Šต ์‹คํ–‰์œผ๋กœ ๋‹ค์–‘ํ•œ ํ† ํฐ ์ˆ˜์— ๊ฑธ์ณ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ ์‹คํ—˜์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋“ฑ ์žฌ์‹œ์ž‘ ์—†์ด ์‹คํ–‰ ์ค‘๊ฐ„์— ํ•™์Šต์„ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€, ์—ฐ๊ตฌ๋“ค์€ WSD์™€ Multi-Step ๋ชจ๋‘ ์‹ค์ œ ํ•™์Šต ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋” ์‹ค์šฉ์ ์ด๋ฉด์„œ ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ์™€ ์ผ์น˜ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค (DeepSeek-AI, :, et al., 2024; Hรคgele et al., 2024).

(์ตœ๊ทผ GLM 4.5๋Š” WSD๊ฐ€ ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ (SimpleQA, MMLU)์—์„œ ๋” ๋‚˜์œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•˜์ง€๋งŒ, ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค.)

๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๋Ÿฌ๋ถ„์€ ์•„๋งˆ๋„ ์ด๋Ÿฌํ•œ ์Šค์ผ€์ค„์ด ์ฝ”์‚ฌ์ธ์— ๋น„ํ•ด ์ƒˆ๋กœ์šด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋„์ž…ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ์•„์ฐจ๋ ธ์„ ๊ฒƒ์ด๋‹ค: WSD์—์„œ ๊ฐ์‡  ๋‹จ๊ณ„๋Š” ์–ผ๋งˆ๋‚˜ ์ง€์†๋˜์–ด์•ผ ํ•˜๋Š”๊ฐ€? ๊ทธ๋ฆฌ๊ณ  Multi-Step ๋ณ€ํ˜•์—์„œ ๊ฐ ๋‹จ๊ณ„๋Š” ์–ผ๋งˆ๋‚˜ ๊ธธ์–ด์•ผ ํ•˜๋Š”๊ฐ€?

ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์Šค์ผ€์ค„๋กœ ๋”์šฑ ์ฐฝ์˜์ ์ผ ์ˆ˜ ์žˆ๋‹ค. DeepSeek ๋ชจ๋ธ์˜ ๊ฐ ํŒจ๋ฐ€๋ฆฌ์—์„œ ์‚ฌ์šฉ๋œ ์Šค์ผ€์ค„์„ ์‚ดํŽด๋ณธ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.28.21.png

DeepSeek LLM์€ ๊ธฐ๋ณธ Multi-Step ์Šค์ผ€์ค„ (80/10/10)์„ ์‚ฌ์šฉํ–ˆ๋‹ค. DeepSeek V2๋Š” ๋น„์œจ์„ 60/30/10์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ์ฒซ ๋ฒˆ์งธ ๊ฐ์‡  ๋‹จ๊ณ„์— ๋” ๋งŽ์€ ์‹œ๊ฐ„์„ ์ฃผ์—ˆ๋‹ค. DeepSeek V3๋Š” ๊ฐ€์žฅ ์ฐฝ์˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ–ˆ๋‹ค: ์ผ์ •ํ•œ ํ•™์Šต๋ฅ ์„ ์œ ์ง€ํ•œ ๋‹ค์Œ ๋‘ ๋ฒˆ์˜ ๊ธ‰๊ฒฉํ•œ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋Š” ๋Œ€์‹ , ์ฝ”์‚ฌ์ธ ๊ฐ์‡  (ํ•™์Šต์˜ 67%์—์„œ 97%๊นŒ์ง€)๋ฅผ ํ†ตํ•ด ์ผ์ •ํ•œ ๋‹จ๊ณ„์—์„œ ์ „ํ™˜ํ•œ ๋‹ค์Œ, ์ตœ์ข… ๊ธ‰๊ฒฉํ•œ ๋‹จ๊ณ„ ์ „์— ์งง์€ ์ผ์ •ํ•œ ๋‹จ๊ณ„๋ฅผ ์ ์šฉํ•œ๋‹ค.

DeepSeek ์Šค์ผ€์ค„ ๋ณ€๊ฒฝ

DeepSeek-V2 ๋ฐ V3์˜ ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ๋Š” ์ด๋Ÿฌํ•œ ์Šค์ผ€์ค„ ๋ณ€๊ฒฝ์— ๋Œ€ํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ํฌํ•จํ•˜์ง€ ์•Š๋Š”๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์˜ ์„ค์ •์„ ์œ„ํ•ด, ๊ฐ„๋‹จํ•œ WSD ๋˜๋Š” Multi-Step ์Šค์ผ€์ค„๋กœ ์‹œ์ž‘ํ•œ ๋‹ค์Œ, ์ œ๊ฑฐ ์‹คํ—˜์„ ํ†ตํ•ด ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์„ ๊ณ ๋ คํ•œ๋‹ค.

์ด๊ตญ์ ์ธ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์— ๋Œ€ํ•œ ์กฐ์‚ฌ๋ฅผ ์—ฌ๊ธฐ์„œ ๋ฉˆ์ถ”๊ณ  ์‹ค์ œ๋กœ ๋ฌด์—‡์ด ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด GPU ์‹œ๊ฐ„์„ ์ข€ ํƒœ์›Œ๋ณด์ž!

์ œ๊ฑฐ ์‹คํ—˜ - WSD๋Š” ์ฝ”์‚ฌ์ธ๊ณผ ์ผ์น˜ํ•œ๋‹ค

์ด์ œ ์ œ๊ฑฐ ์‹คํ—˜์„ ํ•  ์‹œ๊ฐ„์ด๋‹ค! WSD๊ฐ€ ์‹ค์ œ๋กœ ์‹ค์ œ์—์„œ ์ฝ”์‚ฌ์ธ์˜ ์„ฑ๋Šฅ๊ณผ ์ผ์น˜ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•ด๋ณด์ž. ์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ Multi-Step ์ œ๊ฑฐ ์‹คํ—˜์„ ๋ณด์—ฌ์ฃผ์ง€ ์•Š์ง€๋งŒ, Multi-Step์ด ๋‹ค๋ฅธ ๋‹จ๊ณ„ ๋ถ„ํ• ๋กœ ์ฝ”์‚ฌ์ธ๊ณผ ์ผ์น˜ํ•จ์„ ๋ณด์—ฌ์ค€ DeepSeek LLM์˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์ฐธ๊ณ ํ•˜๊ธธ ์ถ”์ฒœํ•œ๋‹ค. ์ด ์„น์…˜์—์„œ๋Š” ์ฝ”์‚ฌ์ธ ๊ฐ์‡ ๋ฅผ ๋‘ ๊ฐ€์ง€ ๊ฐ์‡  ์ฐฝ (10% ๋ฐ 20%)์„ ๊ฐ€์ง„ WSD์™€ ๋น„๊ตํ•  ๊ฒƒ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.29.52.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.30.03.png

ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ ๋ชจ๋‘์—์„œ ์œ ์‚ฌํ•œ ์ตœ์ข… ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ์†์‹ค ๋ฐ ํ‰๊ฐ€ ๊ณก์„  (ํŠนํžˆ HellaSwag)์„ ๋ณด๋ฉด ํฅ๋ฏธ๋กœ์šด ํŒจํ„ด์ด ๋ณด์ธ๋‹ค: ์ฝ”์‚ฌ์ธ์€ ์•ˆ์ • ๋‹จ๊ณ„ (WSD์˜ ๊ฐ์‡ ๊ฐ€ ์‹œ์ž‘๋˜๊ธฐ ์ „) ๋™์•ˆ ๋” ๋‚˜์€ ์†์‹ค ๋ฐ ํ‰๊ฐ€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ WSD๊ฐ€ ๊ฐ์‡  ๋‹จ๊ณ„์— ์ง„์ž…ํ•˜๋ฉด, ์†์‹ค ๋ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ง€ํ‘œ ๋ชจ๋‘์—์„œ ๊ฑฐ์˜ ์„ ํ˜•์ ์ธ ๊ฐœ์„ ์ด ์žˆ์–ด WSD๊ฐ€ ํ•™์Šต์ด ๋๋‚  ๋•Œ์ฏค ์ฝ”์‚ฌ์ธ์„ ๋”ฐ๋ผ์žก์„ ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฒƒ์€ WSD์˜ 10-20% ๊ฐ์‡  ์ฐฝ์ด ์‹คํ–‰ ์ค‘๊ฐ„์— ํ•™์Šต์„ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฝ”์‚ฌ์ธ์˜ ์ตœ์ข… ์„ฑ๋Šฅ๊ณผ ์ผ์น˜์‹œํ‚ค๊ธฐ์— ์ถฉ๋ถ„ํ•จ์„ ํ™•์ธ์‹œ์ผœ ์ค€๋‹ค. ์šฐ๋ฆฌ๋Š” SmolLM3๋ฅผ ์œ„ํ•ด 10% ๊ฐ์‡ ๋ฅผ ๊ฐ€์ง„ WSD๋ฅผ ์„ ํƒํ–ˆ๋‹ค.

โš ๏ธย ์‹คํ–‰ ์ค‘๊ฐ„์— ๋‹ค๋ฅธ ์Šค์ผ€์ค„๋Ÿฌ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ ๋น„๊ต

์•ˆ์ • ๋‹จ๊ณ„ ๋™์•ˆ ์ฝ”์‚ฌ์ธ๊ณผ WSD ์‚ฌ์ด์˜ ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๋น„๊ตํ•˜๋Š” ๊ฒฝ์šฐ, ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด WSD ์ฒดํฌํฌ์ธํŠธ์— ๊ฐ์‡ ๋ฅผ ์ ์šฉํ•ด์•ผ ํ•œ๋‹ค.

์ด์ œ ์ธ๊ธฐ ์žˆ๋Š” ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์— ๋Œ€ํ•œ ์ข‹์€ ๊ฐœ์š”๋ฅผ ์–ป์—ˆ์œผ๋ฏ€๋กœ, ๋‹ค์Œ ์งˆ๋ฌธ์€: ํ”ผํฌ ํ•™์Šต๋ฅ ์€ ์‹ค์ œ๋กœ ๋ฌด์—‡์ด์–ด์•ผ ํ•˜๋Š”๊ฐ€?

์ตœ์ ์˜ ํ•™์Šต๋ฅ  ์ฐพ๊ธฐ

์šฐ๋ฆฌ์˜ ํŠน์ • ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„๋Ÿฌ ๋ฐ ํ•™์Šต ์„ค์ •์— ์ ํ•ฉํ•œ ํ•™์Šต๋ฅ ์„ ์–ด๋–ป๊ฒŒ ์„ ํƒํ•ด์•ผ ํ• ๊นŒ?

์šฐ๋ฆฌ๋Š” ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ์œ„ํ•ด ํ–ˆ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ ์งง์€ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ํ•™์Šต๋ฅ  ์Šค์œ•์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ตœ์ ์˜ ํ•™์Šต๋ฅ ์€ ํ•™์Šต ๊ธฐ๊ฐ„์— ๋”ฐ๋ผ ๋‹ค๋ฅด๋‹ค: ์งง์€ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ๊ฐ€์žฅ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋Š” ํ•™์Šต๋ฅ ์ด ์ „์ฒด ์‹คํ–‰์— ๊ฐ€์žฅ ์ข‹์€ ๊ฒƒ์€ ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๋Š” ๋‹จ์ง€ ๋‹ค๋ฅธ ํ•™์Šต๋ฅ ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ๋น„์‹ผ ๋‹ค์ฃผ๊ฐ„์˜ ํ•™์Šต์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์‹คํ–‰ํ•  ์—ฌ์œ ๊ฐ€ ์—†๋‹ค.

๋จผ์ € ๋„ˆ๋ฌด ๋†’๊ฑฐ๋‚˜ ๋‚ฎ์€ ํ•™์Šต๋ฅ ์„ ๋ฐฐ์ œํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ„๋‹จํ•œ ์Šค์œ•์„ ์‚ดํŽด๋ณธ ๋‹ค์Œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ๋…ผ์˜ํ•  ๊ฒƒ์ด๋‹ค.

์ œ๊ฑฐ ์‹คํ—˜ - LR ์Šค์œ•

๋‹ค๋ฅธ ํ•™์Šต๋ฅ ์˜ ์˜ํ–ฅ์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด, 45B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 1B ์ œ๊ฑฐ ์‹คํ—˜ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์Šค์œ•์„ ์‚ดํŽด๋ณธ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋™์ผํ•œ ๋ชจ๋ธ์„ ๋™์ผํ•œ ์„ค์ •์—์„œ 4๊ฐ€์ง€ ๋‹ค๋ฅธ ํ•™์Šต๋ฅ ๋กœ ํ•™์Šต์‹œํ‚จ๋‹ค: 1e-4, 5e-4, 5e-3, 5e-2. ๊ฒฐ๊ณผ๋Š” ๋‘ ๊ทน๋‹จ์—์„œ์˜ ์œ„ํ—˜์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.32.16.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 2.32.35.png

LR 5e-2๋Š” ๊ฑฐ์˜ ์ฆ‰์‹œ ๋ฐœ์‚ฐํ•˜๋ฉฐ, ์†์‹ค์€ ์ดˆ๊ธฐ์— ๊ธ‰๋“ฑํ•˜๊ณ  ์ ˆ๋Œ€ ํšŒ๋ณต๋˜์ง€ ์•Š์•„ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๊ฒŒ ๋งŒ๋“ ๋‹ค. LR 1e-4๋Š” ๋„ˆ๋ฌด ๋ณด์ˆ˜์ ์ด๋ฉฐ, ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต๋˜์ง€๋งŒ ๋‹ค๋ฅธ ํ•™์Šต๋ฅ ๋ณด๋‹ค ํ›จ์”ฌ ๋А๋ฆฌ๊ฒŒ ์ˆ˜๋ ดํ•œ๋‹ค. 5e-4์™€ 5e-3์˜ ์ค‘๊ฐ„ ์ง€์ ์€ ๋” ๋‚˜์€ ์ˆ˜๋ ด๊ณผ ๋น„๊ตํ•  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋“  ๋ชจ๋ธ ํฌ๊ธฐ์— ๋Œ€ํ•ด ์Šค์œ•์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๋น ๋ฅด๊ฒŒ ๋น„์‹ธ์ง€๊ณ , ๋” ์ค‘์š”ํ•˜๊ฒŒ๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ๊ณ„ํš๋œ ํ•™์Šต ํ† ํฐ ์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค. ์—ฌ๊ธฐ์„œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ๋งค์šฐ ๊ท€์ค‘ํ•ด์ง„๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” WSD ์Šค์ผ€์ค„์„ ์‚ฌ์šฉํ•˜๋Š” AdamW๋กœ 100B ํ† ํฐ์— ๋Œ€ํ•ด 3B ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๊ณ , ์—ฌ๋Ÿฌ ํ•™์Šต๋ฅ ์„ ๋น„๊ตํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” 2e-4๊ฐ€ ์†์‹ค ๋ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ ๋ชจ๋‘์—์„œ 1e-4๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, 3e-4๋Š” 2e-4๋ณด๋‹ค ์•ฝ๊ฐ„ ๋” ๋‚˜์„ ๋ฟ์ด์—ˆ๋‹ค. 3e-4์˜ ํ•œ๊ณ„ ์ด์ต์€ ๊ธด ํ•™์Šต ์‹คํ–‰ ์ค‘ ๋ถˆ์•ˆ์ •์„ฑ์˜ ์œ„ํ—˜ ์ฆ๊ฐ€๋ฅผ ๋™๋ฐ˜ํ–ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” 2e-4๋ฅผ ์šฐ๋ฆฌ์˜ ์ตœ์ ์ ์œผ๋กœ ์„ ํƒํ–ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์Šค์œ•์€ ๋ช…๋ฐฑํžˆ ๋„ˆ๋ฌด ๋†’๊ฑฐ๋‚˜ (๋ฐœ์‚ฐ) ๋„ˆ๋ฌด ๋‚ฎ์€ (๋А๋ฆฐ ์ˆ˜๋ ด) ํ•™์Šต๋ฅ ์„ ๋ฐฐ์ œํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜์ง€๋งŒ, ๋ชจ๋“  ๋ชจ๋ธ ํฌ๊ธฐ์— ๋Œ€ํ•ด ์Šค์œ•์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๋น ๋ฅด๊ฒŒ ๋น„์‹ธ์ง€๊ณ , ๋” ์ค‘์š”ํ•˜๊ฒŒ๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ๊ณ„ํš๋œ ํ•™์Šต ํ† ํฐ ์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค. ์—ฌ๊ธฐ์„œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ๋งค์šฐ ๊ท€์ค‘ํ•ด์ง„๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ํ•™์Šต๋ฅ ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ธ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋…ผ์˜ํ•ด๋ณด์ž.

๋ฐฐ์น˜ ํฌ๊ธฐ (Batch size)

๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๊ธฐ ์ „์— ์ฒ˜๋ฆฌ๋˜๋Š” ์ƒ˜ํ”Œ์˜ ์ˆ˜์ด๋‹ค. ์ด๊ฒƒ์€ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์ตœ์ข… ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ชจ๋‘์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆฌ๋ฉด ํ•˜๋“œ์›จ์–ด ๋ฐ ํ•™์Šต ์Šคํƒ์ด ์žฅ์น˜ ๊ฐ„์— ์ž˜ ํ™•์žฅ๋˜๋Š” ๊ฒฝ์šฐ ์ฒ˜๋ฆฌ๋Ÿ‰(throughput)์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํŠน์ • ์ง€์ ์„ ๋„˜์–ด์„œ๋ฉด, ๋” ํฐ ๋ฐฐ์น˜๋Š” ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ํ•ด์น˜๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค: ๋ชจ๋ธ์€ ๋™์ผํ•œ ์†์‹ค์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด ๋” ๋งŽ์€ ์ด ํ† ํฐ์„ ํ•„์š”๋กœ ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๊ฒƒ์ด ๋ฐœ์ƒํ•˜๋Š” ๋ถ„๊ธฐ์ ์€ **์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ(critical batch size)**๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค (McCandlish et al., 2018).

(์ฒ˜๋ฆฌ๋Ÿ‰(Throughput)์€ ํ•™์Šต ์ค‘ ์ดˆ๋‹น ์ฒ˜๋ฆฌ๋˜๋Š” ํ† ํฐ์˜ ์ˆ˜์ด๋‹ค.)

์™œ ํ•™์Šต๋ฅ ์„ ์žฌ์กฐ์ •ํ•ด์•ผ ํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ ๋ฌด์—‡์ด์–ด์•ผ ํ•˜๋Š”์ง€ ์ถ”์ •์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•ฝ๊ฐ„์˜ ์ง๊ด€์„ ์ œ๊ณตํ•ด๋ณด๊ฒ ๋‹ค.

๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด, ๊ฐ ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ๊ธฐ์šธ๊ธฐ๋Š” ์‹ค์ œ ๊ธฐ์šธ๊ธฐ์— ๋Œ€ํ•œ ๋” ๋‚˜์€ ์ถ”์ •์น˜๊ฐ€ ๋˜๋ฏ€๋กœ, ๋” ํฐ ๋‹จ๊ณ„ (์ฆ‰, ํ•™์Šต๋ฅ  ์ฆ๊ฐ€)๋ฅผ ์•ˆ์ „ํ•˜๊ฒŒ ๋ฐŸ์•„ ๋” ์ ์€ ์—…๋ฐ์ดํŠธ๋กœ ๋ชฉํ‘œ ์†์‹ค์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฌธ์ œ๋Š” ๊ทธ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ํ™•์žฅํ•˜๋А๋ƒ์ด๋‹ค.

B๊ฐœ์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ํ‰๊ท ํ™” ๊ณผ์ •

SGD ๋งค๊ฐœ๋ณ€์ˆ˜ ์—…๋ฐ์ดํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์ด ์—…๋ฐ์ดํŠธ์˜ ๋ถ„์‚ฐ์€ ๋‹ค์Œ์— ๋น„๋ก€ํ•œ๋‹ค:

๋”ฐ๋ผ์„œ ์—…๋ฐ์ดํŠธ ๋ถ„์‚ฐ์„ ๋Œ€๋žต ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ ค๋ฉด, ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ k ๋ฐฐ ํ™•์žฅํ•  ๊ฒฝ์šฐ, ํ•™์Šต๋ฅ ์„ k\sqrt{k} ๋ฐฐ ํ™•์žฅํ•ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ตœ์ ์˜ ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ํ•™์Šต๋ฅ ์„ ๊ณ„์‚ฐํ–ˆ๊ณ  ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๊นŒ์ง€ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค๋ฉด, ์ตœ์ ์˜ ํ•™์Šต๋ฅ  ๋˜ํ•œ ์กฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.

Bcriticalโ†’kBoptimalโ‡’ฮทcriticalโ†’kฮทoptimalB_{\text{critical}} \rightarrow k B_{\text{optimal}} \Rightarrow \eta_{\text{critical}} \rightarrow k \eta_{\text{optimal}}

*(์ด์— ๋Œ€ํ•œ ๋” ๋งŽ์€ ์ˆ˜ํ•™์  ๋‚ด์šฉ์€ (๋†€๋ผ์šด) Jianlin Su์˜ ์‹œ๋ฆฌ์ฆˆ๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ: **https://kexue.fm/archives/11260)***

AdamW ๋˜๋Š” Muon๊ณผ ๊ฐ™์€ ์˜ตํ‹ฐ๋งˆ์ด์ €์— ๋Œ€ํ•œ ์œ ์šฉํ•œ ๊ฒฝํ—˜ ๋ฒ•์น™์€ ๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผย ์ œ๊ณฑ๊ทผ LR ์Šค์ผ€์ผ๋ง์„ ํ•˜๋Š” ๊ฒƒ์ด์ง€๋งŒ, ์ด๊ฒƒ์€ ๋˜ํ•œ ์˜ตํ‹ฐ๋งˆ์ด์ €์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด AdamW๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋งค์šฐ ๋‹ค๋ฅธ ๋™์ž‘์„ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” beta1 / beta2์™€์˜ ์ƒํ˜ธ ์ž‘์šฉ์ด ์žˆ๋‹ค. ์‹ค์šฉ์ ์ธ ๋Œ€์•ˆ์€ย ํ•™์Šต์„ ์งง์€ ๊ธฐ๊ฐ„ ๋™์•ˆ ๋ถ„๊ธฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค: ํ•˜๋‚˜์˜ ์‹คํ–‰์€ ์›๋ž˜ ๋ฐฐ์น˜๋กœ ์œ ์ง€ํ•˜๊ณ , ๋‘ ๋ฒˆ์งธ๋Š” ๋” ํฐ ๋ฐฐ์น˜์™€ ์žฌ์กฐ์ •๋œ LR๋กœ ์‹œ์ž‘ํ•˜๋ฉฐ, ์žฌ์กฐ์ • ํ›„ ๋‘ ์†์‹ค ๊ณก์„ ์ด ์ผ์น˜ํ•˜๋Š” ๊ฒฝ์šฐ์—๋งŒ ๋” ํฐ ๋ฐฐ์น˜๋ฅผ ์ฑ„ํƒํ•œ๋‹ค (Merrill et al., 2025). ๋…ผ๋ฌธ์—์„œ, ๊ทธ๋“ค์€ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ „ํ™˜ํ•  ๋•Œ ํ•™์Šต๋ฅ ์„ ๋‹ค์‹œ ์›œ์—…ํ•˜๊ณ  ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ๋ฅผ ์žฌ์„ค์ •ํ•œ๋‹ค. ๊ทธ๋“ค์€ ๋˜ํ•œ ์†์‹ค์ด โ€œ์ผ์น˜โ€ํ•˜๋Š”์ง€ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ํ—ˆ์šฉ ์˜ค์ฐจ์™€ ์‹œ๊ฐ„ ์ฐฝ์„ ์„ค์ •ํ•˜๋ฉฐ, ๋‘ ๋…ธ๋ธŒ(knob)๋Š” ๊ฒฝํ—˜์ ์œผ๋กœ ์„ ํƒ๋œ๋‹ค. ๊ทธ๋“ค์€ BsimpleB_{\text{simple}} ์ถ”์ •์น˜ (์ด ๋˜ํ•œ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์Œ)๊ฐ€ โ€œ์‹ค์ œโ€ ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๊ณผ์†Œํ‰๊ฐ€ํ•˜๊ณ  ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์ƒˆ๋กœ์šด ๋ฐฐ์น˜/LR ์Œ์ด ํ•™์Šต ์—ญํ•™์„ ๋ณด์กดํ•˜๋Š”์ง€ ๋น ๋ฅด๊ณ  ์œ„ํ—˜ ๋ถ€๋‹ด์ด ์ ์€ ํ™•์ธ์„ ์ œ๊ณตํ•œ๋‹ค.

์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” ๊ณ ์ •๋˜์–ด ์žˆ์ง€ ์•Š์œผ๋ฉฐ, ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ์ปค์ง„๋‹ค. ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ๋ชจ๋ธ์ด ํฐ ๊ธฐ์šธ๊ธฐ ๋‹จ๊ณ„๋ฅผ ๋ฐŸ์œผ๋ฏ€๋กœ โˆฅgโˆฅ2\|g\|^2๊ฐ€ ํฌ๋ฉฐ ์ด๋Š” BsimpleB_{\text{simple}}์ด ์ž‘๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์€ ๋” ์ž‘์€ ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„๋‹ค. ๋‚˜์ค‘์— ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๊ฐ€ ์•ˆ์ •ํ™”๋จ์— ๋”ฐ๋ผ ๋” ํฐ ๋ฐฐ์น˜๊ฐ€ ๋” ํšจ๊ณผ์ ์ด๊ฒŒ ๋œ๋‹ค. ์ด๊ฒƒ์ด ์ผ๋ถ€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์—์„œ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜์ง€ ์•Š๊ณ  ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์น˜ ํฌ๊ธฐ ์›œ์—…์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, DeepSeek-V3๋Š” ์ฒ˜์Œ ~469B ํ† ํฐ์— ๋Œ€ํ•ด 1260๋งŒ ๋ฐฐ์น˜๋กœ ์‹œ์ž‘ํ•œ ๋‹ค์Œ, ๋‚˜๋จธ์ง€ ํ•™์Šต ๋™์•ˆ 6290๋งŒ์œผ๋กœ ์ฆ๊ฐ€์‹œ์ผฐ๋‹ค. ์ด์™€ ๊ฐ™์€ ๋ฐฐ์น˜ ํฌ๊ธฐ ์›œ์—… ์Šค์ผ€์ค„์€ ํ•™์Šต๋ฅ  ์›œ์—…๊ณผ ๋™์ผํ•œ ๋ชฉ์ ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค: ๊ธฐ์šธ๊ธฐ ๋…ธ์ด์ฆˆ ๊ทœ๋ชจ๊ฐ€ ์ปค์ง์— ๋”ฐ๋ผ ๋ชจ๋ธ์„ ํšจ์œจ์ ์ธ ๊ฒฝ๊ณ„(efficient frontier)์— ์œ ์ง€ํ•˜์—ฌ ์ „์ฒด์ ์œผ๋กœ ์•ˆ์ •์ ์ด๊ณ  ํšจ์œจ์ ์ธ ์ตœ์ ํ™”๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๋˜ ๋‹ค๋ฅธ ํฅ๋ฏธ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์†์‹ค์„ ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋Œ€๋ฆฌ ์ง€ํ‘œ๋กœ ์ทจ๊ธ‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. Minimax01์ด ์ด๊ฒƒ์„ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ ๊ทธ๋“ค์€ 1์–ต 2800๋งŒ ๋ฐฐ์น˜ ํฌ๊ธฐ๋กœ ํ•™์Šต์‹œ์ผฐ๋‹ค! ์ด๊ฒƒ์€ ๊ทธ๋“ค์ด ํ•™์Šต๋ฅ ์„ ์ฆ๊ฐ€์‹œํ‚ค์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์•ฝ๊ฐ„ ๋‹ค๋ฅธ๋ฐ, ๋”ฐ๋ผ์„œ ๊ทธ๋“ค์˜ ๋ฐฐ์น˜ ํฌ๊ธฐ ์Šค์ผ€์ค„์€ ํ•™์Šต๋ฅ  ๊ฐ์‡  ์Šค์ผ€์ค„์ฒ˜๋Ÿผ ์ž‘๋™ํ•œ๋‹ค.

๋ฐฐ์น˜ ํฌ๊ธฐ ๋ฐ ํ•™์Šต๋ฅ  ํŠœ๋‹

์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š”, ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ํ•™์Šต๋ฅ ์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  • ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ (๋‚˜์ค‘์— ์„ค๋ช…!) ๋˜๋Š” ๋ฌธํ—Œ์—์„œ ์ตœ์ ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ํ•™์Šต๋ฅ ์„ ๋จผ์ € ์„ ํƒํ•œ๋‹ค.
  • ๊ทธ๋Ÿฐ ๋‹ค์Œ, ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ํŠœ๋‹ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ์‹œ์ž‘ ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ ์‚ฌ์ด์— ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ํฌ์ƒํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ํ•˜๋“œ์›จ์–ด ํ™œ์šฉ๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๋Š” ๋ฒ”์œ„๊ฐ€ ์ข…์ข… ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด์— ๋”ฐ๋ผ ํ•™์Šต๋ฅ ์€ ์žฌ์กฐ์ •๋˜์–ด์•ผ ํ•œ๋‹ค. ์ฒ˜๋ฆฌ๋Ÿ‰ ์ด๋“์ด ํฌ์ง€ ์•Š๊ฑฐ๋‚˜, (์žฌ์กฐ์ •๋œ ํ•™์Šต๋ฅ ๋กœ) ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ํ…Œ์ŠคํŠธํ–ˆ์„ ๋•Œ ๋” ๋‚˜์œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋ณด์ธ๋‹ค๋ฉด, ์ดˆ๊ธฐ ๊ฐ’์„ ๊ณ ์ˆ˜ํ•ด๋ผ.

์œ„์˜ ์ฐธ๊ณ  ์‚ฌํ•ญ์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ํ•™์Šต๋ฅ ์— ๋Œ€ํ•œ ์‹œ์ž‘์ ์„ ์„ ํƒํ•˜๋Š” ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ํ†ตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๊ณ  ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์˜ ํ•จ์ˆ˜๋กœ์„œ ๋‘ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์˜ˆ์ธกํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™

์ตœ์ ์˜ ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” ๋‹จ์ง€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ํฌ๊ธฐ์—๋งŒ ๊ด€๋ จ๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์™€ ํ•™์Šต ํ† ํฐ ์ˆ˜๋ฅผ ๋ชจ๋‘ ๊ฒฐํ•ฉํ•œย ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์—๋„ ์˜์กดํ•œ๋‹ค. ์‹ค์ œ์—์„œ, ์ด ๋‘ ๊ฐ€์ง€ ์š”์†Œ๋Š” ์ƒํ˜ธ ์ž‘์šฉํ•˜์—ฌ ์—…๋ฐ์ดํŠธ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ณต๊ฒฉ์ ์ด๊ฑฐ๋‚˜ ๋ณด์ˆ˜์ ์ด์–ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ๋“ฑ์žฅํ•œ๋‹ค.

์Šค์ผ€์ผ๋ง ๋ฒ•์น™์€ ๋” ํฐ ๋ชจ๋ธ์ด๋‚˜ ๋” ๋งŽ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šต ๊ทœ๋ชจ๋ฅผ ๋Š˜๋ฆผ์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ์ง„ํ™”ํ•˜๋Š”์ง€ ์„ค๋ช…ํ•˜๋Š” ๊ฒฝํ—˜์  ๊ด€๊ณ„๋ฅผ ํ™•๋ฆฝํ•œ๋‹ค (์ „์ฒด ์—ญ์‚ฌ๋Š” ์ด ์žฅ ๋์˜ โ€œ์Šค์ผ€์ผ๋ง ๋ฒ•์น™โ€ ์„น์…˜ ์ฐธ์กฐ). ๊ทธ๋Ÿฌ๋‚˜ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์€ ๋˜ํ•œ DeepSeek ๋ฐ Qwen2.5์˜ ์ตœ๊ทผ ์ž‘์—…์—์„œ ์ˆ˜ํ–‰๋œ ๊ฒƒ์ฒ˜๋Ÿผ, ํ•™์Šต์„ ํ™•์žฅํ•จ์— ๋”ฐ๋ผ ํ•™์Šต๋ฅ  ๋ฐ ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ๊ฐ™์€ ์ฃผ์š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์œ•์— ์ „์ ์œผ๋กœ ์˜์กดํ•˜๋Š” ๋Œ€์‹  ์›์น™์— ์ž…๊ฐํ•œ ๊ธฐ๋ณธ๊ฐ’์„ ์ œ๊ณตํ•ด์ค€๋‹ค.

์ด ๋งฅ๋ฝ์—์„œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์ ์šฉํ•˜๋ ค๋ฉด, ํ•™์Šต ๊ทœ๋ชจ๋ฅผ ์ •๋Ÿ‰ํ™”ํ•  ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค. ํ‘œ์ค€ ์ธก์ • ๊ธฐ์ค€์€ C ๋กœ ํ‘œ์‹œ๋˜๊ณ  FLOPs๋กœ ์ธก์ •๋˜๋Š” ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์ด๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค:

Cโ‰ˆ6ร—Nร—DCโ‰ˆ6ร—Nร—D

N ์€ ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ˆ˜์ด๊ณ  (์˜ˆ: 1B = 1e9), D ๋Š” ํ•™์Šต ํ† ํฐ์˜ ์ˆ˜์ด๋‹ค. ์ด๊ฒƒ์€ ์ข…์ข… ์‹ค์ œ ๊ณ„์‚ฐ์ด ์–ผ๋งˆ๋‚˜ ์ˆ˜ํ–‰๋˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ํ•˜๋“œ์›จ์–ด-agnostic ํ•œ ๋ฐฉ๋ฒ•์ธ FLOPs (๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ)๋กœ ์ธก์ •๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ FLOPs๊ฐ€ ๋„ˆ๋ฌด ์ถ”์ƒ์ ์œผ๋กœ ๋А๊ปด์ง„๋‹ค๋ฉด, ์ด๋ ‡๊ฒŒ ์ƒ๊ฐํ•ด๋ผ: 100B ํ† ํฐ์— ๋Œ€ํ•ด 1B ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ 100B ํ† ํฐ์— ๋Œ€ํ•ด 2B ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ฑฐ๋‚˜, 200B ํ† ํฐ์— ๋Œ€ํ•ด 1B ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ๋ณด๋‹ค ์•ฝ 2๋ฐฐ ์ ์€ FLOPs๋ฅผ ์†Œ๋น„ํ•œ๋‹ค.

์ƒ์ˆ˜ 6์€ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ํ•„์š”ํ•œ ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ ์ˆ˜์— ๋Œ€ํ•œ ๊ฒฝํ—˜์  ์ถ”์ •์น˜์—์„œ ๋น„๋กฏ๋˜๋ฉฐ, ๋Œ€๋žต ํ† ํฐ๋‹น ๋งค๊ฐœ๋ณ€์ˆ˜๋‹น 6 FLOPs์ด๋‹ค.

(MoE ๋ ˆ์ด์–ด ๋ฐ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ ˆ์ด์–ด๋ฅผ ๊ณ ๋ คํ•œ ๋” ์ •ํ™•ํ•œ ์ธก์ •์„ ์›ํ•œ๋‹ค๋ฉด Megatron-LM์˜ย num_floating_point_operationsย ํ•จ์ˆ˜๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.)

์ด์ œ, ์ด๊ฒƒ์ด ํ•™์Šต๋ฅ ๊ณผ ์–ด๋–ป๊ฒŒ ๊ด€๋ จ๋˜์–ด ์žˆ์„๊นŒ? ์šฐ๋ฆฌ๋Š” ์ด ์ปดํ“จํŒ… ์˜ˆ์‚ฐ (C)์˜ ํ•จ์ˆ˜๋กœ์„œ ์ตœ์ ์˜ ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค:

DeepSeek๊ฐ€ ์‚ฌ์šฉํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋”ฐ๋ผ ์ด๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž: ๋จผ์ €, ์œ ์—ฐ์„ฑ์„ ์œ„ํ•ด ์ด์ƒ์ ์œผ๋กœ๋Š” WSD์ธ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์„ ์„ ํƒํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, ๋‹ค์–‘ํ•œ ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ํ•™์Šต๋ฅ  ์กฐํ•ฉ์œผ๋กœ ๋‹ค์–‘ํ•œ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ (์˜ˆ: 1e17, 5e17, 1e18, 5e18, 1e19, 2e19 FLOPs)์— ๊ฑธ์ณ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ๋‹ค. ๋” ๊ฐ„๋‹จํ•œ ์šฉ์–ด๋กœ: ์šฐ๋ฆฌ๋Š” ๋‹ค๋ฅธ ํ† ํฐ ์ˆ˜์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๋ฉฐ, ๋‹ค๋ฅธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์ด๊ฒƒ์ด WSD ์Šค์ผ€์ค„์ด ๋น›๋‚˜๋Š” ๋ถ€๋ถ„์ธ๋ฐ, ์šฐ๋ฆฌ๋Š” ์žฌ์‹œ์ž‘ ์—†์ด ๋™์ผํ•œ ํ•™์Šต ์‹คํ–‰์„ ๋‹ค๋ฅธ ํ† ํฐ ์ˆ˜๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ ์„ค์ •์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋Œ€ํ•œ ์Šค์œ•์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์ตœ์ ์— ๊ฐ€๊นŒ์šด ์„ฑ๋Šฅ (์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์Šต ์„ธํŠธ์™€ ์œ ์‚ฌํ•œ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ๋…๋ฆฝ์ ์ธ ๊ฒ€์ฆ ์„ธํŠธ์—์„œ ๊ณ„์‚ฐ๋œ ์ตœ๊ณ ์˜ ๊ฒ€์ฆ ์†์‹ค์˜ ์ž‘์€ ๋งˆ์ง„ (์˜ˆ: 0.25%) ๋‚ด์— ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ์ •์˜๋จ)์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ตฌ์„ฑ์„ ์‹๋ณ„ํ•œ๋‹ค. ๊ฐ ์ตœ์ ์— ๊ฐ€๊นŒ์šด ๊ตฌ์„ฑ์€ ์šฐ๋ฆฌ์—๊ฒŒ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ โ€” (์ปดํ“จํŒ… ์˜ˆ์‚ฐ C, ์ตœ์  ํ•™์Šต๋ฅ  ฮท) ๋˜๋Š” (C , ์ตœ์  ๋ฐฐ์น˜ ํฌ๊ธฐ B)์˜ ํŠœํ”Œ์„ ์ œ๊ณตํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๋ฅผ ๋กœ๊ทธ-๋กœ๊ทธ ์Šค์ผ€์ผ๋กœ ๊ทธ๋ ค๋ณด๋ฉด, ์ด๋Ÿฌํ•œ ๊ด€๊ณ„๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฑฐ๋“ญ์ œ๊ณฑ ๋ฒ•์น™์˜ ๋ชจ์Šต์„ ๋ณด์ด๋ฉฐ, ๋Œ€๋žต ์ง์„ ์œผ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค (์œ„ ๊ทธ๋ฆผ ์ฐธ์กฐ). ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ํ”ผํŒ…ํ•จ์œผ๋กœ์จ, ์šฐ๋ฆฌ๋Š” ์ตœ์ ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ปดํ“จํŒ…์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ์ง„ํ™”ํ•˜๋Š”์ง€ ์„ค๋ช…ํ•˜๋Š” ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์€ ๊ณ ์ •๋œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์— ๋Œ€ํ•ด, ๊ด‘๋ฒ”์œ„ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๊ฑธ์ณ ์„ฑ๋Šฅ์ด ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ์ข์€ ์ตœ์ ์ ์ด ์•„๋‹ˆ๋ผ ๋„“์€ ์Šค์œ„ํŠธ ์Šคํฟ(sweet spot)์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์™„๋ฒฝํ•œ ๊ฐ’์„ ์ฐพ์„ ํ•„์š”๊ฐ€ ์—†์œผ๋ฉฐ, ์ถฉ๋ถ„ํžˆ ๊ฐ€๊นŒ์šด ๊ฐ’๋งŒ ์ฐพ์œผ๋ฉด ๋˜๋ฏ€๋กœ ์ „์ฒด ํ”„๋กœ์„ธ์Šค๊ฐ€ ํ›จ์”ฌ ๋” ์‹ค์šฉ์ ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ๊ฐ ์ ์ด ์ตœ์ ์— ๊ฐ€๊นŒ์šด ์„ค์ •์„ ๋‚˜ํƒ€๋‚ด๋Š” DeepSeek๊ฐ€ ๋„์ถœํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

image.png

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ ๋’ค์— ์ˆจ๊ฒจ์ง„ ํ•ต์‹ฌ ์ง๊ด€์€ ํ•™์Šต์ด ๋” ์ปค์ง€๊ณ  ๊ธธ์–ด์ง์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ๋” ์•ˆ์ •์ ์ธ ์—…๋ฐ์ดํŠธ (๋”ฐ๋ผ์„œ ๋” ์ž‘์€ ํ•™์Šต๋ฅ )์™€ ๋” ํšจ์œจ์ ์ธ ๊ธฐ์šธ๊ธฐ ์ถ”์ • (๋”ฐ๋ผ์„œ ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ)์„ ์›ํ•˜๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์€ ์šฐ๋ฆฌ์—๊ฒŒ ํ•™์Šต๋ฅ ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋Œ€ํ•œ ์‹œ์ž‘์ ์„ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชฉํ‘œ๋Š” โ€œ๊ธฐ์šธ๊ธฐ๋‹น ์ตœ์ ์˜ ์ƒ˜ํ”Œโ€์ด ์•„๋‹ˆ๋ผ โ€œ์‹œ๊ฐ„ ๋ฐ GPU ์ œ์•ฝ ๋‚ด์—์„œ ๋„๋‹ฌ ๊ฐ€๋Šฅํ•œ ๋” ๋‚ฎ์€ ์†์‹คโ€์ด๋ฉด์„œ ์—ฌ์ „ํžˆ ๋ชจ๋“  ํ† ํฐ์—์„œ ์ „์ฒด ์‹ ํ˜ธ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์‹ค์ œ ์ƒํ™ฉ์—์„œ, ๋‹น์‹ ์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ์˜๋ฏธ ์žˆ๊ฒŒ ํ•ด์น˜์ง€ ์•Š์œผ๋ฉด์„œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์•ž์„œ ๋…ผ์˜ํ•œ ์ž„๊ณ„ ๋ฐฐ์น˜ ํฌ๊ธฐ๊นŒ์ง€ ์˜ˆ์ธก๋œ ์ตœ์  ๋ฐฐ์น˜ ํฌ๊ธฐ ์ด์ƒ์œผ๋กœ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ์„์ง€๋„ ๋ชจ๋ฅธ๋‹ค.

SmolLM3

๊ทธ๋ ‡๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” SmolLM3์— ๋ฌด์—‡์„ ์‚ฌ์šฉํ–ˆ๋Š”๊ฐ€? SmolLM3๋ฅผ ์‹œ์ž‘ํ•˜๊ธฐ ์ „ ์ œ๊ฑฐ ์‹คํ—˜ ๋‹น์‹œ, ์šฐ๋ฆฌ๋Š” 100B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 1B ๋ชจ๋ธ์—์„œ AdamW, AdEMAMix, ๊ทธ๋ฆฌ๊ณ  Muon์„ ๋น„๊ตํ–ˆ๋‹ค. Muon์€ ์ ์ ˆํžˆ ํŠœ๋‹๋  ๋•Œ AdamW๋ฅผ ๋Šฅ๊ฐ€ํ•  ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ ํ•™์Šต๋ฅ ์— ๋ฏผ๊ฐํ–ˆ๊ณ  ๋ฐœ์‚ฐํ•˜๊ธฐ ์‰ฌ์› ๋‹ค. AdeMaMix๋Š” ๋œ ๋ฏผ๊ฐํ–ˆ๊ณ  Muon๊ณผ ์œ ์‚ฌํ•œ ์†์‹ค์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. AdamW๋Š” ๊ฐ€์žฅ ์•ˆ์ •์ ์ด์—ˆ์ง€๋งŒ ํŠœ๋‹๋œ ๋Œ€์•ˆ๋“ค๋ณด๋‹ค ๋” ๋†’์€ ์ตœ์ข… ์†์‹ค์— ๋„๋‹ฌํ–ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ 3B์œผ๋กœ ํ™•์žฅํ–ˆ์„ ๋•Œ, ์šฐ๋ฆฌ๋Š” Muon๊ณผ AdeMaMix์—์„œ ๋” ๋นˆ๋ฒˆํ•œ ๋ฐœ์‚ฐ์„ ๊ฒช์—ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ œ๊ฑฐ ์‹คํ—˜์„ ๋งˆ์นœ ํ›„ ๋ฐœ๊ฒฌํ•œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ฒ„๊ทธ ๋•Œ๋ฌธ์ผ ์ˆ˜ ์žˆ์ง€๋งŒ (ํ•™์Šต ๋งˆ๋ผํ†คย ์ฑ•ํ„ฐ ์ฐธ์กฐ), ์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์„ ํ™•์‹ ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฐ€์ค‘์น˜ ๊ฐ์‡  0.1 ๋ฐ ๊ธฐ์šธ๊ธฐ ํด๋ฆฌํ•‘ 1์„ ์‚ฌ์šฉํ•˜๋Š” AdamW (beta1: 0.9, beta2: 0.95)๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. ๊ฒฐ๊ตญ ๋งค์šฐ ํ‰๋ฒ”ํ•œ(vanilla) ์„ค์ •์ด๋‹ค.

ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š”ย WSD๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” SmolLM2์—์„œ ๊ทธ๊ฒƒ์„ ์„ฑ๊ณต์ ์œผ๋กœ ์‚ฌ์šฉํ–ˆ์—ˆ์œผ๋ฉฐ, ์‚ฌ์šฉ ์šฉ์ด์„ฑ๊ณผ ์ด ํ•™์Šต ๊ธฐ๊ฐ„์— ๋Œ€ํ•œ ์œ ์—ฐ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์ค‘๊ฐ„ ํ•™์Šต ๊ฐ์‡  ์‹คํ—˜์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ ์ธก๋ฉด์—์„œ ์ตœ๊ณ ์˜ ๊ฒฐ์ • ์ค‘ ํ•˜๋‚˜์ž„์ด ์ž…์ฆ๋˜์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ํ•™์Šต๋ฅ  ์Šค์œ•์„ ์‹คํ–‰ํ•˜๊ณ  2e-4์— ์ •์ฐฉํ–ˆ๋‹ค. ์ „์—ญ ๋ฐฐ์น˜ ํฌ๊ธฐ์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 2M์—์„œ 4M ํ† ํฐ์˜ ๊ฐ’์„ ํ…Œ์ŠคํŠธํ–ˆ์ง€๋งŒ ์†์‹ค์ด๋‚˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ๋ฏธ๋ฏธํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์—ฌ, ์ตœ๊ณ ์˜ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•˜๋Š” ํฌ๊ธฐ์ธ 2.36M ํ† ํฐ์„ ์„ ํƒํ–ˆ๋‹ค.

์ฐธ์—ฌ ๊ทœ์น™

์š”์•ฝ:ย ํƒ์ƒ‰๊ณผ ์‹คํ–‰์˜ ๊ท ํ˜•์„ ๋งž์ถ˜๋‹ค. ์™„๋ฃŒ๋œ ๊ฒƒ์ด ์™„๋ฒฝํ•œ ๊ฒƒ๋ณด๋‹ค ๋‚ซ๋‹ค.

์šฐ๋ฆฌ๋Š” โ€œ๋ฌด์—‡โ€ (์˜ตํ‹ฐ๋งˆ์ด์ €, ํ•™์Šต๋ฅ , ๋ฐฐ์น˜ ํฌ๊ธฐ)์— ๋Œ€ํ•ด ๋งŽ์ด ์ด์•ผ๊ธฐํ–ˆ์ง€๋งŒ โ€œ์–ด๋–ป๊ฒŒโ€๋„ ๊ทธ๋งŒํผ ์ค‘์š”ํ•˜๋‹ค. ์‹คํ—˜ํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ๊ฒฐ์ •ํ• ๊นŒ? ์‹œ๊ฐ„์„ ์–ด๋–ป๊ฒŒ ๊ตฌ์กฐํ™”ํ• ๊นŒ? ์–ธ์ œ ํƒ์ƒ‰์„ ๋ฉˆ์ถ”๊ณ  ํ•™์Šต์„ ์‹œ์ž‘ํ• ๊นŒ?

ํƒ์ƒ‰๊ณผ ์‹คํ–‰ ์‚ฌ์ด์— ์‹œ๊ฐ„์„ ํ˜„๋ช…ํ•˜๊ฒŒ ํ• ๋‹นํ•˜๋ผ.ย ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์˜ ์‚ฌ์†Œํ•œ ๊ฐœ์„ ์„ ์™„๋ฒฝํ•˜๊ฒŒ ํ•˜๋Š” ๋ฐ ๋ช‡ ์ฃผ๋ฅผ ๋ณด๋‚ด๋Š” ๊ฒƒ์€ ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์ด๋‚˜ ๋” ์ฒ ์ €ํ•œ ์•„ํ‚คํ…์ฒ˜ ์ œ๊ฑฐ ์‹คํ—˜์— ๊ฐ™์€ ์ปดํ“จํŒ…์„ ํˆฌ์žํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๊ฐ€์น˜๊ฐ€ ์ ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฝํ—˜์ƒ, ๊ทธ๋ฆฌ๊ณ  ์•„ํ‚คํ…์ฒ˜ ์• ํ˜ธ๊ฐ€๋“ค์„ ์‹ค๋ง์‹œํ‚ฌ ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœย ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์—์„œ ๋‚˜์˜จ๋‹ค.

์˜์‹ฌ์Šค๋Ÿฌ์šธ ๋•Œ๋Š” ์ตœ๊ณ  ์„ฑ๋Šฅ๋ณด๋‹ค ์œ ์—ฐ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ์„ ํƒํ•ด๋ผ.ย ๋‘ ๋ฐฉ๋ฒ•์ด ๋˜‘๊ฐ™์ด ์ž˜ ์ˆ˜ํ–‰๋œ๋‹ค๋ฉด, ๋” ๋งŽ์€ ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•˜๊ฑฐ๋‚˜ ๊ตฌํ˜„ ์„ฑ์ˆ™๋„์™€ ์•ˆ์ •์„ฑ์ด ๋” ๋‚˜์€ ๊ฒƒ์„ ์„ ํƒํ•œ๋‹ค. ํ•™์Šต์„ ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ์ค‘๊ฐ„ ํ•™์Šต ์‹คํ—˜์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” WSD์™€ ๊ฐ™์€ ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์€ ์•ฝ๊ฐ„ ๋” ์ž˜ ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ๋Š” ์—„๊ฒฉํ•œ ์Šค์ผ€์ค„๋ณด๋‹ค ๋” ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค.

์–ธ์ œ ์ตœ์ ํ™”๋ฅผ ๋ฉˆ์ถ”๊ณ  ํ•™์Šต์„ ์‹œ์ž‘ํ• ์ง€ ์•Œ์•„๋ผ.ย ํŠœ๋‹ํ•  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํ•ญ์ƒ ํ•˜๋‚˜ ๋” ์žˆ๊ฑฐ๋‚˜ ์‹œ๋„ํ•  ์˜ตํ‹ฐ๋งˆ์ด์ €๋Š” ํ•˜๋‚˜ ๋” ์žˆ๋‹ค. ํƒ์ƒ‰์„ ์œ„ํ•œ ๋งˆ๊ฐ์ผ์„ ์„ค์ •ํ•˜๊ณ  ๊ทธ๊ฒƒ์„ ๊ณ ์ˆ˜ํ•œ๋‹ค - ์šฐ๋ฆฌ๊ฐ€ ์‹ค์ œ๋กœ ํ•™์Šต์„ ์™„๋ฃŒํ•œ ๋ชจ๋ธ์€ ์šฐ๋ฆฌ๊ฐ€ ๊ฒฐ์ฝ” ์‹œ์ž‘ํ•˜์ง€ ์•Š์€ ์™„๋ฒฝํ•œ ๋ชจ๋ธ์„ ํ•ญ์ƒ ์ด๊ธธ ๊ฒƒ์ด๋‹ค.

image.png

์ œ๊ฑฐ ์‹คํ—˜ ํ•˜๋‚˜๋งŒ ๋” ํ•œ๋‹ค๊ณ  ํ•ด๋ฅผ ๋ผ์น˜์ง„ ์•Š๊ฒ ์ง€ (์Šคํฌ์ผ๋Ÿฌ: ํ•ด๋ฅผ ๋ผ์ณค๋‹ค)

์™„๋ฒฝํ•จ์€ ์ข‹์Œ์˜ ์ ์ด๋‹ค, ํŠนํžˆ ์šฐ๋ฆฌ๊ฐ€ ์œ ํ•œํ•œ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ๊ณผ ๋งˆ๊ฐ์ผ๋กœ ์ž‘์—…ํ•  ๋•Œ๋Š” ๋”์šฑ ๊ทธ๋ ‡๋‹ค.

์Šค์ผ€์ผ๋ง ๋ฒ•์น™: ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ์–ผ๋งˆ๋‚˜ ๋งŽ์ด, ๋ฐ์ดํ„ฐ๋Š” ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ํ•„์š”ํ•œ๊ฐ€?

๋”ฅ๋Ÿฌ๋‹ ์ดˆ๊ธฐ ์‹œ์ ˆ, ์–ธ์–ด ๋ชจ๋ธ(๊ทธ๋ฆฌ๊ณ  ๊ทธ๊ฒƒ๋“ค์ด ํ•™์Šต๋œ ํด๋Ÿฌ์Šคํ„ฐ)์ด โ€œ๊ฑฐ๋Œ€โ€ํ•˜๊ธฐ ์ „์—๋Š”, ํ•™์Šต ์‹คํ–‰์€ ์ข…์ข… ์ปดํ“จํŒ… ์ž์›์— ์˜ํ•ด ์‹ฌํ•˜๊ฒŒ ์ œ์•ฝ๋ฐ›์ง€ ์•Š์•˜๋‹ค. ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ, ์—ฌ๋Ÿฌ๋ถ„์€ ํ•˜๋“œ์›จ์–ด์— ๋งž๋Š” ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ๊ณผ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•˜๊ณ  ๋ชจ๋ธ์ด ๊ณผ์ ํ•ฉ๋˜๊ธฐ ์‹œ์ž‘ํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐ”๋‹ฅ๋‚  ๋•Œ๊นŒ์ง€ ํ•™์Šต์‹œ์ผฐ์„ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด ์ดˆ๊ธฐ ์‹œ์ ˆ์—๋„ ๊ทœ๋ชจ๊ฐ€ ๋„์›€์ด ๋œ๋‹ค๋Š” ๊ฐ๊ฐ์ด ์žˆ์—ˆ๋‹ค โ€” ์˜ˆ๋ฅผ ๋“ค์–ด, Hestness et al.์€ 2017๋…„์— ๋” ํฐ ๋ชจ๋ธ์„ ๋” ์˜ค๋ž˜ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ์ด๋“์„ ๋‚ณ๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋Š” ํฌ๊ด„์ ์ธ ๊ฒฐ๊ณผ ์„ธํŠธ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค.

๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์‹œ๋Œ€์—, ์šฐ๋ฆฌ๋Š” ํ•ญ์ƒ ์ปดํ“จํŒ… ์ œ์•ฝ์„ ๋ฐ›๋Š”๋‹ค. ์™œ์ผ๊นŒ? ์ด๋Ÿฌํ•œ ์ดˆ๊ธฐ์˜ ํ™•์žฅ์„ฑ ๊ฐœ๋…์€ ์‹ ๊ฒฝ ์–ธ์–ด ๋ชจ๋ธ์„ ์œ„ํ•œย ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์— ๊ด€ํ•œ Kaplan et al.์˜ ์—ฐ๊ตฌ์— ์˜ํ•ด ๊ณต์‹ํ™”๋˜์—ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์–ธ์–ด ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ์—ฌ๋Ÿฌ ๊ทœ๋ชจ์˜ ์ž๋ฆฟ์ˆ˜์— ๊ฑธ์ณ ๋†€๋ž๋„๋ก ์˜ˆ์ธก ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์ด ๋ฐํ˜€์กŒ๋‹ค. ์ด๊ฒƒ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ํ•™์Šต ๊ธฐ๊ฐ„์˜ ํญ๋ฐœ์ ์ธ ์ฆ๊ฐ€๋ฅผ ์ด‰๋ฐœํ–ˆ๋Š”๋ฐ, ๊ทœ๋ชจ๋ฅผ ๋Š˜๋ฆผ์œผ๋กœ์จ ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜ ํ–ฅ์ƒ๋ ์ง€ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ๋” ๋‚˜์€ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋ ค๋Š” ๊ฒฝ์Ÿ์€ ๋Š์ž„์—†์ด ์ฆ๊ฐ€ํ•˜๋Š” ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์œผ๋กœ ๋” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋” ํฐ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒฝ์Ÿ์ด ๋˜์—ˆ๊ณ , ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐœ๋ฐœ์€ ๋น ๋ฅด๊ฒŒ ์ปดํ“จํŒ… ์ œ์•ฝ์„ ๋ฐ›๊ฒŒ ๋˜์—ˆ๋‹ค.

์ปดํ“จํŒ… ์ œ์•ฝ์— ์ง๋ฉดํ–ˆ์„ ๋•Œ, ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์งˆ๋ฌธ์€ ๋” ํฐ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ์ง€ ์•„๋‹ˆ๋ฉด ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต์‹œํ‚ฌ์ง€ ์—ฌ๋ถ€์ด๋‹ค. ๋†€๋ž๊ฒŒ๋„, Kaplan et al.์˜ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์€ ์ด์ „์˜ ๋ชจ๋ฒ” ์‚ฌ๋ก€๋ณด๋‹ค ๋ชจ๋ธ ๊ทœ๋ชจ์— ํ›จ์”ฌ ๋” ๋งŽ์€ ์ปดํ“จํŒ…์„ ํ• ๋‹นํ•˜๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ–ˆ๋‹ค โ€” ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฑฐ๋Œ€ํ•œ (175B ๋งค๊ฐœ๋ณ€์ˆ˜) GPT-3 ๋ชจ๋ธ์„ ๋น„๊ต์  ์ ์€ ํ† ํฐ ์˜ˆ์‚ฐ (300B ํ† ํฐ)์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋„๋ก ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ–ˆ๋‹ค. ์žฌ๊ฒ€ํ†  ๊ฒฐ๊ณผ, Hoffman et al.์€ Kaplan et al.์˜ ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ ๋ฐฉ๋ฒ•๋ก ์  ๋ฌธ์ œ๋ฅผ ๋ฐœ๊ฒฌํ–ˆ๊ณ , ๊ถ๊ทน์ ์œผ๋กœ ํ•™์Šต ๊ธฐ๊ฐ„์— ํ›จ์”ฌ ๋” ๋งŽ์€ ์ปดํ“จํŒ…์„ ํ• ๋‹นํ•  ๊ฒƒ์„ ์ œ์•ˆํ•˜๋Š” ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์žฌ๋„์ถœํ–ˆ๋‹ค. ์ด๋Š” ์˜ˆ๋ฅผ ๋“ค์–ด 175B ๋งค๊ฐœ๋ณ€์ˆ˜ GPT-3์˜ ์ปดํ“จํŒ… ์ตœ์  ํ•™์Šต์ดย 3.7T ํ† ํฐ์„ ์†Œ๋น„ํ–ˆ์–ด์•ผ ํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค!

์ด๊ฒƒ์€ ์ด ๋ถ„์•ผ๋ฅผ โ€œ๋ชจ๋ธ์„ ๋” ํฌ๊ฒŒ ๋งŒ๋“ค๊ธฐโ€์—์„œ โ€œ๋” ๊ธธ๊ณ  ๋” ์ž˜ ํ•™์Šต์‹œํ‚ค๊ธฐโ€๋กœ ์ „ํ™˜์‹œ์ผฐ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ํ˜„๋Œ€ ํ•™์Šต์€ ์—ฌ์ „ํžˆ ์นœ์น ๋ผ ๋ฒ•์น™๋“ค์„ ์—„๊ฒฉํ•˜๊ฒŒ ๋”ฐ๋ฅด์ง€๋Š” ์•Š๋Š”๋ฐ, ์™œ๋ƒํ•˜๋ฉด ๊ทธ๊ฒƒ๋“ค์— ๋‹จ์ ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค: ๊ทธ๋“ค์€ ํŠน์ • ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๊ธฐ๊ฐ„์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ, ๋” ํฐ ๋ชจ๋ธ์€ ํ•™์Šต ํ›„(์ถ”๋ก  ์‹œ)์— ๋” ๋น„์‹ธ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์•˜๋‹ค. ๋‹ฌ๋ฆฌ ๋งํ•˜๋ฉด, ์šฐ๋ฆฌ๋Š” ์ฃผ์–ด์ง„ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ์ž‘์€ ๋ชจ๋ธ์„ ๋” ์˜ค๋ž˜ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์„ ์„ ํ˜ธํ•  ์ˆ˜ ์žˆ๋‹ค โ€” ๋น„๋ก ์ด๊ฒƒ์ด โ€œ์ปดํ“จํŒ… ์ตœ์ โ€์ด ์•„๋‹์ง€๋ผ๋„ โ€” ์™œ๋ƒํ•˜๋ฉด ์ด๊ฒƒ์ด ์ถ”๋ก  ๋น„์šฉ์„ ๋” ์ €๋ ดํ•˜๊ฒŒ ๋งŒ๋“ค ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค (Sardana et al., de Vries). ์ด๋Š” ๋ชจ๋ธ์ด ๋งŽ์€ ์ถ”๋ก  ์‚ฌ์šฉ๋Ÿ‰์„ ๋ณด์ผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๊ฒฝ์šฐ (์˜ˆ๋ฅผ ๋“ค์–ด, ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๐Ÿค—)์— ํ•ด๋‹นํ•  ์ˆ˜ ์žˆ๋‹ค. ์ตœ๊ทผ, ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ์ œ์•ˆํ•œ ํ•™์Šต ๊ธฐ๊ฐ„์„ ๋„˜์–ด ๋ชจ๋ธ์„ โ€œ๊ณผ์ž‰ ํ•™์Šต(overtraining)โ€œ์‹œํ‚ค๋Š” ์ด๋Ÿฌํ•œ ๊ด€ํ–‰์€ ํ‘œ์ค€์ด ๋˜์—ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๊ฐ€ SmolLM3๋ฅผ ๊ฐœ๋ฐœํ•  ๋•Œ ์ทจํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.

์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ํŠน์ • ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๊ธฐ๊ฐ„์— ๋Œ€ํ•œ ์ œ์•ˆ์„ ์ œ๊ณตํ•ด์ฃผ๊ธฐ๋Š” ํ•˜์ง€๋งŒ, ๊ณผ์ž‰ ํ•™์Šต์„ ์„ ํƒํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์—ฌ๋Ÿฌ๋ถ„์ด ์ด๋Ÿฌํ•œ ์š”์†Œ๋“ค์„ ์ง์ ‘ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 3B ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๋ชฉํ‘œ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์‹œ์ž‘ํ–ˆ๋‹ค. Qwen3 4B, Gemma 3 4B, Llama 3.2 3B์™€ ๊ฐ™์€ ์œ ์‚ฌํ•œ ๊ทœ๋ชจ์˜ ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์šฐ๋ฆฌ๋Š” 3B๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ๋Šฅ๋ ฅ (์ถ”๋ก  ๋ฐ ๋„๊ตฌ ํ˜ธ์ถœ๊ณผ ๊ฐ™์€)์„ ๊ฐ–๊ธฐ์— ์ถฉ๋ถ„ํžˆ ํฌ์ง€๋งŒ, ์ดˆ๊ณ ์† ์ถ”๋ก ๊ณผ ํšจ์œจ์ ์ธ ๋กœ์ปฌ ์‚ฌ์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•  ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์ž‘๋‹ค๊ณ  ํŒ๋‹จํ–ˆ๋‹ค. ํ•™์Šต ๊ธฐ๊ฐ„์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋จผ์ € ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์ด ๊ทน๋„๋กœ ๊ณผ์ž‰ ํ•™์Šต๋˜์—ˆ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ–ˆ๋‹ค โ€” ์˜ˆ๋ฅผ ๋“ค์–ด, ์•ž์„œ ์–ธ๊ธ‰ํ•œ Qwen3 ์‹œ๋ฆฌ์ฆˆ๋Š” 36T ํ† ํฐ ๋™์•ˆ ํ•™์Šต๋˜์—ˆ๋‹ค๊ณ  ์ฃผ์žฅ๋œ๋‹ค! ๊ฒฐ๊ณผ์ ์œผ๋กœ, ํ•™์Šต ๊ธฐ๊ฐ„์€ ์ข…์ข… ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ปดํ“จํŒ…์˜ ์–‘์— ์˜ํ•ด ์ขŒ์šฐ๋œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์•ฝ ํ•œ ๋‹ฌ ๋™์•ˆ 384๊ฐœ์˜ H100์„ ํ™•๋ณดํ–ˆ์œผ๋ฉฐ, ์ด๋Š” 11์กฐ ํ† ํฐ์— ๋Œ€ํ•œ ํ•™์Šต ์˜ˆ์‚ฐ์„ ์ œ๊ณตํ–ˆ๋‹ค (MFU๋ฅผ ์•ฝ ~30%๋กœ ๊ฐ€์ •).

์Šค์ผ€์ผ๋ง ๋ฒ•์น™

์ด๋Ÿฌํ•œ ๊ฐ„๊ทน์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์€ ์—ฌ์ „ํžˆ ์‹ค์งˆ์ ์œผ๋กœ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค. ๊ทธ๊ฒƒ๋“ค์€ ์‹คํ—˜ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๊ธฐ์ค€์„ ์„ ์ œ๊ณตํ•˜๊ณ , ์‚ฌ๋žŒ๋“ค์€ ์ข…์ข… ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์‹ ํ˜ธ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์นœ์น ๋ผ ์ตœ์  ์„ค์ •์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ๋ชฉํ‘œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค€๋‹ค. de Vries๊ฐ€ ์ด ๋ธ”๋กœ๊ทธ์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค„์ž„์œผ๋กœ์จ ์ž„๊ณ„ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค: ์ด๋Š” ์ฃผ์–ด์ง„ ์†์‹ค์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ ์šฉ๋Ÿ‰์ด๋ฉฐ, ๊ทธ ์ดํ•˜์—์„œ๋Š” ์ˆ˜ํ™• ์ฒด๊ฐ์ด ๋ฐœ์ƒํ•˜๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค.

์ด์ œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ํ•™์Šต ์„ค์ •, ๋ชจ๋ธ ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ๊ธฐ๊ฐ„์„ ํ™•์ •ํ–ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ค€๋น„ํ•ด์•ผ ํ•œ๋‹ค: ๋ชจ๋ธ์„ ๊ฐ€๋ฅด์น ย ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ(Data Mixture)๊ณผ ๊ทธ๊ฒƒ์„ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌย ์ธํ”„๋ผ์ด๋‹ค. SmolLM3์˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ 3B ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ์„ค์ •๋จ์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ๊ฐ•๋ ฅํ•œ ๋‹ค๊ตญ์–ด, ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•  ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ํ๋ ˆ์ด์…˜ํ•˜๊ณ  11T ํ† ํฐ์˜ ํ•™์Šต์„ ๊ฒฌ๋”œ ๋งŒํผ ๊ฒฌ๊ณ ํ•œ ์ธํ”„๋ผ๋ฅผ ์„ค์ •ํ•ด์•ผ ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ ์‚ฌํ•ญ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ด๋ฉฐ, ์ตœ๊ณ ์˜ ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์กฐ์ฐจ๋„ ์—ด์•…ํ•œ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์ด๋‚˜ ๋ถˆ์•ˆ์ •ํ•œ ํ•™์Šต ์‹œ์Šคํ…œ์œผ๋กœ๋ถ€ํ„ฐ ์šฐ๋ฆฌ๋ฅผ ๊ตฌํ•ด์ฃผ์ง€๋Š” ๋ชปํ•  ๊ฒƒ์ด๋‹ค.

The art of data curation

์ƒ์ƒํ•ด ๋ณด๋ผ: ์—ฌ๋Ÿฌ๋ถ„์€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•˜๊ณ , ๊ฐ€์žฅ ๊ฒฌ๊ณ ํ•œ ํ•™์Šต ์ธํ”„๋ผ๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐ ๋ช‡ ์ฃผ๋ฅผ ๋ณด๋ƒˆ๋‹ค. ๋ชจ๋ธ์€ ์•„๋ฆ„๋‹ต๊ฒŒ ์ˆ˜๋ ดํ•˜์ง€๋งŒ, ๋ง‰์ƒโ€ฆ ์ผ๊ด€์„ฑ ์žˆ๋Š” ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์ง€ ๋ชปํ•˜๊ณ , ๊ธฐ์ดˆ ์ˆ˜ํ•™์— ์–ด๋ ค์›€์„ ๊ฒช์œผ๋ฉฐ, ์‹ฌ์ง€์–ด ๋ฌธ์žฅ ์ค‘๊ฐ„์— ์–ธ์–ด๋ฅผ ๋ฐ”๊พธ๊ธฐ๋„ ํ•œ๋‹ค. ๋ฌด์—‡์ด ์ž˜๋ชป๋˜์—ˆ์„๊นŒ? ๋‹ต์€ ๋Œ€๊ฐœ ๋ฐ์ดํ„ฐ์— ์žˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ํ™”๋ คํ•œ ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ๊ณผ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์œ•์— ์ง‘์ฐฉํ•˜๋Š” ๋™์•ˆ, ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์€ ์ข…์ข… ์šฐ๋ฆฌ ๋ชจ๋ธ์ด ์ง„์ •์œผ๋กœ ์œ ์šฉํ•ด์งˆ์ง€ ์•„๋‹ˆ๋ฉด ๊ทธ์ € ๋˜ ํ•˜๋‚˜์˜ ๋น„์‹ผ ์‹คํ—˜์ด ๋ ์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ๊ทธ๊ฒƒ์€ ๋ฌด์ž‘์œ„ ์›น ํฌ๋กค๋ง ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๊ณผ ์šฐ๋ฆฌ๊ฐ€ ๋ชจ๋ธ์ด ๋ฐฐ์šฐ๊ธฐ๋ฅผ ์›ํ•˜๋Š” ๊ธฐ์ˆ ์„ ์‹ค์ œ๋กœ ๊ฐ€๋ฅด์น˜๋Š” ์‹ ์ค‘ํ•˜๊ฒŒ ํ๋ ˆ์ด์…˜๋œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์˜ ์ฐจ์ด์ด๋‹ค.

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋ชจ๋ธ์ดย ์–ด๋–ป๊ฒŒย ํ•™์Šตํ•˜๋Š”์ง€๋ฅผ ์ •์˜ํ•œ๋‹ค๋ฉด, ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์ดย ๋ฌด์—‡์„ย ํ•™์Šตํ•˜๋Š”์ง€๋ฅผ ์ •์˜ํ•˜๋ฉฐ, ์•„๋ฌด๋ฆฌ ๋งŽ์€ ์ปดํ“จํŒ…์ด๋‚˜ ์˜ตํ‹ฐ๋งˆ์ด์ € ํŠœ๋‹๋„ ์ž˜๋ชป๋œ ์ฝ˜ํ…์ธ ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์œผ๋กœ๋ถ€ํ„ฐ ์„ฑ๋Šฅ์„ ๋ณด์ •ํ•ด์ค„ ์ˆ˜ ์—†๋‹ค. ๊ฒŒ๋‹ค๊ฐ€, ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์–ป๋Š” ๊ฒƒ์€ ๋‹จ์ง€ ์ข‹์€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ–๋Š” ๊ฒƒ๋งŒ์ด ์•„๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ์˜ฌ๋ฐ”๋ฅธ **ํ˜ผํ•ฉ(mixture)**์„ ์กฐ๋ฆฝํ•˜๋Š” ๊ฒƒ์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค: ์ƒ์ถฉ๋˜๋Š” ๋ชฉํ‘œ๋“ค (์˜ˆ: ๊ฐ•๋ ฅํ•œ ์˜์–ด ๋Œ€ ๊ฒฌ๊ณ ํ•œ ๋‹ค๊ตญ์–ด์„ฑ)์˜ ๊ท ํ˜•์„ ๋งž์ถ”๊ณ  ์šฐ๋ฆฌ์˜ ์„ฑ๋Šฅ ๋ชฉํ‘œ์— ๋งž๊ฒŒ ๋ฐ์ดํ„ฐ ๋น„์œจ์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๊ณผ์ •์€ ๋ณดํŽธ์ ์ธ ์ตœ๊ณ ์˜ ํ˜ผํ•ฉ์„ ์ฐพ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์˜ฌ๋ฐ”๋ฅธ ์งˆ๋ฌธ์„ ๋˜์ง€๊ณ  ๊ทธ์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ณ„ํš์„ ๊ณ ์•ˆํ•˜๋Š” ๊ฒƒ์— ๊ฐ€๊น๋‹ค:

์ด ์„น์…˜์€ ํ›Œ๋ฅญํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋”๋ฏธ๋ฅผ ํ›Œ๋ฅญํ•œ ํ•™์Šต ํ˜ผํ•ฉ(training mixture)์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•ด ์›์น™์— ์ž…๊ฐํ•œ ๋ฐฉ๋ฒ•, ์ œ๊ฑฐ ์‹คํ—˜, ๊ทธ๋ฆฌ๊ณ  ์•ฝ๊ฐ„์˜ ์—ฐ๊ธˆ์ˆ ์„ ํ˜ผํ•ฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ์งˆ๋ฌธ๋“ค์„ ํ—ค์ณ๋‚˜๊ฐ€๋Š” ๊ฒƒ์— ๊ด€ํ•ด ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค.

์ข‹์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์ด๋ž€ ๋ฌด์—‡์ด๋ฉฐ ์™œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ๊ฐ€

์šฐ๋ฆฌ๋Š” ์–ธ์–ด ๋ชจ๋ธ์— ๋งŽ์€ ๊ฒƒ์„ ๊ธฐ๋Œ€ํ•œ๋‹ค. ๊ทธ๋“ค์€ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋•๊ณ , ์กฐ์–ธ์„ ์ฃผ๊ณ , ๊ฑฐ์˜ ๋ชจ๋“  ๊ฒƒ์— ๋Œ€ํ•œ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ณ , ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์„ ์™„๋ฃŒํ•˜๋Š” ๋“ฑ์˜ ์ผ์„ ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์›น๊ณผ ๊ฐ™์€ ํ’๋ถ€ํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ์†Œ์Šค๋Š” ์ด๋Ÿฌํ•œ ์ž‘์—…์— ํ•„์š”ํ•œ ์ง€์‹๊ณผ ๊ธฐ๋Šฅ์˜ ์ „์ฒด ๋ฒ”์œ„๋ฅผ ํฌ๊ด„ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ตœ๊ทผ ๋ชจ๋ธ๋“ค์€ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ํŠน์ • ๋„๋ฉ”์ธ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋” ์ „๋ฌธํ™”๋œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ์ถ”๊ฐ€๋กœ ์˜์กดํ•˜๊ณ  ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ณผ๊ฑฐ์— ๋ฐ์ดํ„ฐ์…‹ ํ๋ ˆ์ด์…˜์— ๋Œ€ํ•ด ๋งŽ์€ ์ž‘์—…์„ ํ•ด์™”์ง€๋งŒ, SmolLM3์˜ ๊ฒฝ์šฐ ์ฃผ๋กœ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ–ˆ๋‹ค.ย ๋ฐ์ดํ„ฐ์…‹ ํ๋ ˆ์ด์…˜์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ์•Œ์•„๋ณด๋ ค๋ฉด FineWeb ๋ฐ FineWeb-Edu, FineWeb2, Stack-Edu, ๊ทธ๋ฆฌ๊ณ  FineMath ๊ตฌ์ถ•์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๋ณด๊ณ ์„œ๋ฅผ ํ™•์ธํ•œ๋‹ค.

๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์˜ ์ง๊ด€์— ๋ฐ˜ํ•˜๋Š” ๋ณธ์งˆ

์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์ด ์ฒ˜์Œ์ด๋ผ๋ฉด, ์ข‹์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์ฐพ๋Š” ๊ฒƒ์ด ๊ฐ„๋‹จํ•ด ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค: ๋ชฉํ‘œ ๊ธฐ๋Šฅ์„ ์‹๋ณ„ํ•˜๊ณ , ๊ฐ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜๊ณ , ๊ฒฐํ•ฉํ•˜๋ฉด ๋  ๊ฒƒ ๊ฐ™๋‹ค. ํ˜„์‹ค์€ ๋” ๋ณต์žกํ•œ๋ฐ, ์ผ๋ถ€ ๋„๋ฉ”์ธ์€ ํ•™์Šต ์˜ˆ์‚ฐ์„ ๋‘๊ณ  ์„œ๋กœ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ํŠน์ • ๊ธฐ๋Šฅ์— ์ง‘์ค‘ํ•  ๋•Œ, ์†Œ์Šค ์ฝ”๋“œ์™€ ๊ฐ™์€ ์ž‘์—… ๊ด€๋ จ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์ด๊ณ  ์‹ถ์€ ์œ ํ˜น์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ•œ ์†Œ์Šค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์€ ์•”์‹œ์ ์œผ๋กœ ๋‹ค๋ฅธ ๋ชจ๋“  ์†Œ์Šค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์ด๋ฉฐ, ์ด๋Š” ๋‹ค๋ฅธ ์„ค์ •์—์„œ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋Šฅ์„ ํ•ด์น  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ค์–‘ํ•œ ์†Œ์Šค์˜ ๋ชจ์Œ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ธฐ๋Šฅ๋“ค ์‚ฌ์ด์—์„œ ์ผ์ข…์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ฒƒ์„ ํฌํ•จํ•œ๋‹ค.

๋˜ํ•œ, ์ด๋Ÿฌํ•œ ๋ชจ๋“  ์†Œ์Šค์™€ ๋„๋ฉ”์ธ ์ „๋ฐ˜์— ๊ฑธ์ณ, ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ํŠนํžˆ ๋„์›€์ด ๋˜๋Š” โ€œ๊ณ ํ’ˆ์งˆโ€ ๋ฐ์ดํ„ฐ์˜ ํ•˜์œ„ ์ง‘ํ•ฉ์ด ์ข…์ข… ์žˆ๋‹ค. ์™œ ๊ทธ๋ƒฅ ๋ชจ๋“  ๋‚ฎ์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒ„๋ฆฌ๊ณ  ์ตœ๊ณ  ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•˜์ง€ ์•Š๋Š”๊ฐ€? SmolLM3์˜ 11์กฐ ํ† ํฐ์ด๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์˜ˆ์‚ฐ์˜ ๊ฒฝ์šฐ, ๊ทธ๋Ÿฌํ•œ ๊ทน๋‹จ์ ์ธ ํ•„ํ„ฐ๋ง์„ ํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณต๋˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ณ์„ ๊ฒƒ์ด๋‹ค. ์ด์ „ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฐ ์ข…๋ฅ˜์˜ ๋ฐ˜๋ณต์ด ํ•ด๋กœ์šธ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฏ€๋กœ (Muennighoff et al., 2025), ์šฐ๋ฆฌ๋Š” ์ด์ƒ์ ์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์—ฌ์ „ํžˆ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด์„œ ๋” ๋†’์€ ํ’ˆ์งˆ๊ณผ ๋” ๋‚ฎ์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค.

์†Œ์Šค ๊ฐ„ ๋ฐ์ดํ„ฐ ๊ท ํ˜•์„ ๋งž์ถ”๊ณ  ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” **ํ˜ผํ•ฉ(mixture)**์„ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ค๊ณ„ํ•ด์•ผ ํ•œ๋‹ค: ๊ฐ ์†Œ์Šค์—์„œ ๊ฐ€์ ธ์˜จ ํ•™์Šต ๋ฌธ์„œ์˜ ์ƒ๋Œ€์  ๋น„์œจ์ด๋‹ค. ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ํ•ด๋‹น ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ๋ฐ์ดํ„ฐ์˜ ์–‘์— ํฌ๊ฒŒ ์˜์กดํ•˜๋ฏ€๋กœ, ํ˜ผํ•ฉ ๊ฐ€์ค‘์น˜๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์€ ๋„๋ฉ”์ธ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ชจ๋ธ ๊ธฐ๋Šฅ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ง์ ‘์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” ๋ชจ๋ธ์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ณ  ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ์ œ๊ฑฐ ์‹คํ—˜์€ ํ•„์ˆ˜์ ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํ˜ผํ•ฉ์ด ํ•™์Šต ๋‚ด๋‚ด ๊ณ ์ •๋˜์–ด ์žˆ์„ ํ•„์š”๋Š” ์—†๋‹ค. ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ํ˜ผํ•ฉ์„ ์กฐ์ •ํ•จ์œผ๋กœ์จ (์šฐ๋ฆฌ๊ฐ€ย ๋‹ค๋‹จ๊ณ„ ํ•™์Šต(multi-stage training)ย ๋˜๋Š” ์ปค๋ฆฌํ˜๋Ÿผ(curriculum)์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฒƒ), ์šฐ๋ฆฌ๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์™€ ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ๋ชจ๋‘๋ฅผ ๋” ์ž˜ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•™์Šต ์ปค๋ฆฌํ˜๋Ÿผ์˜ ์ง„ํ™”

๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์˜ ์ดˆ๊ธฐ์—๋Š” ์ „์ฒด ํ•™์Šต ์‹คํ–‰์— ๋Œ€ํ•ด ๋‹จ์ผ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๊ณ ์ •ํ•˜๋Š” ๊ฒƒ์ด ํ‘œ์ค€ ์ ‘๊ทผ ๋ฐฉ์‹์ด์—ˆ๋‹ค. GPT3 ๋ฐ Llama์˜ ์ดˆ๊ธฐ ๋ฒ„์ „๊ณผ ๊ฐ™์€ ๋ชจ๋ธ๋“ค์€ ์‹œ์ž‘๋ถ€ํ„ฐ ๋๊นŒ์ง€ ์ •์  ํ˜ผํ•ฉ์œผ๋กœ ํ•™์Šตํ–ˆ๋‹ค. ๋” ์ตœ๊ทผ์—, ์ด ๋ถ„์•ผ๋Š” ํ•™์Šต ๊ณผ์ •์— ๊ฑธ์ณ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์ด ๋ณ€ํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ํ•™์Šต (Allal et al., 2025)์œผ๋กœ ์ด๋™ํ–ˆ๋‹ค. ์ฃผ์š” ๋™๊ธฐ๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ์ตœ์ข… ํ–‰๋™์ด ํ•™์Šต ๋ ๋ฌด๋ ต์— ๋ณธ ๋ฐ์ดํ„ฐ์— ์˜ํ•ด ๊ฐ•ํ•˜๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค (Y. Chen et al., 2025b). ์ด ํ†ต์ฐฐ๋ ฅ์€ ์‹ค์šฉ์ ์ธ ์ „๋žต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ๋‹ค: ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ๋” ํ’๋ถ€ํ•œ ์†Œ์Šค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์ด๊ณ  ๋์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ๋” ์ ๊ณ  ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ์†Œ์Šค๋ฅผ ํ˜ผํ•ฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

ํ”ํ•œ ์งˆ๋ฌธ์€: ํ˜ผํ•ฉ์„ ๋ณ€๊ฒฝํ•  ์‹œ์ ์„ ์–ด๋–ป๊ฒŒ ๊ฒฐ์ •ํ•˜๋Š”๊ฐ€? ๋ณดํŽธ์ ์ธ ๊ทœ์น™์€ ์—†์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ ์›์น™์„ ๋”ฐ๋ฅธ๋‹ค:

  1. ์„ฑ๋Šฅ ์ฃผ๋„ ๊ฐœ์ž…:ย ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ  ํŠน์ • ๊ธฐ๋Šฅ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์…‹ ํ˜ผํ•ฉ์„ ์กฐ์ •ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค๋ฅธ ๊ธฐ๋Šฅ๋“ค์€ ๊ณ„์† ๊ฐœ์„ ๋˜๋Š”๋ฐ ์ˆ˜ํ•™ ์„ฑ๋Šฅ์ด ์ •์ฒด๋œ๋‹ค๋ฉด, ๊ทธ๊ฒƒ์€ ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ๋ฅผ ๋„์ž…ํ•˜๋ผ๋Š” ์‹ ํ˜ธ์ด๋‹ค.
  2. ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ํ›„๋ฐ˜ ๋‹จ๊ณ„๋ฅผ ์œ„ํ•ด ์•„๋ผ๊ธฐ:ย ์ž‘๊ณ  ๊ณ ํ’ˆ์งˆ์ธ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ์…‹์€ ์–ด๋‹๋ง ๋‹จ๊ณ„ (ํ•™์Šต๋ฅ  ๊ฐ์‡ ๊ฐ€ ์žˆ๋Š” ์ตœ์ข… ๋‹จ๊ณ„) ๋™์•ˆ ๋„์ž…๋  ๋•Œ ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.

์ด์ œ ํ˜ผํ•ฉ์ด ์™œ ์ค‘์š”ํ•œ์ง€, ๊ทธ๋ฆฌ๊ณ  ์ปค๋ฆฌํ˜๋Ÿผ์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•๋ฆฝํ–ˆ์œผ๋ฏ€๋กœ, ๋‘ ๊ฐ€์ง€๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋…ผ์˜ํ•˜์ž.

์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •: ๋ฐ์ดํ„ฐ ๋ ˆ์‹œํ”ผ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•

๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ํ…Œ์ŠคํŠธํ•  ๋•Œ, ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์•„ํ‚คํ…์ฒ˜ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ํ•œ ๊ฐ€์ง€ ์ฐจ์ด์ ์ด ์žˆ๋‹ค: ์šฐ๋ฆฌ๋Š”ย ๋ชฉํ‘œ ๋ชจ๋ธ ๊ทœ๋ชจ์—์„œ ์‹คํ–‰ํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•ด์•ผ ํ•œ๋‹ค. ์ž‘์€ ๋ชจ๋ธ๊ณผ ํฐ ๋ชจ๋ธ์€ ๋‹ค๋ฅธ ์šฉ๋Ÿ‰์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งค์šฐ ์ž‘์€ ๋ชจ๋ธ์€ ๋งŽ์€ ์–ธ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์„ ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, ๋” ํฐ ๋ชจ๋ธ์€ ๋‹ค๋ฅธ ๊ณณ์—์„œ ์„ฑ๋Šฅ์„ ํฌ์ƒํ•˜์ง€ ์•Š๊ณ  ๊ทธ๊ฒƒ๋“ค์„ ํก์ˆ˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋„ˆ๋ฌด ์ž‘์€ ๊ทœ๋ชจ์—์„œ ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๋ฉด ์ตœ์ ์˜ ํ˜ผํ•ฉ์— ๋Œ€ํ•ด ์ž˜๋ชป๋œ ๊ฒฐ๋ก ์„ ๋„์ถœํ•  ์œ„ํ—˜์ด ์žˆ๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 50B ๋ฐ 100B ํ† ํฐ์˜ ๋” ์งง์€ ํ•™์Šต ์‹คํ–‰์„ ์‚ฌ์šฉํ•˜์—ฌ 30B๋ชจ๋ธ์—์„œ ์ง์ ‘ ์ฃผ์š” ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๋‹ค๋ฅธ ์œ ํ˜•์˜ ์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •์„ ์‚ฌ์šฉํ–ˆ๋‹ค:ย ์–ด๋‹๋ง(annealing) ์‹คํ—˜์ด๋‹ค. ๋‹ค๋ฅธ ํ˜ผํ•ฉ์œผ๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” ์ฃผ ์‹คํ–‰์—์„œ ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ (์˜ˆ๋ฅผ ๋“ค์–ด 7์กฐ ํ† ํฐ์—์„œ)๋ฅผ ๊ฐ€์ ธ์™€ ์ˆ˜์ •๋œ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์œผ๋กœ ํ•™์Šต์„ ๊ณ„์†ํ–ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋‹ค๋‹จ๊ณ„ ํ•™์Šต (์ฆ‰, ํ•™์Šต ์ค‘๊ฐ„์— ํ•™์Šต ํ˜ผํ•ฉ ๋ณ€๊ฒฝ)์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๋ณ€๊ฒฝ์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋ฉฐ, SmolLM2, Llama3 ๋ฐ Olmo2์™€ ๊ฐ™์€ ์ตœ๊ทผ ์ž‘์—…์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ํ‘œ์ค€ ์˜์–ด ํ‰๊ฐ€์™€ ํ•จ๊ป˜ ๋‹ค๊ตญ์–ด ์ž‘์—…์„ ํฌํ•จํ•˜๋„๋ก ๋ฒค์น˜๋งˆํฌ ์Šค์œ„ํŠธ๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋‹ค๋ฅธ ์–ธ์–ด ๋น„์œจ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์žฅํ–ˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 3.34.49.png

์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ์ตœ์ ์˜ ๋ฐ์ดํ„ฐ ๋น„์œจ์„ ์ฐพ๊ธฐ ์œ„ํ•œ ์ž๋™ํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค.:

์šฐ๋ฆฌ๋Š” ๊ณผ๊ฑฐ ํ”„๋กœ์ ํŠธ์—์„œ DoReMi์™€ Rho Loss๋ฅผ ์‹คํ—˜ํ–ˆ์ง€๋งŒ, ๊ทธ๊ฒƒ๋“ค์ด ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ถ„ํฌ๋ฅผ ๋Œ€๋žต ๋ฐ˜์˜ํ•˜๋Š” ๋ถ„ํฌ๋กœ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๋ณธ์งˆ์ ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ๋” ๋งŽ์ด ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฒƒ์„ ๋” ๋งŽ์ด ์‚ฌ์šฉํ•˜๋ผ๊ณ  ์ œ์•ˆํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ก ์ ์œผ๋กœ ๋งค๋ ฅ์ ์ด์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ์ง์ ‘ ์„ค์ •ํ•œ ์‹ ์ค‘ํ•œ ์ˆ˜๋™ ์ œ๊ฑฐ ์‹คํ—˜๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•˜์ง€ ์•Š์•˜๋‹ค. ์ตœ๊ทผ SOTA ๋ชจ๋ธ๋“ค์€ ์—ฌ์ „ํžˆ ์ฒด๊ณ„์ ์ธ ์ œ๊ฑฐ ์‹คํ—˜ ๋ฐ ์–ด๋‹๋ง ์‹คํ—˜์„ ํ†ตํ•œ ์ˆ˜๋™ ํ˜ผํ•ฉ ํŠœ๋‹์— ์˜์กดํ•˜๋ฉฐ, ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ SmolLM3์— ์ฑ„ํƒํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.

SmolLM3: ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ํ๋ ˆ์ด์…˜ (์›น, ๋‹ค๊ตญ์–ด, ์ˆ˜ํ•™, ์ฝ”๋“œ)

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์˜์–ด์™€ ์—ฌ๋Ÿฌ ๋‹ค๋ฅธ ์–ธ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ณ  ์ˆ˜ํ•™๊ณผ ์ฝ”๋“œ์—์„œ ๋›ฐ์–ด๋‚œ ๋ชจ๋ธ์„ ์›ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋„๋ฉ”์ธ โ€” ์›น ํ…์ŠคํŠธ, ๋‹ค๊ตญ์–ด ์ฝ˜ํ…์ธ , ์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™ โ€” ์€ ๋Œ€๋ถ€๋ถ„์˜ LLM์—์„œ ์ผ๋ฐ˜์ ์ด์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ์—ฌ๊ธฐ์„œ ์„ค๋ช…ํ•  ํ”„๋กœ์„ธ์Šค๋Š” ์ €์ž์› ์–ธ์–ด๋‚˜ ๊ธˆ์œต ๋˜๋Š” ์˜๋ฃŒ์™€ ๊ฐ™์€ ํŠน์ • ๋„๋ฉ”์ธ์„ ์œ„ํ•ด ํ•™์Šตํ•˜๋Š” ๊ฒฝ์šฐ์—๋„ ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋œ๋‹ค. ๋ฐฉ๋ฒ•์€ ๋™์ผํ•˜๋‹ค: ์ข‹์€ ํ›„๋ณด ๋ฐ์ดํ„ฐ์…‹์„ ์‹๋ณ„ํ•˜๊ณ , ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ณ , ๋ชจ๋“  ๋ชฉํ‘œ ๋„๋ฉ”์ธ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ํ˜ผํ•ฉ์„ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์šฐ๋ฆฌ๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ๊ธฐ์„œ ๋‹ค๋ฃจ์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. ์ด์ „ ์ž‘์—… (FineWeb, FineWeb2, FineMath ๋ฐ Stack-Edu)์—์„œ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์ž์„ธํžˆ ์„ค๋ช…ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋Œ€์‹ , ์ด ์„น์…˜์€ ๊ทธ๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์…‹๋“ค์„ ํšจ๊ณผ์ ์ธ ์‚ฌ์ „ ํ•™์Šต ํ˜ผํ•ฉ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ์ค‘์ ์„ ๋‘”๋‹ค.

๊ฒ€์ฆ๋œ ๊ธฐ๋ฐ˜ ์œ„์— ๊ตฌ์ถ•ํ•˜๊ธฐ

์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ข‹์€ ์†Œ์‹์€ ์šฐ๋ฆฌ๊ฐ€ ๊ฑฐ์˜ ์ฒ˜์Œ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•  ํ•„์š”๋Š” ์—†๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์˜คํ”ˆ ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ์ด๋ฏธ ๋Œ€๋ถ€๋ถ„์˜ ์ผ๋ฐ˜์ ์ธ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•ด์™”๋‹ค. ๋•Œ๋กœ๋Š” ์šฐ๋ฆฌ๊ฐ€ Fine ์‹œ๋ฆฌ์ฆˆ (FineWeb, FineMath ๋“ฑ)์™€ ํ•จ๊ป˜ ํ–ˆ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ ์ƒˆ๋กœ์šด ๊ฒƒ์„ ๋งŒ๋“ค์–ด์•ผ ํ•  ํ•„์š”๊ฐ€ ์žˆ์„ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, ๋„์ „์€ ๊ธฐ์กด ์†Œ์Šค๋ฅผ ๋‹ค์‹œ ๋ฐœ๋ช…ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์„ ํƒํ•˜๊ณ  ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐ์— ๋” ํ”ํ•˜๋‹ค.

๊ทธ๊ฒƒ์ด SmolLM3์—์„œ์˜ ์šฐ๋ฆฌ ์ƒํ™ฉ์ด์—ˆ๋‹ค. SmolLM2๋Š” ์ด๋ฏธ ์˜์–ด ์›น ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด 1.7B ๋งค๊ฐœ๋ณ€์ˆ˜์—์„œ ๊ฐ•๋ ฅํ•œ ๋ ˆ์‹œํ”ผ๋ฅผ ํ™•๋ฆฝํ–ˆ๊ณ , ์šฐ๋ฆฌ๊ฐ€ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๊ณ ์˜ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ์…‹๋กœ ํ™•์ธ๋˜์—ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ํŠน์ • ๊ธฐ๋Šฅ๋“ค์„ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ๊ทธ ์„ฑ๊ณต์„ 3B์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด์—ˆ๋‹ค: ๊ฒฌ๊ณ ํ•œ ๋‹ค๊ตญ์–ด์„ฑ, ๋” ๊ฐ•๋ ฅํ•œ ์ˆ˜ํ•™์  ์ถ”๋ก , ๊ทธ๋ฆฌ๊ณ  ๋” ๋‚˜์€ ์ฝ”๋“œ ์ƒ์„ฑ์ด๋‹ค.

์˜์–ด ์›น ๋ฐ์ดํ„ฐ: ๊ธฐ์ดˆ ๋ ˆ์ด์–ด

์›น ํ…์ŠคํŠธ๋Š” ๋ชจ๋“  ๋ฒ”์šฉ LLM์˜ ์ค‘์ถ”๋ฅผ ํ˜•์„ฑํ•˜์ง€๋งŒ, ํ’ˆ์งˆ์€ ์–‘๋งŒํผ์ด๋‚˜ ์ค‘์š”ํ•˜๋‹ค.

SmolLM3๋กœ๋ถ€ํ„ฐ, ์šฐ๋ฆฌ๋Š” FineWeb-Edu์™€ DCLM์ด ํ•™์Šต ๋‹น์‹œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ ์˜์–ด ์›น ๋ฐ์ดํ„ฐ์…‹์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ์—ˆ๋‹ค. ํ•จ๊ป˜, ๊ทธ๋“ค์€ ์šฐ๋ฆฌ์—๊ฒŒ 5.1์กฐ ํ† ํฐ์˜ ๊ณ ํ’ˆ์งˆ ์˜์–ด ์›น ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค. ์ด ๋•Œ ์งˆ๋ฌธ์€: ์ตœ์ ์˜ ํ˜ผํ•ฉ ๋น„์œจ์€ ๋ฌด์—‡์ธ๊ฐ€? ์ด๋‹ค. FineWeb-Edu๋Š” ๊ต์œก ๋ฐ STEM ๋ฒค์น˜๋งˆํฌ์— ๋„์›€์ด ๋˜๋Š” ๋ฐ˜๋ฉด, DCLM์€ ์ƒ์‹ ์ถ”๋ก ์„ ๊ฐœ์„ ํ•œ๋‹ค.

SmolLM2 ๋ฐฉ๋ฒ•๋ก ์„ ๋”ฐ๋ฅด๋ฉฐ, ์šฐ๋ฆฌ๋Š” 3B ๋ชจ๋ธ์—์„œ 100B ํ† ํฐ์— ๋Œ€ํ•ด ์Šค์œ•์„ ์‹คํ–‰ํ•˜์—ฌ 20/80, 40/60, 50/50, 60/40, ๋ฐ 80/20 (FineWeb-Edu/DCLM) ๋น„์œจ์„ ํ…Œ์ŠคํŠธํ–ˆ๋‹ค. ๊ทธ๊ฒƒ๋“ค์„ ํ˜ผํ•ฉํ•˜๋Š” ๊ฒƒ (์•ฝ 60/40 ๋˜๋Š” 50/50์œผ๋กœ)์ด ์ตœ๊ณ ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” 100B ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 3B ๋ชจ๋ธ์—์„œ SmolLM2 ๋…ผ๋ฌธ๊ณผ ๋™์ผํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ๋‹ค์‹œ ์‹คํ–‰ํ–ˆ๊ณ  ๋™์ผํ•œ ๊ฒฐ๋ก ์„ ์–ป์—ˆ๋‹ค.

60/40 ๋˜๋Š” 50/50์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ฒค์น˜๋งˆํฌ ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ฐ€์žฅ ์ข‹์€ ๊ท ํ˜•์„ ์ œ๊ณตํ•˜์—ฌ, ์šฐ๋ฆฌ์˜ SmolLM2 ๋ฐœ๊ฒฌ๊ณผ ์ผ์น˜ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” 1๋‹จ๊ณ„(Stage 1)์—ย 50/50 ๋น„์œจ์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ Pes2o, Wikipedia & Wikibooks ๋ฐ StackExchange์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์•˜์ง€๋งŒ ๋‹ค์–‘์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ํฌํ•จ์‹œ์ผฐ๋‹ค.

๋‹ค๊ตญ์–ด ์›น ๋ฐ์ดํ„ฐ

๋‹ค๊ตญ์–ด ๊ธฐ๋Šฅ์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” 5๊ฐœ์˜ ๋‹ค๋ฅธ ์–ธ์–ด๋ฅผ ๋ชฉํ‘œ๋กœ ์‚ผ์•˜๋‹ค: ํ”„๋ž‘์Šค์–ด, ์ŠคํŽ˜์ธ์–ด, ๋…์ผ์–ด, ์ดํƒˆ๋ฆฌ์•„์–ด, ๊ทธ๋ฆฌ๊ณ  ํฌ๋ฅดํˆฌ๊ฐˆ์–ด์ด๋‹ค. ์šฐ๋ฆฌ๋Š” FineWeb2-HQ์—์„œ ๊ทธ๊ฒƒ๋“ค์„ ์„ ํƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์šฐ๋ฆฌ์—๊ฒŒ ์ด 628B ํ† ํฐ์„ ์ œ๊ณตํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ์ค‘๊ตญ์–ด, ์•„๋ž์–ด, ๋Ÿฌ์‹œ์•„์–ด์™€ ๊ฐ™์€ 10๊ฐœ์˜ ๋‹ค๋ฅธ ์–ธ์–ด๋ฅผ ๋” ์ž‘์€ ๋น„์œจ๋กœ ํฌํ•จ์‹œ์ผฐ๋‹ค. ์ด๋Š” ๊ทธ๊ฒƒ๋“ค์— ๋Œ€ํ•ด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ธฐ ์œ„ํ•จ์ด ์•„๋‹ˆ๋ผ, ์‚ฌ๋žŒ๋“ค์ด ๊ทธ๊ฒƒ๋“ค์— ๋Œ€ํ•ด SmolLM3์˜ ์ง€์† ์‚ฌ์ „ ํ•™์Šต(continual pretraining)์„ ์‰ฝ๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ธฐ ์œ„ํ•จ์ด์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” FineWeb2-HQ์—์„œ ์ง€์›๋˜์ง€ ์•Š๋Š” ์–ธ์–ด์—๋Š” FineWeb2๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

ํ•ต์‹ฌ ์งˆ๋ฌธ์€ ์ด๊ฒƒ์ด๋‹ค: ์šฐ๋ฆฌ ์›น ๋ฐ์ดํ„ฐ์˜ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋ถ€๋ถ„์ด ๋น„์˜์–ด์—ฌ์•ผ ํ•˜๋Š”๊ฐ€? ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์ด ์–ธ์–ด๋‚˜ ๋„๋ฉ”์ธ์—์„œ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณผ์ˆ˜๋ก ํ•ด๋‹น ์–ธ์–ด๋‚˜ ๋„๋ฉ”์ธ์—์„œ ๋” ์ข‹์•„์ง„๋‹ค๋Š” ๊ฒƒ์„ ์•ˆ๋‹ค. ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” ์šฐ๋ฆฌ์˜ ๊ณ ์ •๋œ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์—์„œ ๋น„๋กฏ๋œ๋‹ค: ํ•œ ์–ธ์–ด์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์€ ์˜์–ด๋ฅผ ํฌํ•จํ•œ ๋‹ค๋ฅธ ์–ธ์–ด์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๊ฒŒ ๋œ๋‹ค.

3B ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ํ†ตํ•ด, ์šฐ๋ฆฌ๋Š” ์›น ํ˜ผํ•ฉ์—์„œย 12% ๋‹ค๊ตญ์–ด ์ฝ˜ํ…์ธ ๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ๊ท ํ˜•์„ ์ด๋ฃจ์–ด ์˜์–ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ €ํ•˜์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ ๋‹ค๊ตญ์–ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์˜์–ด๊ฐ€ ์ฃผ ์–ธ์–ด๋กœ ๋‚จ์„ SmolLM3์˜ ์˜ˆ์ƒ ์‚ฌ์šฉ๋Ÿ‰์— ๋งž์•˜๋‹ค. ๋˜ํ•œ 5.1T ์˜์–ด ํ† ํฐ์— ๋น„ํ•ด ๋‹จ์ง€ 628B ํ† ํฐ์˜ ๋น„์˜์–ด ๋ฐ์ดํ„ฐ๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ํ›จ์”ฌ ๋” ๋†’๊ฒŒ ๊ฐ€๋Š” ๊ฒƒ์€ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ์˜ ๋” ๋งŽ์€ ๋ฐ˜๋ณต์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ๋„ ๊ณ ๋ คํ• ๋งŒํ–ˆ๋‹ค.

์ฝ”๋“œ ๋ฐ์ดํ„ฐ

1๋‹จ๊ณ„๋ฅผ ์œ„ํ•œ ์šฐ๋ฆฌ์˜ ์ฝ”๋“œ ์†Œ์Šค๋Š” The Stack v2์™€ StarCoder2 ํ•™์Šต ์ฝ”ํผ์Šค์—์„œ ์ถ”์ถœ๋˜์—ˆ๋‹ค:

Aryabumi et al. (2024)์€ ์ฝ”๋“œ๊ฐ€ ์ฝ”๋”ฉ์„ ๋„˜์–ด ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ž์—ฐ์–ด ์ถ”๋ก  ๋ฐ ์„ธ๊ณ„ ์ง€์‹์—์„œ ๊ทธ๋ ‡๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ํ˜ผํ•ฉ์— 25% ์ฝ”๋“œ๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ๊ถŒ์žฅํ•œ๋‹ค. ์ด ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌ๋ฐ›์•„, ์šฐ๋ฆฌ๋Š” ํ˜ผํ•ฉ์— 25% ์ฝ”๋“œ๋กœ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹œ์ž‘ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” ์˜์–ด ๋ฒค์น˜๋งˆํฌ (HellaSwag, ARC-C, MMLU)์—์„œ ์ƒ๋‹นํ•œ ์ €ํ•˜๋ฅผ ๊ด€์ฐฐํ–ˆ๋‹ค. ์ฝ”๋“œ๋ฅผ 10%๋กœ ์ค„์˜€์„ ๋•Œ, 0% ์ฝ”๋“œ์— ๋น„ํ•ด ์˜์–ด ๋ฒค์น˜๋งˆํฌ ์Šค์œ„ํŠธ์—์„œ ๊ฐœ์„ ์„ ๋ณด์ง€ ๋ชปํ–ˆ์ง€๋งŒ, ์ฝ”๋“œ๋Š” ๋ชจ๋ธ์— ์žˆ์–ด์•ผ ํ•  ๋งค์šฐ ์ค‘์š”ํ•œ ๊ธฐ๋Šฅ์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์–ด์จŒ๋“  ํฌํ•จ์‹œ์ผฐ๋‹ค.

์šฐ๋ฆฌ๋Š” Stack-Edu โ€” ๊ต์œก์ ์œผ๋กœ ํ•„ํ„ฐ๋ง๋œ StarCoder2Data์˜ ํ•˜์œ„ ์ง‘ํ•ฉ โ€” ์ถ”๊ฐ€๋ฅผ ๋‚˜์ค‘ ๋‹จ๊ณ„๊นŒ์ง€ ๋ฏธ๋ฃจ์–ด, ์ตœ๋Œ€ํ•œ ํ›„๋ฐ˜ ํ•™์Šต ํšจ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ๋„์ž…ํ•œ๋‹ค๋Š” ์›์น™์„ ๋”ฐ๋ž๋‹ค.

์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ

์ˆ˜ํ•™์€ ์ฝ”๋“œ์™€ ์œ ์‚ฌํ•œ ์ฒ ํ•™์„ ๋”ฐ๋ž๋‹ค. ์ดˆ๊ธฐ์—๋Š”, ๋” ํฌ๊ณ  ๋” ์ผ๋ฐ˜์ ์ธ ์„ธํŠธ์ธ FineMath3+ ๋ฐ InfiWebMath3+๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , ๋‚˜์ค‘์— FineMath4+ ๋ฐ InfiWebMath4+๋ฅผ ์—…์ƒ˜ํ”Œ๋งํ–ˆ์œผ๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๋„์ž…ํ–ˆ๋‹ค:

์šฐ๋ฆฌ๋Š” 1๋‹จ๊ณ„์—์„œ ์ˆ˜ํ•™์˜ 3%๋ฅผ FineMath3+์™€ InfiWebMath3+ ์‚ฌ์ด์— ๊ท ๋“ฑํ•˜๊ฒŒ ๋‚˜๋ˆ„์–ด ์‚ฌ์šฉํ•œ๋‹ค. ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ง€ 54B ํ† ํฐ๋งŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ  1๋‹จ๊ณ„๊ฐ€ 8T์—์„œ 9T ํ† ํฐ์œผ๋กœ ์ถ”์ •๋˜๋Š” ์ƒํ™ฉ์—์„œ, 3% ์ด์ƒ์˜ ์ˆ˜ํ•™์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด 5 ์—ํฌํฌ ์ด์ƒ์„ ์š”๊ตฌํ•˜๊ฒŒ ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ƒˆ๋กœ์šด ๋‹จ๊ณ„๋ฅผ ์œ„ํ•œ ์˜ฌ๋ฐ”๋ฅธ ํ˜ผํ•ฉ ์ฐพ๊ธฐ

์šฐ๋ฆฌ๋Š” 1๋‹จ๊ณ„ ํ˜ผํ•ฉ์„ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ฒ˜์Œ๋ถ€ํ„ฐ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ์ง€๋งŒ, ์ƒˆ๋กœ์šด ๋‹จ๊ณ„ (์šฐ๋ฆฌ์˜ ๊ฒฝ์šฐ ๋‘ ๊ฐœ์˜ ์ƒˆ๋กœ์šด ๋‹จ๊ณ„)๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š”ย ์–ด๋‹๋ง ์ œ๊ฑฐ ์‹คํ—˜์„ ์‚ฌ์šฉํ–ˆ๋‹ค: ์šฐ๋ฆฌ๋Š” ์•ฝ 7์กฐ ํ† ํฐ (1๋‹จ๊ณ„ ํ›„๋ฐ˜)์—์„œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๊ฐ€์ ธ์™€ ๋‹ค์Œ ์„ค์ •์œผ๋กœ 50B ํ† ํฐ ์–ด๋‹๋ง ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค:

์˜ˆ๋ฅผ ๋“ค์–ด, MegaMath๊ฐ€ ์šฐ๋ฆฌ์˜ ์ˆ˜ํ•™ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ์ง€ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” 40% 1๋‹จ๊ณ„ ํ˜ผํ•ฉ (75/12/10/3 ๋„๋ฉ”์ธ ๋ถ„ํ•  ์œ ์ง€)๊ณผ 60% MegaMath๋ฅผ ์‹คํ–‰ํ–ˆ๋‹ค.

๋‹ค์Œ ์„น์…˜์—์„œ 3๋‹จ๊ณ„์˜ ๊ตฌ์„ฑ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ๊ฐ€ ์‹ ์ค‘ํ•˜๊ฒŒ ํ๋ ˆ์ด์…˜๋˜๊ณ  ํ˜ผํ•ฉ์ด ์ œ๊ฑฐ ์‹คํ—˜์„ ํ†ตํ•ด ๊ฒ€์ฆ๋˜์—ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์‹ค์ œ ํ•™์Šต ์—ฌ์ •์„ ์‹œ์ž‘ํ•  ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค. ์ด์–ด์ง€๋Š” ์ฑ•ํ„ฐ๋Š” SmolLM3์˜ ํ•œ ๋‹ฌ ๋™์•ˆ์˜ ํ•™์Šต ์‹คํ–‰์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ์ด๋‹ค: ์ค€๋น„, ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋„์ „ ๊ณผ์ œ, ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๊ณผ์ •์—์„œ ๋ฐฐ์šด ๊ตํ›ˆ๋“ค์ด๋‹ค.

The training marathon

์—ฌ๊ธฐ๊นŒ์ง€ ์™”๋‹ค๋‹ˆ, ์ถ•ํ•˜ํ•œ๋‹ค! ์ง„์งœ ์žฌ๋ฏธ๋Š” ์ด์ œ ์‹œ์ž‘๋˜๋ ค ํ•œ๋‹ค.

์ด ์‹œ์ ์—์„œ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ์ œ์ž๋ฆฌ์— ๊ฐ–์ถ”์—ˆ๋‹ค: ๊ฒ€์ฆ๋œ ์•„ํ‚คํ…์ฒ˜, ํ™•์ •๋œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ, ๊ทธ๋ฆฌ๊ณ  ํŠœ๋‹๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ. ๋‚จ์€ ์œ ์ผํ•œ ์ผ์€ ์ธํ”„๋ผ๋ฅผ ์„ค์ •ํ•˜๊ณ  โ€œํ•™์Šตโ€ ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋Š” ๊ฒƒ์ด๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ๊ฑฐ์˜ ํ•œ ๋‹ฌ ๋™์•ˆ 384๊ฐœ์˜ H100 GPU (48๊ฐœ ๋…ธ๋“œ)์—์„œ ํ•™์Šต์‹œ์ผœ 11์กฐ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ–ˆ๋‹ค. ์ด ์„น์…˜์€ ๊ธด ํ•™์Šต ์‹คํ–‰ ์ค‘์— ์‹ค์ œ๋กœ ์ผ์–ด๋‚˜๋Š” ์ผ์„ ์•ˆ๋‚ดํ•œ๋‹ค: ๋น„ํ–‰ ์ „ ์ ๊ฒ€, ๋ถˆ๊ฐ€ํ”ผํ•œ ๋†€๋ผ์›€, ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๊ฐ€ ์ƒํ™ฉ์„ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€ํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค. ์—ฌ๋Ÿฌ๋ถ„์€ ์™œ ๊ฒฌ๊ณ ํ•œ ์ œ๊ฑฐ ์‹คํ—˜ ๊ด€ํ–‰๊ณผ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ธํ”„๋ผ๊ฐ€ ๋ชจ๋‘ ์ค‘์š”ํ•œ์ง€ ์ง์ ‘ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” GPU ํ•˜๋“œ์›จ์–ด, ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ, ๊ทธ๋ฆฌ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰ ์ตœ์ ํ™”์˜ ๊ธฐ์ˆ ์ ์ธ ์ธํ”„๋ผ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋งˆ์ง€๋ง‰ ์ฑ•ํ„ฐ์—์„œ ๋‹ค๋ฃฌ๋‹ค.

์šฐ๋ฆฌ ํŒ€์€ ์ด๊ฒƒ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๊ฒช์–ด์™”๋‹ค: StarCoder์™€ StarCoder2์—์„œ๋ถ€ํ„ฐ SmolLM, SmolLM2, ๊ทธ๋ฆฌ๊ณ  ์ด์ œ SmolLM3์— ์ด๋ฅด๊ธฐ๊นŒ์ง€. ๋ชจ๋“  ๋‹จ์ผ ์‹คํ–‰์€ ๋‹ค๋ฅด๋‹ค. ์‹ญ์—ฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋”๋ผ๋„, ๊ฐ ์ƒˆ๋กœ์šด ์‹คํ–‰์€ ์—ฌ๋Ÿฌ๋ถ„์„ ๋†€๋ผ๊ฒŒ ํ•  ์‹ ์„ ํ•œ ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š”๋‹ค. ์ด ์„น์…˜์€ ์—ฌ๋Ÿฌ๋ถ„์—๊ฒŒ ์œ ๋ฆฌํ•˜๊ฒŒ ํ™•๋ฅ ์„ ์Œ“์•„ ๊ทธ๋Ÿฌํ•œ ๋†€๋ผ์›€์— ๋Œ€๋น„ํ•˜๋Š” ๊ฒƒ์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค.

๋น„ํ–‰ ์ „ ์ ๊ฒ€ ๋ชฉ๋ก: โ€œํ•™์Šตโ€์„ ๋ˆ„๋ฅด๊ธฐ ์ „์— ํ™•์ธํ•ด์•ผ ํ•  ์‚ฌํ•ญ

โ€œํ•™์Šตโ€์„ ๋ˆ„๋ฅด๊ธฐ ์ „์—, ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๊ฒƒ์ด ์ข…๋‹จ ๊ฐ„(end-to-end)์œผ๋กœ ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ ๊ฒ€ ๋ชฉ๋ก์„ ๊ฑฐ์ณ์•ผ ํ•œ๋‹ค:

์ธํ”„๋ผ ์ค€๋น„ ์ƒํƒœ:

ํ‰๊ฐ€ ์„ค์ •:ย ํ‰๊ฐ€๋Š” ๋ฏฟ์„ ์ˆ˜ ์—†์„ ์ •๋„๋กœ ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฐ๋‹ค. ๋ชจ๋“  ๊ฒƒ์ด ๊ตฌํ˜„๋˜์–ด ์žˆ๋”๋ผ๋„, ์ˆ˜๋™์œผ๋กœ ์‹คํ–‰ํ•˜๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ•˜๊ณ , ํ”Œ๋กฏ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ๋งค๋ฒˆ ๋ช‡ ์‹œ๊ฐ„์„ ์žก์•„๋จน์„ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์™„์ „ํžˆ ์ž๋™ํ™”ํ•˜๊ณ , ์‹คํ–‰์ด ์‹œ์ž‘๋˜๊ธฐ ์ „์— ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์‹คํ–‰๋˜๊ณ  ๊ธฐ๋ก๋˜๋Š”์ง€ ํ™•์ธํ•ด๋ผ. SmolLM3์˜ ๊ฒฝ์šฐ, ์ €์žฅ๋œ ๋ชจ๋“  ์ฒดํฌํฌ์ธํŠธ๊ฐ€ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ํ‰๊ฐ€ ์ž‘์—…์„ ์ž๋™์œผ๋กœ ํŠธ๋ฆฌ๊ฑฐํ•˜์—ฌ Wandb์™€ Trackio์— ๊ธฐ๋ก๋˜๋„๋ก ํ–ˆ๋‹ค.

์ฒดํฌํฌ์ธํŠธ ๋ฐ ์ž๋™ ์žฌ์‹œ์ž‘ ์‹œ์Šคํ…œ:ย ์ฒดํฌํฌ์ธํŠธ๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ €์žฅ๋˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ์ž‘์—…์ด ์ˆ˜๋™ ๊ฐœ์ž… ์—†์ด ์ตœ์‹  ์ฒดํฌํฌ์ธํŠธ์—์„œ ์žฌ๊ฐœ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•ด๋ผ. Slurm์—์„œ๋Š” ์‹คํŒจํ•œ ์ž‘์—…์ด ์ž๋™์œผ๋กœ ๋‹ค์‹œ ์‹œ์ž‘๋˜์–ด ๊ฐ€์žฅ ์ตœ๊ทผ ์ฒดํฌํฌ์ธํŠธ์—์„œ ์žฌ๊ฐœ๋˜๋„๋กย โ€”requeueย ์˜ต์…˜์„ ์‚ฌ์šฉํ•œ๋‹ค.

์ง€ํ‘œ ๋กœ๊น…:ย ์—ฌ๋Ÿฌ๋ถ„์ด ์‹ ๊ฒฝ ์“ฐ๋Š” ๋ชจ๋“  ์ง€ํ‘œ๋ฅผ ๋กœ๊น…ํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•ด๋ผ: ํ‰๊ฐ€ ์ ์ˆ˜, ์ฒ˜๋ฆฌ๋Ÿ‰ (ํ† ํฐ/์ดˆ), ํ•™์Šต ์†์‹ค, ๊ธฐ์šธ๊ธฐ ๋…ธ๋ฆ„, ๋…ธ๋“œ ์ƒํƒœ (GPU ํ™œ์šฉ๋ฅ , ์˜จ๋„, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰), ๊ทธ๋ฆฌ๊ณ  ์‹คํ–‰์— ํŠน์ •ํ•œ ๋ชจ๋“  ์‚ฌ์šฉ์ž ์ •์˜ ๋””๋ฒ„๊ทธ ์ง€ํ‘œ์ด๋‹ค.

ํ•™์Šต ๊ตฌ์„ฑ ์˜จ์ „์„ฑ (Sanity) ๊ฒ€์‚ฌ:ย ํ•™์Šต ์„ค์ •, ์‹œ์ž‘ ์Šคํฌ๋ฆฝํŠธ, ๊ทธ๋ฆฌ๊ณ  Slurm ์ œ์ถœ ๋ช…๋ น์„ ๋‹ค์‹œ ํ™•์ธํ•œ๋‹ค.

์ธํ”„๋ผ ์‹ฌ์ธต ๋ถ„์„

GPU ํ…Œ์ŠคํŠธ, ์Šคํ† ๋ฆฌ์ง€ ๋ฒค์น˜๋งˆํ‚น, ๋ชจ๋‹ˆํ„ฐ๋ง ์„ค์ •, ๊ทธ๋ฆฌ๊ณ  ํƒ„๋ ฅ์ ์ธ ํ•™์Šต ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์•ˆ๋‚ด๋Š” ์ธํ”„๋ผ ์ฑ•ํ„ฐ๋ฅผ ํ™•์ธํ•˜๋ผ.

์Šค์ผ€์ผ๋ง์˜ ๋†€๋ผ์›€

SmolLM3์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ•œ ํ›„, ์šฐ๋ฆฌ๋Š” ์ „์ฒด ๊ทœ๋ชจ ์‹คํ–‰์„ ์œ„ํ•œ ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค. 100B ํ† ํฐ์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ 3B ์ œ๊ฑฐ ์‹คํ—˜์€ ์œ ๋งํ•ด ๋ณด์˜€๋‹ค. SmolLM2์™€ ๋น„๊ตํ•œ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์‚ฌํ•ญ (์•„ํ‚คํ…์ฒ˜ ์„ ํƒ ํŒŒํŠธ์—์„œ ์ž์„ธํžˆ ์„ค๋ช…๋จ: GQA, NoPE, ๋ฌธ์„œ ๋งˆ์Šคํ‚น, ํ† ํฌ๋‚˜์ด์ €)์€ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ฑฐ๋‚˜ ์œ ์ง€ํ–ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ์˜์–ด, ๋‹ค๊ตญ์–ด, ์ฝ”๋“œ, ๋ฐ ์ˆ˜ํ•™ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ข‹์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์ฐพ์•˜๋‹ค (๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜์˜ ๊ธฐ์ˆ  ํŒŒํŠธ ์ฐธ์กฐ). ์šฐ๋ฆฌ๋Š” 384๊ฐœ GPU (48๊ฐœ ๋…ธ๋“œ)์—์„œ ์•ฝ 30% MFU๋ฅผ ์œ„ํ•ด ๊ตฌ์„ฑ์„ ์ตœ์ ํ™”ํ–ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ํฐ ํ•˜๋‚˜์˜ ํ•™์Šต์„ ์œ„ํ•œ ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค: 11์กฐ ํ† ํฐ. ๊ทธ๋•Œ ํ˜„์‹ค์ด ์ปค๋ธŒ๋ณผ์„ ๋˜์ง€๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.

๋ฏธ์Šคํ„ฐ๋ฆฌ #1 โ€“ ์‚ฌ๋ผ์ง„ ์ฒ˜๋ฆฌ๋Ÿ‰

์‹œ์ž‘ ๋ช‡ ์‹œ๊ฐ„ ๋งŒ์—, ์ฒ˜๋ฆฌ๋Ÿ‰์ด ๊ธ‰๊ฐํ–ˆ๋‹ค. ๋ฐ˜๋ณต์ ์ธ ๊ธ‰๊ฒฉํ•œ ํ•˜๋ฝ๊ณผ ํ•จ๊ป˜ ํฐ ์ ํ”„์˜€๋‹ค.

๐Ÿ“์ฒ˜๋ฆฌ๋Ÿ‰์ด ์ค‘์š”ํ•œ ์ด์œ 

์ฒ˜๋ฆฌ๋Ÿ‰์€ ํ•™์Šต ์ค‘ ์šฐ๋ฆฌ ์‹œ์Šคํ…œ์ด ์ดˆ๋‹น ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•œ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ์˜ ํ•™์Šต ์‹œ๊ฐ„์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์ฒ˜๋ฆฌ๋Ÿ‰์ด 50% ๋–จ์–ด์ง€๋ฉด ์šฐ๋ฆฌ์˜ ํ•œ ๋‹ฌ ์‹คํ–‰์€ ๋‘ ๋‹ฌ ์‹คํ–‰์ด ๋œ๋‹ค. ์ธํ”„๋ผ ์ฑ•ํ„ฐ์—์„œ, ์šฐ๋ฆฌ๋Š” ์‹คํ–‰์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— SmolLM3๋ฅผ ์œ„ํ•ด ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ–ˆ๋Š”์ง€ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.34.52.png

์ด๊ฒƒ์€ ์–ด๋–ค ์ œ๊ฑฐ ์‹คํ—˜ ์‹คํ–‰์—์„œ๋„ ์ผ์–ด๋‚˜์ง€ ์•Š์•˜์—ˆ๋‹ค. ๋ฌด์—‡์ด ๋ฐ”๋€Œ์—ˆ๋Š”๊ฐ€? ์„ธ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค:

  1. ํ•˜๋“œ์›จ์–ด ์ƒํƒœ๋Š” ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๋ณ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์ž˜ ์ž‘๋™ํ–ˆ๋˜ GPU๊ฐ€ ์‹คํŒจํ•  ์ˆ˜ ์žˆ๊ณ  ์ง€์†์ ์ธ ๋ถ€ํ•˜ ํ•˜์—์„œ ๋„คํŠธ์›Œํฌ ์—ฐ๊ฒฐ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ๋‹ค.
  2. ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ. ์šฐ๋ฆฌ๋Š” ์ด์ œ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์‚ฌ์šฉํ•˜๋˜ ๋” ์ž‘์€ ํ•˜์œ„ ์ง‘ํ•ฉ ๋Œ€์‹  ์ „์ฒด ~24 TB ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ๋ฐ์ดํ„ฐ ์†Œ์Šค ์ž์ฒด๋Š” ๋™์ผํ–ˆ๋‹ค.
  3. ํ•™์Šต ๋‹จ๊ณ„ ์ˆ˜. ์šฐ๋ฆฌ๋Š” ์งง์€ 100B ํ† ํฐ ์ œ๊ฑฐ ์‹คํ—˜ ๊ธฐ๊ฐ„ ๋Œ€์‹  11์กฐ ํ† ํฐ์— ๋Œ€ํ•œ ์‹ค์ œ ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ์„ค์ •ํ–ˆ๋‹ค.

๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ์€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ œ๊ฑฐ ์‹คํ—˜๊ณผ ์ •ํ™•ํžˆ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€๋˜์—ˆ๋‹ค: ๋…ธ๋“œ ์ˆ˜, ๋ฐ์ดํ„ฐ๋กœ๋” ๊ตฌ์„ฑ, ๋ชจ๋ธ ๋ ˆ์ด์•„์›ƒ, ๊ทธ๋ฆฌ๊ณ  ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ์„ค์ •โ€ฆ

์ง๊ด€์ ์œผ๋กœ, ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ๋‚˜ ๋‹จ๊ณ„ ์ˆ˜ ๋ชจ๋‘ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋ฅผ ์ผ์œผํ‚ค์ง€ ์•Š์•„์•ผ ํ•˜๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ•˜๋“œ์›จ์–ด ๋ฌธ์ œ๋ฅผ ๋จผ์ € ์˜์‹ฌํ–ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๋…ธ๋“œ ๋ชจ๋‹ˆํ„ฐ๋ง ์ง€ํ‘œ๋ฅผ ํ™•์ธํ–ˆ๋Š”๋ฐ, ์ด๋Š” ํฐ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ ํ”„๊ฐ€ ๋””์Šคํฌ ์ฝ๊ธฐ ์ง€์—ฐ ์‹œ๊ฐ„์˜ ๊ธ‰๋“ฑ๊ณผ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ์šฐ๋ฆฌ๋ฅผ ๊ณง์žฅ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ ์Šคํ† ๋ฆฌ์ง€๋กœ ์•ˆ๋‚ดํ–ˆ๋‹ค.

๐Ÿ“์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์˜ ์Šคํ† ๋ฆฌ์ง€ ์˜ต์…˜

์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ์„ธ ๊ฐ€์ง€ ์Šคํ† ๋ฆฌ์ง€ ๊ณ„์ธต์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค:

  • FSx:ย Weka๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋„คํŠธ์›Œํฌ ์—ฐ๊ฒฐ ์Šคํ† ๋ฆฌ์ง€๋กœ, ์ž์ฃผ ์•ก์„ธ์Šค๋˜๋Š” ํŒŒ์ผ์„ ๋กœ์ปฌ์— ์ €์žฅํ•˜๊ณ  ์šฉ๋Ÿ‰์ด ์ฐจ๋ฉด ๋น„ํ™œ์„ฑ โ€œ์ฝœ๋“œโ€ ํŒŒ์ผ์„ S3๋กœ ์ถ•์ถœํ•˜๋Š” โ€œํ‚คํ”„-ํ•ซ(keep-hot)โ€ ์บ์‹ฑ ๋ชจ๋ธ์ด๋‹ค.
  • ์Šคํฌ๋ž˜์น˜ (๋กœ์ปฌ NVMe RAID):ย ๊ฐ ๋…ธ๋“œ์˜ ๋น ๋ฅธ ๋กœ์ปฌ ์Šคํ† ๋ฆฌ์ง€ (RAID๋กœ ๊ตฌ์„ฑ๋œ 8ร—3.5TB NVMe ๋“œ๋ผ์ด๋ธŒ)๋กœ, FSx๋ณด๋‹ค ๋น ๋ฅด์ง€๋งŒ ๋กœ์ปฌ ๋…ธ๋“œ ์•ก์„ธ์Šค๋กœ ์ œํ•œ๋œ๋‹ค.
  • S3:ย ์ฝœ๋“œ ๋ฐ์ดํ„ฐ ๋ฐ ๋ฐฑ์—…์„ ์œ„ํ•œ ์›๊ฒฉ ๊ฐ์ฒด ์Šคํ† ๋ฆฌ์ง€.

์ž์„ธํ•œ ๋‚ด์šฉ์€ ์ธํ”„๋ผ ์ฑ•ํ„ฐ์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

SmolLM3์˜ 24TB ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์ฒ˜์Œ์— ๋ฐ์ดํ„ฐ๋ฅผ FSx (Weka)์— ์ €์žฅํ–ˆ๋‹ค. 24TB์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋”ํ•ด, ๋‹ค๋ฅธ ์—ฌ๋Ÿฌ ํŒ€์ด ์ด๋ฏธ ์‚ฌ์šฉ ์ค‘์ธ ์Šคํ† ๋ฆฌ์ง€๊ฐ€ ๊ฒน์ณ์ ธ, ์šฐ๋ฆฌ๋Š” Weka์˜ ์Šคํ† ๋ฆฌ์ง€๋ฅผ ํ•œ๊ณ„๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์ด๊ณ  ์žˆ์—ˆ๋‹ค. ๊ทธ๋ž˜์„œ ํ•™์Šต ์ค‘๊ฐ„์— ๋ฐ์ดํ„ฐ์…‹ ์ƒค๋“œ๋ฅผ ์ œ๊ฑฐ(evict)ํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๊ณ , ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ทธ๊ฒƒ๋“ค์„ ๋‹ค์‹œ ํŽ˜์น˜ํ•ด์™€์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ–ˆ์œผ๋ฉฐ, ์ •์ฒด๋ฅผ ์ผ์œผ์ผฐ๊ณ , ์ด๋Š” ํฐ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ ํ”„์˜ ๋ฐœ์ƒ์„ ์„ค๋ช…ํ•ด์ฃผ์—ˆ๋‹ค. ๋” ๋‚˜์œ ๊ฒƒ์€: ์ „์ฒด ํ•™์Šต ๋™์•ˆ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ์…‹ ํด๋”๋ฅผ ํ•ซ(hot)์œผ๋กœ ๊ณ ์ •ํ•  ๋ฐฉ๋ฒ•์ด ์—†์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ˆ˜์ • #1 โ€“ ๋ฐ์ดํ„ฐ ์Šคํ† ๋ฆฌ์ง€ ๋ณ€๊ฒฝ

์šฐ๋ฆฌ๋Š” Weka์—์„œ ์ „์ฒด ํ•™์Šต ๋™์•ˆ ๋ฐ์ดํ„ฐ์…‹ ํด๋”๋ฅผ ํ•ซ์œผ๋กœ ๊ณ ์ •ํ•  ๋ฐฉ๋ฒ•์„ ์ฐพ์ง€ ๋ชปํ–ˆ์œผ๋ฏ€๋กœ, ์Šคํ† ๋ฆฌ์ง€ ๋ฐฉ๋ฒ•์„ ๋ณ€๊ฒฝํ•˜๋ ค๊ณ  ์‹œ๋„ํ–ˆ๋‹ค. S3์—์„œ ์ง์ ‘ ์ŠคํŠธ๋ฆฌ๋ฐํ•˜๋Š” ๊ฒƒ์€ ๋А๋ ธ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ ๋…ธ๋“œ์˜ ๋กœ์ปฌ ์Šคํ† ๋ฆฌ์ง€ย /scratch์— ์ €์žฅํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค.

์—ฌ๊ธฐ์—๋Š” ํ•จ์ •์ด ์žˆ์—ˆ๋‹ค: ๋…ธ๋“œ๊ฐ€ ์ฃฝ๊ณ  ๊ต์ฒด๋˜๋ฉด, ์ƒˆ๋กœ์šด ๊ต์ฒด GPU์—๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์—ˆ๋‹ค.ย s5cmd๋กœ S3์—์„œ 24TB๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๋ฐ 3์‹œ๊ฐ„์ด ๊ฑธ๋ ธ๋‹ค. ์šฐ๋ฆฌ๋Š” S3๋ฅผ ๊ฑฐ์น˜๋Š” ๋Œ€์‹ ย fpsync๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ ๊ฑด๊ฐ•ํ•œ ๋…ธ๋“œ์—์„œ ๋ณต์‚ฌํ•จ์œผ๋กœ์จ ๊ทธ๊ฒƒ์„ 1์‹œ๊ฐ„ 30๋ถ„์œผ๋กœ ์ค„์˜€๋‹ค. ๋ชจ๋“  ๋…ธ๋“œ๊ฐ€ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ ์„ผํ„ฐ์— ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์ด ๋” ๋นจ๋ž๋‹ค.

์—ฌ์ „ํžˆ, ๋…ธ๋“œ ์žฅ์• ๋‹น 1์‹œ๊ฐ„ 30๋ถ„์˜ ๋‹ค์šดํƒ€์ž„๊ณผ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒˆ ๋…ธ๋“œ๋กœ ์ฆ‰์‹œ ์ˆ˜๋™์œผ๋กœ ๋ณต์‚ฌํ•ด์•ผ ํ•  ํ•„์š”์„ฑ์€ ๊ณ ํ†ต์Šค๋Ÿฌ์› ๋‹ค. ๋งˆ์นจ๋‚ด ๊ทธ๊ฒƒ์„ ๊ฒฌ๋”œ ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“  ํ•ต: ๋ฐ์ดํ„ฐ์…‹์ด ๋ฏธ๋ฆฌ ๋กœ๋“œ๋œย ์˜ˆ๋น„ ๋…ธ๋“œ๋ฅผ ์šฐ๋ฆฌ์˜ Slurm ์˜ˆ์•ฝ์— ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋…ธ๋“œ๊ฐ€ ์ฃฝ์œผ๋ฉด, ์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ์„ ์˜ˆ๋น„ ๋…ธ๋“œ์™€ ์ฆ‰์‹œ ๊ตํ™˜ํ•˜์—ฌ ๋ณต๊ตฌ ์ง€์—ฐ์„ ์—†์•ด๋‹ค. ์œ ํœด ์ƒํƒœ์ธ ๋™์•ˆ ์˜ˆ๋น„ ๋…ธ๋“œ๋Š” ํ‰๊ฐ€๋‚˜ ๊ฐœ๋ฐœ ์ž‘์—…์„ ์‹คํ–‰ํ–ˆ์œผ๋ฏ€๋กœ ๋‚ญ๋น„๋˜์ง€ ์•Š์•˜๋‹ค.

์ด๊ฒƒ์ด ๋ฏธ์Šคํ„ฐ๋ฆฌ #1์„ ํ•ด๊ฒฐํ–ˆ๋‹คโ€ฆ ๊ณ  ์ ์–ด๋„ ์šฐ๋ฆฌ๋Š” ๊ทธ๋ ‡๊ฒŒ ์ƒ๊ฐํ–ˆ์—ˆ๋‹ค.

๋ฏธ์Šคํ„ฐ๋ฆฌ #2 โ€“ ์ง€์†๋˜๋Š” ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜

์Šคํฌ๋ž˜์น˜๋กœ ์ด๋™ํ•œ ํ›„์—๋„, ํ•˜๋“œ์›จ์–ด ๋ชจ๋‹ˆํ„ฐ๋ง ์ง€ํ‘œ์—์„œ ์–ด๋–ค ์ด์ƒ ์ง•ํ›„๋„ ๋ฐœ๊ฒฌํ•˜์ง€ ๋ชปํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ฐœ๋ณ„ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋Š” ๊ณ„์† ๋ฐœ์ƒํ–ˆ๋‹ค. ์•„๋ž˜ ์ฐจํŠธ๋Š” ์Šคํ† ๋ฆฌ์ง€ ๋ฌธ์ œ๋ฅผ ์ˆ˜์ •ํ•œ ํ›„ ์šฐ๋ฆฌ๊ฐ€ ์–ป์€ ์ฒ˜๋ฆฌ๋Ÿ‰(์ฃผํ™ฉ์ƒ‰)์„ ์ œ๊ฑฐ ์‹คํ—˜ ๋™์•ˆ ์–ป์—ˆ๋˜ ์ฒ˜๋ฆฌ๋Ÿ‰(ํŒŒ๋ž€์ƒ‰)๊ณผ ๋น„๊ตํ•œ๋‹ค. ๋ณด์‹œ๋‹ค์‹œํ”ผ, ์ €ํ•˜๊ฐ€ ํ›จ์”ฌ ๋” ๊ธ‰๊ฒฉํ•ด์กŒ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.39.18.png

์—ฌ์ „ํžˆ ํ•˜๋“œ์›จ์–ด๋ฅผ ์˜์‹ฌํ•˜๋ฉฐ, ์šฐ๋ฆฌ๋Š” ๋” ์ ์€ ๋…ธ๋“œ์—์„œ ํ…Œ์ŠคํŠธํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. 384๊ฐœ์˜ GPU๋กœ๋Š” ๋ฌด์–ธ๊ฐ€๊ฐ€ ์‹คํŒจํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ๋†€๋ž๊ฒŒ๋„, ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ํŠน์ • ๋…ธ๋“œ๋ฅผ ํ…Œ์ŠคํŠธํ•˜๋“  ์ƒ๊ด€์—†์ด ๋‹จ์ผ ๋…ธ๋“œ์—์„œ ์ •ํ™•ํžˆ ๋™์ผํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋ฅผ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ด๊ฒƒ์€ ํ•˜๋“œ์›จ์–ด ๋ฌธ์ œ๋ฅผ ๋ฐฐ์ œํ–ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ๋ณ€๊ฒฝ๋œ ์„ธ ๊ฐ€์ง€๋ฅผ ๊ธฐ์–ตํ•˜๋Š”๊ฐ€? ์šฐ๋ฆฌ๋Š” ์ด๋ฏธ ๋กœ์ปฌ ๋…ธ๋“œ ์Šคํ† ๋ฆฌ์ง€๋กœ ์ด๋™ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์Šคํ† ๋ฆฌ์ง€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค. ํ•˜๋“œ์›จ์–ด๋Š” ์ด์ œ ์ œ๊ฑฐ๋˜์—ˆ๋‹ค. ๋‚จ์€ ๊ฒƒ์€ ๋‹จ ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜์˜€๋‹ค:ย ๋‹จ๊ณ„ ์ˆ˜. ์šฐ๋ฆฌ๋Š” ๋” ์ž‘์€ ๋‹จ๊ณ„ ์ˆ˜๋กœ ๋กค๋ฐฑํ•˜์—ฌ (300๋งŒ์—์„œ 32k๋กœ) ์ด๊ฒƒ์„ ํ…Œ์ŠคํŠธํ–ˆ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๊ฐ€ ๋” ์ž‘์•„์กŒ๋‹ค! ๋” ํฐ ๋‹จ๊ณ„ ์ˆ˜๋Š” ๋” ๊ธ‰๊ฒฉํ•˜๊ณ  ๋นˆ๋ฒˆํ•œ ์ €ํ•˜๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ค.

์ด๊ฒƒ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” 32k์—์„œ 320๋งŒ์œผ๋กœ ํ•™์Šต ๋‹จ๊ณ„๋งŒ ๋ณ€๊ฒฝ๋œ ๋™์ผํ•œ ๊ตฌ์„ฑ์„ ์‹คํ–‰ํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ (https://huggingface.co/datasets/HuggingFaceTB/ablations-training-configs/tree/main/throughput_debugging) ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•œ ์ •ํ™•ํ•œ ๊ตฌ์„ฑ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

## Short run (32k steps)
 "lr_decay_starting_step": 2560000
 "lr_decay_steps": 640000
 "train_steps": 3200000

## Long run (3.2M steps)
 "lr_decay_starting_step": 26000
 "lr_decay_steps": 6000
 "train_steps": 32000

์•„๋ž˜ ์ฐจํŠธ์— ํ‘œ์‹œ๋œ ๊ฒฐ๊ณผ๋Š” ๋ช…ํ™•ํ–ˆ๋‹ค: ์งง์€ ์‹คํ–‰์€ ์ž‘์€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋ฅผ ๋ณด์ธ ๋ฐ˜๋ฉด, ๋” ๊ธด ๋‹จ๊ณ„ ์ˆ˜๋Š” ๋” ๊ธ‰๊ฒฉํ•˜๊ณ  ๋นˆ๋ฒˆํ•œ ์ €ํ•˜๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฌธ์ œ๋Š” ํ•˜๋“œ์›จ์–ด๊ฐ€ ์•„๋‹ˆ๋ผ ์†Œํ”„ํŠธ์›จ์–ด ๋ณ‘๋ชฉ ํ˜„์ƒ์ด์—ˆ์œผ๋ฉฐ, ์•„๋งˆ๋„ย ๋ฐ์ดํ„ฐ๋กœ๋”์— ์žˆ๋Š” ๊ฒƒ์ด์—ˆ๋‹ค! ๋Œ€๋ถ€๋ถ„์˜ ๋‹ค๋ฅธ ํ•™์Šต ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋‹จ๊ณ„ ์ˆ˜์— ๊ด€๊ณ„์—†์ด ๊ฐ ๋ฐฐ์น˜๋ฅผ ๋™์ผํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.41.26.png

๊ทธ๋•Œ ์šฐ๋ฆฌ๋Š” nanotron์˜ ๋ฐ์ดํ„ฐ๋กœ๋”๋กœ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต์„ ์‹ค์ œ๋กœ ํ•ด๋ณธ ์ ์ด ์—†๋‹ค๋Š” ๊ฒƒ์„ ๊นจ๋‹ฌ์•˜๋‹ค. SmolLM2๋Š” ๋‚ด๋ถ€ ๋ž˜ํผ๋ฅผ ํ†ตํ•ด Megatron-LM ํŒŒ์ƒ ๋ฐ์ดํ„ฐ๋กœ๋” (TokenizedBytes)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊พธ์ค€ํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰์œผ๋กœ ํ•™์Šต๋˜์—ˆ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” nanotron์˜ ๋‚ด์žฅ ๋ฐ์ดํ„ฐ๋กœ๋” (nanosets)๋กœ ์ „ํ™˜ํ–ˆ๋‹ค.

๊ทธ ๊ตฌํ˜„์„ ๊นŠ์ด ํŒŒ๊ณ ๋“  ํ›„, ์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ์ด ๊ฐ ํ•™์Šต ๋‹จ๊ณ„๋งˆ๋‹ค ์ปค์ง€๋Š” ํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ์ธ๋ฑ์Šค๋ฅผ ์ˆœ์ง„ํ•˜๊ฒŒ ๊ตฌ์ถ•ํ•˜๊ณ  ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๋งค์šฐ ํฐ ๋‹จ๊ณ„์˜ ๊ฒฝ์šฐ, ์ด๊ฒƒ์€ ๋” ๋†’์€ ๊ณต์œ  ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์œ ๋ฐœํ•˜์—ฌ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋ฅผ ์ด‰๋ฐœํ–ˆ๋‹ค.

์ˆ˜์ • #2 โ€“ TokenizedBytes ๋ฐ์ดํ„ฐ๋กœ๋” ๊ฐ€์ ธ์˜ค๊ธฐ

๋ฐ์ดํ„ฐ๋กœ๋”๊ฐ€ ์‹ค์ œ๋กœ ๋ฒ”์ธ์ธ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š”ย TokenizedBytesย ๋ฐ์ดํ„ฐ๋กœ๋”๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋‚ด๋ถ€ SmolLM2 ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋™์ผํ•œ ๊ตฌ์„ฑ์„ ์‹œ์ž‘ํ–ˆ๋‹ค. ์ €ํ•˜๋Š” ์—†์—ˆ๋‹ค. ๋™์ผํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜๋Š” 48๊ฐœ ๋…ธ๋“œ์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์˜€๋‹ค.

๊ฐ€์žฅ ๋น ๋ฅธ ์ง„ํ–‰ ๊ฒฝ๋กœ: ์ด ๋ฐ์ดํ„ฐ๋กœ๋”๋ฅผ nanotron์œผ๋กœ ๋ณต์‚ฌํ•œ๋‹ค. ์ €ํ•˜๋Š” ์‚ฌ๋ผ์กŒ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰์€ ๋ชฉํ‘œ์น˜๋กœ ๋Œ์•„์™”๋‹ค.

์šฐ๋ฆฌ๋Š” ๋‹ค์‹œ ์‹œ์ž‘ํ•  ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹คโ€ฆ ๋‹ค์Œ ์ปค๋ธŒ๋ณผ์ด ๋‚ ์•„์˜ฌ ๋•Œ๊นŒ์ง€.

๋ฏธ์Šคํ„ฐ๋ฆฌ #3 โ€“ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์†์‹ค

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋กœ๋”๋กœ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜๋Š” ์—†์—ˆ์ง€๋งŒ ์†์‹ค ๊ณก์„ ์ด ๋” ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์•„ ๋ณด์˜€๋‹ค.

nanosets๋Š” ๋” ๋ถ€๋“œ๋Ÿฌ์šด ์†์‹ค์„ ์ƒ์„ฑํ–ˆ์—ˆ๊ณ , ๊ทธ ์ฐจ์ด๋Š” ์˜ค๋ž˜๋œ ๋””๋ฒ„๊น… ์ „์Ÿ์˜ ๊ธฐ์–ต์„ ๋– ์˜ฌ๋ฆฌ๊ฒŒ ํ–ˆ๋‹ค: ๋ช‡ ๋…„ ์ „, ์šฐ๋ฆฌ๋Š” ๋ฌธ์„œ๋“ค์€ ์„ž์˜€์ง€๋งŒ ๋ฐฐ์น˜ ๋‚ด์˜ ์‹œํ€€์Šค๋“ค์€ ์„ž์ด์ง€ ์•Š์•„ ์ž‘์€ ๊ธ‰๋“ฑ์œผ๋กœ ์ด์–ด์ง€๋Š” ์…”ํ”Œ๋ง ๋ฒ„๊ทธ๋ฅผ ์‚ฌ์ „ ํ•™์Šต ์ฝ”๋“œ์—์„œ ๋ฐœ๊ฒฌํ–ˆ์—ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ์ƒˆ ๋ฐ์ดํ„ฐ๋กœ๋”๋ฅผ ํ™•์ธํ•ด๋ณด๋‹ˆ ๊ทธ๊ฒƒ์ด ํ™•์ธ๋˜์—ˆ๋‹ค: ๊ทธ๊ฒƒ์€ ๊ฐ ๋ฌธ์„œ์—์„œ ์‹œํ€€์Šค๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฝ๊ณ  ์žˆ์—ˆ๋‹ค. ์งง์€ ํŒŒ์ผ์—๋Š” ๊ดœ์ฐฎ์ง€๋งŒ, ์ฝ”๋“œ์™€ ๊ฐ™์€ ๋„๋ฉ”์ธ์˜ ๊ฒฝ์šฐ, ํ•˜๋‚˜์˜ ๊ธด ์ €ํ’ˆ์งˆ ํŒŒ์ผ์ด ์ „์ฒด ๋ฐฐ์น˜๋ฅผ ์ฑ„์šฐ๊ณ  ์†์‹ค ๊ธ‰๋“ฑ์„ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

์ˆ˜์ • #3 โ€“ ์‹œํ€€์Šค ์ˆ˜์ค€์—์„œ ์…”ํ”Œ

์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐ€์ง€ ์˜ต์…˜์ด ์žˆ์—ˆ๋‹ค:

  1. ๋žœ๋ค ์•ก์„ธ์Šค๋ฅผ ํ•˜๋„๋ก ๋ฐ์ดํ„ฐ๋กœ๋” ๋ณ€๊ฒฝ (์œ„ํ—˜: ๋” ๋†’์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰).
  2. ํ† ํฐํ™”๋œ ์‹œํ€€์Šค๋ฅผ ์˜คํ”„๋ผ์ธ์—์„œ ๋ฏธ๋ฆฌ ์…”ํ”Œ(pre-shuffle)ํ•œ๋‹ค.

์‹คํ–‰์„ ์‹œ์ž‘ํ•ด์•ผ ํ•˜๋Š” ์‹œ๊ฐ„์— ๋Œ€ํ•œ ์••๋ฐ•๊ณผ ์‹คํ–‰ ์ค‘์ธ ํด๋Ÿฌ์Šคํ„ฐ ์˜ˆ์•ฝ์œผ๋กœ ์ธํ•ด, ์šฐ๋ฆฌ๋Š” ๋” ์•ˆ์ „ํ•˜๊ณ  ๋น ๋ฅธ ์ˆ˜์ •์œผ๋กœ ์˜ต์…˜ #2๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ํ† ํฐํ™”๋œ ๋ฐ์ดํ„ฐ๋Š” ์ด๋ฏธ ๊ฐ ๋…ธ๋“œ์— ์žˆ์—ˆ์œผ๋ฏ€๋กœ ๋กœ์ปฌ์—์„œ ๋‹ค์‹œ ์…”ํ”Œํ•˜๋Š” ๊ฒƒ์€ ์ €๋ ดํ–ˆ๋‹ค (~1์‹œ๊ฐ„). ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ์—ํฌํฌ ๊ฐ„ ์…”ํ”Œ๋ง ํŒจํ„ด์ด ๋ฐ˜๋ณต๋˜๋Š” ๊ฒƒ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์‹œ๋“œ๋กœ ๊ฐ ์—ํฌํฌ์— ๋Œ€ํ•œ ์…”ํ”Œ๋œ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ค.

ํŒจ์น˜ํ•  ๋•Œ์™€ ์ˆ˜์ •ํ•  ๋•Œ๋ฅผ ์•Œ๋ผ

๊ธด๊ธ‰ํ•œ ๋งˆ๊ฐ์ผ์ด ๋‹ฅ์ณค์„ ๋•Œ, ๊ณ ์žฅ ๋‚œ ๊ตฌํ˜„์„ ๋””๋ฒ„๊น…ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๊ฒ€์ฆ๋œ ์†”๋ฃจ์…˜์ด๋‚˜ ๋น ๋ฅธ ํ•ด๊ฒฐ์ฑ…์„ ์ฑ„ํƒํ•˜๋Š” ๊ฒƒ์ด ๋” ๋น ๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ์•ž์„œ ์šฐ๋ฆฌ๋Š”ย nanosets์˜ ์ธ๋ฑ์Šค ๊ตฌํ˜„์„ ์ˆ˜์ •ํ•˜๋Š” ๋Œ€์‹ ย TokenizedBytesย ๋ฐ์ดํ„ฐ๋กœ๋”๋ฅผ ์—ฐ๊ฒฐํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ, ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ๋กœ๋” ๋ณ€๊ฒฝ๋ณด๋‹ค ์˜คํ”„๋ผ์ธ ์‚ฌ์ „ ์…”ํ”Œ๋ง์„ ์„ ํƒํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์–ธ์ œ ์ง€๋ฆ„๊ธธ์„ ํƒํ•ด์•ผ ํ• ์ง€ ์•Œ์•„์•ผ ํ•˜๋ฉฐ, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ์œ ์ง€ ๋ณด์ˆ˜ํ•˜๊ฑฐ๋‚˜ ์ตœ์ ํ™”ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ˆ„๋”๊ธฐ ์‹œ์Šคํ…œ์œผ๋กœ ๋๋‚˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

์‹œ์ž‘, ํ…Œ์ดํฌ 2

์ด์ œ ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ์„ ๊ฐ–์ถ”์—ˆ๋‹ค:

์šฐ๋ฆฌ๋Š” ๋‹ค์‹œ ์‹œ์ž‘ํ–ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ๋ชจ๋“  ๊ฒƒ์ด ์œ ์ง€๋˜์—ˆ๋‹ค. ์†์‹ค ๊ณก์„ ์€ ๋ถ€๋“œ๋Ÿฌ์› ๊ณ , ์ฒ˜๋ฆฌ๋Ÿ‰์€ ์ผ๊ด€๋˜์—ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ๋งˆ์นจ๋‚ด ์†Œ๋ฐฉ ํ™œ๋™ ๋Œ€์‹  ํ•™์Šต์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๋ฏธ์Šคํ„ฐ๋ฆฌ #4 โ€“ ๋ถˆ๋งŒ์กฑ์Šค๋Ÿฌ์šด ์„ฑ๋Šฅ

์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๋ฐ์ดํ„ฐ๋กœ๋” ๋ฌธ์ œ๋ฅผ ์ˆ˜์ •ํ•œ ํ›„, ์šฐ๋ฆฌ๋Š” ์‹คํ–‰์„ ๋‹ค์‹œ ์‹œ์ž‘ํ–ˆ๊ณ  ์ฒ˜์Œ ์ดํ‹€ ๋™์•ˆ ์ˆœ์กฐ๋กญ๊ฒŒ ํ•™์Šตํ–ˆ๋‹ค. ์ฒ˜๋ฆฌ๋Ÿ‰์€ ์•ˆ์ •์ ์ด์—ˆ๊ณ , ์†์‹ค ๊ณก์„ ์€ ์˜ˆ์ƒ๋Œ€๋กœ ๋ณด์˜€์œผ๋ฉฐ, ๋กœ๊ทธ์˜ ์–ด๋–ค ๊ฒƒ๋„ ๋ฌธ์ œ๋ฅผ ์•”์‹œํ•˜์ง€ ์•Š์•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์•ฝ 1์กฐ ํ† ํฐ ์ง€์ ์—์„œ, ํ‰๊ฐ€๋Š” ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๊ฒƒ์„ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค.

๋ชจ๋‹ˆํ„ฐ๋ง์˜ ์ผํ™˜์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ๊ทธ๊ฒƒ๋“ค์„ ๊ณผ๊ฑฐ ์‹คํ–‰๊ณผ ๋น„๊ตํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์šฐ๋ฆฌ๋Š” ์œ ์‚ฌํ•œ ๋ ˆ์‹œํ”ผ๋กœ ํ•™์Šต๋œ SmolLM2 (1.7B)์˜ ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์œผ๋ฏ€๋กœ, ๋‘ ๋ชจ๋ธ์ด ๋™์ผํ•œ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์–ด๋–ป๊ฒŒ ์ง„ํ–‰๋˜์—ˆ๋Š”์ง€ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ๋‹นํ™ฉ์Šค๋Ÿฌ์› ๋‹ค: ๋” ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๊ฐ€์กŒ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , 3B ๋ชจ๋ธ์€ ๋™์ผํ•œ ํ•™์Šต ์ง€์ ์—์„œ 1B๋ณด๋‹ค ๋” ๋‚˜์œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์žˆ์—ˆ๋‹ค. ์†์‹ค์€ ์—ฌ์ „ํžˆ ๊ฐ์†Œํ•˜๊ณ  ์žˆ์—ˆ๊ณ  ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋Š” ํ–ฅ์ƒ๋˜๊ณ  ์žˆ์—ˆ์ง€๋งŒ, ๊ฐœ์„  ์†๋„๋Š” ๋ช…๋ฐฑํžˆ ๊ธฐ๋Œ€ ์ดํ•˜์˜€๋‹ค.

SmolLM2์— ๋น„ํ•ด SmolLM3์— ๋„์ž…๋œ ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜ ๋ฐ ๋ฐ์ดํ„ฐ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ์ฒ ์ €ํžˆ ํ…Œ์ŠคํŠธํ–ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฒ€์ฆํ–ˆ๊ณ  ๋‘ ํ•™์Šต ์„ค์ • ๊ฐ„์— ํ…Œ์ŠคํŠธ๋˜์ง€ ์•Š์€ ์ฐจ์ด์ ์€ ๋ช‡ ๊ฐ€์ง€ ๋ฐ–์— ๋‚จ์ง€ ์•Š์•˜๋‹ค. ๊ฐ€์žฅ ๋ช…๋ฐฑํ•œ ๊ฒƒ์€ ํ…์„œ ๋ณ‘๋ ฌํ™”(Tensor Parallelism, TP)์˜€๋‹ค. SmolLM2๋Š” ๋‹จ์ผ GPU์— ๋งž์„ ์ˆ˜ ์žˆ์—ˆ๊ณ  TP ์—†์ด ํ•™์Šต๋œ ๋ฐ˜๋ฉด, SmolLM3๋Š” ๋ฉ”๋ชจ๋ฆฌ์— ๋งž์ถ”๊ธฐ ์œ„ํ•ด TP=2๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค. TP๋Š” 3B ์ œ๊ฑฐ ์‹คํ—˜์— ์‚ฌ์šฉ๋˜์—ˆ๊ณ  ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ํƒ€๋‹นํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” ์ด์ „์— ๊ทธ๊ฒƒ์„ ์˜์‹ฌํ•˜๊ฑฐ๋‚˜ ํ…Œ์ŠคํŠธํ•  ์ƒ๊ฐ์„ ํ•˜์ง€ ์•Š์•˜๋‹ค.

์ˆ˜์ • #4 - ์ตœ์ข… ์ˆ˜์ •

TP ๋ฒ„๊ทธ ๊ฐ€์„ค์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” SmolLM3์™€ ์ •ํ™•ํžˆ ๋™์ผํ•œ ์„ค์ • โ€” ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ (๋ฌธ์„œ ๋งˆ์Šคํ‚น, NoPE), ๋™์ผํ•œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ, ๋™์ผํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ โ€” ์œผ๋กœ 1.7B ๋ชจ๋ธ์„ TP ์žˆ์ด ๊ทธ๋ฆฌ๊ณ  ์—†์ด ๋ชจ๋‘ ํ•™์Šต์‹œ์ผฐ๋‹ค. ์ฐจ์ด๋Š” ์ฆ‰๊ฐ์ ์ด์—ˆ๋‹ค: TP ๋ฒ„์ „์€ ์ง€์†์ ์œผ๋กœ ๋น„-TP ๋ฒ„์ „๋ณด๋‹ค ๋” ๋†’์€ ์†์‹ค๊ณผ ๋” ๋‚ฎ์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์„ ๊ฐ€์กŒ๋‹ค. ๊ทธ๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ TP ๊ด€๋ จ ๋ฒ„๊ทธ๋ฅผ ๋ณด๊ณ  ์žˆ์Œ์„ ํ™•์ธ์‹œ์ผœ ์ฃผ์—ˆ๋‹ค.

๊ทธ๋Ÿฐ ๋‹ค์Œ ์šฐ๋ฆฌ๋Š” TP์™€ ๋น„-TP ์‹คํ–‰์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋น„๊ตํ•˜๋ฉฐ TP ๊ตฌํ˜„์„ ์ž์„ธํžˆ ์กฐ์‚ฌํ–ˆ๋‹ค. ๋ฌธ์ œ๋Š” ๋ฏธ๋ฌ˜ํ•˜์ง€๋งŒ ์‹ฌ๊ฐํ•œ ๊ฒƒ์œผ๋กœ ๋ฐํ˜€์กŒ๋‹ค: ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  TP ๋žญํฌ์— ๊ฑธ์ณ ๋™์ผํ•œ ๋žœ๋ค ์‹œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์—ˆ๋Š”๋ฐ, ๊ฐ ๋žญํฌ๋Š” ๋‹ค๋ฅธ ์‹œ๋“œ๋กœ ์ดˆ๊ธฐํ™”๋˜์—ˆ์–ด์•ผ ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์ƒค๋“œ ๊ฐ„์— ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š” ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”๋ฅผ ์œ ๋ฐœํ•˜์—ฌ ์ˆ˜๋ ด์— ์˜ํ–ฅ์„ ๋ฏธ์ณค๋‹ค. ํšจ๊ณผ๋Š” ์น˜๋ช…์ ์ด์ง€ ์•Š์•˜๋‹ค โ€” ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ํ•™์Šต๋˜๊ณ  ๊ฐœ์„ ๋˜์—ˆ๋‹ค โ€” ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๊ฒƒ์€ ๋Œ€๊ทœ๋ชจ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ด€์ฐฐํ•œ ๊ฒฉ์ฐจ๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•œ ๋น„ํšจ์œจ์„ฑ์„ ๋„์ž…ํ–ˆ๋‹ค. ์•„๋ž˜๋Š” ๋ฒ„๊ทธ ์ˆ˜์ •์ด๋‹ค:

diff --git a/src/nanotron/trainer.py b/src/nanotron/trainer.py
index 1234567..abcdefg 100644
-- a/src/nanotron/trainer.py
++ b/src/nanotron/trainer.py
@@ -185,7 +185,10 @@ class DistributedTrainer:
     ):
         # ๋žœ๋ค ์ƒํƒœ ์„ค์ •
-        set_random_seed(self.config.general.seed)
+       # ๋‹ค์–‘์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ TP ๋žญํฌ์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ๋žœ๋ค ์‹œ๋“œ ์„ค์ •
+       tp_rank = dist.get_rank(self.parallel_context.tp_pg)
+       set_random_seed(self.config.general.seed + tp_rank)

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.47.59.png

๊ฐ TP ๋žญํฌ๊ฐ€ ๋‹ค๋ฅธ ์‹œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋„๋ก ์‹œ๋“œ๋ฅผ ์ˆ˜์ •ํ•œ ํ›„, ์šฐ๋ฆฌ๋Š” ์ œ๊ฑฐ ์‹คํ—˜์„ ๋ฐ˜๋ณตํ–ˆ๊ณ  TP์™€ ๋น„-TP ์‹คํ–‰์ด ์ด์ œ ์†์‹ค ๊ณก์„ ๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ ๋ชจ๋‘์—์„œ ์ผ์น˜ํ•จ์„ ํ™•์ธํ–ˆ๋‹ค. ๋‹ค๋ฅธ ์ˆจ๊ฒจ์ง„ ๋ฌธ์ œ๊ฐ€ ์—†๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ถ”๊ฐ€์ ์ธ ์˜จ์ „์„ฑ ๊ฒ€์‚ฌ๋ฅผ ์‹คํ–‰ํ–ˆ๋‹ค: 3B ๋งค๊ฐœ๋ณ€์ˆ˜์—์„œ์˜ SmolLM2 ์Šคํƒ€์ผ (์•„ํ‚คํ…์ฒ˜ ๋ฐ ๋ฐ์ดํ„ฐ ์ธก๋ฉด) ์‹คํ–‰๊ณผ, ๋ณ„๋„์˜ 3B ๋งค๊ฐœ๋ณ€์ˆ˜์—์„œ์˜ SmolLM3 ์‹คํ–‰์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋‘˜ ๋‹ค SmolLM2์˜ ์ฒดํฌํฌ์ธํŠธ์™€ ๋น„๊ตํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ด์ œ ๊ธฐ๋Œ€์™€ ์ผ์น˜ํ–ˆ๋‹ค: 1.7B SmolLM2๋Š” 3B SmolLM2 ๋ณ€ํ˜•๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜๋นด์œผ๋ฉฐ, ์ด๋Š” ์ฐจ๋ก€๋กœ SmolLM3์˜ 3B ์„ฑ๋Šฅ๋ณด๋‹ค ์•„๋ž˜์˜€๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.48.50.png

์ด ๋””๋ฒ„๊น… ํ”„๋กœ์„ธ์Šค๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ด ๋ธ”๋กœ๊ทธ์˜ ์•ž๋ถ€๋ถ„์—์„œ ์„ค๋ช…ํ•œ ํ•ต์‹ฌ ์›์น™ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ฐ•ํ™”ํ–ˆ๋‹ค:

โ€œ๊ฒฌ๊ณ ํ•œ ์ œ๊ฑฐ ์‹คํ—˜ ์„ค์ •์˜ ์ง„์ •ํ•œ ๊ฐ€์น˜๋Š” ๋‹จ์ˆœํžˆ ์ข‹์€ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด์„ ๋‹ค. ์ฃผ ํ•™์Šต ์‹คํ–‰ ์ค‘์— ํ•„์—ฐ์ ์œผ๋กœ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ๋•Œ (๊ทธ๋ฆฌ๊ณ  ์•„๋ฌด๋ฆฌ ์ค€๋น„ํ•ด๋„ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฒƒ์ด๋‹ค), ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋‚ด๋ฆฐ ๋ชจ๋“  ๊ฒฐ์ •์— ๋Œ€ํ•ด ํ™•์‹ ํ•˜๊ณ , ์ œ๋Œ€๋กœ ํ…Œ์ŠคํŠธ๋˜์ง€ ์•Š์•˜๊ณ  ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋น ๋ฅด๊ฒŒ ์‹๋ณ„ํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ค€๋น„๋Š” ๋””๋ฒ„๊น… ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•˜๊ณ  ์šฐ๋ฆฌ์˜ ์ •์‹  ๊ฑด๊ฐ•์„ ์˜จ์ „ํ•˜๊ฒŒ ์œ ์ง€ํ•œ๋‹ค. ๋ฒ„๊ทธ๊ฐ€ ์–ด๋””์— ์ˆจ์–ด ์žˆ์„์ง€ ๋ชจ๋ฅธ ์ฑ„ ๋ฏธ์Šคํ„ฐ๋ฆฌํ•œ ํ•™์Šต ์‹คํŒจ๋ฅผ ์ณ๋‹ค๋ณด๊ณ  ์žˆ๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋‚˜์œ ๊ฒƒ์€ ์—†๋‹ค.โ€

์šฐ๋ฆฌ ํ•™์Šต์˜ ๋‹ค๋ฅธ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ๊ฒ€์ฆ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” TP๋ฅผ ์œ ์ผํ•˜๊ฒŒ ํƒ€๋‹นํ•œ ์›์ธ์œผ๋กœ ์ •ํ™•ํžˆ ์ง€์ ํ•˜๊ณ  ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ์ง€ํ•œ ์ง€ ํ•˜๋ฃจ ๋งŒ์— ๋ฒ„๊ทธ๋ฅผ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๊ทธ๊ฒƒ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์‹œ์ž‘ ์ดํ›„ ํ‘œ๋ฉดํ™”๋œ ์ผ๋ จ์˜ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ฌธ์ œ ์ค‘ ๋งˆ์ง€๋ง‰ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค. ์‚ผ์„ธ๋ฒˆ์˜ ์šด์œผ๋กœ, ๊ทธ ์‹œ์ ๋ถ€ํ„ฐ ๋‚จ์€ ํ•œ ๋‹ฌ์˜ ํ•™์Šต์€ ๋…ธ๋“œ ์žฅ์• ๋กœ ์ธํ•œ ๊ฐ€๋”์˜ ์žฌ์‹œ์ž‘์œผ๋กœ ์ค‘๋‹จ๋˜๋Š” ๊ฒƒ์„ ์ œ์™ธํ•˜๊ณ ๋Š” ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์„ ์™„์„ฑ๋œ ๋ชจ๋ธ๋กœ ๋ฐ”๊พธ๋Š” ๊พธ์ค€ํ•œ ์ž‘์—…์œผ๋กœ ๋น„๊ต์  ํ‰์˜จํ–ˆ๋‹ค.

์ฝ”์Šค๋ฅผ ์œ ์ง€ํ•˜๊ธฐ

์ด์ „ ์„น์…˜์—์„œ ๋ณด์•˜๋“ฏ์ด, ์ œ๊ฑฐ ์‹คํ—˜์—์„œ ์ „์ฒด ์‚ฌ์ „ ํ•™์Šต์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์€ ๋‹จ์ˆœํžˆ โ€œํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ดโ€๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค. ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ฌธ์ œ๋“ค์ด ๋ฐœ์ƒํ–ˆ์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ๊ฐ ๋ฌธ์ œ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ํ•ด๊ฒฐํ–ˆ๋‹ค. ์ด ์„น์…˜์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹คํ–‰์„ ์œ„ํ•œ ํ•„์ˆ˜ ๋ชจ๋‹ˆํ„ฐ๋ง ์„ค์ • ๋ฐ ๊ณ ๋ ค ์‚ฌํ•ญ์„ ๋‹ค๋ฃฌ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ค‘์š”ํ•œ ์งˆ๋ฌธ๋“ค์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค: ๋ฌธ์ œ์— ์ง๋ฉดํ•œ ํ›„ ์–ธ์ œ ํ•™์Šต์„ ์žฌ์‹œ์ž‘ํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ์‹คํ–‰ ์ค‘๊ฐ„์— ํ‘œ๋ฉดํ™”๋˜๋Š” ๋ฌธ์ œ๋“ค์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š”๊ฐ€? ์–ด๋–ค ์ง€ํ‘œ๊ฐ€ ์ง„์ •์œผ๋กœ ์ค‘์š”ํ•œ๊ฐ€? ํ•™์Šต ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ณ ์ •๋œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์œ ์ง€ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?

ํ•™์Šต ๋ชจ๋‹ˆํ„ฐ๋ง: ์†์‹ค ๊ณก์„ ์„ ๋„˜์–ด์„œ

์šฐ๋ฆฌ๊ฐ€ ํ…์„œ ๋ณ‘๋ ฌํ™”(TP) ๋ฒ„๊ทธ๋ฅผ ์žก์€ ์ด์œ ๋Š” ๊ดœ์ฐฎ์•„ ๋ณด์˜€๋˜ ์†์‹ค ๊ณก์„  ๋•Œ๋ฌธ์ด ์•„๋‹ˆ๋ผ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€๊ฐ€ ๊ธฐ๋Œ€์น˜๋ณด๋‹ค ๋’ค์ฒ˜์ ธ ์žˆ์—ˆ๋‹ค๋Š” ์‚ฌ์‹ค ๋•Œ๋ฌธ์ด์—ˆ๋‹ค. ๋˜ํ•œ, SmolLM2์˜ ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋กœ๋ถ€ํ„ฐ์˜ ํ‰๊ฐ€๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๋˜ ๊ฒƒ์ด ์ค‘์š”ํ–ˆ๋‹ค: ๊ทธ๊ฒƒ๋“ค์€ 3B ๋ชจ๋ธ์ด ์ดˆ๊ธฐ์— ์˜ฌ๋ฐ”๋ฅธ ๊ถค๋„์— ์žˆ์ง€ ์•Š๋‹ค๋Š” ์˜จ์ „์„ฑ ๊ฒ€์‚ฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ๋‹ค๋ฉด, ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€๋ฅผ ์ผ์ฐ ์‹คํ–‰ํ•˜๊ธฐ ์‹œ์ž‘ํ•˜๊ณ , ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•œ๋‹ค๋ฉด ์ €์ž๋“ค์—๊ฒŒ ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ฌผ์–ด๋ณธ๋‹ค. ๊ทธ๊ฒƒ๋“ค์€ ์ฐธ์กฐ์ ์œผ๋กœ์„œ ๋งค์šฐ ๊ท€์ค‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ธํ”„๋ผ ์ธก๋ฉด์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ง€ํ‘œ๋Š” ์ดˆ๋‹น ํ† ํฐ ์ˆ˜๋กœ ์ธก์ •๋˜๋Š”ย ์ฒ˜๋ฆฌ๋Ÿ‰์ด๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์‹คํ–‰ ์ „๋ฐ˜์— ๊ฑธ์ณ 13,500โ€“14,000 ํ† ํฐ/์ดˆ ์‚ฌ์ด์˜ ์•ˆ์ •์ ์ธ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์˜ˆ์ƒํ–ˆ์œผ๋ฉฐ, ์ง€์†์ ์ธ ํŽธ์ฐจ๋Š” ์œ„ํ—˜ ์‹ ํ˜ธ์˜€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ฒ˜๋ฆฌ๋Ÿ‰๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค: ํ•˜๋“œ์›จ์–ด ๊ณ ์žฅ์„ ์˜ˆ์ธกํ•˜๊ณ  ๊ฐ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ง€์†์ ์ธย ํ•˜๋“œ์›จ์–ด ์ƒํƒœ ๋ชจ๋‹ˆํ„ฐ๋ง๋„ ํ•„์š”ํ•˜๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์ถ”์ ํ•œ ์ฃผ์š” ์ง€ํ‘œ๋กœ๋Š” GPU ์˜จ๋„, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๋ฐ ์ปดํ“จํŒ… ํ™œ์šฉ๋ฅ ์ด ํฌํ•จ๋œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ทธ๊ฒƒ๋“ค์„ Grafana ๋Œ€์‹œ๋ณด๋“œ์— ๊ธฐ๋กํ•˜๊ณ  ํ•˜๋“œ์›จ์–ด ์ด์ƒ ์ง•ํ›„์— ๋Œ€ํ•œ ์‹ค์‹œ๊ฐ„ Slack ๊ฒฝ๊ณ ๋ฅผ ์„ค์ •ํ–ˆ๋‹ค.

์ˆ˜์ • ํ›„ ์žฌ์‹œ์ž‘ ๋Œ€ ์ฆ‰์„์—์„œ ์ˆ˜์ •

์šฐ๋ฆฌ๊ฐ€ 1์กฐ ํ† ํฐ ํ›„์— ์‹คํ–‰์„ ์žฌ์‹œ์ž‘ํ–ˆ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•  ๋•Œ, ์ค‘์š”ํ•œ ์งˆ๋ฌธ์ด ์ œ๊ธฐ๋œ๋‹ค: ๋ญ”๊ฐ€ ์ž˜๋ชป๋˜์—ˆ์„ ๋•Œ ํ•ญ์ƒ ์žฌ์‹œ์ž‘ํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ๋‹ต์€ ๋ฌธ์ œ์˜ ์‹ฌ๊ฐ์„ฑ๊ณผ ๊ทผ๋ณธ ์›์ธ์— ๋”ฐ๋ผ ๋‹ค๋ฅด๋‹ค.

์šฐ๋ฆฌ์˜ ๊ฒฝ์šฐ, TP ์‹œ๋”ฉ ๋ฒ„๊ทธ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ฒซ ๋‹จ์ถ”๋ฅผ ์ž˜๋ชป ๊ฟฐ์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ–ˆ๋‹ค. ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋ฐ˜์ด ์ œ๋Œ€๋กœ ์ดˆ๊ธฐํ™”๋˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ชจ๋ธ์€ SmolLM2์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ๋น„์Šทํ•œ ์ง€์ ์—์„œ ์ •์ฒด๋˜๊ณ  ์žˆ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜์ง€๋งŒ ํ•™์Šต ๋น„์šฉ์€ ๊ฑฐ์˜ ๋‘ ๋ฐฐ๋‚˜ ๋“œ๋Š” ๋ชจ๋ธ๋กœ ๋๋‚  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ–ˆ๋‹ค. ์žฌ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์ด์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งŽ์€ ๋ฌธ์ œ๋“ค์€ ์ปดํ“จํŒ… ๋‚ญ๋น„๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ–‰ ์ค‘๊ฐ„์— ์ˆ˜์ •๋  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ๋ฌธ์ œ๋Š” ์†์‹ค ๊ธ‰๋“ฑ(loss spikes)๊ณผ ๊ด€๋ จ์ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‚ฌ์†Œํ•œ ๋ฌธ์ œ๋‚˜ ๋ฐœ์‚ฐ์„ ์•Œ๋ฆด ์ˆ˜ ์žˆ๋Š” ํ•™์Šต ์†์‹ค์˜ ๊ฐ‘์ž‘์Šค๋Ÿฌ์šด ์ ํ”„์ด๋‹ค.

Stas Bekman์ด ๋จธ์‹  ๋Ÿฌ๋‹ ์—”์ง€๋‹ˆ์–ด๋ง ์˜คํ”ˆ ๋ถ์—์„œ ๋ฉ‹์ง€๊ฒŒ ํ‘œํ˜„ํ–ˆ๋“ฏ์ด โ€œํ•™์Šต ์†์‹ค ํ”Œ๋กฏ์€ ์‹ฌ์žฅ ๋ฐ•๋™ ํŒจํ„ด๊ณผ ์œ ์‚ฌํ•˜๋‹คโ€”์ข‹์€ ๊ฒƒ, ๋‚˜์œ ๊ฒƒ, ๊ทธ๋ฆฌ๊ณ  ๊ฑฑ์ •ํ•ด์•ผ ํ•  ๊ฒƒ์ด ์žˆ๋‹ค.โ€

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 5.53.01.png

์†์‹ค ๊ธ‰๋“ฑ์€ ๋‘ ๊ฐ€์ง€ ๋ฒ”์ฃผ๋กœ ๋‚˜๋‰œ๋‹ค:

์šฐ๋ฆฌ๋Š” ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์„ ์™„์ „ํžˆ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ, ๋Œ€๊ทœ๋ชจ์—์„œ ๋” ๋นˆ๋ฒˆํ•ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ๋‹ค. ๋ณด์ˆ˜์ ์ธ ์•„ํ‚คํ…์ฒ˜์™€ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ๊ฐ€์ •ํ•  ๋•Œ ์ผ๋ฐ˜์ ์ธ ๋ฒ”์ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๊ธ‰๋“ฑ์ด ๋ฐœ์ƒํ•˜๊ธฐ ์ „์—, ์•ˆ์ •์„ฑ์„ ๊ตฌ์ถ•ํ•˜๋ผ:

๋ณด์ˆ˜์ ์ธ ํ•™์Šต๋ฅ ๊ณผ ์ข‹์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง„ ์†Œํ˜• ๋ชจ๋ธ์€ ๊ฑฐ์˜ ๊ธ‰๋“ฑํ•˜์ง€ ์•Š์ง€๋งŒ, ๋” ํฐ ๋ชจ๋ธ์€ ์‚ฌ์ „ ์˜ˆ๋ฐฉ์ ์ธ ์•ˆ์ •์„ฑ ์กฐ์น˜๋ฅผ ์š”๊ตฌํ•œ๋‹ค. ๋” ๋งŽ์€ ํŒ€๋“ค์ด ๋Œ€๊ทœ๋ชจ๋กœ ํ•™์Šตํ•จ์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์„ ์˜ˆ๋ฐฉํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๊ธฐ์ˆ  ๋„๊ตฌ ์ƒ์ž๋“ค์„ ์ถ•์ ํ–ˆ๋‹ค:

๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง ๋ฐ ์…”ํ”Œ๋ง:ย ์ด ๋ธ”๋กœ๊ทธ์˜ ์ด ์‹œ์ ์—์„œ, ๋‹น์‹ ์€ ์šฐ๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋ฐ์ดํ„ฐ๋กœ ๋˜๋Œ์•„๊ฐ€์•ผ ํ•˜๋Š”์ง€ ์•Œ์•„์ฐจ๋ ธ์„ ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๊นจ๋—ํ•˜๊ณ  ์ž˜ ์„ž์˜€๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์€ ๊ธ‰๋“ฑ์„ ์˜ˆ๋ฐฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, OLMo2๋Š” ๋ฐ˜๋ณต๋˜๋Š” n-gram (1-13 ํ† ํฐ ์ŠคํŒฌ์˜ 32ํšŒ ์ด์ƒ ๋ฐ˜๋ณต)์„ ๊ฐ€์ง„ ๋ฌธ์„œ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ๊ธ‰๋“ฑ ๋นˆ๋„๋ฅผ ์ƒ๋‹นํžˆ ์ค„์ธ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

ํ•™์Šต ์ˆ˜์ •:ย Z-์†์‹ค ์ •๊ทœํ™”๋Š” ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š์œผ๋ฉด์„œ ์ถœ๋ ฅ ๋กœ์ง“์ด ๋„ˆ๋ฌด ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ์—์„œ ์ œ์™ธํ•˜๋Š” ๊ฒƒ๋„ ๋„์›€์ด ๋œ๋‹ค.

์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ:ย QKNorm (์–ดํ…์…˜ ์ „ ์ฟผ๋ฆฌ์™€ ํ‚ค ํˆฌ์˜ ์ •๊ทœํ™”)์€ ํšจ๊ณผ์ ์ธ ๊ฒƒ์œผ๋กœ ์ž…์ฆ๋˜์—ˆ๋‹ค. OLMo2์™€ ๋‹ค๋ฅธ ํŒ€๋“ค์€ ๊ทธ๊ฒƒ์ด ์•ˆ์ •์„ฑ์— ๋„์›€์ด ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ํฅ๋ฏธ๋กญ๊ฒŒ๋„ Marin ํŒ€์€ ๋ฐœ์‚ฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ–‰ ์ค‘๊ฐ„์— ์ ์šฉ๋  ์ˆ˜๋„ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

์–ด์จŒ๋“  ๊ธ‰๋“ฑ์ด ๋ฐœ์ƒํ–ˆ์„ ๋•Œ - ํ”ผํ•ด ํ†ต์ œ:

์ด๋Ÿฌํ•œ ์˜ˆ๋ฐฉ ์กฐ์น˜์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ธ‰๋“ฑ์€ ์—ฌ์ „ํžˆ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์Œ์€ ๊ทธ๊ฒƒ๋“ค์„ ์ˆ˜์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ช‡ ๊ฐ€์ง€ ์˜ต์…˜์ด๋‹ค:

์šฐ๋ฆฌ๋Š” ์ฒ˜๋ฆฌ๋Ÿ‰ ์ €ํ•˜์—์„œ TP ๋ฒ„๊ทธ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€์˜ ํ™•์žฅ ๋ฌธ์ œ, ๋ฌธ์ œ๋ฅผ ์กฐ๊ธฐ์— ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•œ ๋ชจ๋‹ˆํ„ฐ๋ง ๊ด€ํ–‰, ๊ทธ๋ฆฌ๊ณ  ์†์‹ค ๊ธ‰๋“ฑ์„ ์˜ˆ๋ฐฉํ•˜๊ณ  ์ˆ˜์ •ํ•˜๊ธฐ ์œ„ํ•œ ์ „๋žต์„ ์‚ดํŽด๋ณด์•˜๋‹ค. ๋‹ค๋‹จ๊ณ„ ํ•™์Šต์ด ๋ชจ๋ธ์˜ ์ตœ์ข… ์„ฑ๋Šฅ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€ ๋…ผ์˜ํ•˜๋ฉฐ ์ด ์ฑ•ํ„ฐ๋ฅผ ๋งˆ์น˜๊ณ ์ž ํ•œ๋‹ค.

์ค‘๊ฐ„ ํ•™์Šต (Mid-training)

ํ˜„๋Œ€ LLM ์‚ฌ์ „ ํ•™์Šต์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๊ฐ€์ง„ ๋‹ค๋‹จ๊ณ„(multiple stages)๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ข…์ข… ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ข… ๋‹จ๊ณ„๊ฐ€ ๋’ค๋”ฐ๋ฅธ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Qwen3 (A. Yang, Li, et al., 2025)๋Š” 3๋‹จ๊ณ„ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค: 4k ์ปจํ…์ŠคํŠธ์—์„œ 30Tํ† ํฐ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ ๋‹จ๊ณ„, STEM ๋ฐ ์ฝ”๋”ฉ์„ ๊ฐ•์กฐํ•˜๋Š” 5T ๊ณ ํ’ˆ์งˆ ํ† ํฐ์„ ์‚ฌ์šฉํ•œ ์ถ”๋ก  ๋‹จ๊ณ„, ๊ทธ๋ฆฌ๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ 32k ์ปจํ…์ŠคํŠธ ๊ธธ์ด์—์„œ ์ˆ˜์ฒœ์–ต ํ† ํฐ์— ๋Œ€ํ•œ ๊ธด ์ปจํ…์ŠคํŠธ ๋‹จ๊ณ„์ด๋‹ค. SmolLM3๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๋„์ž…ํ•˜๊ณ  ์ปจํ…์ŠคํŠธ๋ฅผ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•œ ๊ณ„ํš๋œ ๊ฐœ์ž…๊ณผ ํ•จ๊ป˜, ์„ฑ๋Šฅ ๋ชจ๋‹ˆํ„ฐ๋ง์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐ˜์‘ํ˜• ์กฐ์ •์„ ํ•œ๋‹ค๋Š”, ์œ ์‚ฌํ•œ ์ฒ ํ•™์„ ๋”ฐ๋ž๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ์„น์…˜์—์„œ ์„ค๋ช…ํ–ˆ๋“ฏ์ด, ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์€ ํ•™์Šต ๋‚ด๋‚ด ๊ณ ์ •๋˜์–ด ์žˆ์„ ํ•„์š”๊ฐ€ ์—†๋‹ค. ๋‹ค๋‹จ๊ณ„ ํ•™์Šต์„ ํ†ตํ•ด ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์…‹ ๋น„์œจ์„ ์ „๋žต์ ์œผ๋กœ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์žˆ๋‹ค. ์ผ๋ถ€ ๊ฐœ์ž…์€ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ณ„ํš๋œ๋‹ค: SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 2๋‹จ๊ณ„์—์„œ ๊ณ ํ’ˆ์งˆ FineMath4+ ๋ฐ Stack-Edu๋ฅผ ๋„์ž…ํ•œ ๋‹ค์Œ, ์ตœ์ข… ๊ฐ์‡  ๋‹จ๊ณ„ ๋™์•ˆ ํ๋ ˆ์ด์…˜๋œ Q&A ๋ฐ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•  ๊ฒƒ์„ ๋ฏธ๋ฆฌ ๊ณ„ํšํ•˜์—ฌ ์•Œ๊ณ  ์žˆ์—ˆ๋‹ค. ๋‹ค๋ฅธ ๊ฐœ์ž…์€ ๋ฐ˜์‘ํ˜•์ด๋ฉฐ, ํ•™์Šต ์ค‘ ์„ฑ๋Šฅ ๋ชจ๋‹ˆํ„ฐ๋ง์— ์˜ํ•ด ์ฃผ๋„๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, SmolLM2์—์„œ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ์„ฑ๋Šฅ์ด ๋ชฉํ‘œ๋ณด๋‹ค ๋’ค์ฒ˜์ง€๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์„ ๋•Œ, ์šฐ๋ฆฌ๋Š” ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ (FineMath ๋ฐ Stack-Edu)์„ ํ๋ ˆ์ด์…˜ํ•˜๊ณ  ์ค‘๊ฐ„ ํ•™์Šต์— ๋„์ž…ํ–ˆ๋‹ค. ๊ณ„ํš๋œ ์ปค๋ฆฌํ˜๋Ÿผ์„ ๋”ฐ๋ฅด๋“  ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฉ์ฐจ์— ์ ์‘ํ•˜๋“ , ์ด๋Ÿฌํ•œย ์œ ์—ฐ์„ฑ์€ ์šฐ๋ฆฌ๊ฐ€ ์ปดํ“จํŒ… ์˜ˆ์‚ฐ์˜ ๊ฐ€์น˜๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.

2๋‹จ๊ณ„ ๋ฐ 3๋‹จ๊ณ„ ํ˜ผํ•ฉ

์•„๋ž˜ ์ฐจํŠธ๋Š” ์šฐ๋ฆฌ์˜ 3๊ฐ€์ง€ ํ•™์Šต ๋‹จ๊ณ„์™€ ํ•™์Šต ์ค‘ ์›น/์ฝ”๋“œ/์ˆ˜ํ•™ ๋น„์œจ์˜ ์ง„ํ–‰ ์ƒํ™ฉ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐ ๋‹จ๊ณ„์— ๋Œ€ํ•œ SmolLM3 ํ•™์Šต ์„ค์ •์€ ์ •ํ™•ํ•œ ๋ฐ์ดํ„ฐ ๊ฐ€์ค‘์น˜์™€ ํ•จ๊ป˜ ์—ฌ๊ธฐ(https://github.com/huggingface/smollm/tree/main/text/pretraining/smollm3) ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ๋‹จ๊ณ„์˜ ๊ทผ๊ฑฐ์™€ ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ์„น์…˜์„ ์ฐธ๊ณ ํ•ด๋ผ.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 6.00.32.png

1๋‹จ๊ณ„: ๊ธฐ๋ณธ ํ•™์Šต (8์กฐ ํ† ํฐ, 4k ์ปจํ…์ŠคํŠธ) ๊ธฐ์ดˆ ๋‹จ๊ณ„๋Š” ์šฐ๋ฆฌ์˜ ํ•ต์‹ฌ ์‚ฌ์ „ ํ•™์Šต ํ˜ผํ•ฉ์„ ์‚ฌ์šฉํ•œ๋‹ค: ์›น ๋ฐ์ดํ„ฐ (FineWeb-Edu, DCLM, FineWeb2, FineWeb2-HQ), The Stack v2์™€ StarCoder2์˜ ์ฝ”๋“œ, ๊ทธ๋ฆฌ๊ณ  FineMath3+์™€ InfiWebMath3+์˜ ์ˆ˜ํ•™์ด๋‹ค. ๋ชจ๋“  ํ•™์Šต์€ 4k ์ปจํ…์ŠคํŠธ ๊ธธ์ด์—์„œ ์ด๋ฃจ์–ด์ง„๋‹ค.

**2๋‹จ๊ณ„: ๊ณ ํ’ˆ์งˆ ์ฃผ์ž… (2์กฐ ํ† ํฐ, 4k ์ปจํ…์ŠคํŠธ)**์šฐ๋ฆฌ๋Š” ๊ณ ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋„์ž…ํ•œ๋‹ค: ์ฝ”๋“œ๋ฅผ ์œ„ํ•œ Stack-Edu, ์ˆ˜ํ•™์„ ์œ„ํ•œ FineMath4+ ๋ฐ InfiWebMath4+, ๊ทธ๋ฆฌ๊ณ  ๊ณ ๊ธ‰ ์ˆ˜ํ•™์  ์ถ”๋ก ์„ ์œ„ํ•œ MegaMath (์šฐ๋ฆฌ๋Š” Qwen Q&A ๋ฐ์ดํ„ฐ, ํ•ฉ์„ฑ ์žฌ์ž‘์„ฑ, ๋ฐ ํ…์ŠคํŠธ-์ฝ”๋“œ ์ธํ„ฐ๋ฆฌ๋ธŒ ๋ธ”๋ก์„ ์ถ”๊ฐ€ํ•œ๋‹ค).

3๋‹จ๊ณ„: ์ถ”๋ก  ๋ฐ Q&A ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ LR ๊ฐ์‡  (1.1์กฐ ํ† ํฐ, 4k ์ปจํ…์ŠคํŠธ) ํ•™์Šต๋ฅ  ๊ฐ์‡  ๋‹จ๊ณ„ ๋™์•ˆ, ์šฐ๋ฆฌ๋Š” ๊ณ ํ’ˆ์งˆ ์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ์…‹์„ ๋”์šฑ ์—…์ƒ˜ํ”Œ๋งํ•˜๋ฉด์„œ OpenMathReasoning, OpenCodeReasoning ๋ฐ OpenMathInstruct์™€ ๊ฐ™์€ ์ง€์นจ ๋ฐ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ๋„์ž…ํ•œ๋‹ค. Q&A ์ƒ˜ํ”Œ์€ ๋‹จ์ˆœํžˆ Concatenate ๋˜๊ณ , ์ค„๋ฐ”๊ฟˆ์œผ๋กœ ๊ตฌ๋ถ„๋œ๋‹ค.

๊ธด ์ปจํ…์ŠคํŠธ ํ™•์žฅ: 4k์—์„œ 128k ํ† ํฐ์œผ๋กœ

์ปจํ…์ŠคํŠธ ๊ธธ์ด๋Š” ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋ฉฐ, ๊ธด ๋ฌธ์„œ ๋ถ„์„, ์ผ๊ด€๋œ ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™” ์œ ์ง€, ๋˜๋Š” ์ „์ฒด ์ฝ”๋“œ๋ฒ ์ด์Šค ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ ์ž‘์—…์— ์ค‘์š”ํ•˜๋‹ค. SmolLM3๋Š” 4k ํ† ํฐ์—์„œ ํ•™์Šต์„ ์‹œ์ž‘ํ–ˆ์ง€๋งŒ, ์‹ค์ œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด 128k๋กœ ํ™•์žฅํ•ด์•ผ ํ–ˆ๋‹ค.

์™œ ์ค‘๊ฐ„ ํ•™์Šต์—์„œ ์ปจํ…์ŠคํŠธ๋ฅผ ํ™•์žฅํ•˜๋Š”๊ฐ€?

์ฒ˜์Œ๋ถ€ํ„ฐ ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์—ฐ์‚ฐ๋Ÿ‰์ด ์ œ๊ณฑ์œผ๋กœ ํ™•์žฅ๋˜๋ฏ€๋กœ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€, ์—ฐ๊ตฌ๋Š” ํ•™์Šต ๋ ๋ฌด๋ ต์ด๋‚˜ ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ์ˆ˜์‹ญ์–ต์—์„œ ์ฒœ์–ต ํ† ํฐ์œผ๋กœ ์ปจํ…์ŠคํŠธ๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์ข‹์€ ๊ธด ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค (Gao et al., 2025).

์ˆœ์ฐจ์  ํ™•์žฅ: 4k โ†’ 32K โ†’ 64K

์šฐ๋ฆฌ๋Š” ๊ณง๋ฐ”๋กœ 128k๋กœ ์ ํ”„ํ•˜์ง€ ์•Š์•˜๋‹ค. ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” ๋‹จ๊ณ„์ ์œผ๋กœ ์ปจํ…์ŠคํŠธ๋ฅผ ์ ์ง„์ ์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ๋ชจ๋ธ์ด ๋” ๋‚˜์•„๊ฐ€๊ธฐ ์ „์— ๊ฐ ๊ธธ์ด์— ์ ์‘ํ•  ์‹œ๊ฐ„์„ ์ฃผ์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐœ์˜ ๊ธด ์ปจํ…์ŠคํŠธ ๋‹จ๊ณ„๋ฅผ ์‹คํ–‰ํ–ˆ๋‹ค: ๋จผ์ € 4k์—์„œ 32k๋กœ, ๊ทธ ๋‹ค์Œ 32k์—์„œ 64k๋กœ (128k ๊ธฐ๋Šฅ์€ ํ•™์Šต์ด ์•„๋‹Œ ์ถ”๋ก  ์‹œ ์™ธ์‚ฝ์—์„œ ๋‚˜์˜จ๋‹ค). ์šฐ๋ฆฌ๋Š” 50B ํ† ํฐ์— ๊ฑธ์ณ ๊ฐ ๋‹จ๊ณ„์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„์„ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ์ด ์ฃผ ๊ฐ์‡  ๋‹จ๊ณ„์˜ ๋งˆ์ง€๋ง‰ 100B ํ† ํฐ ๋™์•ˆ ์ปจํ…์ŠคํŠธ๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์ž˜ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๊ฐ ๋‹จ๊ณ„์—์„œ, ์šฐ๋ฆฌ๋Š” ์ข‹์€ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ๊ณผ RoPE theta ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๊ณ , Ruler ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€ํ–ˆ๋‹ค.

๐Ÿ’ก๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ์˜ ๊ธด ์ปจํ…์ŠคํŠธ ํ‰๊ฐ€

๊ธด ์ปจํ…์ŠคํŠธ ์ œ๊ฑฐ ์‹คํ—˜ ๋™์•ˆ, ์šฐ๋ฆฌ๋Š” HELMET ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ ๋งค์šฐ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค (๋‹ค๋ฅธ ์‹œ๋“œ๋กœ ๋™์ผํ•œ ํ•™์Šต์„ ํ•˜๋ฉด ๊ฐ€๋ณ€์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜จ๋‹ค). Gao et al.์€ ๋ฒค์น˜๋งˆํฌ ์ž‘์—…์˜ ๋ถ„์‚ฐ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ทธ ์œ„์— SFT๋ฅผ ์ˆ˜ํ–‰ํ•  ๊ฒƒ์„ ๊ถŒ์žฅํ•œ๋‹ค. ๋Œ€์‹  ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ ์ˆ˜์ค€์—์„œ ๋” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๋Š” RULER๋ฅผ ์„ ํƒํ–ˆ๋‹ค.

์ด ๋‹จ๊ณ„ ๋™์•ˆ, ๊ธด ์ปจํ…์ŠคํŠธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ธด ์›น ํŽ˜์ด์ง€ ๋ฐ ์ฑ…๊ณผ ๊ฐ™์€ ๊ธด ์ปจํ…์ŠคํŠธ ๋ฌธ์„œ๋ฅผ ์—…์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด๋‹ค (Gao et al., 2025). ์šฐ๋ฆฌ๋Š” FineWeb-Edu ๋ฐ Python-Edu๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Qwen2.5-1M์˜ ์ ‘๊ทผ ๋ฐฉ์‹ (A. Yang, Yu, et al., 2025)์„ ๋”ฐ๋ผ ๊ฒ€์ƒ‰ ๋ฐ ์ค‘๊ฐ„ ์ฑ„์šฐ๊ธฐ(fill-in-the-middle)์™€ ๊ฐ™์€ ์ž‘์—…์„ ์œ„ํ•ด ์ฑ…, ๊ธฐ์‚ฌ, ์‹ฌ์ง€์–ด ํ•ฉ์„ฑ ์ƒ์„ฑ๋œ ๋ฌธ์„œ๊นŒ์ง€ ์—…์ƒ˜ํ”Œ๋งํ•˜๋Š” ์—ฌ๋Ÿฌ ์ œ๊ฑฐ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„, ์šฐ๋ฆฌ๋Š” 3๋‹จ๊ณ„์˜ ๊ธฐ์ค€ ํ˜ผํ•ฉ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๊ฐœ์„ ์„ ๊ด€์ฐฐํ•˜์ง€ ๋ชปํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์ด๋ฏธ Ruler์—์„œ Llama 3.2 3B ๋ฐ Qwen2.5 3B์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿ๋ ฅ์ด ์žˆ์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ธฐ์ค€ ํ˜ผํ•ฉ์ด ์›น ๋ฐ์ดํ„ฐ ๋ฐ ์ฝ”๋“œ (ํ† ํฐ์˜ 10%๋กœ ์ถ”์ •๋จ)๋กœ๋ถ€ํ„ฐ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ธด ๋ฌธ์„œ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, NoPE๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒƒ์ด ๋„์›€์ด ๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์„ค์„ ์„ธ์› ๋‹ค.

(๊ธด ์ปจํ…์ŠคํŠธ ํ™•์žฅ์— ๋Œ€ํ•œ ๋” ๋งŽ์€ ํ†ต์ฐฐ๋ ฅ์„ ์œ„ํ•ด, How to Train Long-Context Language Models (Effectively) ๋…ผ๋ฌธ์„ ์ฝ๋Š” ๊ฒƒ์„ ์ถ”์ฒœํ•œ๋‹ค.)

RoPE ABF (RoPE with Adjusted Base Frequency):ย 4k์—์„œ 32k๋กœ ๊ฐˆ ๋•Œ, ์šฐ๋ฆฌ๋Š” RoPE theta (๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜)๋ฅผ 2M์œผ๋กœ ๋Š˜๋ ธ๊ณ , 32k์—์„œ 64k๋กœ ๊ฐˆ ๋•Œ๋Š” 5M์œผ๋กœ ๋Š˜๋ ธ๋‹ค. ์šฐ๋ฆฌ๋Š” 10M๊ณผ ๊ฐ™์€ ๋” ํฐ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด RULER ์ ์ˆ˜๋ฅผ ์•ฝ๊ฐ„ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ GSM8k์™€ ๊ฐ™์€ ์ผ๋ถ€ ์งง์€ ์ปจํ…์ŠคํŠธ ์ž‘์—…์„ ํ•ด์นœ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์—ฌ, ์งง์€ ์ปจํ…์ŠคํŠธ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š” 5M์„ ์œ ์ง€ํ–ˆ๋‹ค. ์ด ์ปจํ…์ŠคํŠธ ํ™•์žฅ ๋‹จ๊ณ„ ๋™์•ˆ, ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ์ˆ˜ํ•™, ์ฝ”๋“œ, ๋ฐ ์ถ”๋ก  Q&A ๋ฐ์ดํ„ฐ๋ฅผ ๋”์šฑ ์—…์ƒ˜ํ”Œ๋งํ•  ๊ธฐํšŒ๋ฅผ ์ด์šฉํ–ˆ์œผ๋ฉฐ, ChatML ํ˜•์‹์˜ ์ˆ˜์‹ญ๋งŒ ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค.

YARN ์™ธ์‚ฝ: 128k ๋„๋‹ฌ.ย 64k ์ปจํ…์ŠคํŠธ์—์„œ ํ•™์Šตํ•œ ํ›„์—๋„, ์šฐ๋ฆฌ๋Š” SmolLM3๊ฐ€ ์ถ”๋ก  ์‹œ 128k๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ๋ฅผ ์›ํ–ˆ๋‹ค. 128k ์‹œํ€€์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹  (๋น„์šฉ์ด ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์ด ๋“ ๋‹ค), ์šฐ๋ฆฌ๋Š”ย YARN (Yet Another RoPE extensioN method)ย (B. Peng et al., 2023)์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šต ๊ธธ์ด๋ฅผ ๋„˜์–ด ์™ธ์‚ฝํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค. ์ด๋ก ์ ์œผ๋กœ, YARN์€ ์‹œํ€€์Šค ๊ธธ์ด์˜ 4๋ฐฐ ์ฆ๊ฐ€๋ฅผ ํ—ˆ์šฉํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” 64k ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด 32k ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค 128k์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์—ฌ, ๋ชฉํ‘œ ์ถ”๋ก  ๊ธธ์ด์— ๋” ๊ฐ€๊น๊ฒŒ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์˜ ์ด์ ์„ ํ™•์ธํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ 256k (64k์˜ 4๋ฐฐ)๋กœ ๋ฐ€์–ด๋ถ™์ด๋Š” ๊ฒƒ์€ ์ €ํ•˜๋œ Ruler ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์„ 128k๊นŒ์ง€๋งŒ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ๊ถŒ์žฅํ•œ๋‹ค.

์ด๊ฒƒ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ๊ณ„ํš ๋ฐ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ๋ถ€ํ„ฐ ์ตœ์ข… ํ•™์Šต ์‹คํ–‰๊นŒ์ง€, ๊ทธ ๊ณผ์ •์—์„œ ๊ฒช์€ ๋ชจ๋“  ๋น„ํ•˜์ธ๋“œ ์Šคํ† ๋ฆฌ์˜ ๋„์ „๊ณผ ํ•จ๊ป˜ SmolLM3๋ฅผ ์œ„ํ•œ ์ „์ฒด ์‚ฌ์ „ ํ•™์Šต ์—ฌ์ •์„ ์ด์•ผ๊ธฐํ–ˆ๋‹ค.

์‚ฌ์ „ ํ•™์Šต ๋งˆ๋ฌด๋ฆฌ

์šฐ๋ฆฌ๋Š” ๋งŽ์€ ๋‚ด์šฉ์„ ๋‹ค๋ฃจ์—ˆ๋‹ค. ์™œ ๊ทธ๋ฆฌ๊ณ  ๋ฌด์—‡์„ ํ•™์Šตํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค€ ํ•™์Šต ๋‚˜์นจ๋ฐ˜๋ถ€ํ„ฐ, ์ „๋žต์  ๊ณ„ํš, ๋ชจ๋“  ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ์„ ๊ฒ€์ฆํ•œ ์ฒด๊ณ„์ ์ธ ์ œ๊ฑฐ ์‹คํ—˜, ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ทœ๋ชจ์—์„œ ๋†€๋ผ์šด ์ผ๋“ค์ด ๋“ฑ์žฅํ–ˆ๋˜ ์‹ค์ œ ํ•™์Šต ๋งˆ๋ผํ†ค (๋ฏธ์Šคํ„ฐ๋ฆฌํ•˜๊ฒŒ ๋ถ•๊ดดํ•˜๋Š” ์ฒ˜๋ฆฌ๋Ÿ‰, ๋ฐ์ดํ„ฐ๋กœ๋” ๋ณ‘๋ชฉ ํ˜„์ƒ, ๊ทธ๋ฆฌ๊ณ  1์กฐ ํ† ํฐ์—์„œ ์žฌ์‹œ์ž‘์„ ๊ฐ•์ œํ•œ ๋ฏธ๋ฌ˜ํ•œ ํ…์„œ ๋ณ‘๋ ฌํ™” ๋ฒ„๊ทธ)๊นŒ์ง€.

์ž˜ ๋‹ค๋“ฌ์–ด์ง„ ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ ๋’ค์˜ ์ง€์ €๋ถ„ํ•œ ํ˜„์‹ค์ด ์ด์ œ ๋ณด์ธ๋‹ค: LLM ํ•™์Šต์€ ์•„ํ‚คํ…์ฒ˜ ํ˜์‹  ๋ฐ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜๋งŒํผ์ด๋‚˜ย ์ ˆ์ œ๋œ ์‹คํ—˜๊ณผ ๋น ๋ฅธ ๋””๋ฒ„๊น…์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค. ๊ณ„ํš์€ ํ…Œ์ŠคํŠธํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ๊ฒƒ์„ ์‹๋ณ„ํ•œ๋‹ค. ์ œ๊ฑฐ ์‹คํ—˜์€ ๊ฐ ๊ฒฐ์ •์„ ๊ฒ€์ฆํ•œ๋‹ค. ๋ชจ๋‹ˆํ„ฐ๋ง์€ ๋ฌธ์ œ๋ฅผ ์กฐ๊ธฐ์— ํฌ์ฐฉํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•„์—ฐ์ ์œผ๋กœ ๋ฌด์–ธ๊ฐ€ ๊ณ ์žฅ ๋‚  ๋•Œ, ์ฒด๊ณ„์ ์ธ ์œ„ํ—˜ ์ œ๊ฑฐ๋Š” ์ •ํ™•ํžˆ ์–ด๋””๋ฅผ ๋ด์•ผ ํ• ์ง€ ์•Œ๋ ค์ค€๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ ๊ตฌ์ฒด์ ์œผ๋กœ, ์ด ํ”„๋กœ์„ธ์Šค๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ตฌ์ถ•ํ•˜๊ณ ์ž ํ–ˆ๋˜ ๊ฒƒ์„ ์ œ๊ณตํ–ˆ๋‹ค: ์ˆ˜ํ•™, ์ฝ”๋“œ, ๋‹ค๊ตญ์–ด ์ดํ•ด, ๊ทธ๋ฆฌ๊ณ  ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š”, Qwen3 ๋ชจ๋ธ์˜ ํŒŒ๋ ˆํ†  ํ”„๋ก ํ‹ฐ์–ด์— ์žˆ๋Š” 11์กฐ ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ 3B ๋ชจ๋ธ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 6.09.06.png

12๊ฐœ ์ธ๊ธฐ LLM ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ ํ‰๊ฐ€ ์Šน๋ฅ  (%). ๋ฒค์น˜๋งˆํฌ: HellaSwag, ARC, Winogrande, CommonsenseQA, MMLU-CF, MMLU Pro CF, PIQA, OpenBookQA, GSM8K, MATH, HumanEval+, MBPP+

๊ธฐ๋ณธ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ๊ฐ€ ์ €์žฅ๋˜๊ณ , ํ•™์Šต์ด ์™„๋ฃŒ๋˜๊ณ , GPU๊ฐ€ ๋งˆ์นจ๋‚ด ์‹์œผ๋ฉด, ์šฐ๋ฆฌ๋Š” ๋๋‚ฌ๋‹ค๊ณ  ๋ถ€๋ฅด๊ณ  ์‹ถ์„์ง€๋„ ๋ชจ๋ฅธ๋‹ค. ๊ฒฐ๊ตญ, ์šฐ๋ฆฌ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ž˜ ์˜ˆ์ธกํ•˜๊ณ , ๊ฐ•๋ ฅํ•œ ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์šฐ๋ฆฌ๊ฐ€ ๋ชฉํ‘œ๋กœ ํ•œ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

์•„์ง์€ ์•„๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์˜ค๋Š˜๋‚  ์‚ฌ๋žŒ๋“ค์ด ์›ํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€๊ณต๋˜์ง€ ์•Š์€ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก๊ธฐ๊ฐ€ ์•„๋‹ˆ๋ผย ์–ด์‹œ์Šคํ„ดํŠธ์™€ย ์ฝ”๋”ฉ ์—์ด์ „ํŠธ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ์‚ฌํ›„ ํ•™์Šต(Post-training)์ด ๋“ฑ์žฅํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์ „ ํ•™์Šต๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํ˜„์‹ค์€ ๋…ผ๋ฌธ๋ณด๋‹ค ๋” ์ง€์ €๋ถ„ํ•˜๋‹ค.

Beyond base models โ€” post-training in 2025

์‚ฌ์ „ ํ•™์Šต์ด ๋๋‚˜๋ฉด ํ•˜๋ฃจ ์•ˆ์— SFT ๊ธฐ์ค€์„ ์„ ํ™•๋ณดํ•ด์•ผ ํ•œ๋‹ค.

โ€”ย Lewis Tunstall, ๋‚™๊ด€์ ์ธ LLM ์ „๋ฌธ๊ฐ€.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 6.40.09.png

์ž์‹ ๋งŒ์˜ ์‚ฌํ›„ ํ•™์Šต ๋ชจํ—˜์„ ์„ ํƒํ•ด๋ผ.

์‚ฌ์ „ ํ•™์Šต์€ ์šฐ๋ฆฌ์—๊ฒŒ SmolLM3์˜ ์›์ดˆ์ ์ธ ๋Šฅ๋ ฅ์„ ์ฃผ์—ˆ์ง€๋งŒ, GPU๊ฐ€ ์‹๊ธฐ๋„ ์ „์— ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ ๋Šฅ๋ ฅ์˜ ๋‹ค์Œ ๊ฐœ์ฒ™์ง€์ธ **์‚ฌํ›„ ํ•™์Šต(post-training)**์— ์ง„์ž…ํ•œ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ์ง€๋„ ํŒŒ์ธ ํŠœ๋‹(SFT), ๊ฐ•ํ™” ํ•™์Šต, ๋ชจ๋ธ ๋ณ‘ํ•ฉ ๋“ฑ์ด ํฌํ•จ๋˜๋ฉฐ, ๋ชจ๋‘ โ€œํ…์ŠคํŠธ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธโ€์—์„œ โ€œ์‚ฌ๋žŒ๋“ค์ด ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธโ€๋กœ์˜ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต์ด ์ง€์‹์„ ๊ฐ€์ค‘์น˜์— ์–ต์ง€๋กœ ์ง‘์–ด๋„ฃ๋Š” ๊ฒƒ์ด๋ผ๋ฉด, ์‚ฌํ›„ ํ•™์Šต์€ ๊ทธ ์›์ดˆ์ ์ธ ๋Šฅ๋ ฅ์„ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ณ  ์กฐ์ข… ๊ฐ€๋Šฅํ•œ ๋ฌด์–ธ๊ฐ€๋กœ ์กฐ๊ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์ „ ํ•™์Šต๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ž˜ ๋‹ค๋“ฌ์–ด์ง„ ์‚ฌํ›„ ํ•™์Šต ๋…ผ๋ฌธ๋“ค์€ ์‹ฌ์•ผ์˜ ๋†€๋ผ์›€: GPU ๋ฉœํŠธ๋‹ค์šด, ๊นŒ๋‹ค๋กœ์šด ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ, ๋˜๋Š” ๊ฒ‰๋ณด๊ธฐ์— ์‚ฌ์†Œํ•œ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ ๊ฒฐ์ •์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ฒค์น˜๋งˆํฌ์— ํŒŒ๊ธ‰๋˜๋Š” ๋ฐฉ์‹์„ ๋ณด์—ฌ์ฃผ์ง€ ์•Š๋Š”๋‹ค. ์ด ์„น์…˜์—์„œ, ์šฐ๋ฆฌ๋Š” SmolLM3๋ฅผ ๊ฐ•๋ ฅํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ ์ตœ์ฒจ๋‹จ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ๋กœ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•ด ์‚ฌํ›„ ํ•™์Šต์˜ ํ˜ผ๋ž€์Šค๋Ÿฌ์šด ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ—ค์ณ๋‚˜๊ฐ”๋Š”์ง€ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค.

๐Ÿ“ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์€ ๋‘ ๊ฐ€์ง€ ๋ณ„๊ฐœ์˜ ๋ชจ๋“œ๋กœ ์ž‘๋™ํ•œ๋‹ค: ํ•˜๋‚˜๋Š” ๊ฐ„๊ฒฐํ•˜๊ณ  ์ง์ ‘์ ์ธ ์‘๋‹ต์„ ์œ„ํ•œ ๊ฒƒ์ด๊ณ  ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ํ™•์žฅ๋œ ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก ์„ ์œ„ํ•œ ๊ฒƒ์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ž‘๋™ ๋ชจ๋“œ๋Š” ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€์—์„œ ์‚ฌ์šฉ์ž์— ์˜ํ•ด ์„ค์ •๋œ๋‹ค. Qwen3๋ฅผ ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ๊ฐ€๋ฒผ์šด ๋ช…๋ น์–ด๋กœ ์ด๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋งŒ๋“ ๋‹ค: โ€œ/thinkโ€๋Š” ํ™•์žฅ๋œ ์ถ”๋ก ์„ ํ˜ธ์ถœํ•˜๋Š” ๋ฐ˜๋ฉด, โ€œ/no_thinkโ€๋Š” ๊ฐ„๊ฒฐํ•œ ๋‹ต๋ณ€์„ ๊ฐ•์ œํ•œ๋‹ค. ์ด๋Ÿฐ ์‹์œผ๋กœ, ์‚ฌ์šฉ์ž๋Š” ๋ชจ๋ธ์ด ๊นŠ์ด์™€ ์†๋„ ์ค‘ ๋ฌด์—‡์„ ์šฐ์„ ์‹œํ• ์ง€ ์ œ์–ดํ•œ๋‹ค.

์‚ฌํ›„ ํ•™์Šต ๋‚˜์นจ๋ฐ˜: ์™œ โ†’ ๋ฌด์—‡์„ โ†’ ์–ด๋–ป๊ฒŒ

์‚ฌ์ „ ํ•™์Šต๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์‚ฌํ›„ ํ•™์Šต์€ ๋‚ญ๋น„๋˜๋Š” ์—ฐ๊ตฌ ๋ฐ ์—”์ง€๋‹ˆ์–ด๋ง ์ฃผ๊ธฐ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๋ช…ํ™•ํ•œ ๋‚˜์นจ๋ฐ˜์œผ๋กœ๋ถ€ํ„ฐ ์ด์ ์„ ์–ป๋Š”๋‹ค. ํ”„๋ ˆ์ž„ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  1. ์™œ ์‚ฌํ›„ ํ•™์Šต์„ ํ•˜๋Š”๊ฐ€?ย ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์ „ ํ•™์Šต ๋‚˜์นจ๋ฐ˜์—์„œ ์„ค๋ช…ํ•œ ํ•™์Šต์˜ ์„ธ ๊ฐ€์ง€ ๋™๊ธฐโ€”์—ฐ๊ตฌ, ํ”„๋กœ๋•์…˜, ๊ทธ๋ฆฌ๊ณ  ์ „๋žต์  ์˜คํ”ˆ ์†Œ์Šคโ€”๋Š” ์‚ฌํ›„ ํ•™์Šต์—๋„ ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, RL์ด ๊ธฐ์กด ๋ชจ๋ธ์—์„œ ์ƒˆ๋กœ์šด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ž ๊ธˆ ํ•ด์ œํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ์ƒ‰ํ•˜๊ณ  ์žˆ๊ฑฐ๋‚˜(์—ฐ๊ตฌ), ์ง€์—ฐ ์‹œ๊ฐ„ ๋ฌธ์ œ๋กœ ์ธํ•ด ํฐ ๋ชจ๋ธ์„ ์ž‘์€ ๋ชจ๋ธ๋กœ ์ฆ๋ฅ˜(distill)ํ•ด์•ผ ํ•˜๊ฑฐ๋‚˜(ํ”„๋กœ๋•์…˜), ํŠน์ • ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ ๋ชจ๋ธ์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๊ฒฉ์ฐจ๋ฅผ ์‹๋ณ„ํ–ˆ์„ ์ˆ˜ ์žˆ๋‹ค(์ „๋žต์  ์˜คํ”ˆ ์†Œ์Šค). ์ฐจ์ด์ ์€ ์‚ฌํ›„ ํ•™์Šต์ด ์ฒ˜์Œ๋ถ€ํ„ฐ ๋Šฅ๋ ฅ์„ ๋งŒ๋“œ๋Š” ๋Œ€์‹  ๊ธฐ์กด ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ GPU์— ์†์„ ๋ป—๊ธฐ ์ „์— ์•„๋ž˜ ์งˆ๋ฌธ๋“ค์„ ์Šค์Šค๋กœ์—๊ฒŒ ๋ฌผ์–ด๋ด์•ผ ํ•œ๋‹ค:

    • ์ •๋ง๋กœ ์‚ฌํ›„ ํ•™์Šต์„ ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?ย ๋งŽ์€ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ๋“ค์ด ์ด์ œ ๊ด‘๋ฒ”์œ„ํ•œ ์ž‘์—…์—์„œ ๋…์  ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿํ•œ๋‹ค. ์ผ๋ถ€๋Š” ์–‘์žํ™”์™€ ์ ๋‹นํ•œ ์ปดํ“จํŒ…์œผ๋กœ ๋กœ์ปฌ์—์„œ ์‹คํ–‰๋  ์ˆ˜๋„ ์žˆ๋‹ค. ๋ฒ”์šฉ ์–ด์‹œ์Šคํ„ดํŠธ๋ฅผ ์›ํ•œ๋‹ค๋ฉด, Hugging Face Hub์˜ ๊ธฐ์„ฑ ๋ชจ๋ธ์ด ์ด๋ฏธ ์—ฌ๋Ÿฌ๋ถ„์˜ ํ•„์š”๋ฅผ ์ถฉ์กฑ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
    • ๊ณ ํ’ˆ์งˆ, ๋„๋ฉ”์ธ๋ณ„ ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?ย ์‚ฌํ›„ ํ•™์Šต์€ ๋ฒ”์šฉ ๋ชจ๋ธ์ด ์ €์กฐํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ํŠน์ • ์ž‘์—…์ด๋‚˜ ๋„๋ฉ”์ธ์„ ๋ชฉํ‘œ๋กœ ํ•  ๋•Œ ๊ฐ€์žฅ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค. ์˜ฌ๋ฐ”๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด, ์—ฌ๋Ÿฌ๋ถ„์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๋Š” ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋Œ€ํ•ด ๋” ์ •ํ™•ํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋„๋ก ๋ชจ๋ธ์„ ํŠœ๋‹ํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ์„ฑ๊ณต์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?ย ๋ช…ํ™•ํ•œ ํ‰๊ฐ€ ๊ธฐ์ค€ ์—†์ด๋Š” ์‚ฌํ›„ ํ•™์Šต์ด ์ •๋ง ๋„์›€์ด ๋˜๋Š”์ง€ ์•Œ ์ˆ˜ ์—†์„ ๊ฒƒ์ด๋‹ค.
  2. ์‚ฌํ›„ ํ•™์Šต์€ ๋ฌด์—‡์„ ๋‹ฌ์„ฑํ•ด์•ผ ํ•˜๋Š”๊ฐ€?ย ์ด๊ฒƒ์€ ์—ฌ๋Ÿฌ๋ถ„์˜ ์šฐ์„ ์ˆœ์œ„์— ๋‹ฌ๋ ค์žˆ๋‹ค:

    • ์ฃผ์ œ๋ฅผ ๊ฑฐ์˜ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š” ๊น”๋”ํ•œ ์ง€์นจ ์ˆ˜ํ–‰์ž๋ฅผ ์›ํ•˜๋Š”๊ฐ€?
    • ์š”๊ตฌ์— ๋”ฐ๋ผ ํ†ค๊ณผ ์—ญํ• ์„ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์žฌ๋‹ค๋Šฅํ•œ ์–ด์‹œ์Šคํ„ดํŠธ์ธ๊ฐ€?
    • ์ˆ˜ํ•™, ์ฝ”๋“œ, ๋˜๋Š” ์—์ด์ „ํŠธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ์ถ”๋ก  ์—”์ง„์ธ๊ฐ€?
    • ์—ฌ๋Ÿฌ ์–ธ์–ด๋กœ ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ธ๊ฐ€?
  3. ์–ด๋–ป๊ฒŒ ๋„๋‹ฌํ•  ๊ฒƒ์ธ๊ฐ€?ย ๊ทธ๊ฒƒ์ด ๋ ˆ์‹œํ”ผ๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ์„ ๋‹ค๋ฃฐ ๊ฒƒ์ด๋‹ค:

    • ํ•ต์‹ฌ ๋Šฅ๋ ฅ์„ ์ฃผ์ž…ํ•˜๊ธฐ ์œ„ํ•œย ์ง€๋„ ํŒŒ์ธ ํŠœ๋‹(SFT).
    • ์ธ๊ฐ„ ๋˜๋Š” AI ์„ ํ˜ธ๋„๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œย ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(PO).
    • ์ง€๋„ ๋ฐ์ดํ„ฐ๋ฅผ ๋„˜์–ด ์‹ ๋ขฐ์„ฑ๊ณผ ์ถ”๋ก ์„ ์ •์ œํ•˜๊ธฐ ์œ„ํ•œย ๊ฐ•ํ™” ํ•™์Šต(RL).
    • ๋‹ค์–‘์„ฑ๊ณผ ํ’ˆ์งˆ ์‚ฌ์ด์˜ ์˜ฌ๋ฐ”๋ฅธ ๊ท ํ˜•์„ ๋งž์ถ”๊ธฐ ์œ„ํ•œย ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜.
    • ์ง„์ „์„ ์ถ”์ ํ•˜๊ณ  ํšŒ๊ท€๋ฅผ ์กฐ๊ธฐ์— ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•œย ํ‰๊ฐ€.

์ด ๋‚˜์นจ๋ฐ˜์€ ์‚ฌํ›„ ํ•™์Šต์˜ ์นด์˜ค์Šค์—์„œ ๋ฐฉํ–ฅ์„ ์žก๊ฒŒ ํ•ด์ค€๋‹ค.ย ์™œ๋Š” ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๊ณ ,ย ๋ฌด์—‡์€ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์„ค์ •ํ•˜๋ฉฐ,ย ์–ด๋–ป๊ฒŒ๋Š” ์•ผ๋ง์„ ์‹ค์šฉ์ ์ธ ํ•™์Šต ๋ฃจํ”„๋กœ ๋ฐ”๊พผ๋‹ค.

SmolLM3์— ๋Œ€ํ•ด ์šฐ๋ฆฌ๊ฐ€ ์ด ์งˆ๋ฌธ๋“ค์— ์–ด๋–ป๊ฒŒ ๋‹ตํ–ˆ๋Š”์ง€ ์‚ดํŽด๋ณด์ž:

์‚ฌ์ „ ํ•™์Šต๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์•ผ ํ•œ๋‹ค: ํ‰๊ฐ€(evals)์™€ ๊ธฐ์ค€์„ (baselines). ์™œ๋ƒํ•˜๋ฉด ๋ชจ๋“  ํฐ ๋ชจ๋ธ์€ ์ž‘์€ ์ œ๊ฑฐ ์‹คํ—˜์œผ๋กœ ์‹œ์ž‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๊ฐ€ ์ œ๊ฑฐ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์— ์ค‘์š”ํ•œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต์—์„œ โ€œ์ž‘์€โ€์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ์ž‘์€ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์„ ์˜๋ฏธํ•œ๋‹ค. ์‚ฌํ›„ ํ•™์Šต์—์„œ โ€œ์ž‘์€โ€์€ย ๋” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋” ๊ฐ„๋‹จํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์˜๋ฏธํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋™์ž‘์ด ๋„ˆ๋ฌด ๋ชจ๋ธ ์˜์กด์ ์ด๊ณ  ์‹คํ–‰์ด ๋Œ€์ƒ ๋ชจ๋ธ์—์„œ ์ง์ ‘ ๋ฐ˜๋ณตํ•  ์ˆ˜ ์žˆ์„ ๋งŒํผ ์งง๊ธฐ ๋•Œ๋ฌธ์— ์ œ๊ฑฐ ์‹คํ—˜์„ ์œ„ํ•ด ๋‹ค๋ฅธ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๊ฑฐ์˜ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค.

๋งŽ์€ ๋ชจ๋ธ ํ•™์Šต์ž๋“ค์ด ํ”„๋กœ์ ํŠธ ํ›„๋ฐ˜๊นŒ์ง€ ํ”ผํ•˜๋Š” ์ฃผ์ œ์ธ, ํ‰๊ฐ€๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด๋ณด์ž.

๊ฐ€์žฅ ๋จผ์ € ํ•  ์ผ: ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ๋ณด๋‹ค ํ‰๊ฐ€(evals)

์‚ฌํ›„ ํ•™์Šต์˜ ๊ฐ€์žฅ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” โ€” ์‚ฌ์ „ ํ•™์Šต๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ โ€” ์˜ฌ๋ฐ”๋ฅธ ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์˜ค๋Š˜๋‚  ๋Œ€๋ถ€๋ถ„์˜ LLM์ด ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ์‚ฌ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” ARC-AGI์™€ ๊ฐ™์€ โ€œ์ง€๋Šฅโ€์˜ ์ถ”์ƒ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ซ“๋Š” ๊ฒƒ๋ณด๋‹ค โ€œ์ž˜ ์ž‘๋™ํ•˜๋Š”โ€ ๋ชจ๋ธ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ฒƒ์ด ๋” ๋‚˜์€ ๋ชฉํ‘œ๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ข‹์€ ์–ด์‹œ์Šคํ„ดํŠธ๋Š” ๋ฌด์—‡์„ ํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ์ตœ์†Œํ•œ ๋‹ค์Œ์„ ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค:

์ด๋Ÿฌํ•œ ํ–‰๋™์€ ์ถ”๋ก , ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ, ๊ทธ๋ฆฌ๊ณ  ์ˆ˜ํ•™, ์ฝ”๋“œ ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ ๊ธฐ์ˆ ์˜ ํ˜ผํ•ฉ์— ์˜์กดํ•œ๋‹ค. 30์–ต ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒํผ ์ž‘๊ฑฐ๋‚˜ ์‹ฌ์ง€์–ด ๊ทธ๋ณด๋‹ค ์ž‘์€ ๋ชจ๋ธ๋„ ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ์ž˜ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์„ฑ๋Šฅ์€ ์ผ๋ฐ˜์ ์œผ๋กœ 10์–ต ๋ฏธ๋งŒ์—์„œ ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง„๋‹ค.

(์•„์ฃผ ์ž‘์€ ๋ชจ๋ธ์ด ์ œํ•œ๋œ ์šฉ๋Ÿ‰์„ ์ƒ์‡„ํ•˜๊ธฐ ์œ„ํ•ด ๋„๊ตฌ ํ˜ธ์ถœ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€๋Š” ํฅ๋ฏธ๋กญ์ง€๋งŒ ์—ฌ์ „ํžˆ ์—ด๋ฆฐ ์งˆ๋ฌธ์œผ๋กœ ๋‚จ์•„ ์žˆ๋‹ค. ์ด ๋ฐฉํ–ฅ์˜ ์ตœ๊ทผ ์ž‘์—…์€ LiquidAI์˜ ๋ชจ๋ธ๋“ค์„ ์ฐธ๊ณ ํ•ด๋ผ.)

Hugging Face์—์„œ, ์šฐ๋ฆฌ๋Š” ์‚ฌ์ „ ํ•™์Šต์„ ์œ„ํ•œ ์ œ๊ฑฐ ์‹คํ—˜ ์„น์…˜์—์„œ ์ž์„ธํžˆ ์„ค๋ช…ํ•œ ์‚ฌ์ „ ํ•™์Šต ์›์น™ (๋‹จ์กฐ์„ฑ, ๋‚ฎ์€ ๋…ธ์ด์ฆˆ, ๋žœ๋ค ์ด์ƒ์˜ ์‹ ํ˜ธ, ์ˆœ์œ„ ์ผ๊ด€์„ฑ)์„ ๋ฐ˜์˜ํ•˜๋Š” ๊ณ„์ธตํ™”๋œ ํ‰๊ฐ€ ์Šค์œ„ํŠธ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

๐Ÿ“ํ‰๊ฐ€๋ฅผ ์ตœ์‹  ์ƒํƒœ๋กœ ์œ ์ง€ํ•˜๊ธฐ

๊ณ ๋ คํ•ด์•ผ ํ•  ํ‰๊ฐ€ ๋ชฉ๋ก์€ ๋ชจ๋ธ์ด ๊ฐœ์„ ๋จ์— ๋”ฐ๋ผ ์ง€์†์ ์œผ๋กœ ์ง„ํ™”ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ ์•„๋ž˜ ๋…ผ์˜๋œ ํ‰๊ฐ€๋“ค์€ 2025๋…„ ์ค‘๋ฐ˜์˜ ์šฐ๋ฆฌ์˜ ์ดˆ์ ์„ ๋ฐ˜์˜ํ•˜๊ณ  ์žˆ๋‹ค. ์‚ฌํ›„ ํ•™์Šต ํ‰๊ฐ€์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ๊ฐœ์š”๋Š” Evaluation Guidebook์„ ์ฐธ๊ณ ํ•˜๋ผ.

๋‹ค์Œ์€ ์‚ฌํ›„ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด๋‹ค:

  1. ๋Šฅ๋ ฅ ํ‰๊ฐ€ (Capability evals)

์ด ํด๋ž˜์Šค์˜ ํ‰๊ฐ€๋Š” ์ถ”๋ก  ๋ฐ ๊ฒฝ์Ÿ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ๊ธฐ๋ณธ ๊ธฐ์ˆ ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

  1. ํ†ตํ•ฉ ์ž‘์—… ํ‰๊ฐ€ (Integrated task evals)

์ด๋Ÿฌํ•œ ํ‰๊ฐ€๋“ค์€ ์šฐ๋ฆฌ๊ฐ€ ์ถœ์‹œํ•  ๊ฒƒ๊ณผ ๊ฐ€๊นŒ์šด ๊ฒƒ๋“ค์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค: ๋ฐ˜-ํ˜„์‹ค์ ์ธ ์„ค์ •์—์„œ์˜ ๋ฉ€ํ‹ฐํ„ด ์ถ”๋ก , ๊ธด ์ปจํ…์ŠคํŠธ ์‚ฌ์šฉ, ๊ทธ๋ฆฌ๊ณ  ๋„๊ตฌ ํ˜ธ์ถœ์ด๋‹ค.

  1. ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€ ํ‰๊ฐ€ (Overfitting-prevention evals)

๋ชจ๋ธ์ด ํŠน์ • ๊ธฐ์ˆ ์— ๊ณผ์ ํ•ฉ๋˜๊ณ  ์žˆ๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” GSM8k (Cobbe et al., 2021)์˜ ๋ฌธ์ œ๋ฅผ ๊ต๋ž€์‹œ์ผœ ๋ชจ๋ธ์ด ์—ฌ์ „ํžˆ ๋น„์Šทํ•œ ๋‚œ์ด๋„์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋Š”ย GSMPlusย (Q. Li et al., 2024)์™€ ๊ฐ™์€ ๊ฒฌ๊ณ ์„ฑ ๋˜๋Š” ์ ์‘์„ฑ ํ‰๊ฐ€๋ฅผ ์„ธํŠธ์— ํฌํ•จํ–ˆ๋‹ค.

  1. ๋‚ด๋ถ€ ํ‰๊ฐ€ (Internal evals)

๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋ชจ๋ธ ๊ฐœ๋ฐœ ์ค‘์— ์œ ์šฉํ•œ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํŠน์ • ๊ธฐ๋Šฅ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ž์ฒด ๋‚ด๋ถ€ ํ‰๊ฐ€๋ฅผ ๊ตฌํ˜„ํ•˜๊ฑฐ๋‚˜ ๋‚ด๋ถ€ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ๋ชจ๋ธ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋„๋ก ์š”์ฒญํ•˜๋Š” ๊ฒƒ์„ ๋Œ€์ฒดํ•  ์ˆ˜๋Š” ์—†๋‹ค.

(์ด๊ฒƒ์€ AI ์ œํ’ˆ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒฝ์šฐ ํŠนํžˆ ๊ทธ๋ ‡๋‹ค. ์ด ์ฃผ์ œ์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ์กฐ์–ธ์€ Hamel Husain์˜ ํ›Œ๋ฅญํ•œ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ https://www.decodingai.com/?utm_source=navbar&utm_medium=web ์„ ์ฐธ๊ณ ํ•ด๋ผ.)

์˜ˆ๋ฅผ ๋“ค์–ด, SmolLM3์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์ด ๋ฉ€ํ‹ฐํ„ด ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ•„์š”ํ–ˆ์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด Multi-IF ๋ณ€ํ˜•์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.

  1. ๋ฐ”์ด๋ธŒ ํ‰๊ฐ€ ๋ฐ ์•„๋ ˆ๋‚˜ (Vibe evaluations and arenas)

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์šฐ๋ฆฌ๋Š” ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ๋ฅผ โ€œ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธโ€ (์ฆ‰, ๋ชจ๋ธ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๊ฒƒ)ํ•˜๋Š” ๊ฒƒ์ด ํ‰๊ฐ€ ์ ์ˆ˜๋กœ ํฌ์ฐฉ๋˜์ง€ ์•Š๋Š” ๋ชจ๋ธ ๋™์ž‘์˜ ๋ฏธ๋ฌ˜ํ•œ ๊ธฐ๋ฒฝ์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๋‚˜์ค‘์— ๋…ผ์˜ํ•˜๊ฒ ์ง€๋งŒ, ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธ๋Š” ๋ชจ๋“  ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€๊ฐ€ ์ฝ”ํผ์Šค์—์„œ ์‚ญ์ œ๋˜๋Š” ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ์ฝ”๋“œ์˜ ๋ฒ„๊ทธ๋ฅผ ๋ฐœ๊ฒฌํ–ˆ๋‹ค! ์ด๊ฒƒ์€ ๋˜ํ•œ ์ธ๊ธฐ ์žˆ๋Š” LMArena์—์„œ์ฒ˜๋Ÿผ ์ธ๊ฐ„ ์„ ํ˜ธ๋„๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ๋œ ์ธ๊ฐ„ ํ‰๊ฐ€๋Š” ๊นจ์ง€๊ธฐ ์‰ฌ์šด ๊ฒฝํ–ฅ์ด ์žˆ์œผ๋ฏ€๋กœ (์‹ค์ œ ์œ ์šฉ์„ฑ๋ณด๋‹ค ์•„์ฒจ๊ณผ ํ™”๋ คํ•œ ์–ธ์‚ฌ๋ฅผ ์„ ํ˜ธํ•จ), ๋‚ฎ์€ ์‹ ํ˜ธ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋ณด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

โ˜๏ธย ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค์—ผ ์ œ๊ฑฐํ•œ๋‹ค

๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ์— ์˜์กดํ•  ๋•Œ์˜ ํ•œ ๊ฐ€์ง€ ์œ„ํ—˜์€ ๋ชจ๋ธ์ด ์‰ฝ๊ฒŒ ๊ทธ๊ฒƒ๋“ค์— ๊ณผ์ ํ•ฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ธ๋ฐ, ํŠนํžˆ ๋ชฉํ‘œ ๋ฒค์น˜๋งˆํฌ์™€ ์œ ์‚ฌํ•œ ํ”„๋กฌํ”„ํŠธ ๋ฐ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ์‚ฌ์šฉ๋  ๋•Œ ๊ทธ๋ ‡๋‹ค. ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ, ๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ์•ˆ๋‚ดํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ํ‰๊ฐ€์— ๋Œ€ํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค์—ผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ด๋‹ค. Open-R1 (https://github.com/huggingface/open-r1/blob/main/scripts/decontaminate.py) ์— ์žˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ N-gram ์ผ์น˜๋กœ ์ด๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ ๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” ์ง€์นจ์„ ์•ˆ์ •์ ์œผ๋กœ ๋”ฐ๋ฅด๊ณ  ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ์™€ ๊ฐ™์€ ์ธ๊ธฐ ์žˆ๋Š” ๋„๋ฉ”์ธ์—์„œ ์ž˜ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์„ ์›ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ๋‹ค๊ตญ์–ด์„ฑ ๋ฐ ๊ธด ์ปจํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ๋ณด์กดํ•˜๋„๋ก ๋ณด์žฅํ•˜๊ณ  ์‹ถ์—ˆ๋‹ค.

์ด๊ฒƒ์€ ์šฐ๋ฆฌ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค:

๋ฒค์น˜๋งˆํฌ์นดํ…Œ๊ณ ๋ฆฌํ”„๋กฌํ”„ํŠธ ์ˆ˜์ง€ํ‘œ
AIME25๊ฒฝ์Ÿ ์ˆ˜ํ•™30avg@64
LiveCodeBench (๊ฒ€์ฆ์šฉ v4, ์ตœ์ข… ์ถœ์‹œ์šฉ v5)๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ100 (268)avg@16
GPQA Diamond๋Œ€ํ•™์› ์ˆ˜์ค€ ์ถ”๋ก 198avg@8
IFEval์ง€์นจ ๋”ฐ๋ฅด๊ธฐ541์ •ํ™•๋„
MixEval Hard์ •๋ ฌ1000์ •ํ™•๋„
BFCL v3๋„๊ตฌ ์‚ฌ์šฉ4441ํ˜ผํ•ฉ
Global MMLU (๊ฒ€์ฆ์šฉ lite)๋‹ค๊ตญ์–ด Q&A590,000 (6,400)์ •ํ™•๋„
GSMPlus (๊ฒ€์ฆ์šฉ mini)๊ฒฌ๊ณ ์„ฑ10,000 (2,400)์ •ํ™•๋„
RULER๊ธด ์ปจํ…์ŠคํŠธ6,500์ •ํ™•๋„

์ด ํ‰๊ฐ€๋“ค์ด ์‹ค์ œ๋กœ ๋ฌด์—‡์„ ํ…Œ์ŠคํŠธํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๊ฐ๊ฐ์„ ์–ป๊ธฐ ์œ„ํ•ด ๊ฐ๊ฐ์˜ ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ ์งˆ๋ฌธ์„ ์‚ดํŽด๋ณด์ž:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 6.55.06.png

์œ„์˜ ์˜ˆ์‹œ๋“ค์„ ํ›‘์–ด๋ณด๋ฉด์„œ ๊ฐ ๋ฒค์น˜๋งˆํฌ์˜ ์งˆ๋ฌธ ์œ ํ˜•์„ ๋ด๋ผ. ๋„๋ฉ”์ธ์˜ ๋‹ค์–‘์„ฑ์ด ์šฐ๋ฆฌ๊ฐ€ ์ œ๊ฑฐ ์‹คํ—˜ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ชจ๋ธ ๋Šฅ๋ ฅ์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ํ…Œ์ŠคํŠธํ•˜๊ณ  ์žˆ์Œ์„ ์–ด๋–ป๊ฒŒ ๋ณด์žฅํ•˜๋Š”์ง€ ์ฃผ๋ชฉํ•ด๋ผ.

์šฐ๋ฆฌ๊ฐ€ ์ž‘์—…ํ•˜๊ณ  ์žˆ๋˜ 30์–ต ๋ชจ๋ธ ๊ทœ๋ชจ์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ํ‰๊ฐ€๋“ค์ด ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์‹ ํ˜ธ๋ฅผ ์ฃผ๊ณ , ํ•™์Šต ์ž์ฒด๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ์‹คํ–‰๋˜๋ฉฐ, ๊ฐœ์„ ์ด ์ƒ˜ํ”Œ๋ง ๋…ธ์ด์ฆˆ๊ฐ€ ์•„๋‹ˆ๋ผ ์‹ค์ œ๋ผ๋Š” ํ™•์‹ ์„ ์ค„ ๊ฒƒ์ด๋ผ๊ณ  ๋А๊ผˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ ์„ฑ๋Šฅ์—์„œ ๋„ˆ๋ฌด ๋งŽ์ด ํšŒ๊ท€ํ•˜์ง€ ์•Š์•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ•™์Šต ํ‰๊ฐ€ (์ „์ฒด ๋ชฉ๋ก์€ ์ œ๊ฑฐ ์‹คํ—˜ ์„น์…˜ ์ฐธ์กฐ) ์˜ ์„ฑ๋Šฅ๋„ ๊ณ„์† ์ถ”์ ํ–ˆ๋‹ค.

โ˜๏ธํ‰๊ฐ€์˜ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ •ํ•œ๋‹ค

์œ„์˜ ์ด์•ผ๊ธฐ๋Š” ์šฐ๋ฆฌ๊ฐ€ ํŒ€์œผ๋กœ ๋ชจ์—ฌ ํ‰๊ฐ€ ์„ธํŠธ์— ๋Œ€ํ•ด ํ•ฉ์˜ํ•˜๊ณ , ์–ด๋–ค ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์ „์— ๊ทธ๊ฒƒ๋“ค์„ ์ค€๋น„ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋“ค๋ฆฐ๋‹ค. ํ˜„์‹ค์€ ํ›จ์”ฌ ๋” ์ง€์ €๋ถ„ํ–ˆ๋‹ค: ์šฐ๋ฆฌ๋Š” ์ด‰๋ฐ•ํ•œ ๋งˆ๊ฐ์ผ์ด ์žˆ์—ˆ๊ณ  ์œ„์˜ ๋งŽ์€ ํ‰๊ฐ€๋“ค์ด ๊ตฌํ˜„๋˜๊ธฐ ์ „์— ๋ชจ๋ธ ํ•™์Šต์„ ์„œ๋‘˜๋ €๋‹ค (์˜ˆ: RULER๋Š” ๋ชจ๋ธ ์ถœ์‹œ ๋ฉฐ์น  ์ „๊นŒ์ง€ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์—ˆ๋‹ค ๐Ÿ™ˆ). ๋Œ์ด์ผœ๋ณด๋ฉด ์ด๊ฒƒ์€ ์‹ค์ˆ˜์˜€์œผ๋ฉฐ, ์šฐ๋ฆฌ๋Š” ์–ด๋–ค ํ•ต์‹ฌ ํ‰๊ฐ€๊ฐ€ ์‚ฌํ›„ ํ•™์Šต ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ณด์กด๋˜์–ด์•ผ ํ•˜๋Š”์ง€ ์‚ฌ์ „ ํ•™์Šต ํŒ€๊ณผ ๋…ผ์˜ํ–ˆ์–ด์•ผ ํ–ˆ๊ณ  ๊ธฐ๋ณธ ๋ชจ๋ธ ํ•™์Šต์ด ์™„๋ฃŒ๋˜๊ธฐ ํ›จ์”ฌ ์ „์— ๊ทธ๊ฒƒ๋“ค์„ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์„ ์šฐ์„ ์ˆœ์œ„๋กœ ์‚ผ์•˜์–ด์•ผ ํ–ˆ๋‹ค. ์ฆ‰, ๋‹ค๋ฅธ ๋ชจ๋“  ๊ฒƒ๋ณด๋‹ค ํ‰๊ฐ€๋ฅผ ์šฐ์„ ์‹œํ•ด์•ผ ํ•œ๋‹ค!

์ฐธ์—ฌ ๊ทœ์น™

์ˆ˜์ฒœ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋ฉด์„œ ์–ป์€ ๋ช‡ ๊ฐ€์ง€ ํž˜๋“ค๊ฒŒ ์–ป์€ ๊ตํ›ˆ์œผ๋กœ ์ด ์„น์…˜์„ ์š”์•ฝํ•œ๋‹ค:

ํ‰๊ฐ€๊ฐ€ ์ค€๋น„๋˜์—ˆ์œผ๋ฏ€๋กœ, ์ด์ œ ๋ชจ๋ธ์„ ์ข€ ํ•™์Šต์‹œํ‚ฌ ์‹œ๊ฐ„์ด๋‹ค! ๊ทธ ์ „์—, ์šฐ๋ฆฌ๋Š” ๋จผ์ € ์‚ฌํ›„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค.

๋ฌด์—ญ์˜ ๋„๊ตฌ (Tools of the trade)

๋ชจ๋“  ์‚ฌํ›„ ํ•™์Šต ๋ ˆ์‹œํ”ผ ๋’ค์—๋Š” ๋Œ€๊ทœ๋ชจ ์‹คํ—˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋„๊ตฌ ์ƒ์ž๊ฐ€ ์žˆ๋‹ค. ๊ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ž์ฒด์ ์œผ๋กœ ์ง€์›๋˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜, ํŒŒ์ธ ํŠœ๋‹ ๋ฐฉ๋ฒ• ๋ฐ ํ™•์žฅ์„ฑ ๊ธฐ๋Šฅ ์„ธํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” ๊ฐ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ง€๋„ ํŒŒ์ธ ํŠœ๋‹(SFT)์—์„œ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(PO) ๋ฐ ๊ฐ•ํ™” ํ•™์Šต(RL)์— ์ด๋ฅด๋Š” ์ฃผ์š” ์ง€์› ์˜์—ญ์„ ์š”์•ฝํ•œ๋‹ค:

ํ”„๋ ˆ์ž„์›ŒํฌSFTPORL๋ฉ€ํ‹ฐ๋ชจ๋‹ฌFullFTLoRA๋ถ„์‚ฐ
TRLโœ…โœ…โœ…โœ…โœ…โœ…โœ…
Axolotlโœ…โœ…โœ…โœ…โœ…โœ…โœ…
OpenInstructโœ…โœ…โœ…โŒโœ…โœ…โœ…
Unslothโœ…โœ…โœ…โœ…โœ…โœ…โœ…
vERLโœ…โŒโœ…โœ…โœ…โœ…โœ…
Prime RLโœ…โŒโœ…โŒโœ…โœ…โœ…
PipelineRLโŒโŒโœ…โŒโœ…โœ…โœ…
ARTโŒโŒโœ…โŒโŒโœ…โŒ
TorchForgeโœ…โŒโœ…โŒโœ…โŒโœ…
NemoRLโœ…โœ…โœ…โŒโœ…โŒโœ…
OpenRLHFโœ…โœ…โœ…โŒโœ…โœ…โœ…

์—ฌ๊ธฐ์„œย FullFT๋Š” ํ•™์Šต ์ค‘ ๋ชจ๋“  ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์—…๋ฐ์ดํŠธ๋˜๋Š” **์ „์ฒด ํŒŒ์ธ ํŠœ๋‹(full fine-tuning)**์„ ์˜๋ฏธํ•œ๋‹ค.ย LoRA๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๋™๊ฒฐ๋œ ์ƒํƒœ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์ž‘์€ ์ €์ˆœ์œ„ ํ–‰๋ ฌ๋งŒ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์  ์ ‘๊ทผ ๋ฐฉ์‹์ธย Low-Rank Adaptation์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์€ ํ…์ŠคํŠธ ์ด์™ธ์˜ ์–‘์‹ (์˜ˆ: ์ด๋ฏธ์ง€)์— ๋Œ€ํ•œ ํ•™์Šต ์ง€์› ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ ๋ถ„์‚ฐ์€ ํ•˜๋‚˜ ์ด์ƒ์˜ GPU์—์„œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•œ์ง€ ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Hugging Face์—์„œ ์šฐ๋ฆฌ๋Š” TRL์„ ๊ฐœ๋ฐœํ•˜๊ณ  ์œ ์ง€ ๊ด€๋ฆฌํ•˜๋ฏ€๋กœ, ์ด๊ฒƒ์ด ์šฐ๋ฆฌ๊ฐ€ ์„ ํƒํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋ฉฐ SmolLM3๋ฅผ ์‚ฌํ›„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

๐Ÿ“ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํฌํฌ(fork)ํ•˜๋ผ

์ด ๋ถ„์•ผ์˜ ๋น ๋ฅธ ์†๋„๋ฅผ ๊ฐ์•ˆํ•  ๋•Œ, ์šฐ๋ฆฌ๋Š” TRL์˜ ๋‚ด๋ถ€ ํฌํฌ์—์„œ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๊ฝค ํšจ๊ณผ์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์„ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‚˜์ค‘์— ๋ฉ”์ธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ์—…์ŠคํŠธ๋ฆผ๋œ๋‹ค. ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋‚ด๋ถ€ ์ž‘์—…์— ์ต์ˆ™ํ•˜๋‹ค๋ฉด, ์œ ์‚ฌํ•œ ์›Œํฌํ”Œ๋กœ๋ฅผ ์ฑ„ํƒํ•˜๋Š” ๊ฒƒ์ด ๋น ๋ฅธ ๋ฐ˜๋ณต์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

๋„๋Œ€์ฒด ์™œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๊ฐ€?

ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ์‚ฌ์šฉ์„ ํ•œํƒ„ํ•˜๊ณ  ๋Œ€์‹  ํ•ญ์ƒ ๋ชจ๋“  ๊ฒƒ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌํ˜„ํ•ด์•ผ ํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋Š” ์—ฐ๊ตฌ์ž ๋ถ€๋ฅ˜๊ฐ€ ์žˆ๋‹ค. ์—ฌ๊ธฐ ๋‚ดํฌ๋œ ์ฃผ์žฅ์€ โ€œ์ง„์ •ํ•œโ€ ์ดํ•ด๋Š” ๋ชจ๋“  RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋‹ค์‹œ ๊ตฌํ˜„ํ•˜๊ฑฐ๋‚˜, ๋ชจ๋“  ๋ถ„์‚ฐ ํ•™์Šต ๊ธฐ๋ณธ ์š”์†Œ๋ฅผ ์ˆ˜๋™์œผ๋กœ ์ฝ”๋”ฉํ•˜๊ฑฐ๋‚˜, ์ผํšŒ์šฉ ํ‰๊ฐ€ ํ•˜๋„ค์Šค๋ฅผ ํ•ดํ‚นํ•˜์—ฌ ๋งŒ๋“œ๋Š” ๊ฒƒ์—์„œ๋งŒ ๋‚˜์˜จ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด ์ž…์žฅ์€ ํ˜„๋Œ€ ์—ฐ๊ตฌ ๋ฐ ์ƒ์‚ฐ์˜ ํ˜„์‹ค์„ ๋ฌด์‹œํ•œ๋‹ค. RL์„ ์˜ˆ๋กœ ๋“ค์–ด๋ณธ๋‹ค. PPO ๋ฐ GRPO์™€ ๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ตฌํ˜„ํ•˜๊ธฐ๊ฐ€ ๊นŒ๋‹ค๋กœ์šด ๊ฒƒ์œผ๋กœ ์•…๋ช…์ด ๋†’์œผ๋ฉฐ (Huang et al., 2024), ์ •๊ทœํ™” ๋˜๋Š” KL ํŽ˜๋„ํ‹ฐ์˜ ์ž‘์€ ์‹ค์ˆ˜๋Š” ๋ฉฐ์น  ๊ฐ„์˜ ๋‚ญ๋น„๋œ ์ปดํ“จํŒ… ๋ฐ ๋…ธ๋ ฅ์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค.

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์–ด๋–ค ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋‹จ์ผ ํŒŒ์ผ ๊ตฌํ˜„์„ ์ง์ ‘ ์ž‘์„ฑํ•˜๊ณ  ์‹ถ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ทธ ๋™์ผํ•œ ์Šคํฌ๋ฆฝํŠธ๊ฐ€ 10์–ต์—์„œ 1000์–ต ์ด์ƒ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์„๊นŒ?

ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธฐ๋ณธ ์‚ฌํ•ญ์ด ์ด๋ฏธ ์ž˜ ์ดํ•ด๋˜์–ด ์žˆ๊ณ  ๋์—†์ด ์žฌ๋ฐœ๋ช…ํ•˜๋Š” ๊ฒƒ์ด ์‹œ๊ฐ„ ๋‚ญ๋น„์ด๊ธฐ ๋•Œ๋ฌธ์— ์กด์žฌํ•œ๋‹ค. ๊ทธ๋ ‡๋‹ค๊ณ  ์ €์ˆ˜์ค€ ํŒ…์ปค๋ง์— ๊ฐ€์น˜๊ฐ€ ์—†๋‹ค๋Š” ๋ง์€ ์•„๋‹ˆ๋‹ค. PPO๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•œ ๋ฒˆ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์€ ํ›Œ๋ฅญํ•œ ๊ณต๋ถ€๊ฐ€ ๋˜๋Š” ์—ฐ์Šต์ด๋‹ค. ํ”„๋ ˆ์ž„์›Œํฌ ์—†์ด ์žฅ๋‚œ๊ฐ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ž‘์„ฑํ•˜๋ฉด ์–ดํ…์…˜์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ, ๋งˆ์Œ์— ๋“œ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ ํƒํ•˜๊ณ  ๋ชฉ์ ์— ๋งž๊ฒŒ ํ•ดํ‚นํ•˜์—ฌ ์‚ฌ์šฉํ•œ๋‹ค.

์ž”์†Œ๋ฆฌ๋Š” ๊ทธ๋งŒ๋‘๊ณ , ์šฐ๋ฆฌ๊ฐ€ ์ข…์ข… ํ•™์Šต ์‹คํ–‰์„ ์‹œ์ž‘ํ•˜๋Š” ๊ณณ์„ ์‚ดํŽด๋ณด์ž.

์™œ (๊ฑฐ์˜) ๋ชจ๋“  ์‚ฌํ›„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด SFT๋กœ ์‹œ์ž‘ํ•˜๋Š”๊ฐ€

์š”์ฆ˜ X(ํŠธ์œ„ํ„ฐ)์—์„œ ์‹œ๊ฐ„์„ ๋ณด๋‚ธ๋‹ค๋ฉด, ๊ฐ•ํ™” ํ•™์Šต(RL)๋งŒ์ด ์œ ์ผํ•œ ๊ฒŒ์ž„์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ๊ฒƒ์ด๋‹ค. ๋งค์ผ ์ƒˆ๋กœ์šด ์•ฝ์–ด, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์กฐ์ •, ๊ทธ๋ฆฌ๊ณ  RL์ด ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€์— ๋Œ€ํ•œ ๋œจ๊ฑฐ์šด ๋…ผ์Ÿ์ด ๋ฒŒ์–ด์ง€๊ณ  ์žˆ๋‹ค (Chu et al., 2025; Yue et al., 2025).

๋ฌผ๋ก  RL์€ ์ƒˆ๋กœ์šด ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. OpenAI์™€ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์†Œ๋“ค์€ ์ดˆ๊ธฐ ๋ชจ๋ธ์„ ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(RLHF) (Lambert et al., 2022)์— ํฌ๊ฒŒ ์˜์กดํ–ˆ์ง€๋งŒ, DeepSeek-R1 (DeepSeek-AI, Guo, et al., 2025)์ด ์ถœ์‹œ๋˜๊ณ  ๋‚˜์„œ์•ผ RL ๊ธฐ๋ฐ˜ ์‚ฌํ›„ ํ•™์Šต์ด ์˜คํ”ˆ ์†Œ์Šค ์ƒํƒœ๊ณ„์—์„œ ์ง„์ •์œผ๋กœ ์ธ๊ธฐ๋ฅผ ์–ป์—ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋ณ€ํ•˜์ง€ ์•Š์€ ํ•œ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค: ๊ฑฐ์˜ ๋ชจ๋“  ํšจ๊ณผ์ ์ธ ์‚ฌํ›„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์€ ์—ฌ์ „ํžˆ ์ง€๋„ ํŒŒ์ธ ํŠœ๋‹(SFT)์œผ๋กœ ์‹œ์ž‘ํ•œ๋‹ค. ์ด์œ ๋Š” ๊ฐ„๋‹จํ•˜๋‹ค:

์‹ค์ œ๋กœ, ์ด๊ฒƒ์€ SFT๊ฐ€ ์‰ฝ๊ธฐ ๋•Œ๋ฌธ์— ์ฒซ ๋‹จ๊ณ„์ผ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ; ๋” ๋ณต์žกํ•œ ๊ฒƒ์„ ์‹œ๋„ํ•˜๊ธฐ ์ „์— ์„ฑ๋Šฅ์„ ์ผ๊ด€๋˜๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋‹จ๊ณ„์ž„์„ ์˜๋ฏธํ•œ๋‹ค. ๊ธฐ๋ณธ ๋ชจ๋ธ๋กœ ์ž‘์—…ํ•  ๋•Œ ํŠนํžˆ ๊ทธ๋ ‡๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์™ธ๋ฅผ ์ œ์™ธํ•˜๊ณ , ๊ธฐ๋ณธ ๋ชจ๋ธ์€ ๊ณ ๊ธ‰ ์‚ฌํ›„ ํ•™์Šต ๋ฐฉ๋ฒ•์˜ ์ด์ ์„ ์–ป๊ธฐ์—๋Š” ๋„ˆ๋ฌด ์ •์ œ๋˜์ง€ ์•Š์•˜๋‹ค.

๐Ÿ“DeepSeek R1-Zero๋Š” ์–ด๋–ค๊ฐ€?

์ตœ์ „์„ ์—์„œ๋Š”, SFT๋กœ ์‹œ์ž‘ํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ์ด์œ ๊ฐ€ ํ•ญ์ƒ ์ ์šฉ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ฆ๋ฅ˜ํ•  ๋” ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์ด ์—†์œผ๋ฉฐ ๊ธด ์ƒ๊ฐ์˜ ์‚ฌ์Šฌ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ํ–‰๋™์— ๋Œ€ํ•ด ์ธ๊ฐ„ ์ฃผ์„์€ ๋„ˆ๋ฌด ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๋‹ค. ์ด๊ฒƒ์ด DeepSeek๊ฐ€ SFT๋ฅผ ๊ฑด๋„ˆ๋›ฐ๊ณ  R1-Zero๋กœ ๋ฐ”๋กœ RL๋กœ ๊ฐ„ ์ด์œ ์ด๋‹ค; ํ‘œ์ค€ ์ง€๋„๋กœ ๊ฐ€๋ฅด์น  ์ˆ˜ ์—†๋Š” ์ถ”๋ก  ํ–‰๋™์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค.

์—ฌ๋Ÿฌ๋ถ„์ด ๊ทธ ์ฒด์ œ์— ์žˆ๋‹ค๋ฉด, RL๋กœ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์ผ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ๊ณณ์—์„œ ์ผํ•˜๊ณ  ์žˆ๋‹ค๋ฉดโ€ฆ ์•„๋งˆ ์ด ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ์„ ์ฝ๊ณ  ์žˆ์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค ๐Ÿ˜€.

๋”ฐ๋ผ์„œ SFT๊ฐ€ ๋Œ€๋ถ€๋ถ„์˜ ํŒŒ์ดํ”„๋ผ์ธ์ด ์‹œ์ž‘๋˜๋Š” ๊ณณ์ด๋ผ๋ฉด, ๋‹ค์Œ ์งˆ๋ฌธ์€:ย ๋ฌด์—‡์„ ํŒŒ์ธ ํŠœ๋‹ํ•ด์•ผ ํ•˜๋Š”๊ฐ€์ด๋‹ค. ๊ทธ๊ฒƒ์€ ์˜ฌ๋ฐ”๋ฅธ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์—์„œ ์‹œ์ž‘ํ•œ๋‹ค.

๊ธฐ๋ณธ ๋ชจ๋ธ ์„ ํƒ

์‚ฌํ›„ ํ•™์Šต์„ ์œ„ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์„ ํƒํ•  ๋•Œ, ๋ช‡ ๊ฐ€์ง€ ์‹ค์šฉ์ ์ธ ์ฐจ์›์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹ค:

image.png

(LocalLLaMa ์„œ๋ธŒ๋ ˆ๋”ง์€ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ๋ถ„์œ„๊ธฐ๋ฅผ ์ดํ•ดํ•˜๊ธฐ์— ์ข‹์€ ๊ณณ์ด๋‹ค. Artificial Analysis ๋ฐ LMArena๋„ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋…๋ฆฝ์ ์ธ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ํ”Œ๋žซํผ์€ ๋•Œ๋•Œ๋กœ ๋ชจ๋ธ ์ œ๊ณต์ž์— ์˜ํ•ด ๋ฒค์น˜๋งˆํฌ ์ตœ์ ํ™”(benchmaxxed)๋œ๋‹ค.)

์šฐ๋ฆฌ์˜ ๊ฒฝํ—˜์ƒ, Qwen, Mistral, ๋ฐ DeepSeek์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์‚ฌํ›„ ํ•™์Šต์— ๊ฐ€์žฅ ์ ํ•ฉํ•˜๋ฉฐ, Qwen์€ ๊ฐ ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ํฐ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒ”์œ„ (์˜ˆ: Qwen3 ๋ชจ๋ธ์€ 0.6B์—์„œ 235B๊นŒ์ง€ ๋‹ค์–‘ํ•จ!)๋ฅผ ํฌ๊ด„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ™•์‹คํ•œ ์ธ๊ธฐ ๋ชจ๋ธ์ด๋‹ค. ์ด ๊ธฐ๋Šฅ์€ ํ™•์žฅ์„ ํ›จ์”ฌ ๋” ๊ฐ„๋‹จํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.

๋ฐฐํฌ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ์„ ํƒํ–ˆ๋‹ค๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ„๋‹จํ•˜๊ณ  ๋น ๋ฅธ SFT ๊ธฐ์ค€์„ ์„ ์ˆ˜๋ฆฝํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๊ฐ„๋‹จํ•œ ๊ธฐ์ค€์„  ํ•™์Šต

SFT์˜ ๊ฒฝ์šฐ, ์ข‹์€ ๊ธฐ์ค€์„ ์€ ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฅด๊ณ , ๋ชจ๋ธ์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์— ์ง‘์ค‘ํ•˜๋ฉฐ, ํŠน์ • ๋Šฅ๋ ฅ์ด ๊ธฐ์ค€์— ๋ฏธ์น˜์ง€ ๋ชปํ•  ๋•Œ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ ํ™•์žฅํ•˜๊ธฐ ๊ฐ„๋‹จํ•ด์•ผ ํ•œ๋‹ค. ์ดˆ๊ธฐ ๊ธฐ์ค€์„ ์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์…‹์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์€ ๊ณ ํ’ˆ์งˆ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ทจํ–ฅ๊ณผ ์นœ์ˆ™ํ•จ์„ ํฌํ•จํ•ด์„œ ์ด๋ฃจ์–ด์ง„๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์ˆ  ๋ฒค์น˜๋งˆํฌ์—์„œ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ณด๊ณ ํ•˜๋Š” ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์— ๊ณผ๋„ํ•˜๊ฒŒ ์ธ๋ฑ์‹ฑํ•˜๋Š” ๊ฒƒ์„ ํ”ผํ•˜๊ณ  ๋Œ€์‹  OpenHermes์™€ ๊ฐ™์€ ํ›Œ๋ฅญํ•œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์— ์ง‘์ค‘ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, SmolLM1 ๊ฐœ๋ฐœ์—์„œ ์šฐ๋ฆฌ๋Š” ์ฒ˜์Œ์— ์„œ๋ฅ˜์ƒ์œผ๋กœ๋Š” ํ›Œ๋ฅญํ•œ ๋ฐ์ดํ„ฐ์…‹์ธ WebInstruct์— ๋Œ€ํ•ด SFT๋ฅผ ์‹คํ–‰ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธ ์ค‘์—, ๋ชจ๋ธ์ด โ€œ์ž˜ ์ง€๋‚ด์„ธ์š”?โ€์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์ธ์‚ฌ์— ๋ฐฉ์ •์‹์œผ๋กœ ์‘๋‹ตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ณผํ•™์— ๋„ˆ๋ฌด ์ง‘์ค‘๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

(ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๊ธฐ๋ฒฝ์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ด ์ฑ•ํ„ฐ์—์„œ ๋ฐ˜๋ณต๋˜๋Š” ์ฃผ์ œ์ด๋‹ค โ€” ๋‹จ์ˆœํžˆ ๋ชจ๋ธ๊ณผ ์ฑ„ํŒ…ํ•˜๋Š” ๊ฒƒ์˜ ํž˜์„ ๊ณผ์†Œํ‰๊ฐ€ํ•˜์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค!)

์ด๋กœ ์ธํ•ด ์šฐ๋ฆฌ๋Š” Everyday Conversations ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค๊ฒŒ ๋˜์—ˆ๊ณ  ์ด๋Š” ์†Œํ˜• ๋ชจ๋ธ์— ๊ธฐ๋ณธ ์ฑ„ํŒ… ๊ธฐ๋Šฅ์„ ์ฃผ์ž…ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ๊ฒƒ์œผ๋กœ ํŒ๋ช…๋˜์—ˆ๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ๋กœ ํ–ˆ๊ณ  ์ฒ˜์Œ์— ์ถ”๋ก , ์ง€์นจ ๋”ฐ๋ฅด๊ธฐ, ๋ฐ ์กฐ์ข… ๊ฐ€๋Šฅ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹ ์„ธํŠธ๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” ๊ฐ ๋ฐ์ดํ„ฐ์…‹์˜ ํ†ต๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

๋ฐ์ดํ„ฐ์…‹์ถ”๋ก  ๋ชจ๋“œ์˜ˆ์ œ ์ˆ˜์˜ˆ์ œ %ํ† ํฐ ์ˆ˜ (M)ํ† ํฐ %์˜ˆ์ œ๋‹น ํ‰๊ท  ํ† ํฐ์ปจํ…์ŠคํŠธ ๋‚ด ํ‰๊ท  ํ† ํฐ์‘๋‹ต ๋‚ด ํ‰๊ท  ํ† ํฐํ‰๊ท  ํ„ด ์ˆ˜
Everyday Conversations/no_think2,2602.30.60.8260.2222.394.07.8
SystemChats 30k/no_think33,99735.221.528.2631.9422.8267.76.3
Tulu 3 SFT Personas IF/no_think29,97031.013.317.5444.5119.8380.72
Everyday Conversations (Qwen3-32B)/think2,0572.13.14.11,522.4376.81,385.64
SystemChats 30k (Qwen3-32B)/think27,43628.429.438.61070.884.61,042.72
s1k-1.1/think8350.98.210.88,859.3370.99,728.52
ํ•ฉ๊ณ„-96,555100.076.1100.02,131.5266.22,149.94.0

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๊ธฐ์ค€์„ ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ

SmolLM3 ๊ฐœ๋ฐœ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ฐฐ์› ๋“ฏ์ด, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ํ‘œ์ค€ SFT๋ณด๋‹ค ๊นŒ๋‹ค๋กญ๋‹ค. ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ์…‹์„ ์„ž์„ ์ˆ˜ ์—†๊ณ ; ๋ชจ๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ฐ์ดํ„ฐ๋ฅผ **์ง์ง€์–ด(pair)**์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ฐ ์˜ˆ์ œ๋Š” ๋ชจ๋ธ์ด ํ™•์žฅ๋œ ์ถ”๋ก ์— ์ฐธ์—ฌํ•ด์•ผ ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด ๊ฐ„๊ฒฐํ•œ ๋‹ต๋ณ€์„ ์ œ๊ณตํ•ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚ด์•ผ ํ•˜๋ฉฐ, ์ด์ƒ์ ์œผ๋กœ๋Š” ๋ชจ๋“œ๋ฅผ ์–ธ์ œ ์ „ํ™˜ํ•ด์•ผ ํ•˜๋Š”์ง€ ๊ฐ€๋ฅด์น˜๋Š” ๋ณ‘๋ ฌ ์˜ˆ์ œ๋ฅผ ํ•„์š”๋กœ ํ•œ๋‹ค. ์œ„ ํ‘œ์—์„œ ์ฃผ๋ชฉํ•ด์•ผ ํ•  ๋˜ ๋‹ค๋ฅธ ์‚ฌํ•ญ์€ ์˜ˆ์ œ ์ˆ˜๊ฐ€ ์•„๋‹Œย ํ† ํฐ ์ˆ˜ย ์ธก๋ฉด์—์„œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์˜ ๊ท ํ˜•์„ ๋งž์ถฐ์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค: ์˜ˆ๋ฅผ ๋“ค์–ด, s1k-1.1 ๋ฐ์ดํ„ฐ์…‹์€ ์ „์ฒด ์˜ˆ์ œ์˜ ~1%์ด์ง€๋งŒ ๊ธด ์ถ”๋ก  ์‘๋‹ต์œผ๋กœ ์ธํ•ด ์ „์ฒด ํ† ํฐ์˜ ~11%๋ฅผ ์ฐจ์ง€ํ•œ๋‹ค.

์ด๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์žฅ ์‹ ๊ฒฝ ์“ฐ๋Š” ๊ธฐ์ˆ  ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ธฐ๋ณธ์ ์ธ ๋ฒ”์œ„๋ฅผ ์ œ๊ณตํ–ˆ์ง€๋งŒ, ๋˜ํ•œ ์ƒˆ๋กœ์šด ๋„์ „์„ ๋„์ž…ํ–ˆ๋‹ค: ๊ฐ ๋ฐ์ดํ„ฐ์…‹์€ ํ™•์žฅ๋œ ์‚ฌ๊ณ ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ด์•ผ ํ•˜๋Š”์ง€ ์—ฌ๋ถ€์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ํ˜•์‹ํ™”๋˜์–ด์•ผ ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ˜•์‹์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ์ผ๊ด€๋œ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ํ•„์š”ํ–ˆ๋‹ค.

์ข‹์€ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ ์„ ํƒ

์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์„ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ์„ค๊ณ„ํ•  ๋•Œ, ๋ชจ๋“  ๊ฒƒ์— ๋งž๋Š” ์ •๋‹ต์€ ์—†๋‹ค. ์‹ค์ œ ์ƒํ™ฉ์—์„œ, ์šฐ๋ฆฌ๋Š” ๋ฏธ๋ฆฌ ์ƒ๊ฐํ•ด๋ณผ ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š” ๋ช‡ ๊ฐ€์ง€ ์งˆ๋ฌธ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค:

์•„๋ž˜ ํ‘œ๋Š” ๋ช‡ ๊ฐ€์ง€ ์ธ๊ธฐ ์žˆ๋Š” ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ๊ณผ ์ฃผ์š” ๊ณ ๋ ค ์‚ฌํ•ญ ์ „๋ฐ˜์— ๊ฑธ์นœ ๋น„๊ต๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์‹œ์Šคํ…œ ์—ญํ•  ์‚ฌ์šฉ์ž ์ •์˜๋„๊ตฌ์ถ”๋ก ์ถ”๋ก  ํ˜ธํ™˜์„ฑ๋น„๊ณ 
ChatMLโœ…โœ…โŒโœ…๊ฐ„๋‹จํ•˜๊ณ  ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ์ข‹์Œ.
Qwen3โœ…โœ…โœ…โœ…ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ํ…œํ”Œ๋ฆฟ
DeepSeek-R1โŒโŒโœ…โœ…<think>๋กœ ์ถ”๋ก  ์ฝ˜ํ…์ธ ๋ฅผ ๋ฏธ๋ฆฌ ์ฑ„์›€(Prefills).
Llama 3โœ…โœ…โŒโœ…ํŒŒ์ด์ฌ ์ฝ”๋“œ ์ธํ„ฐํ”„๋ฆฌํ„ฐ์™€ ๊ฐ™์€ ๋‚ด์žฅ ๋„๊ตฌ๊ฐ€ ์žˆ์Œ.
Gemma 3โœ…โŒโŒโŒ์ฒซ ๋ฒˆ์งธ ์‚ฌ์šฉ์ž ํ„ด์—์„œ ์ •์˜๋œ ์‹œ์Šคํ…œ ์—ญํ•  ์‚ฌ์šฉ์ž ์ •์˜.
Command A Reasoningโœ…โœ…โœ…โŒ๋ชจ๋ธ๋‹น ์—ฌ๋Ÿฌ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ.
GPT-OSSโœ…โœ…โœ…โœ…Harmony ์‘๋‹ต ํ˜•์‹ ๊ธฐ๋ฐ˜. ๋ณต์žกํ•˜์ง€๋งŒ ๋‹ค์žฌ๋‹ค๋Šฅํ•จ.

๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ์—์„œ, ์šฐ๋ฆฌ๋Š” ChatML์ด๋‚˜ Qwen์˜ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ์‹œ์ž‘ํ•˜๊ธฐ์— ํ›Œ๋ฅญํ•œ ์‹œ์ž‘์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก ์„ ์œ„ํ•œ ํ…œํ”Œ๋ฆฟ์ด ํ•„์š”ํ–ˆ๊ณ  Qwen3๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์‹ ๊ฒฝ ์“ฐ๋Š” ์ฐจ์› ์ „๋ฐ˜์— ๊ฑธ์ณ ์ข‹์€ ๊ท ํ˜•์„ ์ด๋ฃฌ ๋ช‡ ์•ˆ ๋˜๋Š” ํ…œํ”Œ๋ฆฟ ์ค‘ ํ•˜๋‚˜๋ผ๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๊ฐ€ ์™„์ „ํžˆ ๋งŒ์กฑํ•˜์ง€ ๋ชปํ–ˆ๋˜ ํ•œ ๊ฐ€์ง€ ์„ฑ์งˆ์ด ์žˆ์—ˆ๋‹ค:ย ์ถ”๋ก  ์ฝ˜ํ…์ธ ๊ฐ€ ๋Œ€ํ™”์˜ ๋งˆ์ง€๋ง‰ ํ„ด์„ ์ œ์™ธํ•œ ๋ชจ๋“  ํ„ด์—์„œ ๋ฒ„๋ ค์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ์ด๊ฒƒ์€ OpenAI์˜ ์ถ”๋ก  ๋ชจ๋ธ์ด ์ž‘๋™ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.24.53.png

์ด๊ฒƒ์€ ์ถ”๋ก  ์‹œ (์ปจํ…์ŠคํŠธ ํญ๋ฐœ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด) ํ•ฉ๋ฆฌ์ ์ด์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ์„ ์ ์ ˆํ•˜๊ฒŒ ์กฐ๊ฑดํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ํ„ด์— ๊ฑธ์ณ ์ถ”๋ก  ํ† ํฐ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ๊ฒฐ๋ก ์ง€์—ˆ๋‹ค.

๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ˜ ์ž์ฒด ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์„ ๋งŒ๋“ค๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค:

์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ ๋””์ž์ธ์„ ๋ฐ˜๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” Chat Template Playground๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด ํŽธ๋ฆฌํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์€ Hugging Face์˜ ๋™๋ฃŒ๋“ค์— ์˜ํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ ๋ฉ”์‹œ์ง€๊ฐ€ ๋ Œ๋”๋ง๋˜๋Š” ๋ฐฉ์‹์„ ๋ฏธ๋ฆฌ ๋ณด๊ณ  ์„œ์‹ ๋ฌธ์ œ๋ฅผ ๋””๋ฒ„๊น…ํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋งŒ๋“ ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.26.23.png

๋“œ๋กญ๋‹ค์šด์—์„œ ๋‹ค๋ฅธ ์˜ˆ์ œ๋ฅผ ์„ ํƒํ•˜์—ฌ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”, ์ถ”๋ก  ๋˜๋Š” ๋„๊ตฌ ์‚ฌ์šฉ์— ๋Œ€ํ•ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ๋ด๋ผ. JSON ์ž…๋ ฅ์„ ์ˆ˜๋™์œผ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๋‹ค๋ฅธ ๋™์ž‘์„ ํ™œ์„ฑํ™”ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด,ย enable_thinking: false๋ฅผ ์ œ๊ณตํ•˜๊ฑฐ๋‚˜ ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€์—ย /no_think๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ๋ณด๋ผ.

์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์„ ์ •ํ–ˆ๋‹ค๋ฉด, ์ด์ œ ๋ช‡๋ช‡ ๊ธฐ์ค€์„ ๋“ค์„ ํ•™์Šต์‹œ์ผœ๋ณผ ์ฐจ๋ก€์ด๋‹ค!

์•„๊ธฐ ๊ธฐ์ค€์„  (Baby baselines)

์ตœ์ ํ™”์— ๋›ฐ์–ด๋“ค๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋“  ์ ์ˆ˜๋ฅผ ์งœ๋‚ด๊ธฐ ์ „์—, ์šฐ๋ฆฌ๋Š” ๋ช‡ ๊ฐ€์ง€ โ€œ์•„๊ธฐ ๊ธฐ์ค€์„ โ€์„ ์ˆ˜๋ฆฝํ•ด์•ผ ํ•œ๋‹ค. ์ด ๊ธฐ์ค€์„ ๋“ค์€ (์•„์ง) ์ตœ์ฒจ๋‹จ์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ์›ํ•˜๋Š” ๋Œ€๋กœ ์ˆ˜ํ–‰ํ•˜๊ณ  ์ดˆ๊ธฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŠธ๊ฐ€ ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด ๊ธฐ์ดˆ๋ฅผ ๊ฐ–์ถ˜ ํ›„์—๋งŒ ์šฐ๋ฆฌ๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์™€ ํ•™์Šต ํ˜ผํ•ฉ์„ ์ง‘์ค‘์ ์œผ๋กœ ํŠœ๋‹ํ•˜๊ธฐ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

SFT ๊ธฐ์ค€์„  ํ•™์Šต๊ณผ ๊ด€๋ จํ•˜์—ฌ ๊ณ ๋ คํ•ด์•ผ ํ•  ์ฃผ์š” ์‚ฌํ•ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

SmolLM3์— ๋Œ€ํ•ด ์ด๋Ÿฌํ•œ ์„ ํƒ ์ค‘ ์ผ๋ถ€๊ฐ€ ์–ด๋–ป๊ฒŒ ์ „๊ฐœ๋˜์—ˆ๋Š”์ง€ ์‚ดํŽด๋ณธ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๊ธฐ์ค€์„  ์‹คํ—˜์„ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ„๋‹จํ•œ ์˜จ์ „์„ฑ ๊ฒ€์‚ฌ(sanity check)๋ฅผ ์›ํ–ˆ๋‹ค: ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ์‹ค์ œ๋กœ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก ์„ ์ด๋Œ์–ด๋‚ด๋Š”๊ฐ€? ์ด๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ ํ…Œ์ด๋ธ”์˜ ์„ธ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๋น„๊ตํ–ˆ๋‹ค:

๊ฐ ํ˜ผํ•ฉ์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” 1e-5์˜ ํ•™์Šต๋ฅ , 128์˜ ์œ ํšจ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ FullFT๋กœ SmolLM3-3B-Base์— ๋Œ€ํ•ด SFT๋ฅผ ์‹คํ–‰ํ•˜๊ณ  1 ์—ํฌํฌ ๋™์•ˆ ํ•™์Šตํ–ˆ๋‹ค.

(์šฐ๋ฆฌ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด, ์ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ ํƒ์ด ๊ธฐ์ค€์„ ์œผ๋กœ ์ž˜ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.)

์ด๊ฒƒ๋“ค์€ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์ด๋ฏ€๋กœ ํŒจํ‚น์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์œผ๋ฉฐ, Instruct ํ•˜์œ„ ์ง‘ํ•ฉ์˜ ๊ฒฝ์šฐ ์‹œํ€€์Šค๋ฅผ 8,192 ํ† ํฐ์œผ๋กœ, ๋‚˜๋จธ์ง€๋Š” 32,768 ํ† ํฐ์œผ๋กœ ์ œํ•œํ–ˆ๋‹ค. 8 x H100์˜ ํ•œ ๋…ธ๋“œ์—์„œ, ์ด๋Ÿฌํ•œ ์‹คํ—˜์€ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ ํ•˜์œ„ ์ง‘ํ•ฉ์— ๋”ฐ๋ผ 30-90๋ถ„ ์‚ฌ์ด๊ฐ€ ์†Œ์š”๋˜์—ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์€ ํ•ด๋‹น ์ถ”๋ก  ๋ชจ๋“œ์— ๋Œ€ํ•œ ๊ฐ ํ•˜์œ„ ์ง‘ํ•ฉ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.30.09.png

์ด ๊ฒฐ๊ณผ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์ด ํ•œ ์ถ”๋ก  ๋ชจ๋“œ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์ด ๋‹ค๋ฅธ ๋ชจ๋“œ์— ๊ฑฐ์˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š” ์ผ์ข…์˜ โ€œ๋ถ„๋ฆฌ ๋‡Œ(split brain)โ€œ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ๋น ๋ฅด๊ฒŒ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋Š” Instruct, Thinking ๋ฐ Hybrid ํ•˜์œ„ ์ง‘ํ•ฉ ๊ฐ„์— ๋Œ€๋ถ€๋ถ„์˜ ํ‰๊ฐ€๊ฐ€ ์œ ์‚ฌํ•œ ์ ์ˆ˜๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„๋ช…ํ•˜์ง€๋งŒ, LiveCodeBench v4 ๋ฐ IFEval์€ ์˜ˆ์™ธ๋กœ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

๊ธฐ์ค€์„  ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธ

ํ‰๊ฐ€๋Š” ๊ดœ์ฐฎ์•„ ๋ณด์˜€์ง€๋งŒ, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์„ ๋‹ค๋ฅธ ํŽ˜๋ฅด์†Œ๋‚˜ (์˜ˆ: ํ•ด์ ์ฒ˜๋Ÿผ)๋กœ ํ–‰๋™ํ•˜๊ฒŒ ํ•˜๋ ค๊ณ  ํ–ˆ์„ ๋•Œ, ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€์— ๋ฐฐ์น˜ํ•œ ๊ฒƒ์€ ๋ฌด์—‡์ด๋“  ์ง€์†์ ์œผ๋กœ ๋ฌด์‹œํ–ˆ๋‹ค. ์กฐ๊ธˆ ํŒŒํ—ค์นœ ํ›„, ์šฐ๋ฆฌ๋Š” ๊ทธ ์ด์œ ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜•์‹ํ™”ํ•œ ๋ฐฉ์‹ ๋•Œ๋ฌธ์ด๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค:

image.png

๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚ฌ๋ƒ ํ•˜๋ฉด, ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ ์„ค๊ณ„์—์„œ ์šฐ๋ฆฌ๋Š” ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ €์žฅํ•˜๊ธฐ ์œ„ํ•ดย custom_instructionsย ์ธ์ˆ˜๋ฅผ ๋…ธ์ถœํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋Œ€ํ™”์—์„œ ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

from transformers import AutoTokenizer

tok = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM3-3B")

messages = [
    {
        "content": "I'm trying to set up my iPhone, can you help?",
        "role": "user",
    },
    {
        "content": "Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]",
        "role": "assistant",
    },
]
chat_template_kwargs = {
    "custom_instructions": "You are a vampire technologist",
    "enable_thinking": False,
}
rendered_input = tok.apply_chat_template(
    messages, tokenize=False, **chat_template_kwargs
)
print(rendered_input)
## <|im_start|>system
### Metadata

## Knowledge Cutoff Date: June 2025
## Today Date: 28 October 2025
## Reasoning Mode: /no_think

### Custom Instructions

## You are a vampire technologist

## <|im_start|>user
## I'm trying to set up my iPhone, can you help?<|im_end|>
## <|im_start|>assistant
## <think>

## </think>
## Of course, even as a vampire, technology can be a bit of a challenge sometimes # [TRUNCATED]<|im_end|>

๋ฌธ์ œ๋Š” ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณด์˜€๋‹ค๋Š” ๊ฒƒ์ด๋‹ค:

{
    "messages": [
        {
            "content": "I'm trying to set up my iPhone, can you help?",
            "role": "user",
        },
        {
            "content": "Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]",
            "role": "assistant",
        },
    ],
    "chat_template_kwargs": {
        "custom_instructions": None,
        "enable_thinking": False,
        "python_tools": None,
        "xml_tools": None,
    },
}

์ฒ˜๋ฆฌ ์ฝ”๋“œ์˜ ๋ฒ„๊ทธ๊ฐ€ย custom_instructions๋ฅผย None์œผ๋กœ ์„ค์ •ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์‚ฌ์‹ค์ƒ ๋ชจ๋“  ๋‹จ์ผ ํ•™์Šต ์ƒ˜ํ”Œ์—์„œ ์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€๋ฅผ ์ œ๊ฑฐํ–ˆ๋‹ค ๐Ÿ™ˆ! ๊ทธ๋ž˜์„œ ์ด๋Ÿฌํ•œ ํ•™์Šต ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด ๋ฉ‹์ง„ ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ์–ป๋Š” ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” SmolLM3 ๊ธฐ๋ณธ ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ๋กœ ๋๋‚ฌ๋‹ค:

chat_template_kwargs = {"custom_instructions": None, "enable_thinking": False}
rendered_input = tok.apply_chat_template(messages, tokenize=False, **chat_template_kwargs)
print(rendered_input)
## <|im_start|>system
#### Metadata

## Knowledge Cutoff Date: June 2025
## Today Date: 28 October 2025
## Reasoning Mode: /no_think

#### Custom Instructions

## You are a helpful AI assistant named SmolLM, trained by Hugging Face.

## <|im_start|>user
## I'm trying to set up my iPhone, can you help?<|im_end|>
## <|im_start|>assistant
## <think>

## </think>
## Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]<|im_end|>

์ด๊ฒƒ์€ ๋ชจ๋“  ํŽ˜๋ฅด์†Œ๋‚˜๊ฐ€ย custom_instructions๋ฅผ ํ†ตํ•ด ์ •์˜๋˜๋Š” SystemChats ํ•˜์œ„ ์ง‘ํ•ฉ์— ํŠนํžˆ ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ์œผ๋ฏ€๋กœ, ๋ชจ๋ธ์ด ๋Œ€ํ™” ์ค‘๊ฐ„์— ๋ฌด์ž‘์œ„๋กœ ์บ๋ฆญํ„ฐ๋ฅผ ์ „ํ™˜ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๋ฅผ ๋‹ค์Œ ๊ทœ์น™์œผ๋กœ ์ด๋Œ์—ˆ๋‹ค:

โ˜๏ธ๊ทœ์น™

ํ‰๊ฐ€๊ฐ€ ๊ดœ์ฐฎ์•„ ๋ณด์ผ์ง€๋ผ๋„ ํ•ญ์ƒ ๋ชจ๋ธ์„ ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธํ•œ๋‹ค. ์‹ญ์ค‘ํŒ”๊ตฌ, ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋ฏธ๋ฌ˜ํ•œ ๋ฒ„๊ทธ๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

์ด ๋ฒ„๊ทธ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ์€ ํ‰๊ฐ€์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์•˜์ง€๋งŒ, ๋งˆ์นจ๋‚ด ์šฐ๋ฆฌ๋Š” ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ๊ณผ ๋ฐ์ดํ„ฐ์…‹ ์„œ์‹์ด ์ž‘๋™ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ํ™•์‹ ์„ ๊ฐ€์กŒ๋‹ค. ์„ค์ •์ด ์•ˆ์ •๋˜๊ณ  ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์ด ํ™•์ธ๋˜๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ํŠน์ • ๊ธฐ๋Šฅ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

ํŠน์ • ๊ธฐ๋Šฅ ํƒ€๊ฒŸํŒ…

Open-R1 ๊ฐœ๋ฐœ ์ค‘์—, ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๋‹จ์ผ ํ„ด ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šต์‹œํ‚ค๋ฉด ๋ฉ€ํ‹ฐํ„ด์œผ๋กœ ์ผ๋ฐ˜ํ™”๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ๋†€๋ผ์šด ์ผ์ด ์•„๋‹ˆ๋‹ค; ๊ทธ๋Ÿฌํ•œ ์˜ˆ์ œ๊ฐ€ ์—†๋‹ค๋ฉด, ๋ชจ๋ธ์€ ํ•™์Šต ๋ถ„ํฌ ๋ฐ–์—์„œ ํ…Œ์ŠคํŠธ๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

SmolLM3์— ๋Œ€ํ•ด ์ด๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š”ย /thinkย ๋˜๋Š”ย /no_thinkย ํƒœ๊ทธ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์‚ฝ์ž…ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ถ”๋ก  ๋ชจ๋“œ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋Š”ย ThinkFollow๋ผ๋Š” ๋‚ด๋ถ€ ํ‰๊ฐ€๋ฅผ ๊ฐœ๋ฐœํ•œ Qwen3์—์„œ ์˜๊ฐ์„ ์–ป์—ˆ๋‹ค. ๊ตฌํ˜„์—์„œ, ์šฐ๋ฆฌ๋Š” Multi-IF์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ฐ€์ ธ์˜จ ๋‹ค์Œ ๋ชจ๋ธ์ดย <think>์™€ย </think>ย ํƒœ๊ทธ๋กœ ๋‹ซํžŒ ๋นˆ ๋˜๋Š” ๋น„์–ด ์žˆ์ง€ ์•Š์€ ์ƒ๊ฐ ๋ธ”๋ก์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ํ™•์ธํ–ˆ๋‹ค. ์˜ˆ์ƒ๋Œ€๋กœ, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ธฐ์ค€์„ ์˜ ๊ฒฐ๊ณผ๋Š” ๋ชจ๋ธ์ด ์ฒซ ๋ฒˆ์งธ ํ„ด์„ ๋„˜์–ด ์ถ”๋ก  ๋ชจ๋“œ๋ฅผ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐ ๋”์ฐํ•˜๊ฒŒ ์‹คํŒจํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.35.19.png

์ด ๊ธฐ๋Šฅ์„ ์ˆ˜์ •ํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š”ย IFThink๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค. Multi-IF ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์šฐ๋ฆฌ๋Š” Tulu 3์˜ ์ง€์นจ ๋”ฐ๋ฅด๊ธฐ ํ•˜์œ„ ์ง‘ํ•ฉ์—์„œ ๋‹จ์ผ ํ„ด ์ง€์นจ์„ ์‚ฌ์šฉํ•˜๊ณ  Qwen3-32B๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ง€์นจ๊ณผ ์ถ”๋ก  ์ถ”์ ์„ ๋ชจ๋‘ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ๊ทธ๊ฒƒ๋“ค์„ ๋ฉ€ํ‹ฐํ„ด ๊ตํ™˜์œผ๋กœ ํ™•์žฅํ–ˆ๋‹ค. ๋ฐฉ๋ฒ•์€ ์•„๋ž˜์— ์„ค๋ช…๋˜์–ด ์žˆ๋‹ค:

(์šฐ๋ฆฌ๋Š” ์ถฉ๋Œํ•˜๋Š” ์ง€์นจ์„ ํ•„ํ„ฐ๋งํ•˜๋Š” ๊ฒƒ์„ ๊ณ ๋ คํ–ˆ์ง€๋งŒ, ์ดˆ๊ธฐ ๊ฒฐ๊ณผ๊ฐ€ ์ด ๋‹จ๊ณ„๋ฅผ ๊ฑด๋„ˆ๋›ธ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ๊ฐ•๋ ฅํ–ˆ๋‹ค.)

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.36.00.png

์ด ๋ฐ์ดํ„ฐ๋ฅผ ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€์„  ํ˜ผํ•ฉ์— ํฌํ•จํ•˜๋‹ˆ ๊ทน์ ์ธ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.36.23.png

IFThink๋กœ ๋ฉ€ํ‹ฐํ„ด ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ์ˆ˜์ •ํ•œ ํ›„, ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€์„ ์€ ๋งˆ์นจ๋‚ด ์˜๋„ํ•œ ๋Œ€๋กœ ๋™์ž‘ํ–ˆ๋‹ค; ํ„ด ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๊ณ , ์ง€์นจ์„ ๋”ฐ๋ฅด๋ฉฐ, ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๊ทธ ๊ธฐ์ดˆ๊ฐ€ ๋งˆ๋ จ๋˜์—ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ์œผ๋กœ ๋Œ์•„๊ฐ”๋‹ค: ํ•™์Šต ์„ค์ • ์ž์ฒด๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์–ด๋–ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์‹ค์ œ๋กœ ์ค‘์š”ํ•œ๊ฐ€?

SFT์—์„œ๋Š”, ์‹ค์ œ๋กœ ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ช‡ ๊ฐœ๋ฟ์ด๋‹ค. ํ•™์Šต๋ฅ , ๋ฐฐ์น˜ ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ  ํŒจํ‚น์€ ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์–ผ๋งˆ๋‚˜ ์ž˜ ์ผ๋ฐ˜ํ™”ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊ฑฐ์˜ ๋ชจ๋“  ๊ฒƒ์„ ๊ฒฐ์ •ํ•œ๋‹ค. ์•„๊ธฐ ๊ธฐ์ค€์„ ์—์„œ, ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์™€ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ํ•ฉ๋ฆฌ์ ์ธ ๊ธฐ๋ณธ๊ฐ’์„ ์„ ํƒํ–ˆ๋‹ค. ์ด์ œ ์„ค์ •์ด ์•ˆ์ •๋˜์—ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์„ ํƒ์ด ๊ธฐ์ค€์„ ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์‹œ ๋Œ์•„์™”๋‹ค.

์‚ฌ์šฉ์ž ํ„ด ๋งˆ์Šคํ‚น (Masking user turns)

์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์— ๋Œ€ํ•œ ๋ฏธ๋ฌ˜ํ•œ ์„ค๊ณ„ ์„ ํƒ ์ค‘ ํ•˜๋‚˜๋Š” ํ•™์Šต ์ค‘์— ์‚ฌ์šฉ์ž ํ„ด์„ ๋งˆ์Šคํ‚นํ• ์ง€ ์—ฌ๋ถ€์ด๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ฑ„ํŒ… ์Šคํƒ€์ผ ๋ฐ์ดํ„ฐ์…‹์—์„œ, ๊ฐ ํ•™์Šต ์˜ˆ์ œ๋Š” ๊ต๋Œ€๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ์‚ฌ์šฉ์ž ๋ฐ ์–ด์‹œ์Šคํ„ดํŠธ ๋ฉ”์‹œ์ง€ (๋„๊ตฌ ํ˜ธ์ถœ์ด ์„ž์ผ ์ˆ˜ ์žˆ์Œ)๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๋ชจ๋ธ์ด ๋ชจ๋“  ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋ฉด, ๊ณ ํ’ˆ์งˆ ์–ด์‹œ์Šคํ„ดํŠธ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ•˜๋Š” ๋Œ€์‹  ์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ๋ฅผ ์ž๋™ ์™„์„ฑํ•˜๋Š” ๊ฒƒ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ์‚ฌ์šฉ์ž ํ„ด ๋งˆ์Šคํ‚น์€ ๋ชจ๋ธ์˜ ์†์‹ค์ด ์‚ฌ์šฉ์ž ๋ฉ”์‹œ์ง€๊ฐ€ ์•„๋‹Œ ์–ด์‹œ์Šคํ„ดํŠธ ์ถœ๋ ฅ์— ๋Œ€ํ•ด์„œ๋งŒ ๊ณ„์‚ฐ๋˜๋„๋ก ๋ณด์žฅํ•จ์œผ๋กœ์จ ์ด๋ฅผ ๋ฐฉ์ง€ํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.37.40.png

TRL์—์„œ, ๋งˆ์Šคํ‚น์€ ์–ด์‹œ์Šคํ„ดํŠธ ํ† ํฐ ๋งˆ์Šคํฌ๋ฅผ ๋ฐ˜ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์— ์ ์šฉ๋œ๋‹ค. ์‹ค์ œ ์ƒํ™ฉ์—์„œ, ์ด๊ฒƒ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ…œํ”Œ๋ฆฟ์— {% generation %} ํ‚ค์›Œ๋“œ๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฒƒ์„ ์ˆ˜๋ฐ˜ํ•œ๋‹ค:

{%- for message in messages -%}
  {%- if message.role == "user" -%}
    {{ "<|im_start|>" + message.role + "\n" + message.content + "<|im_end|>\n" }}
  {%- elif message.role == "assistant" -%}
{% generation %}
{{ "<|im_start|>assistant" + "\n" + message.content + "<|im_end|>\n" }}
{% endgeneration %}
  {%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
  {{ "<|im_start|>assistant\n" }}
{%- endif %}

๊ทธ๋Ÿฌ๊ณ  ๋‚˜์„œ, return_assistant_tokens_mask=True์™€ ํ•จ๊ป˜ apply_chat_template()์ด ์‚ฌ์šฉ๋  ๋•Œ, ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์€ ๋Œ€ํ™”์˜ ์–ด๋А ๋ถ€๋ถ„์ด ๋งˆ์Šคํ‚น๋˜์–ด์•ผ ํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ผ ๊ฒƒ์ด๋‹ค. ๋‹ค์Œ์€ ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ๋กœ, ์–ด์‹œ์Šคํ„ดํŠธ ํ† ํฐ์—๋Š” ID 1์ด ๋ถ€์—ฌ๋˜๋Š” ๋ฐ˜๋ฉด, ์‚ฌ์šฉ์ž ํ† ํฐ์€ ID 0์œผ๋กœ ๋งˆ์Šคํ‚น๋˜๋Š” ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค€๋‹ค:

chat_template = '''
{%- for message in messages -%}
  {%- if message.role == "user" -%}
    {{ "<|im_start|>" + message.role + "\n" + message.content + "<|im_end|>\n" }}
  {%- elif message.role == "assistant" %}
    {% generation %}
    {{ "<|im_start|>assistant" + "\n" + message.content + "<|im_end|>\n" }}
    {% endgeneration %}
  {%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
  {{ "<|im_start|>assistant\n" }}
{%- endif %}
'''
rendered_input = tok.apply_chat_template(messages, chat_template=chat_template, return_assistant_tokens_mask=True, return_dict=True)
print(rendered_input)
## {'input_ids': [128011, 882, 198, 40, 2846, 4560, 311, 743, 709, 856, 12443, 11, 649, 499, 1520, 30, 128012, 198, 257, 128011, 78191, 198, 2173, 3388, 11, 1524, 439, 264, 51587, 11, 5557, 649, 387, 264, 2766, 315, 264, 8815, 7170, 510, 2434, 12921, 9182, 60, 128012, 271], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'assistant_masks': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š”, ๋งˆ์Šคํ‚น์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์œผ๋ฉฐ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ๋ช‡ ์ง€์ ์˜ ๊ฐœ์„ ์„ ์ œ๊ณตํ•œ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” IFEval์— ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋Š”๋ฐ, ์•„๋งˆ๋„ ๋ชจ๋ธ์ด ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋‹ค์‹œ ์ง„์ˆ ํ•˜๋ ค๋Š” ๊ฒฝํ–ฅ์ด ์ ๊ณ  ๋‹ค์–‘ํ•œ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋” ๋ฉด๋ฐ€ํžˆ ๋”ฐ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ผ ๊ฒƒ์ด๋‹ค. ์‚ฌ์šฉ์ž ๋งˆ์Šคํ‚น์ด ๊ฐ ํ‰๊ฐ€ ๋ฐ ์ถ”๋ก  ๋ชจ๋“œ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์ณค๋Š”์ง€ ๋น„๊ตํ•œ ๋‚ด์šฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.40.58.png

ํŒจํ‚นํ•  ๊ฒƒ์ธ๊ฐ€ ๋ง ๊ฒƒ์ธ๊ฐ€? (To pack or not to pack?)

์‹œํ€€์Šค ํŒจํ‚น์€ ํ•™์Šต ํšจ์œจ์„ฑ์— ํฐ ์ฐจ์ด๋ฅผ ๋งŒ๋“œ๋Š” ํ•™์Šต ์„ธ๋ถ€ ์‚ฌํ•ญ ์ค‘ ํ•˜๋‚˜์ด๋‹ค. SFT์—์„œ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ์…‹์€ ๊ฐ€๋ณ€ ๊ธธ์ด์˜ ์ƒ˜ํ”Œ์„ ํฌํ•จํ•˜๋ฏ€๋กœ, ๊ฐ ๋ฐฐ์น˜๋Š” ์ปดํ“จํŒ…์„ ๋‚ญ๋น„ํ•˜๊ณ  ์ˆ˜๋ ด์„ ๋Šฆ์ถ”๋Š” ๋งŽ์€ ํŒจ๋”ฉ ํ† ํฐ์„ ํฌํ•จํ•œ๋‹ค.

ํŒจํ‚น์€ ์›ํ•˜๋Š” ์ตœ๋Œ€ ํ† ํฐ ๊ธธ์ด์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ ์—ฌ๋Ÿฌ ์‹œํ€€์Šค๋ฅผ ํ•จ๊ป˜ ์—ฐ๊ฒฐํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์—ฐ๊ฒฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์œผ๋ฉฐ, TRL์€ ํŒจํ‚นํ•  ์‹œํ€€์Šค์˜ ์ˆœ์„œ๊ฐ€ ๊ธธ์ด์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” โ€œ์ตœ์  ์ ํ•ฉ ๊ฐ์†Œ(best-fit decreasing)โ€ ์ „๋žต (Ding et al., 2024)์„ ์ฑ„ํƒํ•œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.41.24.png

์‚ฌํ›„ ํ•™์Šต ๋Œ€ ์‚ฌ์ „ ํ•™์Šต์—์„œ์˜ ํŒจํ‚น

์‚ฌ์ „ ํ•™์Šต์—์„œ๋Š” ์ด๊ฒƒ์ด ์‹ค์ œ๋กœ ์งˆ๋ฌธ์ด ๋˜์ง€ ์•Š๋Š”๋‹ค. ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์— ๋Œ€ํ•ด ํ•™์Šตํ•  ๋•Œ, ํŒจ๋”ฉ์— ์ƒ๋‹นํ•œ ์–‘์˜ ์ปดํ“จํŒ…์„ ๋‚ญ๋น„ํ•˜์ง€ ์•Š์œผ๋ ค๋ฉด ํŒจํ‚น์ด ํ•„์ˆ˜์ ์ด๋‹ค. Megatron-LM ๋ฐ Nanotron๊ณผ ๊ฐ™์€ ์‚ฌ์ „ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ํŒจํ‚น์„ ๊ตฌํ˜„ํ•œ๋‹ค. ์‚ฌํ›„ ํ•™์Šต์€ ๋‹ค๋ฅด๋‹ค. ์‹คํ–‰์ด ๋” ์งง๊ธฐ ๋•Œ๋ฌธ์— ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๊ฐ€ ๋ฐ”๋€๋‹ค.

ํŒจํ‚น์ด ํ•™์Šต์— ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์ธ์ง€ ๊ฐ์„ ์žก๊ธฐ ์œ„ํ•ด, ์•„๋ž˜์—์„œ ์šฐ๋ฆฌ๋Š” ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ์…‹์˜ 1 ์—ํฌํฌ์— ๊ฑธ์ณ ํŒจํ‚น๊ณผ ๋น„ํŒจํ‚น ๊ฐ„์˜ ๋Ÿฐํƒ€์ž„์„ ๋น„๊ตํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.42.12.png

(๋Ÿฐํƒ€์ž„์ด ์œ ํšจ ๋ฐฐ์น˜ ํฌ๊ธฐ 32 ์ดํ›„ ํ‰ํ‰ํ•ด์ง€๋Š” ์ด์œ ๋Š” ์ด๊ฒƒ์ด ๊ธฐ์šธ๊ธฐ ๋ˆ„์ ์„ ํ˜ธ์ถœํ•˜์ง€ ์•Š๊ณ  ๊ฐ€๋Šฅํ•œ ๊ฐ€์žฅ ํฐ ํฌ๊ธฐ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.)

๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ํŒจํ‚น์ด ์ฒ˜๋ฆฌ๋Ÿ‰์„ 3-5๋ฐฐ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค! ๊ทธ๋ ‡๋‹ค๋ฉด ํ•ญ์ƒ ํŒจํ‚น์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€? ์–ด๋А ์ •๋„ ๋‹ต์€ ๋ฐ์ดํ„ฐ์…‹์ด ์–ผ๋งˆ๋‚˜ ํฐ์ง€์— ๋‹ฌ๋ ค์žˆ๋‹ค. ํŒจํ‚น์€ ๊ฐ ๋‹จ๊ณ„์— ๋” ๋งŽ์€ ํ† ํฐ์„ ๋งž์ถค์œผ๋กœ์จ ์—ํฌํฌ๋‹น ์ตœ์ ํ™” ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ์ค„์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์—์„œ ์ด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ๋ฐฐ์น˜๋‹น ํ‰๊ท  ๋น„ํŒจ๋”ฉ ํ† ํฐ ์ˆ˜๋ฅผ ์‹œ๊ฐํ™”ํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.42.49.png

ํŒจํ‚น์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐฐ์น˜๋‹น ํ† ํฐ ์ˆ˜๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์„ ํ˜•์ ์œผ๋กœ ํ™•์žฅ๋˜๋ฉฐ ํŒจํ‚น ์—†๋Š” ํ•™์Šต์— ๋น„ํ•ด ์ตœ์ ํ™” ๋‹จ๊ณ„๋‹น ์ตœ๋Œ€ 33๋ฐฐ ๋” ๋งŽ์€ ํ† ํฐ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋‹ค! ๊ทธ๋Ÿฌ๋‚˜ ํŒจํ‚น์€ ํ•™์Šต ์—ญํ•™์„ ์•ฝ๊ฐ„ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์žˆ๋‹ค: ์ „์ฒด์ ์œผ๋กœ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋™์•ˆ, ๋” ์ ์€ ๊ธฐ์šธ๊ธฐ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ตœ์ข… ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ฐ ์ƒ˜ํ”Œ์ด ๋” ์ค‘์š”ํ•œ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ทธ๋ ‡๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ผํ•œ ์œ ํšจ ๋ฐฐ์น˜ ํฌ๊ธฐ 128์—์„œ ํŒจํ‚น ๋Œ€ ๋น„ํŒจํ‚น์„ ๋น„๊ตํ•˜๋ฉด, IFEval๊ณผ ๊ฐ™์€ ์ผ๋ถ€ ํ‰๊ฐ€๊ฐ€ ๊ฑฐ์˜ 10ํผ์„ผํŠธ ํฌ์ธํŠธ์˜ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํƒ€๊ฒฉ์„ ์ž…๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.43.34.png

๋” ์ผ๋ฐ˜์ ์œผ๋กœ, ์œ ํšจ ๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ 32๋ณด๋‹ค ํฌ๋ฉด ์ด ํŠน์ • ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํ‰๊ท  ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.43.58.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 4.59.15.png

์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š”, ๋ฐ์ดํ„ฐ์…‹์ด ๋ฐฉ๋Œ€ํ•œ ๋Œ€๊ทœ๋ชจ SFT์˜ ๊ฒฝ์šฐ, ์ปดํ“จํŒ… ์ ˆ์•ฝ์ด ๊ธฐ์šธ๊ธฐ ๋นˆ๋„์˜ ์‚ฌ์†Œํ•œ ์ฐจ์ด๋ณด๋‹ค ํ›จ์”ฌ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ํŒจํ‚น์€ ๊ฑฐ์˜ ํ•ญ์ƒ ์œ ์šฉํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋” ์ž‘๊ฑฐ๋‚˜ ๋” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹ โ€” ๋„๋ฉ”์ธ๋ณ„ ํŒŒ์ธ ํŠœ๋‹์ด๋‚˜ ์ œํ•œ๋œ ์ธ๊ฐ„ ํ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ง€์นจ ํŠœ๋‹๊ณผ ๊ฐ™์€ โ€” ์˜ ๊ฒฝ์šฐ, ์ƒ˜ํ”Œ ์„ธ๋ถ„์„ฑ์„ ๋ณด์กดํ•˜๊ณ  ๋ชจ๋“  ์˜ˆ์ œ๊ฐ€ ์ตœ์ ํ™”์— ๊นจ๋—ํ•˜๊ฒŒ ๊ธฐ์—ฌํ•˜๋„๋ก ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ํŒจํ‚น์„ ๋น„ํ™œ์„ฑํ™”ํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค.

๊ถ๊ทน์ ์œผ๋กœ, ์ตœ์„ ์˜ ์ „๋žต์€ ๊ฒฝํ—˜์ ์œผ๋กœ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค: ํŒจํ‚น์„ ํ™œ์„ฑํ™”ํ•˜๊ณ  ์‹œ์ž‘ํ•˜๊ณ , ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ‰๊ฐ€๋ฅผ ๋ชจ๋‘ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ , ์†๋„ ์ด๋“์ด ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ํ–ฅ์ƒ๋œ ๋ชจ๋ธ ํ’ˆ์งˆ๋กœ ์ด์–ด์ง€๋Š”์ง€์— ๋”ฐ๋ผ ์กฐ์ •ํ•œ๋‹ค.

ํ•™์Šต๋ฅ  ํŠœ๋‹

์ด์ œ ๋งˆ์ง€๋ง‰์ด์ง€๋งŒ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ธ ํ•™์Šต๋ฅ ์— ๋„๋‹ฌํ–ˆ๋‹ค. ๋„ˆ๋ฌด ๋†’๊ฒŒ ์„ค์ •ํ•˜๋ฉด ํ•™์Šต์ด ๋ฐœ์‚ฐํ•  ์ˆ˜ ์žˆ๊ณ ; ๋„ˆ๋ฌด ๋‚ฎ์œผ๋ฉด ์ˆ˜๋ ด์ด ๊ณ ํ†ต์Šค๋Ÿฝ๊ฒŒ ๋А๋ฆฌ๋‹ค.

SFT์—์„œ ์ตœ์ ์˜ ํ•™์Šต๋ฅ ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ์‚ฌ์šฉ๋œ ๊ฒƒ๋ณด๋‹ค ํ•œ ์ž๋ฆฟ์ˆ˜ (๋˜๋Š” ๊ทธ ์ด์ƒ) ์ž‘๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ๊ฐ€์ง„ ๋ชจ๋ธ์—์„œ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๊ณต๊ฒฉ์ ์ธ ์—…๋ฐ์ดํŠธ๋Š” ์น˜๋ช…์ ์ธ ๋ง๊ฐ์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์‚ฌํ›„ ํ•™์Šต ๋Œ€ ์‚ฌ์ „ ํ•™์Šต์—์„œ์˜ ํ•™์Šต๋ฅ  ํŠœ๋‹

์ „์ฒด ์‹คํ–‰์— ๋Œ€ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์œ•์ด ์—„์ฒญ๋‚˜๊ฒŒ ๋น„์‹ผ ์‚ฌ์ „ ํ•™์Šต๊ณผ ๋‹ฌ๋ฆฌ, ์‚ฌํ›„ ํ•™์Šต ์‹คํ–‰์€ ์‹ค์ œ๋กœ ์ „์ฒด ํ•™์Šต๋ฅ  ์Šค์œ•์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์„ ๋งŒํผ ์งง๋‹ค.

์šฐ๋ฆฌ์˜ ์‹คํ—˜์—์„œ, ์šฐ๋ฆฌ๋Š” โ€œ์ตœ๊ณ ์˜โ€ ํ•™์Šต๋ฅ ์ด ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ, ํฌ๊ธฐ ๋ฐ ํŒจํ‚น ์‚ฌ์šฉ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ๋†’์€ ํ•™์Šต๋ฅ ์€ ํญ๋ฐœ์ ์ธ ๊ธฐ์šธ๊ธฐ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ํŒจํ‚น์ด ํ™œ์„ฑํ™”๋  ๋•Œ ํ•™์Šต๋ฅ ์„ ์•ฝ๊ฐ„ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์ด ์ข…์ข… ๋” ์•ˆ์ „ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์•„๋ž˜์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, 3e-6 ๋˜๋Š” 1e-5์˜ ์ž‘์€ ํ•™์Šต๋ฅ ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ํฐ ๊ฐ’๋ณด๋‹ค ์ „๋ฐ˜์ ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.45.42.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.46.09.png

(์Šค์บ”ํ•  ํ•™์Šต๋ฅ  ๊ฐ’ ๋ฒ”์œ„๋ฅผ ์„ ํƒํ•  ๋•Œ, [1e-6, 3e-6, 1e-5, 3e-5, 1e-4]์™€ ๊ฐ™์€ ์ดˆ๊ธฐ ๋ฒ”์œ„๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์œ ์šฉํ•˜๋‹ค. ์ด๊ฒƒ์€ ๋‘ ์ž๋ฆฟ์ˆ˜๋ฅผ ํฌ๊ด„ํ•˜๋ฉฐ ์ถ”๊ฐ€ ํŠœ๋‹์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์˜์—ญ์„ ์ขํž ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค.)

ํ‰๊ท ์ ์œผ๋กœ ๋ช‡ ์ ์€ ๋ณ„๊ฒƒ ์•„๋‹Œ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, AIME25์™€ ๊ฐ™์€ ๊ฐœ๋ณ„ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ณด๋ฉด ํ•™์Šต๋ฅ ์ด 1e-5๋ณด๋‹ค ํด ๋•Œ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์—ํฌํฌ ์ˆ˜ ํ™•์žฅ

์šฐ๋ฆฌ์˜ ์ œ๊ฑฐ ์‹คํ—˜์—์„œ, ์šฐ๋ฆฌ๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐ˜๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ณดํ†ต ๋‹จ์ผ ์—ํฌํฌ ๋™์•ˆ ํ•™์Šตํ•œ๋‹ค. ์ข‹์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์‹๋ณ„ํ•˜๊ณ  ํ•™์Šต๋ฅ ๊ณผ ๊ฐ™์€ ์ฃผ์š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํŠœ๋‹ํ–ˆ๋‹ค๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ์ตœ์ข… ํ•™์Šต์„ ์œ„ํ•ด ์—ํฌํฌ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๊ฐ€์ ธ์™€ 5 ์—ํฌํฌ ๋™์•ˆ ํ•™์Šตํ•˜๋ฉด, ํ‰๊ท ์ ์œผ๋กœ ๋ช‡ ํผ์„ผํŠธ ํฌ์ธํŠธ์˜ ์„ฑ๋Šฅ์„ ๋” ์งœ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.46.51.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.47.00.png

ํ•™์Šต๋ฅ  ์Šค์บ”์—์„œ ๋ณด์•˜๋“ฏ์ด, ํ‰๊ท  ์„ฑ๋Šฅ์€ ์—ํฌํฌ ์ˆ˜ ํ™•์žฅ์ด ๊ฐœ๋ณ„ ํ‰๊ฐ€์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ฐ€๋ฆฐ๋‹ค: ํ™•์žฅ๋œ ์‚ฌ๊ณ ๋ฅผ ๊ฐ€์ง„ LiveCodeBench v4์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” 1 ์—ํฌํฌ์— ๋น„ํ•ด ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ ๋‘ ๋ฐฐ๋กœ ์˜ฌ๋ ธ๋‹ค!

SFT ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๋ฐ˜๋ณตํ•˜๊ณ  ๋ชจ๋ธ์ด ํ•ฉ๋ฆฌ์ ์ธ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ–ˆ๋‹ค๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ์ข…์ข… ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋‚˜ ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๊ฒƒ๋“ค์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ์ถ”๊ฐ€ ์ปดํ“จํŒ…์„ ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต(continued pretraining)์„ ํ†ตํ•ด ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ์“ฐ๋Š” ๊ฒƒ์ด ๋” ๋‚˜์„์ง€ ๊ณ ๋ คํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค.

๐Ÿ“์‚ฌํ›„ ํ•™์Šต์—์„œ์˜ ์˜ตํ‹ฐ๋งˆ์ด์ €

์‚ฌ์ „ ํ•™์Šต ์„น์…˜์—์„œ ์–ธ๊ธ‰ํ•œ ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ €์ด๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ AdamW๋Š” ์‚ฌํ›„ ํ•™์Šต์„ ์œ„ํ•œ ๊ธฐ๋ณธ ์„ ํƒ์œผ๋กœ ๋‚จ์•„ ์žˆ๋‹ค. ์—ด๋ฆฐ ์งˆ๋ฌธ์€ Muon๊ณผ ๊ฐ™์€ ๋Œ€์ฒด ์˜ตํ‹ฐ๋งˆ์ด์ €๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์ด ๋™์ผํ•œ ์˜ตํ‹ฐ๋งˆ์ด์ €๋กœ ์‚ฌํ›„ ํ•™์Šต๋˜์–ด์•ผ ํ•˜๋Š”์ง€ ์—ฌ๋ถ€์ด๋‹ค. Kimi ํŒ€์€ ์‚ฌ์ „ ๋ฐ ์‚ฌํ›„ ํ•™์Šต์— ๋™์ผํ•œ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด Moonlight ๋ชจ๋ธ์— ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

์ง€์†์  ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•œ ์ถ”๋ก  ๊ฐ•ํ™”

์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šตโ€”๋˜๋Š” ๋ฉ‹์ง€๊ฒŒ ๋“ค๋ฆฌ๊ณ  ์‹ถ๋‹ค๋ฉดย ์ค‘๊ฐ„ ํ•™์Šต(mid-training)โ€”์€ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๊ฐ€์ ธ์™€ SFT๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „์— ๋Œ€๋Ÿ‰์˜ ๋„๋ฉ”์ธ๋ณ„ ํ† ํฐ์œผ๋กœ ๋” ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ค‘๊ฐ„ ํ•™์Šต์€ SFT์˜ ๋ชฉํ‘œ ๊ธฐ๋Šฅ์ด ์ฝ”๋”ฉ์ด๋‚˜ ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๊ณตํ†ต ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ๊ณต์œ ํ•  ๋•Œ ์œ ์šฉํ•˜๋‹ค. ์‹ค์ œ์—์„œ, ์ด๊ฒƒ์€ ๋ชจ๋ธ์„ ์ถ”๋ก , ํŠน์ • ์–ธ์–ด, ๋˜๋Š” ์—ฌ๋Ÿฌ๋ถ„์ด ์‹ ๊ฒฝ ์“ฐ๋Š” ๋‹ค๋ฅธ ๊ธฐ๋Šฅ์„ ๋” ์ž˜ ์ง€์›ํ•˜๋Š” ๋ถ„ํฌ๋กœ ์ด๋™์‹œํ‚จ๋‹ค. ์ด๋ฏธ ๊ทธ ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ํ†ตํ•ฉํ•œ ๋ชจ๋ธ์—์„œ SFT๋ฅผ ์‹œ์ž‘ํ•˜๋ฉด ๋ชจ๋ธ์ด ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ๋ฐฐ์šฐ๊ธฐ ์œ„ํ•ด ์ปดํ“จํŒ…์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  SFT ๋ฐ์ดํ„ฐ์˜ ํŠน์ • ์ฃผ์ œ์— ๋” ์ž˜ ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ค‘๊ฐ„ ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ผ๋ฐ˜ ์‚ฌ์ „ ํ•™์Šต โ†’ ์ค‘๊ฐ„ ํ•™์Šต โ†’ ์‚ฌํ›„ ํ•™์Šต์˜ 3๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ์ฒ™ํ•œ ULMFit (Howard & Ruder, 2018)์œผ๋กœ ๊ฑฐ์Šฌ๋Ÿฌ ์˜ฌ๋ผ๊ฐ€๋ฉฐ, ์ด๋Š” ์ด์ œ FAIR์˜ Code World Model (team et al., 2025)๊ณผ ๊ฐ™์€ ํ˜„๋Œ€ LLM์—์„œ ์ผ๋ฐ˜์ ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.50.06.png

์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ Phi-4-Mini-Reasoning (Xu et al., 2025)์˜ ํ•™์Šต์—๋„ ์‚ฌ์šฉ๋˜์—ˆ์ง€๋งŒ, ํ•œ ๊ฐ€์ง€ ๋ณ€ํ˜•์ด ์žˆ๋‹ค: ์ €์ž๋“ค์€ ์›น ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต์„ ํ•˜๋Š” ๋Œ€์‹ , ์ค‘๊ฐ„ ํ•™์Šต ์ฝ”ํผ์Šค๋กœ DeepSeek-R1์—์„œ ์ฆ๋ฅ˜๋œ ์ถ”๋ก  ํ† ํฐ์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์„ค๋“๋ ฅ ์žˆ์—ˆ์œผ๋ฉฐ, ๋‹ค๋‹จ๊ณ„ ํ•™์Šต์„ ํ†ตํ•ด ์ผ๊ด€๋˜๊ณ  ํฐ ์ด๋“์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค:

๋ชจ๋ธAIME24MATH-500GPQA Diamond
Phi-4-Mini10.071.836.9
+ ์ฆ๋ฅ˜ ์ค‘๊ฐ„ ํ•™์Šต30.082.942.6
+ ์ฆ๋ฅ˜ ํŒŒ์ธ ํŠœ๋‹43.389.348.3
+ ๋กค์•„์›ƒ DPO50.093.649.0
+ RL (Phi-4-Mini-Reasoning)57.594.652.0

์ด ๊ฒฐ๊ณผ๋“ค์€ ์šฐ๋ฆฌ๊ฐ€ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‹œ๋„ํ•˜๋„๋ก ์ž๊ทนํ–ˆ๋‹ค. Open-R1์—์„œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค๊ณ  ํ‰๊ฐ€ํ•œ ์ด์ „ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ, ์šฐ๋ฆฌ๋Š” ์ž‘์—…ํ•  ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํ›„๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๋‹ค:

์šฐ๋ฆฌ๋Š” ์ตœ์ข… SFT ํ˜ผํ•ฉ์— ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•  ๊ณ„ํš์ด์—ˆ์œผ๋ฏ€๋กœ, ํ•ด๋‹น ๋‹จ๊ณ„๋ฅผ ์œ„ํ•ด Mixture of Thoughts๋ฅผ ์•„๊ปด๋†“๊ณ  ๋‚˜๋จธ์ง€๋Š” ์ค‘๊ฐ„ ํ•™์Šต์„ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” SmolLM3 ํ…œํ”Œ๋ฆฟ์ด ๋„ˆ๋ฌด ์ผ์ฐ โ€œ๋ฒˆ์ธ(burn in)โ€œ๋˜๋Š” ๊ฒƒ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ChatML์„ ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋˜ํ•œ 128์˜ ์œ ํšจ ๋ฐฐ์น˜ ํฌ๊ธฐ๋กœ ํ•™์Šต์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด 8๊ฐœ ๋…ธ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 2e-5์˜ ํ•™์Šต๋ฅ ๋กœ 5 ์—ํฌํฌ ๋™์•ˆ ํ•™์Šตํ–ˆ๋‹ค.

๐Ÿ“์–ธ์ œ ์ค‘๊ฐ„ ํ•™์Šต์„ ํ•˜๋Š”๊ฐ€?

์šฐ๋ฆฌ๊ฐ€ SFT ์‹คํ–‰์„ ๋ช‡ ๋ฒˆ ํ•œ ํ›„์— ์ค‘๊ฐ„ ํ•™์Šต์„ ๋…ผ์˜ํ•˜๋Š” ์ด์œ ๊ฐ€ ๊ถ๊ธˆํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฐ๋Œ€๊ธฐ์ ์œผ๋กœ, ์ค‘๊ฐ„ ํ•™์Šต์€ ๊ธฐ๋ณธ ๋ชจ๋ธ์— ๋Œ€ํ•œ SFT ์ด์ „์— ๋ฐœ์ƒํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ค‘๊ฐ„ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ๋กœ ํ•œ ๊ฒฐ์ •์€ ์ดˆ๊ธฐ SFT ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ณ  ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ํ™•์ธํ•œ ํ›„์—๋งŒ ๋ช…ํ™•ํ•ด์ง„๋‹ค. ์‹ค์ œ์—์„œ, ์—ฌ๋Ÿฌ๋ถ„์€ ์ข…์ข… ๋ฐ˜๋ณตํ•  ๊ฒƒ์ด๋‹ค: SFT๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ์•ฝํ•œ ์˜์—ญ์„ ์‹๋ณ„ํ•˜๊ณ , ๋ชฉํ‘œ ์ค‘๊ฐ„ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•œ ๋‹ค์Œ, ๋‹ค์‹œ SFT๋ฅผ ์‹คํ–‰ํ•œ๋‹ค. ์ด ์„น์…˜์„ โ€œSFT๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ๋•Œ ํ•ด์•ผ ํ•  ์ผโ€๋กœ ์ƒ๊ฐํ•˜๋ผ.

๋…น๋Š” GPU์˜ ๋ฏธ์Šคํ„ฐ๋ฆฌ

์ด ์‹คํ—˜๋“ค์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์€ ์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ๋†€๋ผ์šด ๋„์ „์œผ๋กœ ํŒ๋ช…๋˜์—ˆ๋‹ค: ๋…ธํ™”๋œ GPU๋Š” ๋‹ค์–‘ํ•œ ์ง€์ ์—์„œ ์Šค๋กœํ‹€๋ง๋˜์–ด ํ•˜๋“œ์›จ์–ด ๊ณ ์žฅ๊ณผ ๊ฐ ์‹คํ–‰์˜ ๊ฐ•์ œ ์žฌ์‹œ์ž‘์œผ๋กœ ์ด์–ด์กŒ๋‹ค. ์–ด๋–ค ์ƒํ™ฉ์ด์—ˆ๋Š”์ง€ ๋ง›๋ณด์—ฌ๋“œ๋ฆฌ๊ธฐ ์œ„ํ•ด, ๋‹ค์Œ์€ ์‹คํ–‰ ์ค‘ ํ•˜๋‚˜์˜ ๋กœ๊ทธ์ด๋ฉฐ, ๊ฐ ์ƒ‰์ƒ์€ ์žฌ์‹œ์ž‘์„ ๋‚˜ํƒ€๋‚ธ๋‹ค:

image.png

์šฐ๋ฆฌ๋Š” ์ฒ˜์Œ์— DeepSpeed๊ฐ€ ๋ฒ”์ธ์ผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค. ์•ก์…€๋Ÿฌ๋ ˆ์ดํ„ฐ๊ฐ€ ์ฒ˜๋ฆฌ๋Ÿ‰์— ๊ณ ๋„๋กœ ์ตœ์ ํ™”๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด DP๋กœ ์ „ํ™˜ํ–ˆ๋Š”๋ฐ, ๋‹ค์†Œ ๋„์›€์ด ๋˜์—ˆ์ง€๋งŒ ์†์‹ค์ด ๊ทน์ ์œผ๋กœ ๋‹ฌ๋ž๋‹ค!

(ํ•œ๋ฐค์ค‘์— ์ฝ”๋“œ์—์„œ ๋ฒ„๊ทธ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์€ ์ƒ๊ฐ๋ณด๋‹ค ํ”ํ•˜๋‹ค. ๋Œ์ด์ผœ๋ณด๋ฉด, ์ด ๊ทœ๋ชจ์˜ ๊ธด ์‹คํ–‰์˜ ๊ฒฝ์šฐ nanotron์ด ์‹ค์ „ ๊ฒ€์ฆ๋˜์—ˆ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰์ด ๋” ๋นจ๋ž๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋” ํ•ฉ๋ฆฌ์ ์ด์—ˆ์„ ๊ฒƒ์ด๋‹ค.)

image.png

๋‚˜์ค‘์— ๋ฐœ๊ฒฌํ–ˆ๋“ฏ์ด, Accelerate์˜ DP ๋ฒ„๊ทธ๋กœ ์ธํ•ด ๊ฐ€์ค‘์น˜์™€ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ์ •๋ฐ€๋„ (์ด ๊ฒฝ์šฐ BF16)๋กœ ์ €์žฅ๋˜์–ด ์ˆ˜์น˜ ๋ถˆ์•ˆ์ •์„ฑ๊ณผ ๋ˆ„์  ๋ฐ ์ตœ์ ํ™” ์ค‘ ๊ธฐ์šธ๊ธฐ ์ •ํ™•๋„ ์†์‹ค๋กœ ์ด์–ด์กŒ๋‹ค.

(์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€๋ถ€๋ถ„์˜ ์•ก์…€๋Ÿฌ๋ ˆ์ดํ„ฐ๋Š” โ€œ๋งˆ์Šคํ„ฐ ๊ฐ€์ค‘์น˜โ€ ๋ฐ ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ์— FP32๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์ˆœ๋ฐฉํ–ฅ ๋ฐ ์—ญ๋ฐฉํ–ฅ ํŒจ์Šค์— ๋Œ€ํ•ด์„œ๋งŒ BF16์œผ๋กœ ๋‹ค์‹œ ์บ์ŠคํŒ…ํ•œ๋‹ค.)

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” DeepSpeed๋กœ ๋‹ค์‹œ ์ „ํ™˜ํ•˜๊ณ  GPU ๊ณผ์—ด ๋ฐ โ€œ๋ฒ„์Šค์—์„œ ๋–จ์–ด์งโ€์œผ๋กœ ์ธํ•œ ์‹œ๊ฐ„ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ณต๊ฒฉ์ ์ธ ์ฒดํฌํฌ์ธํŒ…์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์ด ์ „๋žต์€ ์„ฑ๊ณต์ ์ž„์ด ์ž…์ฆ๋˜์—ˆ์œผ๋ฉฐ ์šฐ๋ฆฌ๊ฐ€ ๋” ์ผ๋ฐ˜์ ์œผ๋กœ ๊ถŒ์žฅํ•˜๋Š” ๊ฒƒ์ด๋‹ค:

โ˜๏ธ๊ทœ์น™

์‚ฌ์ „ ํ•™์Šต์—์„œ ๊ฐ•์กฐํ–ˆ๋“ฏ์ด, ํ•™์Šต ์‹คํ–‰ ์ค‘ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ž์ฃผ ์ €์žฅํ•˜๊ณ , ์šฐ๋ฐœ์ ์ธ ๋ฎ์–ด์“ฐ๊ธฐ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์ด์ƒ์ ์œผ๋กœ๋Š” Hugging Face Hub์— ํ‘ธ์‹œํ•œ๋‹ค. ๋˜ํ•œ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์žฅ์• ์— ๊ฐ•ํ•˜๊ณ  ์ž๋™ ์žฌ์‹œ์ž‘์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค. ์ด ๋‘ ๊ฐ€์ง€ ์ „๋žต ๋ชจ๋‘ ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•ด ์ค„ ๊ฒƒ์ด๋‹ค. ํŠนํžˆ ์ค‘๊ฐ„ ํ•™์Šต๊ณผ ๊ฐ™์ด ์žฅ๊ธฐ ์‹คํ–‰ ์ž‘์—…์˜ ๊ฒฝ์šฐ ๋”์šฑ ๊ทธ๋ ‡๋‹ค.

์•ฝ ์ผ์ฃผ์ผ ๋™์•ˆ ์‹คํ–‰๋“ค์„ ์—ด์‹ฌํžˆ ๋Œ๋ด์ฃผ์—ˆ๊ณ , ๋งˆ์นจ๋‚ด ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.55.07.png

์ „๋ฐ˜์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” NVIDIA์˜ ์‚ฌํ›„ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์ด OpenThoughts๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ํ•จ๊ป˜ ์“ฐ๋Š” ๊ฒƒ์ด ์ „์ฒด์ ์œผ๋กœ ๊ฐ€์žฅ ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

์ด์ œ ์ด๋Ÿฌํ•œ ์ฒดํฌํฌ์ธํŠธ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ฐ€์ ธ์™€ ๋™์ผํ•œ ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ์ ์šฉํ–ˆ์„ ๋•Œ์˜ ํšจ๊ณผ๋ฅผ ์‚ดํŽด๋ณด์ž:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.00.07.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 9.56.09.png

์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ ๋Œ€์‹  ์ค‘๊ฐ„ ํ•™์Šต๋œ ์ถ”๋ก  ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ํšจ๊ณผ๋Š” ๊ทน์ ์ด๋‹ค: ํ™•์žฅ๋œ ์‚ฌ๊ณ ๋กœ AIME25 ๋ฐ LiveCodeBench v4์—์„œ ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ ์„ธ ๋ฐฐ๋กœ ๋Š˜๋ ธ๊ณ , GPQA-D๋Š” ์ „์ฒด 10์  ํ–ฅ์ƒ์„ ๋ฐ›์•˜๋‹ค. ๋‹ค์†Œ ๋†€๋ž๊ฒŒ๋„, ์ถ”๋ก  ํ•ต์‹ฌ์€ย /no_thinkย ์ถ”๋ก  ๋ชจ๋“œ๋กœ ๋ถ€๋ถ„์ ์œผ๋กœ ์ด์ „๋˜์–ด, ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์•ฝ 4-6์  ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” ์ถ”๋ก  ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ์ด๋ฏธ ๋งŽ์€ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์ง€ ์•Š์•˜๋‹ค๋ฉด ์–ด๋А ์ •๋„์˜ ์ค‘๊ฐ„ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๊ฑฐ์˜ ํ•ญ์ƒ ํ•ฉ๋ฆฌ์ ์ด๋ผ๋Š” ๋ช…ํ™•ํ•œ ์ฆ๊ฑฐ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค.

๐Ÿ“์–ธ์ œ ์ค‘๊ฐ„ ํ•™์Šต์„ ํ•˜์ง€ ์•Š๋Š”๊ฐ€

์ค‘๊ฐ„ ํ•™์Šต์€ ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ๋ฐฐ์›Œ์•ผ ํ•  ๋•Œ ๋น›๋‚œ๋‹ค. ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ธฐ์ˆ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๊ฑฐ๋‚˜ ์Šคํƒ€์ผ์ด๋‚˜ ๋Œ€ํ™” ์žก๋‹ด๊ณผ ๊ฐ™์€ ์–•์€ ๋Šฅ๋ ฅ์„ ๋Œ์–ด๋‚ด๋ ค๊ณ  ํ•œ๋‹ค๋ฉด ๋œ ์œ ์šฉํ•˜๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ, ์ค‘๊ฐ„ ํ•™์Šต์„ ๊ฑด๋„ˆ๋›ฐ๊ณ  ์ปดํ“จํŒ…์„ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋‚˜ ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์— ํ• ๋‹นํ•˜๋Š” ๊ฒƒ์„ ๊ถŒ์žฅํ•œ๋‹ค.

SFT ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ๊ณผ ๋ชจ๋ธ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ๋Šฅ๋ ฅ์— ํ™•์‹ ์ด ์ƒ๊ธฐ๋ฉด, ์ดˆ์ ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ธฐ์ˆ  ํ•™์Šต์—์„œ ๊ธฐ์ˆ  ์ •์ œ๋กœ ์ด๋™ํ•œ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ, ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์€ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”์ด๋‹ค.

SFT์—์„œ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋กœ: ๋ชจ๋ธ์—๊ฒŒ โ€˜๋” ๋‚˜์Œโ€™์ด ๋ฌด์—‡์ธ์ง€ ๊ฐ€๋ฅด์น˜๊ธฐ

SFT๋ฅผ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ ๊ณ„์† ํ™•์žฅํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์–ด๋А ์‹œ์ ์—์„œ๋Š” ์ด๋“์ด ์ค„์–ด๋“ค๊ฑฐ๋‚˜ ๋ชจ๋ธ์ด ์ž์‹ ์˜ ๋ฒ„๊ทธ ์žˆ๋Š” ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์‹คํŒจํ•˜๋Š” ๋ชจ์Šต์„ ๊ด€์ฐฐํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ์™œ์ผ๊นŒ? SFT๋Š” **๋ชจ๋ฐฉ ํ•™์Šต(imitation learning)**์˜ ํ•œ ํ˜•ํƒœ์ด๋ฏ€๋กœ, ๋ชจ๋ธ์€ ํ•™์Šต๋œ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ์žฌ์ƒ์‚ฐํ•˜๋Š” ๊ฒƒ๋งŒ ๋ฐฐ์šฐ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฐ์ดํ„ฐ์— ์ด๋ฏธ ์ข‹์€ ์ˆ˜์ • ์‚ฌํ•ญ์ด ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š๊ฑฐ๋‚˜ ์ฆ๋ฅ˜๋ฅผ ํ†ตํ•ด ์›ํ•˜๋Š” ํ–‰๋™์„ ๋Œ์–ด๋‚ด๊ธฐ ์–ด๋ ต๋‹ค๋ฉด, ๋ชจ๋ธ์€ ๋ฌด์—‡์ด โ€œ๋” ๋‚˜์€โ€ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์‹ ํ˜ธ๋ฅผ ์–ป์ง€ ๋ชปํ•œ๋‹ค.

์—ฌ๊ธฐ์„œ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(preference optimisation)๊ฐ€ ๋“ฑ์žฅํ•œ๋‹ค. ๋ฐ๋ชจ๋ฅผ ๋‹จ์ˆœํžˆ ๋ณต์‚ฌํ•˜๋Š” ๋Œ€์‹ , ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์—๊ฒŒ โ€œ์‘๋‹ต A๊ฐ€ ์‘๋‹ต B๋ณด๋‹ค ๋‚ซ๋‹คโ€์™€ ๊ฐ™์€ ๋น„๊ต ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ ํ˜ธ๋„๋Š” ํ’ˆ์งˆ์— ๋Œ€ํ•œ ๋” ์ง์ ‘์ ์ธ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๊ณ  ๋ชจ๋ธ ์„ฑ๋Šฅ์ด SFT๋งŒ์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด ํ™•์žฅ๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค.

์„ ํ˜ธ๋„ ์ตœ์ ํ™”์˜ ๋˜ ๋‹ค๋ฅธ ์ด์ ์€ ์‹œ์ž‘์ ์ด ์ด๋ฏธ ์ง€์นจ์„ ๋”ฐ๋ฅผ ์ˆ˜ ์žˆ๊ณ  ์ด์ „ ํ•™์Šต ๋‹จ๊ณ„์˜ ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฝค ์ข‹์€ ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ SFT๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์–ด์ง€๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ

์—ญ์‚ฌ์ ์œผ๋กœ, ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹์€ ์ธ๊ฐ„ ์ฃผ์„์ž์—๊ฒŒ ๋ชจ๋ธ ์‘๋‹ต ์Œ์„ ์ œ๊ณตํ•˜๊ณ  ์–ด๋–ค ๊ฒƒ์ด ๋” ๋‚˜์€์ง€ (์•„๋งˆ๋„ ์ฒ™๋„๋กœ) ํ‰๊ฐ€ํ•˜๋„๋ก ์š”์ฒญํ•˜์—ฌ ์ƒ์„ฑ๋˜์—ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์—ฌ์ „ํžˆ LLM ์ œ๊ณต์ž๊ฐ€ย ์ธ๊ฐ„ ์„ ํ˜ธ๋„ย ๋ ˆ์ด๋ธ”์„ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์ง€๋งŒ, ๋งค์šฐ ๋น„์‹ธ๊ณ  ํ™•์žฅ์ด ์ž˜ ์•ˆ ๋œ๋‹ค. ์ตœ๊ทผ, LLM์€ ๊ณ ํ’ˆ์งˆ ์‘๋‹ต์„, ์ข…์ข… ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ์ „์€ LLM์ด ๋งŽ์€ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋Œ€ํ•œ ์„ ํ˜ธ๋„๋ฅผย ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ์‹ค์šฉ์ ์œผ๋กœ ๋งŒ๋“ ๋‹ค. ์‹ค์ œ์—์„œ, ๋‘ ๊ฐ€์ง€ ์ผ๋ฐ˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด ์žˆ๋‹ค:

๊ฐ•ํ•œ ๊ฒƒ ๋Œ€ ์•ฝํ•œ ๊ฒƒ (Strong vs. weak)

  1. ๊ณ ์ •๋œ ํ”„๋กฌํ”„ํŠธ ์„ธํŠธย x๋ฅผ ์ทจํ•œ๋‹ค (์ข…์ข… ๋ฒ”์œ„์™€ ๋‚œ์ด๋„๋ฅผ ์œ„ํ•ด ํ๋ ˆ์ด์…˜๋จ).
  2. ์•ฝํ•œ ๋ชจ๋ธ์ด๋‚˜ ๊ธฐ์ค€ ๋ชจ๋ธ์—์„œ ํ•˜๋‚˜์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ์—์„œ ๋‹ค๋ฅธ ํ•˜๋‚˜๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.
  3. ๋” ๊ฐ•ํ•œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ์„ ํƒ๋œ ์‘๋‹ตย y_c๋กœ, ๋” ์•ฝํ•œ ๊ฒƒ์„ ๊ฑฐ๋ถ€๋œ ์‘๋‹ตย y_r๋กœ ๋ ˆ์ด๋ธ”๋งํ•œ๋‹ค.

์ด๊ฒƒ์€ โ€œ๋” ๊ฐ•ํ•œ ๊ฒƒ ๋Œ€ ๋” ์•ฝํ•œ ๊ฒƒโ€ ๋น„๊ต ๋ฐ์ดํ„ฐ์…‹ (x,yc,yr)({x,y_c,y_r}) ์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ, ๋” ๊ฐ•ํ•œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ํ™•์‹คํžˆ ๋” ๋‚ซ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ์ถ•ํ•˜๊ธฐ ๊ฐ„๋‹จํ•˜๋‹ค.

์•„๋ž˜๋Š” Intel์˜ ์ธ๊ธฐ ์žˆ๋Š” ์˜ˆ์‹œ๋กœ, gpt-3.5์™€ gpt-4์˜ ์‘๋‹ต์ด ํฌํ•จ๋œ SFT ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ€์ ธ์™€ gpt-4 ์‘๋‹ต์„ ์„ ํƒ๋จ์œผ๋กœ, gpt-3.5 ์‘๋‹ต์„ ๊ฑฐ๋ถ€๋จ์œผ๋กœ ์„ ํƒํ•˜์—ฌ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ณ€ํ™˜ํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-02 แ„‹แ…ฉแ„’แ…ฎ 10.25.04.png

์ฑ„์ ์„ ํ†ตํ•œ ์˜จ-ํด๋ฆฌ์‹œ (On-policy with grading)

  1. ํ•™์Šต์‹œํ‚ฌย ๋™์ผํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ํ›„๋ณด ์‘๋‹ต์„ ์ƒ์„ฑํ•œ๋‹ค. ์ด๊ฒƒ์€ ๋ชจ๋ธ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•  ์ถœ๋ ฅ์˜ ๋ถ„ํฌ๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— โ€œ์˜จ-ํด๋ฆฌ์‹œ(on-policy)โ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.
  2. ๋” ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ๋ ˆํผ๋Ÿฐ์Šค๋กœ ์˜์กดํ•˜๋Š” ๋Œ€์‹ , ํ•˜๋‚˜ ์ด์ƒ์˜ ํ’ˆ์งˆ ์ถ• (์˜ˆ: ์œ ์šฉ์„ฑ ๋˜๋Š” ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ)์„ ๋”ฐ๋ผ ์‘๋‹ต์„ ์ ์ˆ˜ ๋งค๊ธฐ๋Š” ๊ฒ€์ฆ์ž(verifier) ๋˜๋Š” ๋ณด์ƒ ๋ชจ๋ธ์ธ **์™ธ๋ถ€ ์ฑ„์ ์ž(external grader)**๋ฅผ ๋„์ž…ํ•œ๋‹ค.
  3. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ฑ„์ ์ž๋Š” ํ›„๋ณด ์‘๋‹ต ๊ฐ„์— ์„ ํ˜ธ๋„ ๋ ˆ์ด๋ธ”์„ ํ• ๋‹นํ•˜์—ฌ ๋” ๋ฏธ๋ฌ˜ํ•˜๊ณ  ์œ ์—ฐํ•œ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•œ๋‹ค.

์ด ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์ด ๊ฐœ์„ ๋จ์— ๋”ฐ๋ผ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์˜ ์ง€์†์ ์ธ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ํ—ˆ์šฉํ•˜์ง€๋งŒ, ๊ทธ ํ’ˆ์งˆ์€ ํ‰๊ฐ€์ž์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ต์ •(calibration)์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค.

๊ทธ๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์…‹์˜ ์ข‹์€ ์˜ˆ๋Š” SnorkelAI์—์„œ ๋‚˜์˜จ ๊ฒƒ์œผ๋กœ, UltraFeedback์ด๋ผ๋Š” ์ธ๊ธฐ ์žˆ๋Š” ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ฐ€์ ธ์™€ 3๊ฐœ ์„ธํŠธ๋กœ ๋‚˜๋ˆ„๊ณ , ์œ„ ๋ ˆ์‹œํ”ผ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ฐœ์„ ํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 4.50.24.png

SmolLM3 ๊ฐœ๋ฐœ ๋‹น์‹œ์—๋Š” ์ถ”๋ก  ๊ฒฝ๋กœ๊ฐ€ ํฌํ•จ๋œ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” โ€œ๊ฐ•ํ•œ ๊ฒƒ ๋Œ€ ์•ฝํ•œ ๊ฒƒโ€ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž์ฒด์ ์œผ๋กœ ์ผ๋ถ€๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Ai2์˜ Tulu 3 ์„ ํ˜ธ๋„ ํ˜ผํ•ฉ์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌย /thinkย ๋ชจ๋“œ์—์„œ Qwen3-0.6B ๋ฐ Qwen3-32B์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋กœ 25๋งŒ ๊ฐœ ์ด์ƒ์˜ LLM ์ƒ์„ฑ ์„ ํ˜ธ๋„๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์œผ๋ฉฐ, ์„ ํ˜ธ๋„ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ์ถ•์— ๊ฑธ์ณ SFT ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๋™์‹œ์— ๊ฐœ์„ ํ•  ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค.

์–ด๋–ค ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ ํƒํ•ด์•ผ ํ•˜๋Š”๊ฐ€?

์ง์ ‘ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(Direct Preference Optimization, DPO)ย (Rafailov et al., 2024)๋Š” ์˜คํ”ˆ ์†Œ์Šค์—์„œ ๋„๋ฆฌ ์ฑ„ํƒ๋œ ์ตœ์ดˆ์˜ ์„ ํ˜ธ๋„ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์—ˆ๋‹ค.

DPO์˜ ๋งค๋ ฅ์€ ๊ตฌํ˜„ํ•˜๊ธฐ ๊ฐ„๋‹จํ•˜๊ณ , ์‹ค์ œ์—์„œ ์•ˆ์ •์ ์ด๋ฉฐ, ์ ๋‹นํ•œ ์–‘์˜ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๋กœ๋„ ํšจ๊ณผ์ ์ด๋ผ๋Š” ๊ฒƒ์ด๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, DPO๋Š” RL๊ณผ ๊ฐ™์€ ๋” ๋ณต์žกํ•œ ๊ธฐ์ˆ ์— ๋„๋‹ฌํ•˜๊ธฐ ์ „์— SFT ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ธฐ๋ณธ ๋ฐฉ๋ฒ•์ด ๋˜์—ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์—ฐ๊ตฌ์ž๋“ค์€ DPO๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋งŽ์€ ๋ฐฉ๋ฒ•์ด ์žˆ์Œ์„ ๋น ๋ฅด๊ฒŒ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์˜ค๋Š˜๋‚  ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋Œ€์•ˆ์ด ์žˆ๋‹ค. ์•„๋ž˜์— ์šฐ๋ฆฌ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ ๋ช‡ ๊ฐ€์ง€๋ฅผ ๋‚˜์—ดํ•œ๋‹ค:

๋‹คํ–‰ํžˆ๋„, ์ด๋Ÿฌํ•œ ์„ ํƒ ์ค‘ ๋‹ค์ˆ˜๋Š” TRL์˜ย DPOTrainer์—์„œ ํ•œ ์ค„ ๋ณ€๊ฒฝ์— ๋ถˆ๊ณผํ•˜๋ฏ€๋กœ, ์ดˆ๊ธฐ ๊ธฐ์ค€์„ ์„ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค:

์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ๋‘ ์ถ”๋ก  ๋ชจ๋“œ์— ๋Œ€ํ•œ ๋„๋ฉ”์ธ ๋‚ด ๊ฐœ์„ ์€ ์ƒ๋‹นํ–ˆ๋‹ค: IFEval์—์„œ APO-zero๋Š” SFT ์ฒดํฌํฌ์ธํŠธ๋ณด๋‹ค 15-20ํผ์„ผํŠธ ํฌ์ธํŠธ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค!

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 4.55.57.png

APO-zero๋Š” ๋˜ํ•œ ์ตœ๊ณ ์˜ ์ „๋ฐ˜์ ์ธ ๋„๋ฉ”์ธ-๋ฐ– ์„ฑ๋Šฅ์„ ๊ฐ€์กŒ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋‚˜๋จธ์ง€ ์ œ๊ฑฐ ์‹คํ—˜์— ๊ทธ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค.

๐Ÿ“์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋Š” ์ถ”๋ก ์— ํšจ๊ณผ์ ์ด๋‹ค

์œ„์˜ ๊ฒฐ๊ณผ์—์„œ ๋ณด๋“ฏ์ด, ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋Š” ๋ชจ๋ธ์„ ๋” ๋„์›€์ด ๋˜๊ฑฐ๋‚˜ ์ •๋ ฌ๋˜๊ฒŒ ๋งŒ๋“ค ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ,ย ๋” ์ž˜ ์ถ”๋ก ํ•˜๋„๋ก ๊ฐ€๋ฅด์นœ๋‹ค. ์ถ”๋ก  ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•  ๋น ๋ฅธ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค๋ฉด, ๊ฐ•ํ•œ ๊ฒƒ ๋Œ€ ์•ฝํ•œ ๊ฒƒ ์„ ํ˜ธ๋„๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋‹ค๋ฅธ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ œ๊ฑฐ ์‹คํ—˜ํ•ด ๋ณด๋ผ: ๋ฐ”๋‹๋ผ DPO๋ณด๋‹ค ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค!

์„ ํ˜ธ๋„ ์ตœ์ ํ™”์— ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ฌด์—‡์ธ๊ฐ€?

์„ ํ˜ธ๋„ ์ตœ์ ํ™”์˜ ๊ฒฝ์šฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์Šต ์—ญํ•™์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์„ธ ๊ฐ€์ง€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์žˆ๋‹ค:

SmolLM3์— ๋Œ€ํ•ด ์ด๊ฒƒ๋“ค์ด ์–ด๋–ป๊ฒŒ ์ž‘์šฉํ–ˆ๋Š”์ง€ ์‚ดํŽด๋ณด์ž.ย smoltalk2ย ์ „์ฒด์— ๋Œ€ํ•ด ํ•™์Šต๋œ SFT ์ฒดํฌํฌ์ธํŠธ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์ž.

์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์œ„ํ•ด ์ž‘์€ ํ•™์Šต๋ฅ  ์‚ฌ์šฉ

์šฐ๋ฆฌ๊ฐ€ ์‹คํ–‰ํ•œ ์ฒซ ๋ฒˆ์งธ ์ œ๊ฑฐ ์‹คํ—˜์€ ํ•™์Šต๋ฅ ์ด ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด์—ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” SFT ํ•™์Šต๋ฅ (2e-5)๋ณด๋‹ค ~200๋ฐฐ ๋” ์ž‘์€(1e-7) ๊ฒƒ๋ถ€ํ„ฐ ~2๋ฐฐ ๋” ์ž‘์€(1e-5) ๊ฒƒ ์‚ฌ์ด์˜ ํ•™์Šต๋ฅ ์˜ ์˜ํ–ฅ์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ๋‹ค. Zephyr 7B์™€ ๊ฐ™์€ ์ด์ „ ํ”„๋กœ์ ํŠธ๋Š” ์„ ํ˜ธ๋„ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ตœ๊ณ ์˜ ํ•™์Šต๋ฅ ์ด SFT์— ์‚ฌ์šฉ๋œ ๊ฒƒ๋ณด๋‹ค ์•ฝ 10๋ฐฐ ๋” ์ž‘๋‹ค์•„์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ€๋ฅด์ณ ์ฃผ์—ˆ๊ณ , SmolLM3์— ๋Œ€ํ•ด ์‹คํ–‰ํ•œ ์ œ๊ฑฐ ์‹คํ—˜์€ ์ด ๊ฒฝํ—˜ ๋ฒ•์น™์„ ์žฌํ™•์ธํ–ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ~10๋ฐฐ ๋” ์ž‘์€ ํ•™์Šต๋ฅ ์€ ๋‘ ์ถ”๋ก  ๋ชจ๋“œ์—์„œ SFT ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ, ๊ทธ 10๋ฐฐ ์ œํ•œ์„ ๋„˜์–ด์„œ๋Š” ๋ชจ๋“  ํ•™์Šต๋ฅ ์€ ํ™•์žฅ๋œ ์‚ฌ๊ณ  ๋ชจ๋“œ์— ๋Œ€ํ•ด ๋” ๋‚˜์œ ์„ฑ๋Šฅ์„ ์ดˆ๋ž˜ํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 4.58.45.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.04.03.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.04.12.png

/no_think ์ถ”๋ก  ๋ชจ๋“œ์— ๋Œ€ํ•œ ๊ฒฝํ–ฅ์€ ๋” ์•ˆ์ •์ ์ด๋ฉฐ, ์ตœ๊ณ ์˜ ํ•™์Šต๋ฅ ์€ 5e-6์ด๋‹ค. ์ด๊ฒƒ์€ ์ฃผ๋กœ ๋‹จ์ผ ๋ฒค์น˜๋งˆํฌ (LiveCodeBench v4)์— ์˜ํ•ด ์ฃผ๋„๋˜๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” SmolLM3 ์‹คํ–‰์— 1e-6์„ ์„ ํƒํ–ˆ๋‹ค.

์—ฌ๋Ÿฌ๋ถ„์˜ ํ•™์Šต ์‹คํ–‰์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๊ถŒ์žฅ ์‚ฌํ•ญ์€ SFT ํ•™์Šต๋ฅ ๋ณด๋‹ค 5๋ฐฐ์—์„œ 20๋ฐฐ ๋” ์ž‘์€ ๋ฒ”์œ„์—์„œ ํ•™์Šต๋ฅ  ์Šค์บ”์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ ๋ฒ”์œ„ ๋‚ด์—์„œ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์ฐพ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋งค์šฐ ๋†’๋‹ค!

ฮฒ ํŠœ๋‹

ฮฒ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•ด ์‹คํ–‰ํ•œ ์‹คํ—˜์€ 0.01์—์„œ 0.99๊นŒ์ง€, ๋ ˆํผ๋Ÿฐ์Šค ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ฐ๊ฐ ๋‹ค๋ฅธ ์ •๋„์˜ ์ •๋ ฌ์„ ์žฅ๋ คํ•˜๋Š” ๊ฐ’๋“ค์„ ํƒ์ƒ‰ํ–ˆ๋‹ค. ์ƒ๊ธฐ์‹œํ‚ค์ž๋ฉด, ๋ฒ ํƒ€ ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ ˆํผ๋Ÿฐ์Šค ๋ชจ๋ธ์— ๊ฐ€๊น๊ฒŒ ๋จธ๋ฌด๋ฅด๋Š” ๊ฒƒ์„ ์žฅ๋ คํ•˜๊ณ  ๋†’์€ ๊ฐ’์€ ๋ชจ๋ธ์ด ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์™€ ๋” ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•˜๋„๋ก ํ—ˆ์šฉํ•œ๋‹ค. ฮฒ=0.1 ์— ๋Œ€ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ์€ ๋‘ ์ถ”๋ก  ๋ชจ๋“œ ๋ชจ๋‘์—์„œ ๊ฐ€์žฅ ๋†’์œผ๋ฉฐ SFT ์ฒดํฌํฌ์ธํŠธ์˜ ์ง€ํ‘œ์™€ ๋น„๊ตํ•˜์—ฌ ํ–ฅ์ƒ๋œ๋‹ค. ๋‚ฎ์€ ๋ฒ ํƒ€ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ•ด์น˜๊ณ  SFT ์ฒดํฌํฌ์ธํŠธ๋ณด๋‹ค ๋” ๋‚˜์œ ๋ชจ๋ธ์„ ์ดˆ๋ž˜ํ•˜๋Š” ๋ฐ˜๋ฉด, ํ™•์žฅ๋œ ์‚ฌ๊ณ  ์—†์ด๋Š” ์—ฌ๋Ÿฌ ฮฒ ๊ฐ’์— ๊ฑธ์ณ ์„ฑ๋Šฅ์ด ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์„ ํ˜ธ๋„ ์ตœ์ ํ™”์— 0.1๋ณด๋‹ค ํฐ ๊ฐ’์ด ๋ฐ”๋žŒ์งํ•˜๋ฉฐ, ๋ชจ๋ธ์„ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์™€ ์ •๋ ฌํ•˜๋Š” ๊ฒƒ์ด ๋ ˆํผ๋Ÿฐ์Šค ๋ชจ๋ธ์— ๊ฐ€๊น๊ฒŒ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์œ ๋ฆฌํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” 0.01๊ณผ 0.5 ๋ฒ”์œ„์˜ ฮฒ ๊ฐ’์„ ํƒ์ƒ‰ํ•  ๊ฒƒ์„ ์ œ์•ˆํ•œ๋‹ค. ๋” ๋†’์€ ๊ฐ’์€ ํ”Œ๋กฏ์— ํ‘œ์‹œ๋œ ํ‰๊ฐ€์—์„œ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•  ์ˆ˜๋„ ์žˆ๋Š” SFT ์ฒดํฌํฌ์ธํŠธ์˜ ๋Šฅ๋ ฅ์„ ์ง€์šธ ์ˆ˜ ์žˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.01.09.png

์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ ํ™•์žฅ

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ๊ฐ€ ๊ฒฐ๊ณผ์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ—˜์„ ์‹คํ–‰ํ•˜์—ฌ 2k์—์„œ 340k ์„ ํ˜ธ๋„ ์Œ์˜ ๊ฐ’์„ ํ…Œ์ŠคํŠธํ–ˆ๋‹ค. ์ด ๋ฒ”์œ„ ์ „๋ฐ˜์— ๊ฑธ์ณ ์„ฑ๋Šฅ์€ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜์—ˆ๋‹ค. ํ™•์žฅ๋œ ์‚ฌ๊ณ  ๋ชจ๋“œ์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜๋Š” 100k ์„ ํ˜ธ๋„ ์Œ์„ ๋„˜์–ด์„œ๋Š” ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฐœ์ƒํ•˜์ง€๋งŒ, ๊ทธ ์ €ํ•˜๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฅธ ํ•™์Šต๋ฅ  ๊ฐ’์—์„œ ๋ณธ ๊ฒƒ๋งŒํผ ๋‘๋“œ๋Ÿฌ์ง€์ง€๋Š” ์•Š์•˜๋‹ค. SmolLM3 ํ•™์Šต ์‹คํ–‰์— ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์…‹์€ 169k ์„ ํ˜ธ๋„ ์Œ์ด์—ˆ์ง€๋งŒ, ๊ฒฐ๊ณผ๋Š” ๋” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹๋„ SFT ์ฒดํฌํฌ์ธํŠธ๋ณด๋‹ค ๊ฐœ์„ ์„ ๋ณด์—ฌ์คŒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋ฏธ๋ž˜ ํ”„๋กœ์ ํŠธ๋ฅผ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋ฐ˜๋ณต ๋‹จ๊ณ„ ๋™์•ˆ ๋” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ, ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋ฅผ ์‹œ๋„ํ•˜๊ณ  ๊ฐ€์žฅ ์œ ๋งํ•œ ๊ตฌ์„ฑ์„ ๋น ๋ฅด๊ฒŒ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.03.06.png

๋ชจ๋“  ๊ฒƒ์„ ํ•˜๋‚˜๋กœ ๋ชจ์œผ๊ธฐ

์ด ๋ชจ๋“  ์Šค๋ ˆ๋“œ๋ฅผ ํ•˜๋‚˜๋กœ ๋ชจ์•„ ์ตœ์ข… SmolLM3-3B ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค: ๋™๊ธ‰ ํฌ๊ธฐ ์ค‘ ์ตœ๊ณ ์ด๋ฉฐ Qwen์˜ ์ž์ฒด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ํŒŒ๋ ˆํ†  ํ”„๋ก ํŠธ์— ์œ„์น˜ํ•œ๋‹ค.

์ถ”๋ก  ์—†๋Š” Instruction ๋ชจ๋ธ

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.03.52.png

๋ช‡ ์ฃผ๊ฐ„์˜ ์ž‘์—…์น˜๊ณ ๋Š” ๊ฝค ๊ดœ์ฐฎ๋‹ค!

์ฐธ์—ฌ ๊ทœ์น™

๋ฏธ๋ž˜ ํ”„๋กœ์ ํŠธ์— ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์„ ํ˜ธ๋„ ์ตœ์ ํ™”์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๋ฐœ๊ฒฌ์„ ์š”์•ฝํ•˜๊ฒ ๋‹ค:

์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋Š” ์ข…์ข… ๋‹จ์ˆœ์„ฑ๊ณผ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ์ตœ์ ์ ์ด์ง€๋งŒ, ์—ฌ์ „ํžˆ ์ง€๋„ํ•™์Šต์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์š” ํ•œ๊ณ„๋ฅผ ๋ฌผ๋ ค๋ฐ›๋Š”๋‹ค: ์˜ค์ง ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๋Š” ์˜คํ”„๋ผ์ธ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๋งŒํผ๋งŒ ์ข‹๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์–ด๋А ์‹œ์ ์—์„œ, ์ •์  ๋ฐ์ดํ„ฐ์…‹์€ ์‹ ํ˜ธ๊ฐ€ ๊ณ ๊ฐˆ๋˜๊ณ  ๋ชจ๋ธ์ด ํ”„๋กฌํ”„ํŠธ ๋ฐ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•จ์— ๋”ฐ๋ผ ์˜จ๋ผ์ธ์—์„œ ์ƒˆ๋กœ์šด ํ•™์Šต ํ”ผ๋“œ๋ฐฑ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค. ๊ทธ๊ณณ์ด ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๊ฐ€ ์˜จ-ํด๋ฆฌ์‹œ ๋ฐ RL ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋” ๋„“์€ ๊ฐ€์กฑ๋“ค๊ณผ ๋งŒ๋‚˜๋Š” ์ง€์ ์ด๋‹ค.

์˜จ-ํด๋ฆฌ์‹œ ๋ฐ ์ง€๋„ ๋ ˆ์ด๋ธ”์„ ๋„˜์–ด์„œ

๋ชจ๋ธ์ด ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ํ•ด๊ฒฐํ•˜๊ฑฐ๋‚˜, ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์— ๊ฑธ์ณ ๊ณ„ํšํ•˜๊ธฐ๋ฅผ ์›ํ•œ๋‹ค๋ฉด, ๋‹จ์ˆœํžˆ โ€œA๊ฐ€ B๋ณด๋‹ค ๋‚ซ๋‹คโ€๋Š” ๊ฒƒ๋ณด๋‹ค๋Š” **๋ณด์ƒ ์‹ ํ˜ธ(reward signal)**๊ฐ€ ํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

์—ฌ๊ธฐ์„œ RL์ด ์˜๋ฏธ์žˆ์–ด์ง€๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค. ์„ ํ˜ธ๋„๋กœ ๋ชจ๋ธ์„ ๊ฐ๋…ํ•˜๋Š” ๋Œ€์‹ , ํ™˜๊ฒฝ (์ˆ˜ํ•™ ๊ฒ€์ฆ์ž, ์ฝ”๋“œ ์‹คํ–‰๊ธฐ, ๋˜๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ์ผ ์ˆ˜ ์žˆ์Œ)๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•˜๊ฒŒ ํ•˜๊ณ  ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ํ•™์Šตํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. RL์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฝ์šฐ์— ๋น›๋‚œ๋‹ค:

LLM๊ณผ ๊ด€๋ จํ•˜์—ฌ, RL์—๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋ฐฉํ–ฅ์„ฑ์ด ์žˆ๋‹ค:

  1. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต (RLHF):ย ์ด๊ฒƒ์€ OpenAI์˜ InstructGPT ๋…ผ๋ฌธ (Ouyang et al., 2022)์— ์˜ํ•ด ๋Œ€์ค‘ํ™”๋˜์—ˆ์œผ๋ฉฐ gpt-3.5 ๋ฐ ๋งŽ์€ ํ˜„๋Œ€ LLM์˜ ๊ธฐ์ดˆ๊ฐ€ ๋œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค. ์—ฌ๊ธฐ์„œ, ์ธ๊ฐ„ ์ฃผ์„์ž๋Š” ๋ชจ๋ธ ์ถœ๋ ฅ (์˜ˆ: โ€œA๊ฐ€ B๋ณด๋‹ค ๋‚ซ๋‹คโ€)์„ ๋น„๊ตํ•˜๊ณ  ๋ณด์ƒ ๋ชจ๋ธ์ด ๊ทธ๋Ÿฌํ•œ ์„ ํ˜ธ๋„๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ •์ฑ…์€ ํ•™์Šต๋œ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด RL๋กœ ํŒŒ์ธ ํŠœ๋‹๋œ๋‹ค.

    (๋ณด์ƒ ๋ชจ๋ธ์€ ์ธ๊ฐ„ ์„ ํ˜ธ๋„๋ฅผ ๊ทผ์‚ฌํ•  ๋ฟ์ด๋ฏ€๋กœ, ๋•Œ๋•Œ๋กœ ๋ณด์ƒ ํ•ดํ‚น(reward hacking)์„ ์žฅ๋ คํ•  ์ˆ˜ ์žˆ๋‹ค. ์ •์ฑ…์ด โ€œ๋” ๋” ๋” ๋”โ€์™€ ๊ฐ™์€ ๋ถ„ํฌ ์™ธ ์‹œํ€€์Šค๋ฅผ ๋ฐฉ์ถœํ•˜๊ณ  ๊ฐ€์งœ ๋†’์€ ๋ณด์ƒ์„ ๋ฐ›์•„ RL ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์— ๊ตฌ์›Œ์ง€๋Š” ๊ฒƒ์ด๋‹ค.)

  2. ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต (RLVR):ย ์ด๊ฒƒ์€ DeepSeek-R1์— ์˜ํ•ด ๋Œ€์ค‘ํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ฉฐ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋œ ์ •ํ™•์„ฑ ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒ€์ฆ์ž๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•œ๋‹ค (์˜ˆ: ์ฝ”๋“œ๊ฐ€ ์ปดํŒŒ์ผ๋˜๊ณ  ๋ชจ๋“  ํ…Œ์ŠคํŠธ๋ฅผ ํ†ต๊ณผํ•˜๋Š”๊ฐ€, ๋˜๋Š” ์ˆ˜ํ•™์  ๋‹ต๋ณ€์ด ์˜ฌ๋ฐ”๋ฅธ๊ฐ€?). ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ •์ฑ…์€ ๋” ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•˜๊ฒŒ ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด RL๋กœ ํŒŒ์ธ ํŠœ๋‹๋œ๋‹ค.

RLHF์™€ RLVR ๋ชจ๋‘ ๋ชจ๋ธ์ด ๋ฌด์—‡์„ ์œ„ํ•ด ์ตœ์ ํ™”๋˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ์ •์˜ํ•˜์ง€๋งŒ, ๊ทธ ์ตœ์ ํ™”๊ฐ€ ์–ด๋–ป๊ฒŒ ์ˆ˜ํ–‰๋˜์–ด์•ผ ํ•˜๋Š”์ง€๋Š” ๋งํ•ด์ฃผ์ง€ ์•Š๋Š”๋‹ค. ์‹ค์ œ์—์„œ, RL ๊ธฐ๋ฐ˜ ํ•™์Šต์˜ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์€ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด **์˜จ-ํด๋ฆฌ์‹œ(on-policy)**์ธ์ง€ **์˜คํ”„-ํด๋ฆฌ์‹œ(off-policy)**์ธ์ง€์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค.

GRPO์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์€ ์ผ๋ฐ˜์ ์œผ๋กœย ์˜จ-ํด๋ฆฌ์‹œ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜ย ๋ฒ”์ฃผ์— ์†ํ•˜๋ฉฐ, ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ(์ •์ฑ…)์ด ์ตœ์ ํ™”๋˜๋Š” ๋ชจ๋ธ๊ณผ ๋™์ผํ•˜๋‹ค. GRPO๊ฐ€ ์˜จ-ํด๋ฆฌ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ ๊ฒƒ์€ ๋Œ€์ฒด๋กœ ์‚ฌ์‹ค์ด์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ์ฃผ์˜ ์‚ฌํ•ญ์ด ์žˆ๋‹ค. ์ฒซ์งธ, ์ƒ์„ฑ ๋‹จ๊ณ„๋ฅผ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฐฐ์น˜์˜ ์ƒ์„ฑ์ด ์ƒ˜ํ”Œ๋ง๋œ ๋‹ค์Œ ๋ชจ๋ธ์— ๋Œ€ํ•ด k ๋ฒˆ์˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด๋ฃจ์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์—, ์ฒซ ๋ฒˆ์งธ ๋ฐฐ์น˜๋Š” ์˜จ-ํด๋ฆฌ์‹œ์ด๊ณ  ๋‹ค์Œ ๋ช‡ ๋ฐฐ์น˜๋Š” ์•ฝ๊ฐ„ ์˜คํ”„-ํด๋ฆฌ์‹œ์ด๋‹ค.

์ƒ์„ฑ์— ์‚ฌ์šฉ๋œ ๋ชจ๋ธ๊ณผ ์ตœ์ ํ™”๋˜๋Š” ํ˜„์žฌ ๋ชจ๋ธ ์‚ฌ์ด์˜ ์ •์ฑ… ์ง€์—ฐ(policy-lag)์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด, ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง(importance sampling)๊ณผ ํด๋ฆฌํ•‘์ด ํ† ํฐ ํ™•๋ฅ ์„ ๋‹ค์‹œ ๊ฐ€์ค‘์น˜ ์žฌ๋ถ€์—ฌ ๋ฐ ์—…๋ฐ์ดํŠธ ํฌ๊ธฐ๋ฅผ ์ œํ•œํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

(์šฐ๋ฆฌ๋Š” ์—ฌ๊ธฐ์„œ ์˜คํ”„-ํด๋ฆฌ์‹œ RL์„ ์–ธ๊ธ‰ํ•˜์ง€๋งŒ, Q-learning๊ณผ ๊ฐ™์ด ๊ถค์ (trajectory)์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์ •์ฑ…์ด ์ตœ์ ํ™”๋˜๋Š” ์ •์ฑ…๊ณผ ์™„์ „ํžˆ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋Š” ๋ช‡ ๊ฐ€์ง€ ์ง„์ •ํ•œ ์˜คํ”„-ํด๋ฆฌ์‹œ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์žˆ๋‹ค. GRPO๊ฐ€ LLM์— ์ ์šฉ๋  ๋•Œ, ์ƒ์„ฑ์— ์‚ฌ์šฉ๋˜๋Š” ์ •์ฑ…์€ ์ตœ์ ํ™”์— ์‚ฌ์šฉ๋˜๋Š” ์ •์ฑ…๋ณด๋‹ค ๋’ค์ฒ˜์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ ๋‘˜ ์‚ฌ์ด์— 16๋‹จ๊ณ„ ๋ฏธ๋งŒ์˜ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.)

LLM์˜ ์ž๊ธฐ ํšŒ๊ท€ ์ƒ์„ฑ์ด ๋А๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์—, verl ๋ฐ PipelineRL๊ณผ ๊ฐ™์€ ๋งŽ์€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ต๋ณ€(completion)์˜ ๋น„๋™๊ธฐ ์ƒ์„ฑ ๋ฐ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜์˜ โ€œ๋น„ํ–‰ ์ค‘(in-flight)โ€ ์—…๋ฐ์ดํŠธ๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋” ๋ณต์žกํ•˜๊ณ  ์‹ ์ค‘ํ•œ ๊ตฌํ˜„์„ ์š”๊ตฌํ•˜์ง€๋งŒ, ๋™๊ธฐ์‹ ํ•™์Šต ๋ฐฉ๋ฒ•๋ณด๋‹ค 4-5๋ฐฐ ๋” ๋†’์€ ํ•™์Šต ์†๋„๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‚˜์ค‘์— ๋ณด๊ฒŒ ๋˜๊ฒ ์ง€๋งŒ, ํ•™์Šต ํšจ์œจ์„ฑ์˜ ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ ๋กฑํ…Œ์ผ ํ† ํฐ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ์ถ”๋ก  ๋ชจ๋ธ์— ๋Œ€ํ•ด ํŠนํžˆ ๋‘๋“œ๋Ÿฌ์ง„๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์ฃผ๋กœ ์‹œ๊ฐ„ ์ œ์•ฝ๊ณผ ์˜คํ”„๋ผ์ธ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋งŒ์œผ๋กœ ์ด๋ฏธ ๋™๊ธ‰ ์ตœ๊ณ ์ธ ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— RL์„ ์™„์ „ํžˆ ๊ฑด๋„ˆ๋›ฐ์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ถœ์‹œ ์ดํ›„ ์šฐ๋ฆฌ๋Š” ์ด ์ฃผ์ œ๋ฅผ ๋‹ค์‹œ ๋ฐฉ๋ฌธํ–ˆ์œผ๋ฉฐ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์— RLVR์„ ์ ์šฉํ•˜๋ฉด์„œ ์–ป์€ ๊ตํ›ˆ ์ค‘ ์ผ๋ถ€๋ฅผ ๊ณต์œ ํ•˜๋ฉฐ ์‚ฌํ›„ ํ•™์Šต ์ฑ•ํ„ฐ๋ฅผ ๋งˆ์น  ๊ฒƒ์ด๋‹ค.

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์— RLVR ์ ์šฉ

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์€ ์ถ”๋ก  ๋ชจ๋“œ์— ๋”ฐ๋ผ ์ƒ์„ฑ ๊ธธ์ด๊ฐ€ ์ƒ๋‹นํžˆ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— RLVR์— ์ถ”๊ฐ€์ ์ธ ๋ณต์žก์„ฑ์„ ์ œ๊ธฐํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์šฐ๋ฆฌ๋Š” SmolLM3์˜ ์ตœ์ข… APO ์ฒดํฌํฌ์ธํŠธ์— ๋Œ€ํ•ด AIME25์—์„œ์˜ ํ† ํฐ ๊ธธ์ด ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.12.47.png

๋ณด์‹œ๋‹ค์‹œํ”ผ, /no_think ๋ชจ๋“œ๋Š” ์•ฝ 2k ํ† ํฐ์˜ ์ค‘์•™๊ฐ’ ๊ธธ์ด๋ฅผ ๊ฐ€์ง„ ์†”๋ฃจ์…˜์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ˜๋ฉด, /think ๋ชจ๋“œ๋Š” 16k ํ† ํฐ๊ณผ ๋‘๊บผ์šด ๊ผฌ๋ฆฌ(fat-tailed) ๋ถ„ํฌ๋กœ ํ›จ์”ฌ ๋” ํฌ๋‹ค. ์ด์ƒ์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” RLVR๋กœ ๋‘ ๋ชจ๋“œ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ ๊ทธ๋“ค์˜ ๊ฐ ๊ธธ์ด ๋ถ„ํฌ๋ฅผ ๋„ˆ๋ฌด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๊ธฐ๋ฅผ ์›ํ–ˆ๋‹ค.

๊ทธ๋ ‡๊ฒŒ ํ•  ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋‚ด๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋จผ์ € /no_think ๋ชจ๋“œ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ–ˆ๊ณ  ๊ฒ€์ฆ๋œ ๋‹ต๋ณ€์ด ์žˆ๋Š” 25๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ ๋ฐ์ดํ„ฐ์…‹์ธ Big-Math์—์„œ ํ”„๋กฌํ”„ํŠธ์˜ ๋ถ€๋ถ„ ์ง‘ํ•ฉ์„ ๊ฐ€์ ธ์™”๋‹ค.

๋†€๋ž๊ฒŒ๋„, ์ˆœ์ง„ํ•˜๊ฒŒ GRPO๋ฅผ ์ ์šฉํ•˜๋ฉด ์ผ์ข…์˜ย ๋ณด์ƒ ํ•ดํ‚น์œผ๋กœ ์ด์–ด์ง„๋‹ค: ๊ธด CoT๋ฅผ ๋งŒ๋“ค๋„๋ก ํ”„๋กฌํ”„ํŠธ๋˜์ง€ ์•Š์•˜์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋ชจ๋ธ์€ ๋ณด์ƒ์„ ๋Š˜๋ฆฌ๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์•…์šฉํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šด๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ๋ณด์ƒ๋งŒ ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์™„๋ฃŒ ๊ธธ์ด๋„ ์˜ฌ๋ผ๊ฐ„๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.14.38.png

SmolLM3์— ์ˆœ์ง„ํ•˜๊ฒŒ RLVR์„ ์ ์šฉํ•˜๋ฉด ๋†’์€ ๋ณด์ƒ๊ณผ ํ–ฅ์ƒ๋œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์ง€๋งŒ, ํญ๋ฐœ์ ์ธ completion ๊ธธ์ด๋ผ๋Š” ๋น„์šฉ์ด ๋ฐœ์ƒํ•˜๊ฒŒ ๋œ๋‹ค.

๋‹ฌ๋ฆฌ ๋งํ•˜๋ฉด, GRPO๋ฅผ ์‚ฌ์šฉํ•œ RLVR์€ ์šฐ๋ฆฌ ์ถ”๋ก  ๋ชจ๋ธ์˜ย /no_thinkย ๋ชจ๋“œ๋ฅผย /thinkย ๋ชจ๋“œ์™€ ๋งค์šฐ ์œ ์‚ฌํ•ด ๋ณด์ด๋Š” ๊ฒƒ์œผ๋กœ ๋ฐ”๊ฟ”๋ฒ„๋ ธ๋‹ค!

๋ชจ๋ธ์˜ ๋‹ต๋ณ€์„ ๊ฒ€ํ† ํ•  ๋•Œ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์ด ์ด์ œ ๊ธด CoT๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์‹ฌ์ง€์–ด ์ถ”๋ก  ๋ชจ๋ธ๊ณผ ๊ด€๋ จ๋œ โ€œ์ž ๊น, โ€ฆโ€๊ณผ ๊ฐ™์€ ์ธ์ง€์  ํ–‰๋™ (Gandhi et al., 2025) ์ค‘ ์ผ๋ถ€๋ฅผ ํฌํ•จํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ์˜ˆ์‹œ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

However, since the jogger and the train are moving in the same direction, the relative speed between them is the difference of their speeds:
\\( v_{\\text{rel}} = v_t - v_j = 12.7778 - 2.7778 = 10 \\) m/s

 **Wait,**  let me double-check the calculation:

 **Wait,**  46 km/hr to m/s:
46 * 1000 m / 3600 s = (46 * 10)/36 = 460/36 โ‰ˆ 12.7778 m/s (correct)
10 km/hr is:
10 * 1000 / 3600 = 10000 / 3600 โ‰ˆ 2.7778 m/s (correct)
Difference: 12.7778 - 2.7778 = 10 m/s (exact, since 46-10=36 km/hr โ†’ 36*(1000/3600)=10 m/s exactly)

The jogger is 340 meters ahead of the train's engine. When the train passes the jogger, the distance the train needs to cover relative to the jogger is 340 meters plus the length of the train? Wait, actually, let me think about the problem again.

 **Wait,**  actually, when the problem says the train takes 46 seconds to pass the jogger, that usually means the time from the front of the train to the end passing the jogger. The length of the train would then be equal to the relative speed multiplied by the time.

But first, the initial position: the jogger is 340 meters ahead of the engine. So the engine is 340 meters ahead of the jogger. Wait no, the wording says "340 m ahead of the engine", so the jogger is ahead by 340 meters. So when the jogger is running alongside, the engine of the train is 340 m away behind the jogger? Wait, maybe I need to clarify.

 **Wait**  the problem says: "A jogger running at 10 km/hr alongside a railway track is 340 m ahead of the engine of a train running at 46 km/hr in the same direction. The train takes 46 seconds to pass the jogger. How long is the train in meters?"

Hmm, so the jogger is 340 m ahead of the engine along the track. Since they're moving in the same direction, the train is behind the jogger by 340 meters. To pass the jogger, the train has to cover that 340 meters plus the length of the train itself?

๊ณผ๋„ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๋กœ ๋ณด์ƒ ํ•ดํ‚น ์™„ํ™”

์ด ๋ฌธ์ œ๋Š” ํŠน์ • ๊ธธ์ด ์ด์ƒ์˜ ์™„๋ฃŒ์— ํŽ˜๋„ํ‹ฐ๋ฅผ ์ฃผ๋Š” **๊ณผ๋„ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ(overlong completion penalty)**๋ฅผ ํฌํ•จํ•จ์œผ๋กœ์จ ์™„ํ™”๋  ์ˆ˜ ์žˆ๋‹ค. ํŽ˜๋„ํ‹ฐ๋Š” ๋‘ ๊ฐ€์ง€ ์ธ์ˆ˜, ์ตœ๋Œ€ ์™„๋ฃŒ ๊ธธ์ดLmaxL_{max} ์™€ ์†Œํ”„ํŠธ ์ฒ˜๋ฒŒ ์บ์‹œ LcacheL_{cache} ์— ์˜ํ•ด ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ๋‹ค. ์ด ํŽ˜๋„ํ‹ฐ๋Š” DAPO ๋…ผ๋ฌธ (Yu et al., 2025)์—์„œ ์ œ์•ˆ๋œ ๊ฐœ์„  ์‚ฌํ•ญ ์ค‘ ํ•˜๋‚˜์˜€์œผ๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค:

Rlength(y)={0,โˆฃyโˆฃโ‰คLmaxโกโˆ’LcacheLmaxโกโˆ’Lcacheโˆ’โˆฃyโˆฃLcache,Lmaxโกโˆ’Lcache<โˆฃyโˆฃโ‰คLmaxโกโˆ’1,Lmaxโก<โˆฃyโˆฃR_{\text{length}}(y) = \begin{cases} 0, & |y| \leq L_{\max} - L_{\text{cache}} \\ \frac{L_{\max} - L_{\text{cache}} - |y|}{L_{\text{cache}}}, & L_{\max} - L_{\text{cache}} < |y| \leq L_{\max} \\ -1, & L_{\max} < |y| \end{cases}

์ด ํŽ˜๋„ํ‹ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ์ง์ ‘ ์ œ์–ดํ•˜๊ณ  ์‘๋‹ต ๊ธธ์ด ์ฆ๊ฐ€์™€ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์— ์˜ˆ์‹œ๊ฐ€ ๋‚˜์™€ ์žˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ๊ณผ๋„ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๋ฅผ 1.5k์—์„œ 4k๊นŒ์ง€ 512 ํ† ํฐ ๋‹จ์œ„๋กœ ๋ณ€๊ฒฝํ•œ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.28.16.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.28.22.png

๊ณผ๋„ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๋ฅผ ์ ์šฉํ•˜๋ฉด ๊ฐ ๋กค์•„์›ƒ์˜ ๊ธธ์ด๋ฅผ ์ œํ•œํ•˜๋ฉด์„œ ํ‰๊ท  ๋ณด์ƒ๋„ ์ค„์–ด๋“ ๋‹ค.

์‘๋‹ต ๊ธธ์ด์™€ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” AIME25์—์„œ์˜ ๊ฐœ์„ ์„ ์กฐ์‚ฌํ•  ๋•Œ ๋” ๋ช…ํ™•ํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.28.56.png

AIME25์—์„œ์˜ RLVR์„ ์‚ฌ์šฉํ•œ SmolLM3์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ.

์ด์ œ ์šฐ๋ฆฌ๋Š” ๊ณผ๋„ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๊ฐ€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋ช…ํ™•ํ•˜๊ฒŒ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, 2-4k ๋ฒ”์œ„์˜ ํŽ˜๋„ํ‹ฐ๊ฐ€ ํ† ํฐ ๋ถ„ํฌ๋ฅผ ์–ต์ œํ•˜๋ฉด์„œ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๋งŒ๋“ ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์•˜๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด, ๋‹จ๊ณ„ 400์—์„œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๊ฐ€์ ธ์˜ค๋ฉด, ๋‹ค์–‘ํ•œ ํŽ˜๋„ํ‹ฐ ๋ฒ”์œ„์— ๊ฑธ์ณ ์ดˆ๊ธฐ ์ •์ฑ…๊ณผ ์ตœ์ข… ๋ชจ๋ธ ๊ฐ„์˜ ์ถœ๋ ฅ ํ† ํฐ ๋ถ„ํฌ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.31.05.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.30.51.png

๋ชจ๋“  ๊ฒƒ์„ ํ•˜๋‚˜๋กœ ๋ชจ์•„

์šฐ๋ฆฌ๋Š” 2.5-3k ๋ฒ”์œ„์˜ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ๊ณผ ์‘๋‹ต ๊ธธ์ด ์‚ฌ์ด์˜ ์ตœ๊ณ ์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ œ๊ณตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์•„๋ž˜ ๊ทธ๋ฆผ์€ GRPO๊ฐ€ APO์™€ ๊ฐ™์€ ์˜คํ”„๋ผ์ธ ๋ฐฉ๋ฒ•์— ๋น„ํ•ด AIME 2025์—์„œ ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ ๋‘ ๋ฐฐ๋กœ ๋Š˜๋ฆฐ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.31.27.png

์ด์ œย /no_thinkย ์ถ”๋ก  ๋ชจ๋“œ์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•˜์œผ๋ฏ€๋กœ, RL ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ๋‘ ์ถ”๋ก  ๋ชจ๋“œ์—์„œ ๋ชจ๋ธ์„ ํ•œ ๋ฒˆ์— ๊ณต๋™ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ผ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์ด ๊ฝค ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฌธ์ œ๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋Š”๋ฐ, ๊ฐ ๋ชจ๋“œ๊ฐ€ ๊ณ ์œ ํ•œ ๊ธธ์ด ํŽ˜๋„ํ‹ฐ๋ฅผ ์š”๊ตฌํ•˜๊ณ , ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ ์ƒํ˜ธ ์ž‘์šฉ์ด ํ•™์Šต์„ ๋ถˆ์•ˆ์ •ํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๊ฒƒ์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ถ”๋ก  ๋ชจ๋ธ์— RL์„ ์ ์šฉํ•˜๋ ค๊ณ  ํ•  ๋•Œ์˜ ์ฃผ์š” ๋„์ „ ๊ณผ์ œ์ด๋ฉฐ, ์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์ด ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— Qwen๊ณผ ๊ฐ™์€ ๋ชจ๋ธ ๊ฐœ๋ฐœ์ž๋“ค์ด Instruction ๋ฐ ์ถ”๋ก  ๋ณ€ํ˜• ๋ชจ๋ธ์„ ๋ณ„๋„๋กœ ์ถœ์‹œํ•˜๋Š” ์ƒˆ๋กœ์šด ์ถ”์„ธ๋ฅผ ๋”ฐ๋ฅด๊ฒŒ ๋œ ๊ฒƒ์— ๋ฐ˜์˜๋œ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ์‹คํ—˜์€ RLVR์ด ์ถ”๋ก  ํ–‰๋™์„ ํšจ๊ณผ์ ์œผ๋กœ ์กฐ์ข…ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ์ด๊ฒƒ์€ ์‹ ์ค‘ํ•œ ๋ณด์ƒ ํ˜•์„ฑ ๋ฐ ์•ˆ์ •์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์žˆ์–ด์•ผ๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด๋Ÿฌํ•œ ๋ณต์žก์„ฑ์„ ๊ฐ์•ˆํ•  ๋•Œ, ๊ฐ•ํ™” ํ•™์Šต์ด ์œ ์ผํ•œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฒฝ๋กœ์ธ์ง€ ๋ฌผ์–ด๋ณผ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค. ์‚ฌ์‹ค, ์ตœ๊ทผ ๋ฌธํ—Œ์—์„œ ๋ช‡ ๊ฐ€์ง€ ๋” ๊ฐ€๋ฒผ์šด ์˜จ-ํด๋ฆฌ์‹œ ์ตœ์ ํ™” ์ „๋žต์ด ์ œ์•ˆ๋˜์—ˆ์ง€๋งŒ, ์˜คํ”ˆ ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ๋Š” ๋†€๋ž๊ฒŒ๋„ ์ด๋Ÿฌํ•œ ๊ฒƒ๋“ค์ด ๋œ ํƒ์ƒ‰๋˜์—ˆ๋‹ค. ๊ทธ๊ฒƒ๋“ค ์ค‘ ์ผ๋ถ€๋ฅผ ์‚ดํŽด๋ณด๋ฉฐ ์ด ์ฑ•ํ„ฐ๋ฅผ ๋งˆ์น˜๊ฒ ๋‹ค.

RL๋งŒ์ด ์œ ์ผํ•œ ๊ฒŒ์ž„์ธ๊ฐ€?

์˜จ-ํด๋ฆฌ์‹œ ํ•™์Šต์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”์™€ ์ฆ๋ฅ˜๋ฅผ ๋ชจ๋ธ์ด ์ง„ํ™”ํ•จ์— ๋”ฐ๋ผ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์ƒˆ๋กœ ๊ณ ์น˜๋Š” ๋ฐ˜๋ณต ๋ฃจํ”„๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด๋‹ค:

์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ์ •์ ์ธ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”์™€ ์ „์ฒด RL ์‚ฌ์ด์˜ ๊ฒฝ๊ณ„๋ฅผ ํ๋ฆฌ๊ฒŒ ํ•œ๋‹ค: ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด, ๊ฐ•ํ™” ํ•™์Šต ๋ฃจํ”„๋ฅผ ์„ค๊ณ„ํ•˜๊ณ  ์•ˆ์ •ํ™”ํ•˜๋Š” ์ „์ฒด ๋ณต์žก์„ฑ ์—†์ด๋„ ๋ชจ๋ธ์˜ ํ˜„์žฌ ๋ถ„ํฌ์— ์ ์‘ํ•˜๋Š” ์ด์ ์„ ์—ฌ์ „ํžˆ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

์–ด๋–ค ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•ด์•ผ ํ•˜๋Š”๊ฐ€?

์–ด๋–ค ์˜จ-ํด๋ฆฌ์‹œ ๋ฐฉ๋ฒ•์ด โ€œ์ตœ๊ณ โ€์ธ์ง€์— ๋Œ€ํ•œ ์ˆ˜๋งŽ์€ ์—ฐ๊ตฌ ๋…ผ๋ฌธ์ด ์žˆ์ง€๋งŒ, ์‹ค์ œ ์ƒํ™ฉ์—์„œ์˜ ๊ฒฐ์ •์€ ์•„๋ž˜ ํ‘œ์— ํ‘œ์‹œ๋œ ๋ช‡ ๊ฐ€์ง€ ์š”์ธ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค:

์•Œ๊ณ ๋ฆฌ์ฆ˜์–ธ์ œ ์‚ฌ์šฉํ• ๊นŒํŠธ๋ ˆ์ด๋“œ์˜คํ”„์ตœ์  ๋ชจ๋ธ ํฌ๊ธฐ
์˜จ๋ผ์ธ DPO์„ ํ˜ธ๋„ ๋ ˆ์ด๋ธ”์„ ์ €๋ ดํ•˜๊ฒŒ ์–ป์„ ์ˆ˜ ์žˆ์„ ๋•Œ. ์ง„ํ™”ํ•˜๋Š” ๋ถ„ํฌ์™€ ํ–‰๋™์„ ์ •๋ ฌํ•˜๋Š” ๋ฐ ์ตœ์ .๋ฐ˜๋ณต์ ์œผ๋กœ ํ™•์žฅํ•˜๊ธฐ ์‰ฝ๊ณ  RL๋ณด๋‹ค ์•ˆ์ •์ ์ด์ง€๋งŒ, ๋ ˆ์ด๋ธ” ํ’ˆ์งˆ ๋ฐ ๋ฒ”์œ„์— ์˜์กดํ•จ. ์ง€์›๋˜๋Š” ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ ์Œ.์„ ํ˜ธ๋„๊ฐ€ ๋ชจ๋ฐฉ์„ ๋„˜์–ด์„  ๊ฐœ์„ ์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ํฌ๊ธฐ.
์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜๋” ๊ฐ•๋ ฅํ•œ ๊ต์‚ฌ ๋ชจ๋ธ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๊ณ  ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ์ „์ดํ•˜๊ณ  ์‹ถ์„ ๋•Œ.๊ตฌํ˜„์ด ๊ฐ„๋‹จํ•˜๊ณ  ์‹คํ–‰ ๋น„์šฉ์ด ์ €๋ ดํ•˜์ง€๋งŒ, ๊ต์‚ฌ ๋ชจ๋ธ์ด ๊ฐ€์ง„ ํŽธํ–ฅ์„ ์ƒ์†ํ•˜๊ฒŒ ๋˜๋ฉฐ ์„ฑ๋Šฅ์˜ ํ•œ๊ณ„๊ฐ€ ๊ต์‚ฌ์— ์˜ํ•ด ์ œํ•œ๋จ. TRL ๋ฐ NemoRL์—์„œ๋งŒ ์ง€์›๋จ.์ค‘์†Œํ˜• ๋ชจ๋ธ (<30B)์— ๊ฐ€์žฅ ํšจ๊ณผ์ .
๊ฐ•ํ™” ํ•™์Šต๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์ด๋‚˜ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก /๊ณ„ํš์ด ํ•„์š”ํ•œ ์ž‘์—…์ด ์žˆ์„ ๋•Œ ์ตœ์ . ๋ณด์ƒ ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ณด์ƒ ๋ชจ๋ธ์˜ ์•ฝ์ ์„ ์ด์šฉํ•˜๋Š” ๋ณด์ƒ ํ•ดํ‚น๊ณผ ๊ฐ™์€ ๋„์ „ ๊ณผ์ œ๊ฐ€ ์žˆ์Œ.์œ ์—ฐํ•˜๊ณ  ๊ฐ•๋ ฅํ•˜์ง€๋งŒ, ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์•ˆ์ •ํ™”ํ•˜๊ธฐ ์–ด๋ ค์›€; ์‹ ์ค‘ํ•œ ๋ณด์ƒ ํ˜•์„ฑ์ด ํ•„์š”ํ•จ. ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌํ›„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ง€์›๋จ.์ค‘๋Œ€ํ˜• ๋ชจ๋ธ (20B+), ์ถ”๊ฐ€ ์šฉ๋Ÿ‰์ด ๊ตฌ์กฐํ™”๋œ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์คŒ.

์˜คํ”ˆ ์†Œ์Šค ์ƒํƒœ๊ณ„์—์„œ GRPO ๋ฐ REINFORCE์™€ ๊ฐ™์€ ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ๋ฒ•์ด ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์ง€๋งŒ, Qwen3 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ (A. Yang, Li, et al., 2025)๋Š” 320์–ต ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฏธ๋งŒ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ–ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.37.56.png

์†Œํ˜• ๋ชจ๋ธ์— ๋Œ€ํ•œ ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜์˜ ํ•œ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ์†์„ฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ RL ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์ ์€ ์ปดํ“จํŒ… ๋น„์šฉ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ํ”„๋กฌํ”„ํŠธ๋‹น ์—ฌ๋Ÿฌ ๋กค์•„์›ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๋Œ€์‹  ํ•˜๋‚˜๋งŒ ์ƒ˜ํ”Œ๋งํ•œ ๋‹ค์Œ ๋‹จ์ผ ์ˆœ๋ฐฉํ–ฅ-์—ญ๋ฐฉํ–ฅ ํŒจ์Šค์—์„œ ๊ต์‚ฌ์— ์˜ํ•ด ์ฑ„์ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. Qwen3 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, GRPO ๋Œ€๋น„ ์ด๋“์€ ์ƒ๋‹นํ•  ์ˆ˜ ์žˆ๋‹ค:

๋ฐฉ๋ฒ•AIMEโ€™24AIMEโ€™25MATH500LiveCodeBench v5MMLU -ReduxGPQA -DiamondGPU ์‹œ๊ฐ„
์˜คํ”„-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜55.042.892.442.086.455.6-
+ ๊ฐ•ํ™” ํ•™์Šต67.655.594.852.986.961.317,920
+ ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜74.465.597.060.388.363.31,800

๋” ์ตœ๊ทผ์—, Thinking Machines๋Š” ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜๊ฐ€ ์‚ฌํ›„ ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์—์„œ ์ถ”๊ฐ€๋กœ ํ•™์Šต๋  ๋•Œ ์ด์ „ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” **์น˜๋ช…์ ์ธ ๋ง๊ฐ(catastrophic forgetting)**์„ ์™„ํ™”ํ•˜๋Š” ๋ฐ์—๋„ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์•„๋ž˜ ํ‘œ์—์„œ, ๊ทธ๋“ค์€ Qwen3-8b (IFEval)์˜ ์ฑ„ํŒ… ์„ฑ๋Šฅ์ด ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธ ํŠœ๋‹๋  ๋•Œ ๋–จ์–ด์ง€์ง€๋งŒ, ์ €๋ ดํ•œ ์ฆ๋ฅ˜๋กœ ํ–‰๋™์ด ๋ณต์›๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค:

image.png

์šฐ๋ฆฌ๋Š” ๋” ์ž‘๊ณ  ์ž‘์—…๋ณ„ ๋ชจ๋ธ๋กœ ์ฆ๋ฅ˜๋  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•˜๊ณ  ์œ ๋Šฅํ•œ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ LLM์„ ๋งŽ์ด ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜์— ๋Œ€ํ•ด ์ƒ๋‹นํžˆ ํฅ๋ถ„ํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋“  ์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜ ๋ฐฉ๋ฒ•์˜ ํ•œ ๊ฐ€์ง€ ์•ฝ์ ์€ ๊ต์‚ฌ์™€ ํ•™์ƒ์ด ๋™์ผํ•œ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๊ณต์œ ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๊ต์‚ฌ๊ฐ€ ๋ชจ๋“  ํ•™์ƒ์—๊ฒŒ ์ฆ๋ฅ˜๋  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” GOLD (General On-Policy Logit Distillation)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. ์ด ์ฃผ์ œ์— ๊ด€์‹ฌ์ด ์žˆ๋‹ค๋ฉด ์šฐ๋ฆฌ์˜ ๊ธฐ์ˆ  ๊ธฐ์‚ฌ๋ฅผ ํ™•์ธํ•˜๋Š” ๊ฒƒ์„ ์ถ”์ฒœํ•œ๋‹ค.

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, FAIR์˜ ์—ฐ๊ตฌ์ž๋“ค์€ DPO์— ๋Œ€ํ•ด ์™„์ „ํžˆ ์˜คํ”„-ํด๋ฆฌ์‹œ์ธ ๊ฒƒ๊ณผ ์˜จ-ํด๋ฆฌ์‹œ์ธ ๊ฒƒ์˜ ํšจ๊ณผ๋ฅผ ๋น„๊ตํ–ˆ์œผ๋ฉฐ ํ›จ์”ฌ ์ ์€ ์ปดํ“จํŒ…์„ ์‚ฌ์šฉํ•˜์—ฌ GRPO์˜ ์„ฑ๋Šฅ๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค (Lanchantin et al., 2025):

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.40.13.png

๊ทธ๋“ค์˜ ๋…ผ๋ฌธ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์˜จ๋ผ์ธ DPO๋Š” ์ˆ˜ํ•™ ์ž‘์—…์— ์ž˜ ์ž‘๋™ํ•˜๋ฉฐ ์„ธ๋ฏธ-์˜จ-ํด๋ฆฌ์‹œ ๋ณ€ํ˜•์กฐ์ฐจ๋„ ๋งŽ์€ ๋‹จ๊ณ„๋ฅผ ๊ฐ€์ง„ ์˜คํ”„-ํด๋ฆฌ์‹œ์ผ ๋ฟ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ฒฝ์Ÿํ•  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค:

ํ•™์Šต ๋ฐฉ๋ฒ•Math500NuminaMathAMC23
์‹œ๋“œ (Llama-3.1-8B-Instruct)47.433.923.7
์˜คํ”„๋ผ์ธ DPO (s = inf)53.736.428.8
์„ธ๋ฏธ-์˜จ๋ผ์ธ DPO (s = 100)58.939.335.1
์„ธ๋ฏธ-์˜จ๋ผ์ธ DPO (s = 10)57.239.431.4
์˜จ๋ผ์ธ DPO (s = 1)58.739.632.9
GRPO58.138.833.6

์ „๋ฐ˜์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” RL์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ (Khatri et al., 2025)๊ณผ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ ๋ชจ๋‘์— ๋Œ€ํ•ด ์—ฌ์ „ํžˆ ํ•  ์ผ์ด ๋งŽ๋‹ค๊ณ  ๋А๋‚€๋‹ค. ์ฐธ์œผ๋กœ ํฅ๋ฏธ์ง„์ง„ํ•œ ์‹œ๊ฐ„์ด๋‹ค!

์‚ฌํ›„ ํ•™์Šต ๋งˆ๋ฌด๋ฆฌ

์—ฌ๊ธฐ๊นŒ์ง€ ์™”๋‹ค๋ฉด ์ถ•ํ•˜ํ•œ๋‹ค: ์ด์ œ ์‚ฌํ›„ ํ•™์Šต์˜ ์„ฑ๊ณต์— ํ•„์š”ํ•œ ๋ชจ๋“  ํ•ต์‹ฌ ์žฌ๋ฃŒ๋ฅผ ๊ฐ–์ถ”์—ˆ๋‹ค. ์ด์ œ SOTA ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ๋งŽ์€ ์‹คํ—˜์„ ์‹คํ–‰ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ…Œ์ŠคํŠธํ•  ์ค€๋น„๊ฐ€ ๋˜์—ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์•„๋งˆ ๊นจ๋‹ฌ์•˜๊ฒ ์ง€๋งŒ, ํ›Œ๋ฅญํ•œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์•„๋Š” ๊ฒƒ์€ ์ด์•ผ๊ธฐ์˜ ์ ˆ๋ฐ˜์ผ ๋ฟ์ด๋‹ค. ์‹ค์ œ๋กœ ๊ทธ๋Ÿฌํ•œ ๋ชจ๋ธ์— ์ƒ๋ช…์„ ๋ถˆ์–ด๋„ฃ์œผ๋ ค๋ฉด ์˜ฌ๋ฐ”๋ฅธ ์ธํ”„๋ผ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. LLM ํ•™์Šต์˜ ์ˆจ์€ ์˜์›…์œผ๋กœ ์ด ์ž‘ํ’ˆ์„ ๋งˆ๋ฌด๋ฆฌํ•˜๊ณ ์ž ํ•œ๋‹ค.

Infrastructure - the unsung hero

์ด์ œ ์—ฌ๋Ÿฌ๋ถ„์€ ๋ชจ๋ธ ์ƒ์„ฑ ๋ฐ ํ•™์Šต์— ๋Œ€ํ•ด ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” ๋ชจ๋“  ๊ฒƒ์„ ์•Œ์•˜์œผ๋ฏ€๋กœ, ํ”„๋กœ์ ํŠธ(๊ทธ๋ฆฌ๊ณ  ์€ํ–‰ ๊ณ„์ขŒ)๋ฅผ ์„ฑํŒจ๋กœ ์ด๋Œ ์ˆ˜ ์žˆ๋Š” ์ค‘์š”ํ•˜์ง€๋งŒ ์ €ํ‰๊ฐ€๋œ ๊ตฌ์„ฑ ์š”์†Œ์ธย ์ธํ”„๋ผ๋ฅผ ๋‹ค๋ค„๋ณผ ์ฐจ๋ก€์ด๋‹ค. ํ”„๋ ˆ์ž„์›Œํฌ, ์•„ํ‚คํ…์ฒ˜, ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ์ค‘ ์–ด๋””์— ์ง‘์ค‘ํ•˜๋“  ์ธํ”„๋ผ ๊ธฐ์ดˆ๋ฅผ ์ดํ•ดํ•˜๋ฉด ํ•™์Šต ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์‹๋ณ„ํ•˜๊ณ , ๋ณ‘๋ ฌํ™” ์ „๋žต์„ ์ตœ์ ํ™”ํ•˜๊ณ , ์ฒ˜๋ฆฌ๋Ÿ‰ ๋ฌธ์ œ๋ฅผ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. (์ตœ์†Œํ•œ ์ธํ”„๋ผ ํŒ€๊ณผ์˜ ์˜์‚ฌ์†Œํ†ต์€ ๊ฐœ์„ ๋œ๋‹ค ๐Ÿ˜‰).

๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ๋žŒ๋“ค์€ ์•„ํ‚คํ…์ฒ˜์™€ ๋ฐ์ดํ„ฐ์— ๊นŠ์€ ๊ด€์‹ฌ์„ ๊ฐ€์ง€์ง€๋งŒ, ์ธํ”„๋ผ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ์ดํ•ดํ•˜๋Š” ์‚ฌ๋žŒ์€ ๊ฑฐ์˜ ์—†๋‹ค. ์ธํ”„๋ผ ์ „๋ฌธ ์ง€์‹์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ์ž์™€ ํด๋Ÿฌ์Šคํ„ฐ ์—”์ง€๋‹ˆ์–ด์—๊ฒŒ ์žˆ์œผ๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ํ•ด๊ฒฐ๋œ ๋ฌธ์ œ๋กœ ์ทจ๊ธ‰ํ•œ๋‹ค: GPU๋ฅผ ๋นŒ๋ฆฌ๊ณ , PyTorch๋ฅผ ์„ค์น˜ํ•˜๋ฉด ์ค€๋น„๊ฐ€ ๋œ ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฑฐ์˜ ํ•œ ๋‹ฌ ๋™์•ˆ 384๊ฐœ์˜ H100์—์„œ SmolLM3๋ฅผ ํ•™์Šต์‹œ์ผœ ์ด 11์กฐ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ–ˆ๋‹คโ€ฆ ๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ์€ ์ˆœ์กฐ๋กœ์šด ์—ฌ์ •์ด ์•„๋‹ˆ์—ˆ๋‹ค! ๊ทธ ๊ธฐ๊ฐ„ ๋™์•ˆ ์šฐ๋ฆฌ๋Š” ๋…ธ๋“œ ๊ณ ์žฅ, ์Šคํ† ๋ฆฌ์ง€ ๋ฌธ์ œ, ์‹คํ–‰ ์žฌ์‹œ์ž‘์„ ์ฒ˜๋ฆฌํ–ˆ๋‹ค (ํ•™์Šต ๋งˆ๋ผํ†ค ์„น์…˜ ์ฐธ์กฐ). ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์— ๋Œ€๋น„ํ•˜๊ณ  ํ•™์Šต์„ ์›ํ™œํ•˜๊ณ  ์œ ์ง€ ๋ณด์ˆ˜๊ฐ€ ์ ๊ฒŒ ๋“ค๋„๋ก ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ข‹์€ ๋น„์ƒ ๊ณ„ํš๊ณผ ์ „๋žต์„ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค.

์ด ์ฑ•ํ„ฐ๋Š” ๊ทธ ์ง€์‹ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šฐ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ํ•™์Šต์— ์ค‘์š”ํ•œ ์งˆ๋ฌธ์— ์ดˆ์ ์„ ๋งž์ถ˜ ํ•˜๋“œ์›จ์–ด ๊ณ„์ธต์— ๋Œ€ํ•œ ์‹ค์šฉ์ ์ธ ๊ฐ€์ด๋“œ๋กœ ์ƒ๊ฐํ•˜๋ผ.ย (์ฐธ๊ณ : ๊ฐ ํ•˜์œ„ ์„น์…˜์€ TL;DR- ์š”์•ฝ์œผ๋กœ ์‹œ์ž‘ํ•˜๋ฏ€๋กœ ๊นŠ์ด ์ˆ˜์ค€์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ๋‹ค.)

์ฒ˜์Œ ๋‘ ์„น์…˜์€ ํ•˜๋“œ์›จ์–ด ์ž‘๋™ ๋ฐฉ์‹์˜ ๊ธฐ์ดˆ๋ฅผ ๋‹ค๋ฃฌ๋‹ค: GPU๋Š” ์‹ค์ œ๋กœ ๋ฌด์—‡์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š”๊ฐ€? ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋Š” ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”๊ฐ€? CPU์™€ GPU๋Š” ์–ด๋–ป๊ฒŒ ํ†ต์‹ ํ•˜๋Š”๊ฐ€? ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ GPU๋ฅผ ํ™•๋ณดํ•  ๋•Œ ๊ณ ๋ คํ•ด์•ผ ํ•  ์‚ฌํ•ญ๊ณผ ๊ธด ํ•™์Šต ์‹คํ–‰์— ์ „๋…ํ•˜๊ธฐ ์ „์— ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค. ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๊ฐ ๋‹จ๊ณ„์—์„œ ์ด๋Ÿฌํ•œ ์‹œ์Šคํ…œ์„ ์ง์ ‘ ์ธก์ •ํ•˜๊ณ  ์ง„๋‹จํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค„ ๊ฒƒ์ด๋‹ค. ๋‹ค์Œ ์„น์…˜์€ ๋” ์‘์šฉ๋œ ๋‚ด์šฉ์ด๋ฉฐ, ์ธํ”„๋ผ๋ฅผ ์žฅ์• ์— ํƒ„๋ ฅ์ ์œผ๋กœ ๋งŒ๋“ค๊ณ  ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ•œ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณผ ๊ฒƒ์ด๋‹ค.

์ด ์ฑ•ํ„ฐ์˜ ํ•ต์‹ฌ์€ย ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ฐพ์•„ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค!

์ด๊ฒƒ์„ ํŠน์ • ์„ค๊ณ„ ๊ฒฐ์ •์ด ์ค‘์š”ํ•œ ์ด์œ ์— ๋Œ€ํ•œ ์ง๊ด€์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ณต๋ถ€ ๊ณผ์ •์œผ๋กœ ์ƒ๊ฐํ•ด๋ผ. ๋ชจ๋ธ์˜ ํ™œ์„ฑํ™”๊ฐ€ ๊ฐ๊ฐ ๋‹ค๋ฅธ ๋Œ€์—ญํญ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„ ํŠน์„ฑ์„ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ์ˆ˜์ค€์˜ ์บ์‹œ๋ฅผ ํ†ต๊ณผํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ดํ•ดํ•˜๋ฉด, ๋ฐ์ดํ„ฐ ์ด๋™์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต์„ ๊ตฌ์กฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ๊ฐํ•˜๊ธฐ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ์–ด์งˆ ๊ฒƒ์ด๋‹ค. ๋…ธ๋“œ ๊ฐ„ ํ†ต์‹ ์ด ๋…ธ๋“œ ๋‚ด ํ†ต์‹ ๋ณด๋‹ค ๋ช‡ ๋ฐฐ๋‚˜ ๋А๋ฆฌ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ฒŒ ๋˜๋ฉด, ๋ณ‘๋ ฌํ™” ์ „๋žต์ด ์™œ ๊ทธ๋ ‡๊ฒŒ ์ค‘์š”ํ•œ์ง€ ์ดํ•ดํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

GPU๋ฅผ ์—ด์–ด๋ณด๊ณ  ๋ฌด์—‡์ด ๋“ค์–ด ์žˆ๋Š”์ง€ ๋ณด๋Š” ๊ฒƒ์œผ๋กœ ์‹œ์ž‘ํ•˜์ž.

GPU ๋‚ด๋ถ€: ๋‚ด๋ถ€ ์•„ํ‚คํ…์ฒ˜

GPU๋Š” ๊ทผ๋ณธ์ ์œผ๋กœ ์ง€์—ฐ ์‹œ๊ฐ„๋ณด๋‹คย ์ฒ˜๋ฆฌ๋Ÿ‰์— ์ตœ์ ํ™”๋œ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ”„๋กœ์„ธ์„œ์ด๋‹ค. ๋ช‡ ๊ฐ€์ง€ ๋ณต์žกํ•œ ๋ช…๋ น ์ŠคํŠธ๋ฆผ์„ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•˜๋Š” ๋ฐ ํƒ์›”ํ•œ CPU์™€ ๋‹ฌ๋ฆฌ, GPU๋Š” ์ˆ˜์ฒœ ๊ฐœ์˜ ๊ฐ„๋‹จํ•œ ์ž‘์—…์„ ๋™์‹œ์— ์‹คํ–‰ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

GPU ์„ฑ๋Šฅ์„ ์ดํ•ดํ•˜๋Š” ์—ด์‡ ๋Š” ๋‹จ์ˆœํžˆ ์›์‹œ ์ปดํ“จํŒ… ํŒŒ์›Œ๊ฐ€ ์•„๋‹ˆ๋ผย ๊ณ„์‚ฐ๊ณผ ๋ฐ์ดํ„ฐ ์ด๋™ ๊ฐ„์˜ ์ƒํ˜ธ ์ž‘์šฉ์— ์žˆ์Œ์„ ์ธ์‹ํ•˜๋Š” ๋ฐ ์žˆ๋‹ค. GPU๋Š” ์ด๋ก ์ ์ธ ํ…Œ๋ผํ”Œ๋กญ์Šค์˜ ์ปดํ“จํŒ…์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ ๋ฐ์ดํ„ฐ๊ฐ€ ์ปดํ“จํŒ… ์œ ๋‹›์— ์ถฉ๋ถ„ํžˆ ๋นจ๋ฆฌ ๋„๋‹ฌํ•  ์ˆ˜ ์—†๋‹ค๋ฉด ๊ทธ ์ž ์žฌ๋ ฅ์€ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค. ์ด๊ฒƒ์ด ์šฐ๋ฆฌ๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ (๋ฐ์ดํ„ฐ๊ฐ€ ์ด๋™ํ•˜๋Š” ๋ฐฉ์‹)์™€ ์ปดํ“จํŒ… ํŒŒ์ดํ”„๋ผ์ธ (์ž‘์—…์ด ์™„๋ฃŒ๋˜๋Š” ๋ฐฉ์‹)์„ ๋ชจ๋‘ ์ดํ•ดํ•ด์•ผ ํ•˜๋Š” ์ด์œ ์ด๋‹ค.

๋”ฐ๋ผ์„œ ๊ฐ€์žฅ ๋†’์€ ์ˆ˜์ค€์—์„œ GPU๋Š” ๋‘ ๊ฐ€์ง€ ํ•„์ˆ˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค:

  1. ๋ฐ์ดํ„ฐ ์ด๋™ ๋ฐ ์ €์žฅ (๋ฉ”๋ชจ๋ฆฌ ์‹œ์Šคํ…œ)
  2. ๋ฐ์ดํ„ฐ๋กœ ์œ ์šฉํ•œ ์ž‘์—… ์ˆ˜ํ–‰ (์ปดํ“จํŒ… ํŒŒ์ดํ”„๋ผ์ธ)

์ปดํ“จํŒ… ์œ ๋‹› ๋ฐ FLOPs

์š”์•ฝ:ย GPU๋Š” ์„ฑ๋Šฅ์„ FLOPs (์ดˆ๋‹น ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ)๋กœ ์ธก์ •ํ•œ๋‹ค.

H100๊ณผ ๊ฐ™์€ ์ตœ์‹  GPU๋Š” ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„์—์„œ ๊ทน์ ์œผ๋กœ ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•œ๋‹ค: 990 TFLOPs (BF16) ๋Œ€ 67 TFLOPs (FP32). ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ ์„ฑ๋Šฅ์€ ๋ฉ”๋ชจ๋ฆฌ ๋ณ‘๋ชฉ ํ˜„์ƒ์œผ๋กœ ์ธํ•ด ์ด๋ก ์  ํ”ผํฌ์˜ 70-77%์ด๋‹ค. ์ตœ์ฒจ๋‹จ ํ•™์Šต์€ 20-41%์˜ ์ข…๋‹จ ๊ฐ„(end-to-end) ํšจ์œจ์„ฑ, ์ฆ‰ ๋ชจ๋ธ ํ”Œ๋กญ์Šค ํ™œ์šฉ๋ฅ (MFU)์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ํ•™์Šต ์‹คํ–‰์„ ๊ณ„ํšํ•  ๋•Œ ๋งˆ์ผ€ํŒ… ์‚ฌ์–‘์ด ์•„๋‹Œ ํ˜„์‹ค์ ์ธ ์ˆ˜์น˜๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

GPU ์ปดํ“จํŒ… ์„ฑ๋Šฅ์€ FLOPs (์ดˆ๋‹น ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ)๋กœ ์ธก์ •๋œ๋‹ค. FLOP์€ ๋‹จ์ผ ์‚ฐ์ˆ  ์—ฐ์‚ฐ, ์ผ๋ฐ˜์ ์œผ๋กœ a+b ์™€ ๊ฐ™์€ ๋ถ€๋™ ์†Œ์ˆ˜์  ๋ง์…ˆ์ด๋ฉฐ, ์ตœ์‹  GPU๋Š” ์ดˆ๋‹น ์ˆ˜์กฐ ๊ฐœ์˜ ์ด๋Ÿฌํ•œ ์—ฐ์‚ฐ(TFLOPs)์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

GPU ์ปดํ“จํŒ…์˜ ๊ธฐ๋ณธ ๋นŒ๋”ฉ ๋ธ”๋ก์€ **์ŠคํŠธ๋ฆฌ๋ฐ ๋ฉ€ํ‹ฐํ”„๋กœ์„ธ์„œ(SM)**๋กœ, ๋ช…๋ น์„ ๋ณ‘๋ ฌ๋กœ ์‹คํ–‰ํ•˜๋Š” ๋…๋ฆฝ์ ์ธ ์ฒ˜๋ฆฌ ์žฅ์น˜์ด๋‹ค. ๊ฐ SM์—๋Š” ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ์ฝ”์–ด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค: ํ‘œ์ค€ ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ์„ ์œ„ํ•œย CUDA ์ฝ”์–ด์™€ ๋”ฅ๋Ÿฌ๋‹์˜ ์ฃผ๋ ฅ ์—ฐ์‚ฐ(ํŠธ๋žœ์Šคํฌ๋จธ ์„ฑ๋Šฅ์— ์ค‘์š”ํ•จ)์ธ ํ–‰๋ ฌ ๊ณฑ์…ˆ์— ์ตœ์ ํ™”๋œย Tensor ์ฝ”์–ด์ด๋‹ค.

ํ˜„๋Œ€ GPU๋Š” ์นฉ ์ „์ฒด์— ์ˆ˜๋ฐฑ ๊ฐœ์˜ ์ด๋Ÿฌํ•œ SM์„ ์ •๋ ฌํ•œ๋‹ค! ์˜ˆ๋ฅผ ๋“ค์–ด, H100 SXM5 ๋ฒ„์ „(์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ์‚ฌ์šฉํ•˜๋Š” GPU)์—๋Š” 132๊ฐœ์˜ SM์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ๊ฐ SM์€ ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ **์›Œํ”„(warp)**๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” 32๊ฐœ์˜ ์Šค๋ ˆ๋“œ ๊ทธ๋ฃน์„ ๋™์‹œ์— ์‹คํ–‰ํ•œ๋‹ค. ์ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด SM์€ ๋˜ ๋‹ค๋ฅธ ๊ตฌ์„ฑ ์š”์†Œ์ธ ์›Œํ”„ ์Šค์ผ€์ค„๋Ÿฌ์— ์˜์กดํ•œ๋‹ค: ๋‹ค๋ฅธ ์›Œํ”„์— ๋ช…๋ น์„ ๊ท ํ˜• ์žˆ๊ฒŒ ํ• ๋‹นํ•จ์œผ๋กœ์จ ํ•˜๋‚˜๊ฐ€ ๋ฉˆ์ถœ ๋•Œ ์›Œํ”„ ๊ฐ„ ์ „ํ™˜์„ ํ†ตํ•ด SM์ด โ€œ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ˆจ๊ธธโ€ ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ์ด SIMT (๋‹จ์ผ ๋ช…๋ น, ๋‹ค์ค‘ ์Šค๋ ˆ๋“œ) ์‹คํ–‰ ๋ชจ๋ธ์€ ์›Œํ”„์˜ ๋ชจ๋“  ์Šค๋ ˆ๋“œ๊ฐ€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋™์‹œ์— ๋™์ผํ•œ ๋ช…๋ น์„ ์‹คํ–‰ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.

(์›Œํ”„๋Š” Lindholm et al., 2008์— ๋”ฐ๋ฅด๋ฉด โ€œ์ตœ์ดˆ์˜ ๋ณ‘๋ ฌ ์Šค๋ ˆ๋“œ ๊ธฐ์ˆ โ€์ธ ์ง์กฐ๋ฅผ ์ฐธ์กฐํ•˜์—ฌ ๋ช…๋ช…๋˜์—ˆ๋‹ค. ๋‹ค๋ฅธ GPU ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ชจ๋ธ์—์„œ ์›Œํ”„์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์—๋Š” WebGPU์˜ ํ•˜์œ„ ๊ทธ๋ฃน(subgroups), DirectX์˜ ์›จ์ด๋ธŒ(waves), Metal์˜ simdgroups๊ฐ€ ํฌํ•จ๋œ๋‹ค.)

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 5.58.32.png

์ˆ˜๋ฐฑ ๊ฐœ์˜ SM์ด ๊ฐ๊ฐ ์—ฌ๋Ÿฌ ์›Œํ”„๋ฅผ ๋™์‹œ์— ์‹คํ–‰ํ•˜๋ฏ€๋กœ ๋‹จ์ผ GPU๋Š” ์ˆ˜๋งŒ ๊ฐœ์˜ ์Šค๋ ˆ๋“œ๋ฅผ ๋™์‹œ์— ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ GPU๊ฐ€ ๋”ฅ๋Ÿฌ๋‹ ์›Œํฌ๋กœ๋“œ๋ฅผ ์ง€๋ฐฐํ•˜๋Š” ํ–‰๋ ฌ ์—ฐ์‚ฐ์—์„œ ํƒ์›”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค!

FLOPs๋ฅผ ๋…ผ์˜ํ•  ๋•Œย ์ •๋ฐ€๋„(Precision)๋Š” ์ƒ๋‹นํžˆ ์ค‘์š”ํ•˜๋‹ค. Tensor ์ฝ”์–ด๋Š” ๋‹ค์–‘ํ•œ ์ •๋ฐ€๋„(FP64, FP32, FP16/BF16, FP8, FP4 - ๋ถ€๋™ ์†Œ์ˆ˜์  ์ˆซ์ž์— ๋Œ€ํ•œ ์ƒ๊ธฐ๋Š” ์—ฌ๊ธฐ ์ฐธ์กฐ)์—์„œ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰์€ ๋ฐ์ดํ„ฐ ์œ ํ˜•์— ๋”ฐ๋ผ ์ข…์ข… ์ž๋ฆฟ์ˆ˜ ์ฐจ์ด๋กœ ๊ทน์ ์œผ๋กœ ๋‹ฌ๋ผ์ง„๋‹ค. ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„ ํ˜•์‹์€ ๋” ์ ์€ ๋ฐ์ดํ„ฐ ์ด๋™์„ ์š”๊ตฌํ•˜๊ณ  ๋™์ผํ•œ ์‹ค๋ฆฌ์ฝ˜ ์˜์—ญ์— ๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ํŒจํ‚นํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์ง€๋งŒ, ์ด์ „์—๋Š” ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ ๋•Œ๋ฌธ์— ํ”ผํ–ˆ์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜ค๋Š˜๋‚ ์—๋Š” ๋‹ค์–‘ํ•œ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ  ๋•๋ถ„์— ํ•™์Šต๊ณผ ์ถ”๋ก  ๋ชจ๋‘ ์ ์  ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„๋ฅผ ์‚ฌ์šฉํ•ด๊ฐ€๊ณ  ์žˆ์œผ๋ฉฐ FP8 ๋ฐ FP4์— ๋„๋‹ฌํ•˜๊ณ  ์žˆ๋‹ค.

(FP8 ํ˜ผํ•ฉ ์ •๋ฐ€๋„ ํ•™์Šต์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๊ฒฝํ—˜์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด Ultra Scale Playbook์„ ํ™•์ธํ•˜๋ผ.)

์•„๋ž˜ ํ‘œ๋Š” ๋‹ค์–‘ํ•œ NVIDIA GPU ์„ธ๋Œ€ ๋ฐ ์ •๋ฐ€๋„์— ๊ฑธ์นœ ์ด๋ก ์  ํ”ผํฌ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค:

์ •๋ฐ€๋„ / GPU ์œ ํ˜•A100H100H200B100B200
FP649.734344040
FP3219.567678080
FP16/BF1631299099017502250
FP8-3960396045005000
FP4---900010000

์ •๋ฐ€๋„ ๋ฐ GPU ์„ธ๋Œ€์— ๋”ฐ๋ฅธ ์ด๋ก ์  TFLOPs๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ํ‘œ. ์ถœ์ฒ˜: Nvidia, SemiAnalysis

๋” ๋‚ฎ์€ ์ •๋ฐ€๋„์—์„œ์˜ ๊ทน์ ์ธ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ฆ๊ฐ€๋Š” ๋‹จ์ˆœํžˆ ์›์‹œ ์†๋„์— ๊ด€ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ˆ˜์น˜ ๊ณ„์‚ฐ์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ์ƒ๊ฐ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ์ „ํ™˜ํ•˜๋Š” ๊ฒƒ์„ ๋ฐ˜์˜ํ•œ๋‹ค. FP8 ๋ฐ FP4๋Š” ๋ชจ๋ธ์ดย ์™€ํŠธ๋‹น ๋ฐ ์ดˆ๋‹น ๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๋ชจ๋‘์— ํ•„์ˆ˜์ ์ด๋‹ค. H100์˜ FP8์—์„œ์˜ 3960 TFLOPs๋Š” FP16/BF16 ๋Œ€๋น„ 4๋ฐฐ ํ–ฅ์ƒ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, B200์˜ FP4์—์„œ์˜ 10,000 TFLOPs๋Š” ์ด๋ฅผ ๋”์šฑ ๋ฐ€์–ด๋ถ™์ธ ๊ฒƒ์ด๋‹ค.

์ˆซ์ž ์ดํ•ดํ•˜๊ธฐ:ย ์ด๋Ÿฌํ•œ ์ด๋ก ์  ํ”ผํฌ FLOPs๋Š” ๋ชจ๋“  ์ปดํ“จํŒ… ์œ ๋‹›์ด ์™„์ „ํžˆ ํ™œ์šฉ๋˜๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ์‰ฝ๊ฒŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œย ์ด์ƒ์ ์ธ ์กฐ๊ฑดย ํ•˜์—์„œ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•œ ์ตœ๋Œ€ ๊ณ„์‚ฐ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์‹ค์ œ์—์„œ, ์‹ค์ œ ์„ฑ๋Šฅ์€ ์›Œํฌ๋กœ๋“œ๊ฐ€ ์ปดํ“จํŒ… ์œ ๋‹›์— ๋ฐ์ดํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๊ณต๊ธ‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ž‘์—…์ด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ•˜๋“œ์›จ์–ด์— ํšจ์œจ์ ์œผ๋กœ ๋งคํ•‘๋  ์ˆ˜ ์žˆ๋Š”์ง€์— ํฌ๊ฒŒ ์ขŒ์šฐ๋œ๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ NVIDIA H100 80GB HBM3 GPU์—์„œ ํ•™์Šตํ•  ์˜ˆ์ •์ด์—ˆ์œผ๋ฏ€๋กœ ๋จผ์ € ์‹ค์ œ ์„ฑ๋Šฅ ๋Œ€๋น„ H100์˜ ์ด๋ก ์  TFLOPs ์‚ฌ์–‘์„ ํ…Œ์ŠคํŠธํ•˜๊ณ  ์‹ถ์—ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” SemiAnalysis GEMM ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค: ์ด๊ฒƒ์€ Meta์˜ Llama 70B ํ•™์Šต์˜ ์‹ค์ œ ํ–‰๋ ฌ ๊ณฑ์…ˆ ๋ชจ์–‘์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค.

๋ชจ์–‘ (M, N, K)FP64 torch.matmulFP32 torch.matmulFP16 torch.matmulBF16 torch.matmulFP8 TE.Linear (autocast, bias=False)FP8 torch._scaled_mm (e5m2/e4m3fn)FP8 torch._scaled_mm (e4m3)
(16384, 8192, 1280)51.5 TFLOPS364.5 TFLOPS686.5 TFLOPS714.5 TFLOPS837.6 TFLOPS1226.7 TFLOPS1209.7 TFLOPS
(16384, 1024, 8192)56.1 TFLOPS396.1 TFLOPS720.0 TFLOPS757.7 TFLOPS547.3 TFLOPS1366.2 TFLOPS1329.7 TFLOPS
(16384, 8192, 7168)49.5 TFLOPS356.5 TFLOPS727.1 TFLOPS752.9 TFLOPS1120.8 TFLOPS1464.6 TFLOPS1456.6 TFLOPS
(16384, 3584, 8192)51.0 TFLOPS373.3 TFLOPS732.2 TFLOPS733.0 TFLOPS952.9 TFLOPS1445.7 TFLOPS1370.3 TFLOPS
(8192, 8192, 8192)51.4 TFLOPS372.7 TFLOPS724.9 TFLOPS729.4 TFLOPS1029.1 TFLOPS1404.4 TFLOPS1397.5 TFLOPS

Llama 70B ํ•™์Šต ์›Œํฌ๋กœ๋“œ์˜ ์ •๋ฐ€๋„ ๋ฐ ํ–‰๋ ฌ ๋ชจ์–‘์— ๋”ฐ๋ผ H100 80GB์—์„œ ๋‹ฌ์„ฑ๋œ TFLOPs๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ํ‘œ

์ด๋ก ์  ์„ฑ๋Šฅ ๊ฒ€์ฆ:ย ์šฐ๋ฆฌ์˜ ์‹คํ—˜์€ ์ด๋ก ์  ํ”ผํฌ์™€ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค.

FP64 Tensor ์ฝ”์–ด ์—ฐ์‚ฐ์˜ ๊ฒฝ์šฐ 49-56 TFLOPs๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด๋ก ์  ํ”ผํฌ(67 TFLOPs)์˜ 74-84%๋ฅผ ๋‚˜ํƒ€๋ƒˆ๋‹ค. TF32(PyTorch๊ฐ€ ๊ธฐ๋ณธ์ ์œผ๋กœ Tensor ์ฝ”์–ด์˜ FP32 ํ…์„œ์— ์‚ฌ์šฉํ•˜๋Š” TensorFloat-32)์˜ ๊ฒฝ์šฐ 356-396 TFLOPs๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด๋ก ์  ํ”ผํฌ(~495 TFLOPs dense)์˜ 72-80%๋ฅผ ๋‚˜ํƒ€๋ƒˆ๋‹ค. ์ด๋“ค์€ ํ›Œ๋ฅญํ•œ ํ•˜๋“œ์›จ์–ด ํ™œ์šฉ๋ฅ ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ •๋ฐ€๋„๊ฐ€ ๊ฑฐ์˜ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค: FP64๋Š” ๊ณ„์‚ฐ ๋น„์šฉ ๋•Œ๋ฌธ์ด๊ณ , TF32๋Š” BF16 ๋ฐ FP8๊ณผ ๊ฐ™์€ ๋” ๋‚ฎ์€ ์ •๋ฐ€๋„๊ฐ€ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

(NVIDIA ์‚ฌ์–‘์€ ์ข…์ข… 2:4 ๊ตฌ์กฐ์  ํฌ์†Œ์„ฑ ํŒจํ„ด์„ ๊ฐ€์ •ํ•œ ํฌ์†Œ ์„ฑ๋Šฅ(TF32์˜ ๊ฒฝ์šฐ 989 TFLOPs)์„ ๋‚˜์—ดํ•œ๋‹ค. ์šฐ๋ฆฌ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐ€์ง‘ํ˜• ์—ฐ์‚ฐ์€ ํฌ์†Œ ํ”ผํฌ์˜ ์•ฝ ์ ˆ๋ฐ˜(~495 TFLOPs)์„ ๋‹ฌ์„ฑํ•œ๋‹ค.)

BF16 ์—ฐ์‚ฐ์˜ ๊ฒฝ์šฐ ๋‹ค์–‘ํ•œ ํ–‰๋ ฌ ๋ชจ์–‘์—์„œ ์ผ๊ด€๋˜๊ฒŒ 714-758 TFLOPs๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด๋Š” H100์˜ ์ด๋ก ์  990 TFLOPs ํ”ผํฌ์˜ ์•ฝ 72-77%์ด๋‹ค. ์ด๊ฒƒ์€ ์‹ค์ œ๋กœ ์‹ค์ œ ์›Œํฌ๋กœ๋“œ์— ๋Œ€ํ•ด ํ›Œ๋ฅญํ•œ ํ™œ์šฉ๋ฅ (utilisation rate) ์ด๋‹ค!

๐Ÿ“Šย ๋ชจ๋ธ FLOPs ํ™œ์šฉ๋ฅ  (MFU)

์ปค๋„ ๋ฒค์น˜๋งˆํฌ๋Š” ์›์‹œ TFLOPS๋ฅผ ์ธก์ •ํ•˜์ง€๋งŒ, ์ข…๋‹จ ๊ฐ„ ํ•™์Šต ํšจ์œจ์„ฑ์€ **๋ชจ๋ธ FLOPs ํ™œ์šฉ๋ฅ (MFU)**๋กœ ํฌ์ฐฉ๋œ๋‹ค: ์ด๋ก ์  ํ”ผํฌ ํ•˜๋“œ์›จ์–ด ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์œ ์šฉํ•œ ๋ชจ๋ธ ๊ณ„์‚ฐ์˜ ๋น„์œจ์ด๋‹ค.

์šฐ๋ฆฌ์˜ BF16 matmul ๋ฒค์น˜๋งˆํฌ๋Š” H100 ์ด๋ก ์  ํ”ผํฌ์˜ 72-77%๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ ์„ค์ •์— ๋Œ€ํ•ด ์ปค๋„ ์ˆ˜์ค€์—์„œ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ•œ์„ ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ข…๋‹จ ๊ฐ„ ํ•™์Šต MFU๋Š” ๋” ๋ณต์žกํ•œ ๋น„-matmul ์—ฐ์‚ฐ, ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ ๋ฐ ๊ธฐํƒ€ ๋ณด์กฐ ๊ณ„์‚ฐ์œผ๋กœ ์ธํ•ด ํ•„์—ฐ์ ์œผ๋กœ ๋” ๋‚ฎ์„ ๊ฒƒ์ด๋‹ค.

SOTA ํ•™์Šต MFU:ย Meta๋Š” Llama 3 405B๋ฅผ ํ•™์Šตํ•  ๋•Œ 38-41%๋ฅผ ๋‹ฌ์„ฑํ•œ ๋ฐ˜๋ฉด, DeepSeek-v3๋Š” MoE ์•„ํ‚คํ…์ฒ˜์™€ ๊ด€๋ จ๋œ ๋” ์—„๊ฒฉํ•œ ํ†ต์‹  ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ์žˆ๋Š” GPU์—์„œ ~20-30%์— ๋„๋‹ฌํ–ˆ๋‹ค. SmolLM3์˜ ๊ฒฝ์šฐ ๋‚˜์ค‘์— ๋ณด๊ฒŒ ๋˜๊ฒ ์ง€๋งŒ ~30% MFU๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๊ฒฉ์ฐจ์˜ ๋งŽ์€ ๋ถ€๋ถ„์€ ๋ถ„์‚ฐ ํ•™์Šต์˜ ๋…ธ๋“œ ๊ฐ„ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ์—์„œ ๋น„๋กฏ๋œ๋‹ค. ~77%์˜ ์ปค๋„ ์ˆ˜์ค€ ์ƒํ•œ์„ ์„ ๊ฐ์•ˆํ•  ๋•Œ, ์ด๋Ÿฌํ•œ ์ข…๋‹จ ๊ฐ„ ์ˆ˜์น˜๋Š” ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•œ matmul ์„ฑ๋Šฅ ๋Œ€๋น„ ๋Œ€๋žต 50-55% ํšจ์œจ์„ฑ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ถ”๋ก  ์›Œํฌ๋กœ๋“œ๋Š” ์›์‹œ matmul ์„ฑ๋Šฅ์— ๋” ๊ฐ€๊นŒ์šด 70% ์ด์ƒ์˜ ๋” ๋†’์€ MFU์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ์—์„œ ๊ณต๊ฐœ๋œ ๊ฒฐ๊ณผ๋Š” ๋“œ๋ฌผ๋‹ค.

FP8 ๊ฒฐ๊ณผ๋Š” ๋” ๋ฏธ๋ฌ˜ํ•˜๋‹ค. 3๊ฐ€์ง€ ๋‹ค๋ฅธ ํ–‰๋ ฌ ๊ณฑ์…ˆ ๋ฐฉ๋ฒ•/์ปค๋„์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด์ž.

(์ปค๋„์€ CUDA ์ฝ”๋“œ์˜ ๋‹จ์œ„์ด๋‹ค.)

e4m3 ์ •๋ฐ€๋„๋กœ PyTorch์˜ย torch._scaled_mmย ์ปค๋„์„ ์‚ฌ์šฉํ•˜์—ฌ, ์šฐ๋ฆฌ๋Š” ํ–‰๋ ฌ ๋ชจ์–‘์— ๋”ฐ๋ผ 1,210-1,457 TFLOPs๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์ด๋ก ์  3,960 TFLOPs ํ”ผํฌ์˜ ๋Œ€๋žต 31-37%์ด๋‹ค. ๐Ÿ˜ฎ ์™œ์ผ๊นŒ? (FP8์—์„œ) ์ด ๋‚ฎ์€ ํ™œ์šฉ๋ฅ  ๋น„์œจ์€ ์‹ค์ œ๋กœ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋‚˜ํƒ€๋‚ด์ง€ ์•Š๋Š”๋‹ค; ์˜คํžˆ๋ ค, ์ปดํ“จํŒ… ์ฒ˜๋ฆฌ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ด๋Ÿฌํ•œ ์—ฐ์‚ฐ์ด ์ ์  ๋” ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ์ (memory-bound)์ด ๋จ์„ ๋ณด์—ฌ์ค€๋‹ค. Tensor ์ฝ”์–ด๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‹œ์Šคํ…œ์ด ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋นจ๋ฆฌ FP8 ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์ด ์ œํ•œ ์š”์ธ์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

Transformer Engine์˜ย TE.Linear๋Š” ๋ชจ์–‘์— ๋”ฐ๋ผ 547-1,121 TFLOPs๋ฅผ ๋‹ฌ์„ฑํ•œ ๋ฐ˜๋ฉด,ย torch._scaled_mm์€ ์ผ๊ด€๋˜๊ฒŒ ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์ค‘์š”ํ•œ ๊ตํ›ˆ์„ ๊ฐ•์กฐํ•œ๋‹ค:ย ์ปค๋„ ๊ตฌํ˜„์€ ์ƒ๋‹นํžˆ ์ค‘์š”ํ•˜๋ฉฐ, API ์„ ํƒ์€ ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด ๊ธฐ๋Šฅ์„ ๋Œ€์ƒ์œผ๋กœ ํ•  ๋•Œ์—๋„ ์„ฑ๋Šฅ์— 2-3๋ฐฐ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค.

SmolLM3 ํ•™์Šต์˜ ๊ฒฝ์šฐ, ์ด๋Ÿฌํ•œ ์‹ค์ œ ์ธก์ •๊ฐ’์€ ํ˜„์‹ค์ ์ธ ์ฒ˜๋ฆฌ๋Ÿ‰ ๊ธฐ๋Œ€์น˜๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜์—ˆ๋‹ค. ์ž์ฒด ํ•™์Šต ์‹คํ–‰์„ ๊ณ„ํšํ•  ๋•Œ, ๊ธฐ๋Œ€์น˜๋ฅผ ์„ค์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ด๋ก ์  ํ”ผํฌ๋ณด๋‹ค๋Š” ์ด๋Ÿฌํ•œ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅํ•œ ์ˆ˜์น˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

๐Ÿ”ง์ปดํ“จํŒ… ๋Šฅ๋ ฅ (Compute Capability)

์˜ฌ๋ฐ”๋ฅธ ์ปค๋„ API๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ ์™ธ์—๋„, ์šฐ๋ฆฌ๋Š” ๊ทธ๋Ÿฌํ•œ ์ปค๋„์ด ์˜ฌ๋ฐ”๋ฅธ ํ•˜๋“œ์›จ์–ด ์„ธ๋Œ€๋ฅผ ์œ„ํ•ด ์ปดํŒŒ์ผ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค. ์ปดํ“จํŒ… ๋Šฅ๋ ฅ(CC, Compute Capability)์€ PTX ๋ช…๋ น ์„ธํŠธ์—์„œ ๋ฌผ๋ฆฌ์  GPU ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ์ถ”์ƒํ™”ํ•˜๋Š” NVIDIA์˜ ๋ฒ„์ „ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์ด๋‹ค. ์ด๊ฒƒ์€ GPU๊ฐ€ ์ง€์›ํ•˜๋Š” ๋ช…๋ น ๋ฐ ๊ธฐ๋Šฅ์„ ๊ฒฐ์ •ํ•œ๋‹ค.

์ด๊ฒƒ์ด ์ค‘์š”ํ•œ ์ด์œ :ย ํŠน์ • ์ปดํ“จํŒ… ๋Šฅ๋ ฅ์„ ์œ„ํ•ด ์ปดํŒŒ์ผ๋œ ์ปค๋„์€ ์ด์ „ ํ•˜๋“œ์›จ์–ด์—์„œ ์‹คํ–‰๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ฝ”๋“œ๊ฐ€ ๋Œ€์ƒ GPU์˜ CC์— ๋Œ€ํ•ด ์ปดํŒŒ์ผ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ์ตœ์ ํ™”๋ฅผ ๋†“์น  ์ˆ˜ ์žˆ๋‹ค. ๋” ๋‚˜์œ ๊ฒƒ์€, ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์กฐ์šฉํžˆ ์ฐจ์„ ์˜ ์ปค๋„์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹คโ€”์šฐ๋ฆฌ๋Š” PyTorch๊ฐ€ H100์—์„œ sm_75 ์ปค๋„ (Turing GPU์šฉ์œผ๋กœ ์„ค๊ณ„๋œ ์ปดํ“จํŒ… ๋Šฅ๋ ฅ 7.5)์„ ์„ ํƒํ•˜์—ฌ ๋ฏธ์Šคํ„ฐ๋ฆฌํ•œ ์†๋„ ์ €ํ•˜๋ฅผ ์œ ๋ฐœํ•˜๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๊ฒƒ์€ PyTorch ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋ฌธ์„œํ™”๋œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋กœ, ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ข…์ข… ์ตœ์ ์˜ ๊ฒƒ๋ณด๋‹ค๋Š” ๋” ์˜ค๋ž˜๋˜๊ณ  ํ˜ธํ™˜ ๊ฐ€๋Šฅํ•œ ์ปค๋„์„ ๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ์„ค์ •ํ•œ๋‹ค. ์ด ๊ฒ‰๋ณด๊ธฐ์—๋Š” ์‚ฌ์†Œํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์€ ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด์—์„œ 720 TFLOPS๋ฅผ ์–ป๋А๋ƒ 500 TFLOPS๋ฅผ ์–ป๋А๋ƒ์˜ ์ฐจ์ด๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

๋ฏธ๋ฆฌ ์ปดํŒŒ์ผ๋œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋‚˜ ์‚ฌ์šฉ์ž ์ •์˜ ์ปค๋„์„ ์‚ฌ์šฉํ•  ๋•Œ, ํ•ญ์ƒ ํ˜ธํ™˜์„ฑ๊ณผ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ํ•˜๋“œ์›จ์–ด์˜ ์ปดํ“จํŒ… ๋Šฅ๋ ฅ์— ๋งž๊ฒŒ ๋นŒ๋“œ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด,ย sm90xmma_gemmโ€ฆ_cublas๋Š” SM 9.0 (H100์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ปดํ“จํŒ… ๋Šฅ๋ ฅ 9.0)์šฉ์œผ๋กœ ์ปดํŒŒ์ผ๋œ ์ปค๋„์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

nvidia-smi --query-gpu=compute_cap์œผ๋กœ GPU์˜ ์ปดํ“จํŒ… ๋Šฅ๋ ฅ์„ ํ™•์ธํ•˜๊ฑฐ๋‚˜ NVIDIA CUDA C ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ฐ€์ด๋“œ์˜ ์ปดํ“จํŒ… ๋Šฅ๋ ฅ ์„น์…˜์—์„œ ๊ธฐ์ˆ  ์‚ฌ์–‘์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ๋ณด์•˜๋“ฏ์ด, ๋‚ฎ์€ ์ •๋ฐ€๋„์—์„œ ๊ณ„์‚ฐ์ด ๋„ˆ๋ฌด ๋นจ๋ผ์ง€๋ฉด GPU ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋˜๋Š” ๊ฒƒ ๊ฐ™๋‹ค. GPU ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋ฌด์—‡์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์œ ๋ฐœํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž!

GPU ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ: ๋ ˆ์ง€์Šคํ„ฐ์—์„œ HBM๊นŒ์ง€

๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด GPU๋Š” ๋ฉ”๋ชจ๋ฆฌ์— ์ฝ๊ธฐ/์“ฐ๊ธฐ๋ฅผ ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ์ „์†ก์ด ์–ด๋–ค ์†๋„๋กœ ๋ฐœ์ƒํ•˜๋Š”์ง€ ์•„๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. GPU ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ๊ณ ์„ฑ๋Šฅ ์ปค๋„์„ ์ž‘์„ฑํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜๋‹ค.

์š”์•ฝ:ย GPU๋Š” ๋น ๋ฅด์ง€๋งŒ ์ž‘์€ ๊ฒƒ(๋ ˆ์ง€์Šคํ„ฐ, ๊ณต์œ  ๋ฉ”๋ชจ๋ฆฌ)์—์„œ ๋А๋ฆฌ์ง€๋งŒ ํฐ ๊ฒƒ(HBM ๋ฉ”์ธ ๋ฉ”๋ชจ๋ฆฌ)์— ์ด๋ฅด๋Š” ๊ณ„์ธต ๊ตฌ์กฐ๋กœ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค. ํ˜„๋Œ€ AI๋Š” ์ข…์ข…ย ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค: ๋ณ‘๋ชฉ ํ˜„์ƒ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผย ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. ์—ฐ์‚ฐ์ž ์œตํ•ฉ(Flash Attention๊ณผ ๊ฐ™์€)์€ ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋ฅผ ๋А๋ฆฐ HBM์— ์“ฐ๋Š” ๋Œ€์‹  ๋น ๋ฅธ ์˜จ์นฉ ๋ฉ”๋ชจ๋ฆฌ์— ์œ ์ง€ํ•จ์œผ๋กœ์จ 2-4๋ฐฐ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ๋ฒค์น˜๋งˆํฌ์— ๋”ฐ๋ฅด๋ฉด H100์˜ HBM3๋Š” ๋Œ€๊ทœ๋ชจ ์ „์†ก์— ๋Œ€ํ•ด ์ด๋ก ์  ์‚ฌ์–‘๊ณผ ์ผ์น˜ํ•˜๋Š” ์‹ค์ œ ~3 TB/s๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์‹ค์ œ๋กœ ๋ฉ”๋ชจ๋ฆฌ ์ž‘์—…์ด GPU๋ฅผ ํ†ตํ•ด ์–ด๋–ป๊ฒŒ ํ๋ฅด๋Š”์ง€ ์‹œ๊ฐํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋จผ์ € ์„ ํƒํ•œ ์ปค๋„์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๋ฉ”๋ชจ๋ฆฌ ์žฅ์น˜ ๊ฐ„์— ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ด๋™ํ•˜๋Š”์ง€ ๊ทธ๋ž˜ํ”ฝ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋Š” ํ”„๋กœํŒŒ์ผ๋ง ๊ทธ๋ž˜ํ”„์ธ NVIDIA Nsight Compute์˜ ๋ฉ”๋ชจ๋ฆฌ ์ฐจํŠธ๋ฅผ ์‚ดํŽด๋ณด์ž:

image.png

์ผ๋ฐ˜์ ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ ์ฐจํŠธ๋Š” ์ „์—ญ(Global), ๋กœ์ปฌ(Local), ํ…์Šค์ฒ˜(Texture), ํ‘œ๋ฉด(Surface), ๊ณต์œ (Shared) ๋ฉ”๋ชจ๋ฆฌ์™€ ๊ฐ™์€ย ๋…ผ๋ฆฌ์  ์žฅ์น˜(๋…น์ƒ‰)์™€ L1/TEX ์บ์‹œ, ๊ณต์œ  ๋ฉ”๋ชจ๋ฆฌ, L2 ์บ์‹œ, ์žฅ์น˜ ๋ฉ”๋ชจ๋ฆฌ์™€ ๊ฐ™์€ย ๋ฌผ๋ฆฌ์  ์žฅ์น˜(ํŒŒ๋ž€์ƒ‰)๋ฅผ ๋ชจ๋‘ ๋ณด์—ฌ์ค€๋‹ค. ์žฅ์น˜ ๊ฐ„์˜ ๋งํฌ๋Š” ์žฅ์น˜ ๊ฐ„์— ๋ฐœ์ƒํ•˜๋Š” ๋ช…๋ น(Inst) ๋˜๋Š” ์š”์ฒญ(Req) ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ƒ‰์ƒ์€ ์‚ฌ์šฉ๋˜์ง€ ์•Š์Œ(0%)์—์„œ ํ”ผํฌ ์„ฑ๋Šฅ ์ž‘๋™(100%)๊นŒ์ง€์˜ ํ”ผํฌ ํ™œ์šฉ๋ฅ  ๋ฐฑ๋ถ„์œจ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

NVIDIA Nsight Compute๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  ์ปค๋„์— ๋Œ€ํ•ด ์ด ๋ฉ”๋ชจ๋ฆฌ ์ฐจํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค:

## Profile a specific kernel with memory workload analysis
ncu --set full --kernel-name "your_kernel_name" --launch-skip 0 --launch-count 1 python your_script.py
## Once profiling is complete, open the results in the Nsight Compute GUI to view the Memory Chart

์ด๊ฒƒ์€ ๋ช‡ ๊ฐ€์ง€ ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•ด์ค„ ์ˆ˜ ์žˆ๋”ฐ:

์œ„์˜ ํŠน์ • ์‚ฌ๋ก€์—์„œ, ์ปค๋„ ๋ช…๋ น์ด ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์–ด๋–ป๊ฒŒ ํ๋ฅด๋Š”์ง€ ๋ณผ ์ˆ˜ ์žˆ๋‹ค (์šฐ๋ฆฌ ํ•˜๋“œ์›จ์–ด์˜ FP64 ํ–‰๋ ฌ ๊ณฑ์…ˆ์˜ ๊ฒฝ์šฐ): ์ „์—ญ ๋กœ๋“œ ๋ช…๋ น์€ L1/TEX ์บ์‹œ์— ๋Œ€ํ•œ ์š”์ฒญ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋Š” ์ ์ค‘ํ•˜๊ฑฐ๋‚˜ ๋ˆ„๋ฝ๋˜์–ด L2์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์š”์ฒญ์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋Š” ๊ถ๊ทน์ ์œผ๋กœ ๋ˆ„๋ฝ ์‹œ ์žฅ์น˜ ๋ฉ”๋ชจ๋ฆฌ (HBM)์— ์•ก์„ธ์Šคํ•œ๋‹ค. ์žฅ์น˜ ๋‚ด๋ถ€์˜ ์ƒ‰์น ๋œ ์ง์‚ฌ๊ฐํ˜•์€ ํฌํŠธ ํ™œ์šฉ๋ฅ ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐœ๋ณ„ ๋งํฌ๊ฐ€ ํ”ผํฌ ๋ฏธ๋งŒ์œผ๋กœ ์ž‘๋™ํ•˜๋”๋ผ๋„ ๊ณต์œ  ๋ฐ์ดํ„ฐ ํฌํŠธ๊ฐ€ ํฌํ™”๋  ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ’กย ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ ์•ก์„ธ์Šค ์ตœ์ ํ™”

์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์œ„ํ•ด, ๋А๋ฆฐ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต (HBM)์œผ๋กœ์˜ ํŠธ๋ž˜ํ”ฝ์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ๋น ๋ฅธ ๊ณ„์ธต (๊ณต์œ  ๋ฉ”๋ชจ๋ฆฌ, ๋ ˆ์ง€์Šคํ„ฐ)์˜ ํ™œ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

์ด์ œ ์ด ์ฐจํŠธ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ๋ณธ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•ด๋ณด์ž. ํ˜„๋Œ€ GPU๋Š” ์†๋„, ์šฉ๋Ÿ‰ ๋ฐ ๋น„์šฉ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ณ„์ธต ๊ตฌ์กฐ๋กœ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š”๋ฐ, ์ด๋Š” ๊ทผ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฐ ํšŒ๋กœ ์ œ์•ฝ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ์„ค๊ณ„์ด๋‹ค.

image.png

์ด ๊ณ„์ธต ๊ตฌ์กฐ์˜ ๋งจ ์•„๋ž˜์—๋Š” **HBM (High Bandwidth Memory)**์ด ์žˆ๋‹ค: GPU์˜ ๋ฉ”์ธ ๋ฉ”๋ชจ๋ฆฌ๋กœ, ์ „์—ญ ๋ฉ”๋ชจ๋ฆฌ ๋˜๋Š” ์žฅ์น˜ ๋ฉ”๋ชจ๋ฆฌ๋ผ๊ณ ๋„ ํ•œ๋‹ค. H100์€ ์ด๋ก ์  ๋Œ€์—ญํญ์ด 3.35 TB/s์ธ HBM3๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. HBM์€ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ์—์„œ ๊ฐ€์žฅ ํฌ์ง€๋งŒ ๊ฐ€์žฅ ๋А๋ฆฐ ๊ณ„์ธต์ด๋‹ค.

์ปดํ“จํŒ… ์œ ๋‹›์„ ํ–ฅํ•ด ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์˜ฌ๋ผ๊ฐ€๋ฉด ์ ์ง„์ ์œผ๋กœ ๋” ๋น ๋ฅด์ง€๋งŒ ๋” ์ž‘์€ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์ด ์žˆ๋‹ค:

์ด ๊ณ„์ธต ๊ตฌ์กฐ๊ฐ€ ์กด์žฌํ•˜๋Š” ์ด์œ ๋Š” SRAM (์บ์‹œ ๋ฐ ๋ ˆ์ง€์Šคํ„ฐ์— ์‚ฌ์šฉ๋จ)์€ ๋น ๋ฅด์ง€๋งŒ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํฌ๊ณ  ๋น„์‹ผ ๋ฐ˜๋ฉด, DRAM (HBM์— ์‚ฌ์šฉ๋จ)์€ ๋ฐ€๋„๊ฐ€ ๋†’๊ณ  ์ €๋ ดํ•˜์ง€๋งŒ ๋А๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ฒฐ๊ณผ: ๋น ๋ฅธ ๋ฉ”๋ชจ๋ฆฌ๋Š” ์ปดํ“จํŒ…์— ๊ฐ€๊นŒ์šด ์†Œ๋Ÿ‰์œผ๋กœ ์ œ๊ณต๋˜๋ฉฐ, ๋” ๋ฉ€๋ฆฌ ์žˆ๋Š” ๋” ๋А๋ฆฐ ๋ฉ”๋ชจ๋ฆฌ์˜ ์ ์ง„์ ์œผ๋กœ ๋” ํฐ ํ’€์— ์˜ํ•ด ์ง€์›๋œ๋‹ค.

์ด๊ฒƒ์ด ์ค‘์š”ํ•œ ์ด์œ :ย ์ด ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์ปค๋„ ์ตœ์ ํ™”์— ํ•„์ˆ˜์ ์ด๋‹ค. ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์€ ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ ์ž‘์—…์ด ๊ณ„์‚ฐ ์†๋„๊ฐ€ ์•„๋‹ˆ๋ผย ๋ฐ์ดํ„ฐ๋ฅผ ์ด๋™์‹œํ‚ค๋Š” ์†๋„์— ์˜ํ•ด ์ œํ•œ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. Horace He๊ฐ€ Making Deep Learning Go Brrrr From First Principles์—์„œ ์„ค๋ช…ํ•˜๋“ฏ์ด,

โ€œ๋ฉ”๋ชจ๋ฆฌ์—์„œ ๋กœ๋“œโ€ โ†’ โ€œ์ž์ฒด์ ์œผ๋กœ ๋‘ ๋ฒˆ ๊ณฑํ•˜๊ธฐโ€ โ†’ โ€œ๋ฉ”๋ชจ๋ฆฌ์— ์“ฐ๊ธฐโ€

๋Š” ๋ณธ์งˆ์ ์œผ๋กœ

โ€œ๋ฉ”๋ชจ๋ฆฌ์—์„œ ๋กœ๋“œโ€ โ†’ โ€œ์ž์ฒด์ ์œผ๋กœ ํ•œ ๋ฒˆ ๊ณฑํ•˜๊ธฐโ€ โ†’ โ€œ๋ฉ”๋ชจ๋ฆฌ์— ์“ฐ๊ธฐโ€

์™€ ๋™์ผํ•œ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฐ๋‹ค: ๊ณ„์‚ฐ์€ ๋ฉ”๋ชจ๋ฆฌ ์•ก์„ธ์Šค์— ๋น„ํ•ด ์‚ฌ์‹ค์ƒ โ€œ๊ณต์งœโ€์ด๋‹ค.

์ด๊ฒƒ์ด **์—ฐ์‚ฐ์ž ์œตํ•ฉ(operator fusion)**์ด ๊ทธํ† ๋ก ๊ฐ•๋ ฅํ•œ ์ด์œ ์ด๋‹ค: ์—ฌ๋Ÿฌ ์—ฐ์‚ฐ์„ ๋‹จ์ผ ์ปค๋„๋กœ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์—ฐ์‚ฐ ์‚ฌ์ด์— ๋А๋ฆฐ HBM์— ๋‹ค์‹œ ์“ฐ๋Š” ๋Œ€์‹  ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋ฅผ ๋น ๋ฅธ SRAM์— ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. Flash Attention์€ ์ด ์›์น™์ด ์ž‘๋™ํ•˜๋Š” ์™„๋ฒฝํ•œ ์˜ˆ์‹œ์ด๋‹ค.

โšกFlash Attention: ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ ์ตœ์ ํ™” ์‚ฌ๋ก€ ์—ฐ๊ตฌ

ํ‘œ์ค€ ์–ดํ…์…˜ ๊ตฌํ˜„์€ ์ „์ฒด ์–ดํ…์…˜ ํ–‰๋ ฌ์„ HBM์— materialize ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ์ ์ด๋‹ค:

  1. Q@K^T ๋ฅผ ๊ณ„์‚ฐย โ†’ Nร—N ํฌ๊ธฐ์˜ย ์–ดํ…์…˜ ์ ์ˆ˜๋ฅผ HBM์— ์“ฐ๊ธฐ
  2. ์†Œํ”„ํŠธ๋งฅ์Šค ์ ์šฉย โ†’ย HBM์—์„œ ์ฝ๊ธฐ, ๊ณ„์‚ฐ, HBM์— ๋‹ค์‹œ ์“ฐ๊ธฐ
  3. V ์™€ ๊ณฑํ•˜๊ธฐย โ†’ย HBM์—์„œ ์–ดํ…์…˜ ์ ์ˆ˜ ๋‹ค์‹œ ์ฝ๊ธฐ

Flash Attention์€ ์ด๋Ÿฌํ•œ ์—ฐ์‚ฐ์„ ์œตํ•ฉํ•˜๊ณ  ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋ฅผ SRAM์— ์œ ์ง€ํ•จ์œผ๋กœ์จ 2-4๋ฐฐ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•œ๋‹ค:

  1. ์ „์ฒด ์–ดํ…์…˜ ํ–‰๋ ฌ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋Œ€์‹ , SRAM์— ๋งž๋Š” ํƒ€์ผ(tiles)๋กœ ์–ดํ…์…˜์„ ์ฒ˜๋ฆฌํ•œ๋‹ค.
  2. ์ค‘๊ฐ„ ์–ดํ…์…˜ ์ ์ˆ˜๋Š” ๊ฒฐ์ฝ” ๋น ๋ฅธ ์˜จ์นฉ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๋– ๋‚˜์ง€ ์•Š๋Š”๋‹ค.
  3. ์ตœ์ข… ์ถœ๋ ฅ๋งŒ HBM์— ๋‹ค์‹œ ์“ฐ์—ฌ์ง„๋‹ค.

๊ฒฐ๊ณผ: Flash Attention์€ HBM ์•ก์„ธ์Šค๋ฅผ O(N2)O(N^2) ์—์„œ O(N)O(N)์œผ๋กœ ์ค„์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ ์ž‘์—…์„ GPU์˜ ์ปดํ“จํŒ… ๊ธฐ๋Šฅ์„ ๋” ์ž˜ ํ™œ์šฉํ•˜๋Š” ์ž‘์—…์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด๊ฒƒ์ด ํšจ์œจ์ ์ธ ์ปค๋„ ์„ค๊ณ„์˜ ๋ณธ์งˆ์ด๋‹ค: ๋А๋ฆฐ ๋ฉ”๋ชจ๋ฆฌ ์ด๋™ ์ตœ์†Œํ™”, ๋น ๋ฅธ ๊ณ„์‚ฐ ์ตœ๋Œ€ํ™”

์˜ˆ์‹œ: ์‹ค์ œ HBM3 ๋Œ€์—ญํญ ๊ฒ€์ฆ

์ด์ œ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ–ˆ์œผ๋ฏ€๋กœ, ์ด๋ก ์„ ์‹ค์ฒœ์— ์˜ฎ๊ฒจ H100 GPU์˜ ์‹ค์ œ ๋Œ€์—ญํญ์„ ๊ฒ€์ฆํ•ด ๋ณด์ž! ์ด ์ง€์ ์ด ๋ฐ”๋กœ ๋ฒค์น˜๋งˆํ‚น ๋„๊ตฌ๊ฐ€ ํ•„์ˆ˜์ ์ด๊ฒŒ ๋˜๋Š” ์ˆœ๊ฐ„์ด๋‹ค.

NVBandwidth๋Š” GPU ์‹œ์Šคํ…œ ์ „๋ฐ˜์˜ ๋Œ€์—ญํญ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋œ NVIDIA์˜ ์˜คํ”ˆ ์†Œ์Šค ๋ฒค์น˜๋งˆํ‚น ๋„๊ตฌ์ด๋‹ค. ์ด๋Š” ๋ณต์‚ฌ ์—”์ง„๊ณผ ์ปค๋„ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์‚ฌ ํŒจํ„ด (ํ˜ธ์ŠคํŠธ-์žฅ์น˜, ์žฅ์น˜-ํ˜ธ์ŠคํŠธ, ์žฅ์น˜-์žฅ์น˜ ์ž‘์—…)์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์ „์†ก ์†๋„๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด ๋„๊ตฌ๋Š” ํŠนํžˆ GPU ๊ฐ„ ํ†ต์‹  (์˜ˆ: NVLink ๋ฐ PCIe, ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ์ปค๋„ฅํ„ฐ)์„ ํ‰๊ฐ€ํ•˜๊ณ  ๋‹ค์ค‘ GPU ํ™˜๊ฒฝ์—์„œ ์‹œ์Šคํ…œ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๋Š” ๋ฐ ์œ ์šฉํ•˜๋‹ค.

NVIDIA์˜ GitHub ๋ฆฌํฌ์ง€ํ† ๋ฆฌ์—์„œ NVBandwidth๋ฅผ ์„ค์น˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋„๊ตฌ๋Š” ๋‹ค์–‘ํ•œ ์žฅ์น˜ ๊ฐ„์— ๋ฐ์ดํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ์ „์†ก๋˜๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ์ž์„ธํ•œ ๋Œ€์—ญํญ ํ–‰๋ ฌ์„ ์ถœ๋ ฅํ•˜๋ฏ€๋กœ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ง„๋‹จํ•˜๊ฑฐ๋‚˜ ๊ฑด๊ฐ•ํ•œ GPU ์ƒํ˜ธ ์—ฐ๊ฒฐ์„ ํ™•์ธํ•˜๋Š” ๋ฐ ์ด์ƒ์ ์ด๋‹ค.

๋‹ค์–‘ํ•œ ๋ฉ”์‹œ์ง€ ํฌ๊ธฐ์— ๊ฑธ์ณ GPU ๋กœ์ปฌ์ธ ์žฅ์น˜ ๋ฒ„ํผ ๊ฐ„ย cuMemcpyAsync์˜ ๋Œ€์—ญํญ์„ ์ธก์ •ํ•˜๋Š”ย  device_local_copyย ํ…Œ์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ H100์˜ ๋กœ์ปฌ ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์„ ์ธก์ •ํ•ด๋ณด์ž.

(cuMemcpyAsync๋Š” ๋‘ ๋ฉ”๋ชจ๋ฆฌ ํฌ์ธํ„ฐ ๊ฐ„์— ๋ฐ์ดํ„ฐ๋ฅผ ๋น„๋™๊ธฐ์ ์œผ๋กœ ๋ณต์‚ฌํ•˜๋ฉฐ ์ „์†ก ์œ ํ˜•(ํ˜ธ์ŠคํŠธ-ํ˜ธ์ŠคํŠธ, ํ˜ธ์ŠคํŠธ-์žฅ์น˜, ์žฅ์น˜-์žฅ์น˜, ๋˜๋Š” ์žฅ์น˜-ํ˜ธ์ŠคํŠธ)์„ ์ถ”๋ก ํ•˜๋Š” CUDA ๋“œ๋ผ์ด๋ฒ„ API ํ•จ์ˆ˜์ด๋‹ค.)

$ ./nvbandwidth -t device_local_copy -b 2048
memcpy local GPU(column) bandwidth (GB/s)
           0         1         2         3         4         5         6         7
 0   1519.07   1518.93   1519.07   1519.60   1519.13   1518.86   1519.13   1519.33

์ธก์ •๋œ H100 ๋กœ์ปฌ ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 6.21.30.png

๊ฒฐ๊ณผ๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‹œ์Šคํ…œ์˜ ์ค‘์š”ํ•œ ํŠน์ง•์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค: ์ž‘์€ ๋ฉ”์‹œ์ง€ ํฌ๊ธฐ (< 1 MB)์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ๋Œ€์—ญํญ ์ œํ•œ๋ณด๋‹ค๋Š” **์ง€์—ฐ ์‹œ๊ฐ„ ์ œํ•œ(latency-bound)**์ด๋‹ค. ๋ฉ”๋ชจ๋ฆฌ ์ „์†ก์„ ์‹œ์ž‘ํ•˜๋Š” ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์„ฑ๋Šฅ์„ ์ง€๋ฐฐํ•˜์—ฌ ํ”ผํฌ ๋Œ€์—ญํญ์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉํ•ดํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํฐ ๋ฉ”์‹œ์ง€ ํฌ๊ธฐ ( โ‰ฅ1 MB)์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์ฝ๊ธฐ ๋ฐ ์“ฐ๊ธฐ ์ž‘์—… ๋ชจ๋‘์— ๋Œ€ํ•ด ~1,500 GB/s์˜ ์ง€์†์ ์ธ ๋Œ€์—ญํญ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

HBM ๋Œ€์—ญํญ์€ ์ฝ๊ธฐ์™€ ์“ฐ๊ธฐ๊ฐ€ ๋™์‹œ์— ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์„ ๊ณ ๋ คํ•˜๋ฏ€๋กœ, ์ด๋“ค์„ ํ•ฉ์‚ฐํ•˜์—ฌย 3 TB/s ์ด ์–‘๋ฐฉํ–ฅ ๋Œ€์—ญํญย (1,519 ์ฝ๊ธฐ + 1,519 ์“ฐ๊ธฐ)์„ ์–ป์œผ๋ฉฐ, ์ด๋Š” H100์˜ ์ด๋ก ์  3.35 TB/s HBM3 ์‚ฌ์–‘์ด ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ฒ€์ฆ๋œ ๊ฒƒ์ด๋‹ค.

๋ฃจํ”„๋ผ์ธ ๋ชจ๋ธ (Roofline Model)

์ปค๋„์ด ์ปดํ“จํŒ… ์ œํ•œ์ ์ธ์ง€ ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ์ ์ธ์ง€ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์–ด๋–ค ์ตœ์ ํ™”๊ฐ€ ๋„์›€์ด ๋ ์ง€ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค.

๋‘ ๊ฐ€์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ ์žˆ๋‹ค:

๋ฃจํ”„๋ผ์ธ ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๊ณ  ์ตœ์ ํ™” ๊ธฐํšŒ๋ฅผ ์‹๋ณ„ํ•˜๊ธฐ ์œ„ํ•œ ์‹œ๊ฐ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์‹ค์ œ ์ปค๋„ ๋ถ„์„์— ์ ์šฉํ•ด๋ณด์ž. ์•ž์„œ ์–ธ๊ธ‰ํ•œ NSight Compute ํ”„๋กœํŒŒ์ผ๋ง ๋„๊ตฌ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค (โ€œroofline analysis viewโ€ ์•„๋ž˜). ๋‹ค์Œ์€ ์ด๋ฅผ ์‹คํ–‰ํ–ˆ์„ ๋•Œ ์–ป๋Š” ๊ฒฐ๊ณผ์˜ ๋ชจ์Šต์ด๋‹ค:

image.png

(์ปค๋„ ์„ฑ๋Šฅ ๊ฒฝ๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋ฃจํ”„๋ผ์ธ ์ฐจํŠธ - ์ถœ์ฒ˜: NVIDIA NSight Compute Profiling Guide)

๋‘ ๊ฐœ์˜ ์ถ•์„ ๊ฐ€์ง„ ์ด ์ฐจํŠธ๋ฅผ ์ฝ๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๋ฃจํ”„๋ผ์ธ ์ž์ฒด๋Š” ๋‘ ๊ฐœ์˜ ๊ฒฝ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ๋‹ค:

์ด๋Ÿฌํ•œ ๊ฒฝ๊ณ„๊ฐ€ ๋งŒ๋‚˜๋Š” **์œต๊ธฐ์ (ridge point)**์€ ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ ์ฒด์ œ์™€ ์ปดํ“จํŒ… ์ œํ•œ ์ƒํƒœ ์‚ฌ์ด์˜ ์ „ํ™˜์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€์ ์ด๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด์ œ ์ฐจํŠธ์˜ ๋‘ ๋ถ„ํ• ๋œ ์˜์—ญ์„ ๋ณด๋ฉฐ ์„ฑ๋Šฅ์„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค:

๋‹ฌ์„ฑ๋œ ๊ฐ’ (ํ”Œ๋กฏ๋œ ์ )์€ ์ปค๋„์ด ํ˜„์žฌ ์–ด๋””์— ์œ„์น˜ํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค. ์ด ์ ๊ณผ ๋ฃจํ”„๋ผ์ธ ๊ฒฝ๊ณ„๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋Š” ์ตœ์ ํ™” ์—ฌ์œ  ๊ณต๊ฐ„์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ฒฝ๊ณ„์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ปค๋„์˜ ์„ฑ๋Šฅ์ด ๋” ์ตœ์ ์ด๋‹ค.

์šฐ๋ฆฌ ์˜ˆ์‹œ์—์„œ, ์ปค๋„์€ย ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ ์˜์—ญ์— ์œ„์น˜ํ•˜๋ฉฐ, ์ด๋Š” ๋ฉ”๋ชจ๋ฆฌ ํŠธ๋ž˜ํ”ฝ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๊ฐœ์„ ํ•  ์—ฌ์ง€๊ฐ€ ์—ฌ์ „ํžˆ ์žˆ์Œ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค!

CUDA ์ฝ”์–ด, Tensor ์ฝ”์–ด, ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ ๋ฐ ์ €์ˆ˜์ค€ ์ตœ์ ํ™” ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์„ ํฌํ•จํ•˜์—ฌ GPU ๋‚ด๋ถ€์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ํƒ๊ตฌ๋ฅผ ์›ํ•˜๋ฉด Ultrascale Playbook์„ ํ™•์ธํ•˜๋ผ!ย ์ด์ œ GPU ๋‚ด๋ถ€์—์„œ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ์ดํ•ดํ–ˆ์œผ๋ฏ€๋กœ, ์ถ•์†Œํ•˜์—ฌ GPU๊ฐ€ ๋‚˜๋จธ์ง€ ์„ธ์ƒ๊ณผ ์–ด๋–ป๊ฒŒ ํ†ต์‹ ํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

GPU ์™ธ๋ถ€: GPU๊ฐ€ ์„ธ์ƒ๊ณผ ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•

์ด์ œ GPU๊ฐ€ ๋‚ด๋ถ€ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ดํ•ดํ–ˆ์œผ๋ฏ€๋กœ, ์ค‘์š”ํ•œ ํ˜„์‹ค์„ ๋‹ค๋ค„์•ผ ํ•œ๋‹ค: GPU๋Š” ํ™€๋กœ ๊ณ ๋ฆฝ๋˜์–ด ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ณ„์‚ฐ์ด ์ผ์–ด๋‚˜๊ธฐ ์ „์—, ๋ฐ์ดํ„ฐ๋Š” GPU ๋ฉ”๋ชจ๋ฆฌ๋กœ ๋กœ๋“œ๋˜์–ด์•ผ ํ•œ๋‹ค. CPU๋Š” ์ปค๋„์„ ์Šค์ผ€์ค„๋งํ•˜๊ณ  ์ž‘์—…์„ ์กฐ์ •ํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ถ„์‚ฐ ํ•™์Šต์—์„œ, GPU๋Š” ์„œ๋กœ ํ™œ์„ฑํ™”, ๊ธฐ์šธ๊ธฐ, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ์ง€์†์ ์œผ๋กœ ๊ตํ™˜ํ•ด์•ผ ํ•œ๋‹ค.

image.png

์ด๊ณณ์ด ์™ธ๋ถ€ ํ†ต์‹  ์ธํ”„๋ผ๊ฐ€ ์ค‘์š”ํ•ด์ง€๋Š” ๊ณณ์ด๋‹ค. GPU์˜ ์ปดํ“จํŒ… ์œ ๋‹›์ด ์•„๋ฌด๋ฆฌ ๊ฐ•๋ ฅํ•˜๋”๋ผ๋„ ๋ฐ์ดํ„ฐ๊ฐ€ CPU, ์Šคํ† ๋ฆฌ์ง€, ๋˜๋Š” ๋‹ค๋ฅธ GPU๋กœ๋ถ€ํ„ฐ ์ถฉ๋ถ„ํžˆ ๋นจ๋ฆฌ ๋„๋‹ฌํ•  ์ˆ˜ ์—†๋‹ค๋ฉด, ๋น„์‹ผ ํ•˜๋“œ์›จ์–ด๋Š” ์œ ํœด(idle) ์ƒํƒœ๊ฐ€ ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์‹  ๊ฒฝ๋กœ์™€ ๋Œ€์—ญํญ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ํ•˜๋“œ์›จ์–ด ํ™œ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค.

์ด ์„น์…˜์—์„œ๋Š” GPU๋ฅผ ์™ธ๋ถ€ ์„ธ๊ณ„์™€ ์—ฐ๊ฒฐํ•˜๋Š” ๋„ค ๊ฐ€์ง€ ์ค‘์š”ํ•œ ํ†ต์‹  ๋งํฌ๋ฅผ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค:

๊ฐ ๋งํฌ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋Œ€์—ญํญ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„ ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ์ดํ•ดํ•˜๋ฉด ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด ์–ด๋””์—์„œ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๊ฒช๊ณ  ์žˆ๋Š”์ง€ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค. ์ดํ•ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์™€ ํ†ต์‹  ๋งํฌ๋ฅผ ๊ฐ•์กฐํ•˜๋Š” ๋‹จ์ˆœํ™”๋œ ๋‹ค์ด์–ด๊ทธ๋žจ์„ ๋งŒ๋“ค์—ˆ๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 6.28.54.png

์ด๊ฒƒ์ด ๋„ˆ๋ฌด ๊ณผํ•˜๊ฒŒ ์–ด๋ ค์›Œ ๋ณด์ธ๋‹ค๊ณ  ํ•˜๋”๋ผ๋„ ๊ฑฑ์ •ํ•˜์ง€ ์•Š์•„๋„ ์ข‹๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ๊ฐ๊ฐ์˜ ์—ฐ๊ฒฐ์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณด๊ณ  ๊ฐ ๋งํฌ์˜ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๋Œ€์—ญํญ์„ ์ธก์ •ํ•ด๋ณผ ๊ฒƒ์ด๋‹ค.

GPU ๋Œ€ CPU (GPU-to-CPU)

์š”์•ฝ:ย CPU๋Š” PCIe ์—ฐ๊ฒฐ์„ ํ†ตํ•ด GPU ์ž‘์—…์„ ์กฐ์œจํ•˜๋ฉฐ, ์šฐ๋ฆฌ p5 ์ธ์Šคํ„ด์Šค์˜ CPU ๋Œ€ GPU ์ „์†ก์˜ ๊ฒฝ์šฐ ~14.2 GB/s (PCIe Gen4 x8)์—์„œ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค. CPU-GPU ์ง€์—ฐ ์‹œ๊ฐ„์€ ~1.4 ๋งˆ์ดํฌ๋กœ์ดˆ์ด๋ฉฐ, ์ด๋Š” ๋งŽ์€ ์ž‘์€ ์ปค๋„์ด ์žˆ๋Š” ์›Œํฌ๋กœ๋“œ์— ๋ฌธ์ œ๊ฐ€ ๋˜๋Š” ์ปค๋„ ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค. CUDA ๊ทธ๋ž˜ํ”„๋Š” ์ž‘์—…์„ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌํ•˜์—ฌ ์ด ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค. NUMA ์นœํ™”๋„๋Š” ๋ฉ€ํ‹ฐ ์†Œ์ผ“ ์‹œ์Šคํ…œ์—์„œ ์ค‘์š”ํ•˜๋ฉฐ; ์ž˜๋ชป๋œ CPU ์†Œ์ผ“์—์„œ GPU ํ”„๋กœ์„ธ์Šค๋ฅผ ์‹คํ–‰ํ•˜๋ฉด ์ƒ๋‹นํ•œ ์ง€์—ฐ ์‹œ๊ฐ„์ด ์ถ”๊ฐ€๋œ๋‹ค. Grace Hopper์™€ ๊ฐ™์€ ์ตœ์‹  ์•„ํ‚คํ…์ฒ˜๋Š” NVLink-C2C (900 GB/s ๋Œ€ 128 GB/s)๋กœ PCIe ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ œ๊ฑฐํ•œ๋‹ค.

CPU๋Š” GPU ๊ณ„์‚ฐ์˜ ์ง€ํœ˜์ž(orchestrator)์ด๋‹ค. ์ปค๋„ ์‹คํ–‰, ๋ฉ”๋ชจ๋ฆฌ ํ• ๋‹น ๊ด€๋ฆฌ, ๋ฐ์ดํ„ฐ ์ „์†ก ์กฐ์ •์„ ๋‹ด๋‹นํ•œ๋‹ค. ํ•˜์ง€๋งŒ CPU๋Š” ์‹ค์ œ๋กœ ์–ผ๋งˆ๋‚˜ ๋นจ๋ฆฌ GPU์™€ ํ†ต์‹ ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€? ์ด๊ฒƒ์€ ๊ทธ๋“ค ์‚ฌ์ด์˜ย PCIe (Peripheral Component Interconnect Express)ย ์—ฐ๊ฒฐ์— ์˜ํ•ด ๊ฒฐ์ •๋œ๋‹ค.

์ด ๋งํฌ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์ด ๋งํฌ๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ธฐ ๋•Œ๋ฌธ์— ์ค‘์š”ํ•˜๋‹ค:

ํ˜„๋Œ€ GPU ์„œ๋ฒ„์—์„œ CPU-GPU ์—ฐ๊ฒฐ์€ ํฌ๊ฒŒ ๋ฐœ์ „ํ–ˆ๋‹ค. ์ดˆ๊ธฐ ์‹œ์Šคํ…œ์€ ๋‹ค์ด๋ ‰ํŠธ PCIe ์—ฐ๊ฒฐ์„ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, DGX H100๊ณผ ๊ฐ™์€ ํ˜„๋Œ€ ๊ณ ์„ฑ๋Šฅ ์‹œ์Šคํ…œ์€ ์—ฌ๋Ÿฌ GPU๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด PCIe ์Šค์œ„์น˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋” ์ •๊ตํ•œ ํ† ํด๋กœ์ง€๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ตœ์‹  GB200 ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด NVIDIA๋Š” CPU์™€ GPU๋ฅผ ๋™์ผํ•œ ์ธ์‡„ ํšŒ๋กœ ๊ธฐํŒ์— ๋ฐฐ์น˜ํ•˜์—ฌ ์™ธ๋ถ€ ์Šค์œ„์น˜์˜ ํ•„์š”์„ฑ์„ ์™„์ „ํžˆ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํ•œ ๋‹จ๊ณ„ ๋” ๋ฐœ์ „์‹œ์ผฐ๋‹ค.

์ž ์žฌ์ ์ธ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์‹๋ณ„ํ•˜๊ธฐ ์œ„ํ•ดย lstopo๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ p5 ์ธ์Šคํ„ด์Šค์˜ ๋ฌผ๋ฆฌ์  ํ† ํด๋กœ์ง€๋ฅผ ๊ฒ€์‚ฌํ•œ ๋‹ค์Œ ์ด ์ค‘์š”ํ•œ ๋งํฌ์˜ ์‹ค์ œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ด๋ณด์ž.

$ lstopo -v
...
HostBridge L#1 (buses=0000:[44-54])
    PCIBridge L#2 (busid=0000:44:00.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[45-54] PCISlot=64)
        PCIBridge L#3 (busid=0000:45:00.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[46-54] PCISlot=1-1)
            ...
            PCIBridge L#12 (busid=0000:46:01.4 id=1d0f:0200 class=0604(PCIBridge) link=63.02GB/s buses=0000:[53-53])
                PCI L#11 (busid=0000:53:00.0 id=10de:2330 class=0302(3D) link=63.02GB/s PCISlot=86-1)
                    Co-Processor(CUDA) L#8 (Backend=CUDA GPUVendor="NVIDIA Corporation" GPUModel="NVIDIA H100 80GB HBM3" CUDAGlobalMemorySize=83295872 CUDAL2CacheSize=51200 CUDAMultiProcessors=132 CUDACoresPerMP=128 CUDASharedMemorySizePerMP=48) "cuda0"
                    GPU(NVML) L#9 (Backend=NVML GPUVendor="NVIDIA Corporation" GPUModel="NVIDIA H100 80GB HBM3" NVIDIASerial=1654922006536 NVIDIAUUID=GPU-ba136838-6443-7991-9143-1bf4e48b2994) "nvml0"
            ...
...

lstopoย ์ถœ๋ ฅ์—์„œ ์šฐ๋ฆฌ ์‹œ์Šคํ…œ์˜ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” PCIe ๋Œ€์—ญํญ ๊ฐ’์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

์ „์ฒด ํ† ํด๋กœ์ง€๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค:

$ lstopo --whole-system lstopo-diagram.png

image.png

์ด ๋‹ค์ด์–ด๊ทธ๋žจ์€ ์šฐ๋ฆฌ ์‹œ์Šคํ…œ์˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

PCIe ์‚ฌ์–‘์€ ์„ธ๋Œ€๋งˆ๋‹ค ๋‹ค๋ฅด๋ฉฐ, ๋ ˆ์ธ๋‹น ์ „์†ก ์†๋„๊ฐ€ ๋‘ ๋ฐฐ๋กœ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ์ „์†ก ์†๋„๋Š” GT/s (์ดˆ๋‹น ๊ธฐ๊ฐ€์ „์†ก)๋กœ ์ธก์ •๋˜๋ฉฐ ์›์‹œ ์‹ ํ˜ธ ์†๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐ˜๋ฉด, ์ฒ˜๋ฆฌ๋Ÿ‰์€ GB/s (์ดˆ๋‹น ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ)๋กœ ์ธก์ •๋˜๋ฉฐ ์ธ์ฝ”๋”ฉ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์„ค๋ช…ํ•˜๊ณ  ์‹ค์ œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋Œ€์—ญํญ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ์ ์— ์œ ์˜ํ•ด์•ผ ํ•œ๋‹ค:

PCIe ๋ฒ„์ „์ „์†ก ์†๋„ (๋ ˆ์ธ๋‹น)์ฒ˜๋ฆฌ๋Ÿ‰ (GB/s) x16
1.02.5 GT/s4.0
2.05.0 GT/s8.0
3.08.0 GT/s15.754
4.016.0 GT/s31.508
5.032.0 GT/s63.015
6.064.0 GT/s121.0
7.0128.0 GT/s242.0

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.34.19.png

ํ† ํด๋กœ์ง€ ๋‹ค์ด์–ด๊ทธ๋žจ๊ณผ PCIe ๋Œ€์—ญํญ ํ‘œ์—์„œ, CPU-๋Œ€-GPU ๊ฒฝ๋กœ๊ฐ€ ๋‘ ๊ฐœ์˜ PCIe ํ™‰์„ ํ†ต๊ณผํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค: ๋จผ์ € PCIe Gen4 x8 (15.754 GB/s)์„ ํ†ตํ•ด CPU์—์„œ PCIe ์Šค์œ„์น˜๋กœ, ๊ทธ ๋‹ค์Œ PCIe Gen5 x16 (63.015 GB/s)์„ ํ†ตํ•ด PCIe ์Šค์œ„์น˜์—์„œ GPU๋กœ ๊ฐ„๋‹ค. ์ด๋Š” CPU-GPU ํ†ต์‹ ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด 15.754 GB/s ์—์„œ์˜ ์ฒซ ๋ฒˆ์งธ ํ™‰์ž„์„ ์˜๋ฏธํ•œ๋‹ค. ๋˜ ๋‹ค๋ฅธ ์œ ํ‹ธ๋ฆฌํ‹ฐ์ธย nvbandwidth๋กœ ์ด๊ฒƒ์„ ๊ฒ€์ฆํ•ด๋ณด์ž!

host_to_device_memcpy_ceย ๋ช…๋ น์€ GPU์˜ ๋ณต์‚ฌ ์—”์ง„์„ ์‚ฌ์šฉํ•˜์—ฌ ํ˜ธ์ŠคํŠธ(CPU) ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์žฅ์น˜(GPU) ๋ฉ”๋ชจ๋ฆฌ๋กœ์˜ย cuMemcpyAsync์˜ ๋Œ€์—ญํญ์„ ์ธก์ •ํ•œ๋‹ค.

./nvbandwidth -t host_to_device_memcpy_ce -b <message_size> -i 5

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.35.40.png

๊ฒฐ๊ณผ๋Š” ์‹ค์ œ๋กœ ์ž‘์€ ๋ฉ”์‹œ์ง€ ํฌ๊ธฐ์˜ ๊ฒฝ์šฐ ์ง€์—ฐ ์‹œ๊ฐ„ ์ œํ•œ์ ์ด์ง€๋งŒ, ํฐ ๋ฉ”์‹œ์ง€ ํฌ๊ธฐ์˜ ๊ฒฝ์šฐย ~14.2 GB/s๋ฅผ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” PCIe Gen4 x8์— ๋Œ€ํ•œ ์ด๋ก ์  15.754 GB/s ๋Œ€์—ญํญ์˜ ์•ฝ 90%์ด๋‹ค. ์ด๊ฒƒ์€ CPU-GPU ํ†ต์‹ ์—์„œ CPU-๋Œ€-PCIe ์Šค์œ„์น˜ ๋งํฌ๊ฐ€ ์‹ค์ œ๋กœ ์šฐ๋ฆฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์ž„์„ ํ™•์ธ์‹œ์ผœ์ค€๋‹ค.

๋Œ€์—ญํญ ์™ธ์—๋„,ย ์ง€์—ฐ ์‹œ๊ฐ„์€ CPU๊ฐ€ ์ปค๋„์„ ์–ผ๋งˆ๋‚˜ ๋นจ๋ฆฌ ์Šค์ผ€์ค„๋งํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ฒฐ์ •ํ•˜๋ฏ€๋กœ CPU-GPU ํ†ต์‹ ์— ๋˜‘๊ฐ™์ด ์ค‘์š”ํ•˜๋‹ค. ์ด๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ํฌ์ธํ„ฐ ์ถ”์  ์ปค๋„์„ ์‚ฌ์šฉํ•˜์—ฌ ์™•๋ณต ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ•˜๋Š”ย nvbandwidth์˜ย host_device_latency_smย ํ…Œ์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.ย host_device_latency_smย ํ…Œ์ŠคํŠธ๋Š” ํ˜ธ์ŠคํŠธ(CPU)์— ๋ฒ„ํผ๋ฅผ ํ• ๋‹นํ•˜๊ณ  ํฌ์ธํ„ฐ ์ถ”์  ์ปค๋„์„ ์‚ฌ์šฉํ•˜์—ฌ GPU์—์„œ ์•ก์„ธ์Šคํ•จ์œผ๋กœ์จ ์™•๋ณต ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ธก์ •ํ•œ๋‹ค. ์ด๊ฒƒ์€ CPU-GPU ํ†ต์‹ ์˜ ์‹ค์ œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•ด์ค€๋‹ค.

./nvbandwidth -t host_device_latency_sm -i 5

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.37.08.png

๊ฒฐ๊ณผ๋Š” ์ง€์—ฐ ์‹œ๊ฐ„์ด ์•ฝย 1.4 ๋งˆ์ดํฌ๋กœ์ดˆ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ML ์›Œํฌ๋กœ๋“œ์—์„œ ์ข…์ข… ๊ด€์ฐฐํ•˜๋Š” ๋ช‡ ๋งˆ์ดํฌ๋กœ์ดˆ์˜ ์ปค๋„ ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์„ค๋ช…ํ•ด์ค€๋‹ค. ๋งŽ์€ ์ž‘์€ ์ปค๋„์„ ์‹คํ–‰ํ•˜๋Š” ์›Œํฌ๋กœ๋“œ์˜ ๊ฒฝ์šฐ, ์ถ”๊ฐ€๋œ ์ง€์—ฐ ์‹œ๊ฐ„์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋  ์ˆ˜ ์žˆ๋‹ค; ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ๊ฒน์น˜๋Š” ์‹คํ–‰์— ์˜ํ•ด ์ˆจ๊ฒจ์ง„๋‹ค.

(์˜ˆ๋ฅผ ๋“ค์–ด ์†Œํ˜• ๋ชจ๋ธ์ด๋‚˜ ์ž‘์€ ๋ฐฐ์น˜์˜ ๊ฒฝ์šฐ ์ปค๋„ ์‹คํ–‰ ๋•Œ๋ฌธ์— GPU์—์„œ ์ถ”๋ก ์ด ํฌํ™”๋˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. FlashFormer๋Š” ์†๋„ ํ–ฅ์ƒ์„ ์–ป๊ธฐ ์œ„ํ•ด ์ „์ฒด ๋ ˆ์ด์–ด๋ฅผ ์œตํ•ฉํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค (Nrusimha et al., 2025).)

๐Ÿš€ย ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•œ CUDA ๊ทธ๋ž˜ํ”„

CUDA ๊ทธ๋ž˜ํ”„๋Š” ์ผ๋ จ์˜ ์ž‘์—…์„ ์บก์ฒ˜ํ•˜๊ณ  ๋‹จ์ผ ๋‹จ์œ„๋กœ ์žฌ์ƒํ•จ์œผ๋กœ์จ ๊ฐ ์ปค๋„ ์‹คํ–‰์— ๋Œ€ํ•œ ๋งˆ์ดํฌ๋กœ์ดˆ ๋‹จ์œ„์˜ CPU-GPU ์™•๋ณต ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ œ๊ฑฐํ•˜์—ฌ ์ปค๋„ ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์€ ๋งŽ์€ ์ž‘์€ ์ปค๋„์ด๋‚˜ ๋นˆ๋ฒˆํ•œ CPU-GPU ๋™๊ธฐํ™”๊ฐ€ ์žˆ๋Š” ์›Œํฌ๋กœ๋“œ์— ํŠนํžˆ ์œ ์šฉํ•˜๋‹ค. ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ ์ดํ•ด ๋ฐ ์ตœ์ ํ™”์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ NVIDIA Nsight Systems์˜ ์˜ค๋ฒ„ํ—ค๋“œ ๋ฐ ์ง€์—ฐ ์‹œ๊ฐ„ ์‹œ๊ฐํ™” ์ดํ•ด(https://developer.nvidia.com/blog/understanding-the-visualization-of-overhead-and-latency-in-nsight-systems/) ๋ฅผ ์ฐธ์กฐํ•ด๋ผ.

โš ๏ธย MoE ๋ชจ๋ธ ๋ฐ CPU-GPU ๋™๊ธฐํ™” ์˜ค๋ฒ„ํ—ค๋“œ

์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(MoE) ๋ชจ๋ธ์˜ ์ผ๋ถ€ ๊ตฌํ˜„์€ ์„ ํƒ๋œ ์ „๋ฌธ๊ฐ€์— ์ ์ ˆํ•œ ์ปค๋„์„ ์Šค์ผ€์ค„๋งํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋ฐ˜๋ณต์—์„œ CPU-GPU ๋™๊ธฐํ™”๋ฅผ ์š”๊ตฌํ•œ๋‹ค. ์ด๊ฒƒ์€ ํŠนํžˆ CPU-GPU ์—ฐ๊ฒฐ์ด ๋А๋ฆด ๋•Œ ์ฒ˜๋ฆฌ๋Ÿ‰์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋Š” ์ปค๋„ ์‹คํ–‰ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ MoE์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, DeepSeek MOE ์ปค๋„์˜ MakoGenerate ์ตœ์ ํ™”์—์„œ, ์ฐธ์กฐ ๊ตฌํ˜„์€ ์ˆœ๋ฐฉํ–ฅ ํŒจ์Šค๋‹น 67๊ฐœ์˜ CPU-GPU ๋™๊ธฐํ™” ์ง€์ ๊ณผ ํ•จ๊ป˜ 1,043๊ฐœ์˜ ์ปค๋„์„ ๋””์ŠคํŒจ์น˜ํ–ˆ๋‹ค. ์ „๋ฌธ๊ฐ€ ๋ผ์šฐํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์žฌ๊ตฌ์„ฑํ•จ์œผ๋กœ์จ, ๊ทธ๋“ค์€ ์ด๋ฅผ 533๊ฐœ์˜ ์ปค๋„ ์‹คํ–‰๊ณผ ๋‹จ 3๊ฐœ์˜ ๋™๊ธฐํ™” ์ง€์ ์œผ๋กœ ์ค„์—ฌ, ๋™๊ธฐํ™” ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ 97% ์ค„์ด๊ณ  ์ข…๋‹จ ๊ฐ„ ์ง€์—ฐ ์‹œ๊ฐ„์„ 44% ์ค„์˜€๋‹ค. ๋ชจ๋“  MoE ๊ตฌํ˜„์ด CPU-GPU ๋™๊ธฐํ™”๋ฅผ ์š”๊ตฌํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ (ํ˜„๋Œ€ ๊ตฌํ˜„์€ ์ข…์ข… ๋ผ์šฐํŒ…์„ ์ „์ ์œผ๋กœ GPU์— ์œ ์ง€ํ•œ๋‹ค), ๊ทธ๋ ‡๊ฒŒ ํ•˜๋Š” ๊ฒฝ์šฐ ํšจ์œจ์ ์ธ CPU-GPU ํ†ต์‹ ์ด ์„ฑ๋Šฅ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•œ๋‹ค.

๐Ÿ”—ย Grace Hopper ์Šˆํผ์นฉ: CPU-GPU ํ†ต์‹ ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹

NVIDIA์˜ Grace Hopper ์Šˆํผ์นฉ์€ ๊ธฐ์กด x86+Hopper ์‹œ์Šคํ…œ์— ๋น„ํ•ด CPU-GPU ํ†ต์‹ ์— ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค. ์ฃผ์š” ๊ฐœ์„  ์‚ฌํ•ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  • 1:1 GPU ๋Œ€ CPU ๋น„์œจ (x86+Hopper์˜ ๊ฒฝ์šฐ 4:1๊ณผ ๋น„๊ต), GPU๋‹น 3.5๋ฐฐ ๋” ๋†’์€ CPU ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ ์ œ๊ณต
  • NVLink-C2C๊ฐ€ PCIe Gen5 ๋ ˆ์ธ์„ ๋Œ€์ฒดํ•˜์—ฌ 900 GB/s ๋Œ€ 128 GB/s ์ œ๊ณต (7๋ฐฐ ๋” ๋†’์€ GPU-CPU ๋งํฌ ๋Œ€์—ญํญ)
  • PCIe Gen4๋ฅผ ํ†ตํ•ด ์—ฐ๊ฒฐ๋œ InfiniBand NDR400 NIC๋ณด๋‹ค 9๋ฐฐ ๋” ๋†’์€ GPU-GPU ๋งํฌ ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•˜๋Š” NVLink ์Šค์œ„์น˜ ์‹œ์Šคํ…œ

์ž์„ธํ•œ ๋‚ด์šฉ์€ NVIDIA Grace Hopper ์Šˆํผ์นฉ ์•„ํ‚คํ…์ฒ˜ ๋ฐฑ์„œ (11ํŽ˜์ด์ง€, https://download.deltacomputer.com/NVIDIA Grace Hopper Superchip Architecture Whitepaper.pdf)๋ฅผ ์ฐธ๊ณ ํ•˜๋ผ.

โš ๏ธย NUMA ์นœํ™”๋„: ๋ฉ€ํ‹ฐ ์†Œ์ผ“ ์„ฑ๋Šฅ์— ์ค‘์š”ํ•จ

์šฐ๋ฆฌ์˜ AMD EPYC 7R13 ๋…ธ๋“œ (2 ์†Œ์ผ“, ๊ฐ 48 ์ฝ”์–ด)์™€ ๊ฐ™์€ ๋ฉ€ํ‹ฐ ์†Œ์ผ“ ์‹œ์Šคํ…œ์—์„œ, NUMA ์นœํ™”๋„(NUMA affinity)๋Š” GPU ์„ฑ๋Šฅ์— ์ค‘์š”ํ•˜๋‹ค. ์ด๋Š” ๋Œ€์ƒ ์žฅ์น˜ (์˜ˆ: GPU)์™€ ๋™์ผํ•œ ์†Œ์ผ“์„ ๊ณต์œ ํ•˜๋Š” CPU ์ฝ”์–ด์—์„œ ํ”„๋กœ์„ธ์Šค๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. GPU ํ”„๋กœ์„ธ์Šค๊ฐ€ GPU๊ฐ€ ์—ฐ๊ฒฐ๋œ ๊ณณ๊ณผ ๋‹ค๋ฅธ NUMA ๋…ธ๋“œ์˜ CPU์—์„œ ์‹คํ–‰๋˜๋ฉด, ์ž‘์—…์€ CPU ์ƒํ˜ธ ์—ฐ๊ฒฐ (AMD Infinity Fabric)์„ ํ†ต๊ณผํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ƒ๋‹นํ•œ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ๋Œ€์—ญํญ ์ œ์•ฝ์ด ์ถ”๊ฐ€๋œ๋‹ค.

๋จผ์ €, ์„ฑ๋Šฅ์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด NUMA ํ† ํด๋กœ์ง€์™€ ๋…ธ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฒ€์‚ฌํ•ด๋ณด์ž:

$ numactl --hardware
node distances:
node   0   1
  0:  10  32
  1:  32  10

๊ฑฐ๋ฆฌ ๊ฐ’์€ ๋™์ผํ•œ NUMA ๋…ธ๋“œ (๊ฑฐ๋ฆฌ 10)์˜ ๋ฉ”๋ชจ๋ฆฌ์— ์•ก์„ธ์Šคํ•˜๋Š” ๊ฒƒ์ด ๋‹ค๋ฅธ NUMA ๋…ธ๋“œ (๊ฑฐ๋ฆฌ 32)๋กœ ๊ฑด๋„ˆ๊ฐ€๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด 3.2๋ฐฐ์˜ ๋ฉ”๋ชจ๋ฆฌ ์•ก์„ธ์Šค ์ง€์—ฐ ์‹œ๊ฐ„ ์ฐจ์ด๋Š” ํ”„๋กœ์„ธ์Šค๊ฐ€ ์ž˜๋ชป๋œ NUMA ๋…ธ๋“œ์— ๊ณ ์ •๋  ๋•Œ GPU ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค.

NUMA ๊ด€๋ จ ์„ฑ๋Šฅ ๋ฌธ์ œ ์ง„๋‹จ ๋ฐ ํ•ด๊ฒฐ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‹จ๊ณ„๋Š” ์ƒํ˜ธ ์—ฐ๊ฒฐ ์„ฑ๋Šฅ ๋ฌธ์ œ ํ•ด๊ฒฐ ์„น์…˜์„ ์ฐธ๊ณ ํ•ด๋ผ.

GPU ๋Œ€ GPU ๋…ธ๋“œ ๋‚ด (GPU-to-GPU Intranode)

๋ถ„์‚ฐ ํ•™์Šต์—์„œ, GPU๋Š” ์ข…์ข… ๋ฐ˜๋ณต๋‹น ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ์˜ ๋ฐ์ดํ„ฐ์ธ ๊ธฐ์šธ๊ธฐ, ๊ฐ€์ค‘์น˜, ํ™œ์„ฑํ™”๋ฅผ ์ž์ฃผ ๊ตํ™˜ํ•ด์•ผ ํ•œ๋‹ค. ์ด ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋Š” ํ†ต์‹ ์˜ ์‹ ์ค‘ํ•œ ์ฒ˜๋ฆฌ๋ฅผ ์š”๊ตฌํ•œ๋‹ค. H100์˜ ๋‚ด๋ถ€ HBM์€ ์•ฝ 3 TB/s๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ˆ˜๋กœ ์ž˜๋ชป๋œ ํ”Œ๋ž˜๊ทธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด GPU ๋Œ€ GPU ํ†ต์‹  ๋Œ€์—ญํญ์ด ์™„์ „ํžˆ ๋ง๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค!

๋™์ผํ•œ ๋…ธ๋“œ ๋‚ด์˜ GPU ๊ฐ„ ํ†ต์‹ ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๋ฐฉ๋ฒ• (๊ทธ๋ฆฌ๊ณ  ์„ค์ •ํ•ด์•ผ ํ•˜๊ฑฐ๋‚˜ ์„ค์ •ํ•˜์ง€ ๋ง์•„์•ผ ํ•˜๋Š” ๋ชจ๋“  ํ”Œ๋ž˜๊ทธ)์„ ๊ฒ€ํ† ํ•˜์—ฌ ์™œ ๋ง๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š”์ง€ ๊ทธ ์ด์œ ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž ๐Ÿ™‚

์š”์•ฝ:ย ๋…ธ๋“œ ๋‚ด์˜ GPU๋Š” ์„ธ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ํ†ต์‹ ํ•  ์ˆ˜ ์žˆ๋‹ค: CPU๋ฅผ ํ†ตํ•จ (๊ฐ€์žฅ ๋А๋ฆผ, ~3 GB/s, PCIe ๋ณ‘๋ชฉ), EFA NIC๋ฅผ ํ†ตํ•œ GPUDirect RDMA (~38 GB/s), ๋˜๋Š” NVLink๋ฅผ ํ†ตํ•œ GPUDirect RDMA (~786 GB/s ์–‘๋ฐฉํ–ฅ). NVLink๋Š” 9-112๋ฐฐ ๋น ๋ฅด๋ฉฐ CPU/PCIe๋ฅผ ์™„์ „ํžˆ ์šฐํšŒํ•œ๋‹ค. NCCL์€ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•  ๋•Œ NVLink๋ฅผ ์ž๋™์œผ๋กœ ์šฐ์„ ์‹œํ•œ๋‹ค. NVLink SHARP (NVLS)๋Š” ํ•˜๋“œ์›จ์–ด ๊ฐ€์† ์ง‘ํ•ฉ(collective)์„ ์ œ๊ณตํ•˜์—ฌ allreduce ์„ฑ๋Šฅ์„ 1.3๋ฐฐ์ธ 480 GB/s๋กœ ๋†’์ธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ alltoall ์ž‘์—… (340 GB/s)์€ NVLS ๊ฐ€์†์˜ ์ด์ ์„ ์–ป์ง€ ๋ชปํ•œ๋‹ค.

CPU๋ฅผ ํ†ตํ•ด

์ˆœ์ง„ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ˜ธ์ŠคํŠธ ๋ฉ”๋ชจ๋ฆฌ (SHM)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค: ๋ฐ์ดํ„ฐ๋Š” GPU1์—์„œ PCIe ์Šค์œ„์น˜๋ฅผ ํ†ตํ•ด CPU๋กœ, ํ˜ธ์ŠคํŠธ ๋ฉ”๋ชจ๋ฆฌ๋กœ ๋“ค์–ด๊ฐ”๋‹ค๊ฐ€, ๋‹ค์‹œ CPU๋ฅผ ํ†ตํ•ด, PCIe ์Šค์œ„์น˜๋ฅผ ๋‹ค์‹œ ํ†ต๊ณผํ•˜์—ฌ, ๋งˆ์ง€๋ง‰์œผ๋กœ GPU2๋กœ ์ด๋™ํ•œ๋‹ค. ์ด๊ฒƒ์€ NCCL์— ์˜ํ•ดย NCCL_P2P_DISABLE=1ย ๋ฐย FI_PROVIDER=tcpย ํ™˜๊ฒฝ ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ฌ์„ฑ๋  ์ˆ˜ ์žˆ๋‹ค (๊ถŒ์žฅ๋˜์ง€๋Š” ์•Š์Œ). ์ด ๋ชจ๋“œ๊ฐ€ ํ™œ์„ฑํ™”๋˜๋ฉดย NCCL_DEBUG=INFO๋ฅผ ์„ค์ •ํ•˜์—ฌ ํ™•์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฉ”์‹œ์ง€๊ฐ€ ํ‘œ์‹œ๋œ๋‹ค:

NCCL INFO Channel 00 : 1[1] -> 0[0] via SHM/direct/direct

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.51.50.png

CPU ๋ฐ ๋ฉ”์ธ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•œ GPU-๋Œ€-GPU ํ†ต์‹  ๊ฒฝ๋กœ, PCIe ์Šค์œ„์น˜์™€ CPU๋ฅผ ํ†ต๊ณผํ•˜๋Š” ๋น„ํšจ์œจ์ ์ธ ์™•๋ณต์„ ๋ณด์—ฌ์ค€๋‹ค.

์ด ์šฐํšŒ ๊ฒฝ๋กœ๋Š” ์—ฌ๋Ÿฌ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์‚ฌ๋ฅผ ํฌํ•จํ•˜๋ฉฐ PCIe ๋ฐ CPU ๋ฉ”๋ชจ๋ฆฌ ๋ฒ„์Šค๋ฅผ ๋ชจ๋‘ ํฌํ™”์‹œ์ผœ ํ˜ผ์žก์„ ์œ ๋ฐœํ•œ๋‹ค. 4๊ฐœ์˜ H100์ด ๋™์ผํ•œ CPU ๋ฉ”๋ชจ๋ฆฌ ๋ฒ„์Šค๋ฅผ ๊ณต์œ ํ•˜๋Š” ์šฐ๋ฆฌ ํ† ํด๋กœ์ง€์—์„œ, ์ด ํ˜ผ์žก์€ ์—ฌ๋Ÿฌ GPU๊ฐ€ ๋™์‹œ ํ†ต์‹ ์„ ์‹œ๋„ํ•  ๋•Œ ๋”์šฑ ๋ฌธ์ œ๊ฐ€ ๋˜๋Š”๋ฐ, ๊ทธ๋“ค์ด ๋™์ผํ•œ ์ œํ•œ๋œ CPU ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์„ ๋‘๊ณ  ๊ฒฝ์Ÿํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹คโ€ฆ ๐Ÿ˜ข

์ด CPU ์ค‘๊ฐœ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด, ์šฐ๋ฆฌ๋Š” ๊ทผ๋ณธ์ ์œผ๋กœ CPU์™€ PCIe ์Šค์œ„์น˜ ์‚ฌ์ด์˜ ~16 GB/s์ธ PCIe Gen4 x8 ๋งํฌ์— ์˜ํ•ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๊ฒช๋Š”๋‹ค. ๋‹คํ–‰ํžˆ๋„, CPU๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ณ  ์šฐ๋ฆฌ GPU๊ฐ€ ํ†ต์‹ ํ•  ์ˆ˜ ์žˆ๋Š” ๋” ๋‚˜์€ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค:ย GPUDirect RDMA.

Libfabric EFA๋ฅผ ํ†ตํ•ด

**GPUDirect RDMA (Remote Direct Memory Access ๋˜๋Š” GDRDMA)**๋Š” GPU ๋ฉ”๋ชจ๋ฆฌ์— ๋Œ€ํ•œ ์ง์ ‘ ์•ก์„ธ์Šค๋ฅผ ํ—ˆ์šฉํ•˜์—ฌ NVIDIA GPU ๊ฐ„์˜ ์ง์ ‘ ํ†ต์‹ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ์Šคํ…œ CPU๋ฅผ ํ†ต๊ณผํ•  ํ•„์š”์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ  ์‹œ์Šคํ…œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•œ ๋ฒ„ํผ ๋ณต์‚ฌ๋ฅผ ํ”ผํ•˜์—ฌ, ๊ธฐ์กด CPU ์ค‘๊ฐœ ์ „์†ก์— ๋น„ํ•ด ์ตœ๋Œ€ 10๋ฐฐ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค. GPUDirect RDMA๋Š” PCIe๋ฅผ ํ†ตํ•ด ์ž‘๋™ํ•˜์—ฌ ๋…ธ๋“œ ๋‚ด์—์„œ (์—ฌ๊ธฐ์„œ ๋ณด๋Š” ๋ฐ”์™€ ๊ฐ™์ด) ๊ทธ๋ฆฌ๊ณ  RDMA ๊ธฐ๋Šฅ์ด ์žˆ๋Š” NIC (๋„คํŠธ์›Œํฌ ์ธํ„ฐํŽ˜์ด์Šค ์นด๋“œ, ๋‹ค์Œ ์„น์…˜์—์„œ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋…ธ๋“œ ๊ฐ„์— ๋น ๋ฅธ GPU ๋Œ€ GPU ํ†ต์‹ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.ย ์ž์„ธํ•œ ๋‚ด์šฉ์€ NVIDIA GPUDirect (https://developer.nvidia.com/gpudirect)๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ..

ํ† ํด๋กœ์ง€ ๋‹ค์ด์–ด๊ทธ๋žจ์„ ๋‹ค์‹œ ๋ณด๋ฉด, ๊ฐ PCIe ์Šค์œ„์น˜์— 4๊ฐœ์˜ EFA (Elastic Fabric Adapter) NIC๊ฐ€ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ๊ฐ GPU๋Š” 4๊ฐœ์˜ EFA ์–ด๋Œ‘ํ„ฐ์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ๋‹ค. EFA๋Š” ํด๋ผ์šฐ๋“œ ์ธ์Šคํ„ด์Šค๋ฅผ ์œ„ํ•œ AWS์˜ ๋งž์ถคํ˜• ๊ณ ์„ฑ๋Šฅ ๋„คํŠธ์›Œํฌ ์ธํ„ฐํŽ˜์ด์Šค๋กœ, ์ €์ง€์—ฐ, ๊ณ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ธ์Šคํ„ด์Šค ๊ฐ„ ํ†ต์‹ ์„ ์ œ๊ณตํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. p5 ์ธ์Šคํ„ด์Šค์—์„œ, EFA๋Š” ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” libfabric ์ธํ„ฐํŽ˜์ด์Šค (๊ณ ์„ฑ๋Šฅ ๊ณ„์‚ฐ์„ ์œ„ํ•œ ํŠน์ • ํ†ต์‹  API)๋ฅผ ๋…ธ์ถœํ•˜๋ฉฐ, ๋…ธ๋“œ ๊ฐ„ ์ง์ ‘ GPU ๋Œ€ GPU ํ†ต์‹ ์„ ์œ„ํ•œ GPUDirect RDMA๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” RDMA ์œ ์‚ฌ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค.

(EFA๋Š” ์ƒํ’ˆ ๋ฐ์ดํ„ฐ ์„ผํ„ฐ ๋„คํŠธ์›Œํฌ(๋งŽ์€ ์ˆ˜์˜ ๋„คํŠธ์›Œํฌ ๊ฒฝ๋กœ๊ฐ€ ์žˆ๋Š”)๋ฅผ ์‚ฌ์šฉํ•˜๋„๋ก ์„ค๊ณ„๋œ Scalable Reliable Datagram (SRD)์ด๋ผ๋Š” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋”๋„ท ๊ธฐ๋ฐ˜ ์ „์†ก ํ”„๋กœํ† ์ฝœ์„ ์‚ฌ์šฉํ•œ๋‹ค. ์—ฌ๊ธฐ(https://aws.amazon.com/blogs/hpc/in-the-search-for-performance-theres-more-than-one-way-to-build-a-network/) ์—์„œ ๊ทธ ์ค‘์š”์„ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค.)

$ lstopo -v
...
## We can see 4 such EFA devices per each PCIe switch
PCIBridge L#8 (busid=0000:46:01.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[4f-4f] PCIVendor="Amazon.com, Inc.")
PCI L#6 (busid=0000:4f:00.0 id=1d0f:efa1 class=0200(Ethernet) link=15.75GB/s PCISlot=82-1 PCIVendor="Amazon.com, Inc.")
    OpenFabrics L#4 (NodeGUID=cd77:f833:0000:1001 SysImageGUID=0000:0000:0000:0000 Port1State=4 Port1LID=0x0 Port1LMC=1 Port1GID0=fe80:0000:0000:0000:14b0:33ff:fef8:77cd) "rdmap79s0"
...

$ fi_info --verbose
        fi_link_attr:
            address: EFA-fe80::14b0:33ff:fef8:77cd
            mtu: 8760            # maximum packet size is 8760 bytes
            speed: 100000000000  # each EFA link provides 100 Gbps of bandwidth
            state: FI_LINK_UP
            network_type: Ethernet

๊ฐ EFA ๋งํฌ๋Š” 100 Gbps (12.5 GB/s)์˜ ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•œ๋‹ค. GPU๋‹น 4๊ฐœ์˜ EFA NIC์™€ ๋…ธ๋“œ๋‹น 8๊ฐœ์˜ GPU๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ, ์ด๋Š” **๋…ธ๋“œ๋‹น 100ร—4ร—8=3200 Gbps (400GB/s)**์˜ ์ด ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•œ๋‹ค.

(libfabric๊ณผ EFA๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด 3200 Gbps ๋Œ€์—ญํญ์„ ์™„์ „ํžˆ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ž์„ธํ•œ ํƒ๊ตฌ๋Š” Lequn Chen์˜ ํ›Œ๋ฅญํ•œ ๋ธ”๋กœ๊ทธ ์‹œ๋ฆฌ์ฆˆ: Harnessing 3200 Gbps Network: A Journey with RDMA, EFA, and libfabric์„ ์ฐธ๊ณ ํ•˜๋ผ.)

EFA๋ฅผ ํ†ตํ•œ GPUDirect RDMA๋ฅผ ํ™œ์„ฑํ™”ํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋ ค๋ฉด, FI_PROVIDER=efa ๋ฐ NCCL_P2P_DISABLE=1 ํ™˜๊ฒฝ ๋ณ€์ˆ˜๋ฅผ ์„ค์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด ๋ชจ๋“œ๊ฐ€ ํ™œ์„ฑํ™”๋˜๋ฉด NCCL_DEBUG=INFO๋ฅผ ์„ค์ •ํ•˜์—ฌ ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฉ”์‹œ์ง€๊ฐ€ ํ‘œ์‹œ๋œ๋‹ค:

NCCL INFO Channel 01/1 : 1[1] -> 0[0] [receive] via NET/Libfabric/0/GDRDMA/Shared

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.55.16.png

Libfabric EFA๋ฅผ ํ†ตํ•œ GPU-๋Œ€-GPU ํ†ต์‹  ๊ฒฝ๋กœ. ์ด๊ฒƒ์€ NVLink๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์— ๋น„ํ•ด ๋…ธ๋“œ ๋‚ด ํ†ต์‹ ์— ๋œ ํšจ์œจ์ ์ด๋ผ๋Š” ์ ์— ์œ ์˜ํ•ด๋ผ.

EFA๋ฅผ ํ†ตํ•œ GPUDirect RDMA๊ฐ€ GPU๋‹น 4๊ฐœ์˜ EFA ์นด๋“œ๋กœ ์•ฝ 50 GB/s๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ CPU ์ค‘๊ฐœ ์ „์†ก๋ณด๋‹ค ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ๋” ์ž˜ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์—ฌ๊ธฐ์„œย NVLink๊ฐ€ ๋“ฑ์žฅํ•œ๋‹ค.

NVLink๋ฅผ ํ†ตํ•ด

NVLink๋Š” ์„œ๋ฒ„ ๋‚ด์—์„œ ๋น ๋ฅธ ๋‹ค์ค‘ GPU ํ†ต์‹ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” NVIDIA์˜ ๊ณ ์†, ์ง์ ‘ GPU ๋Œ€ GPU ์ƒํ˜ธ ์—ฐ๊ฒฐ ๊ธฐ์ˆ ์ด๋‹ค. H100์€ 4์„ธ๋Œ€ NVLink (NVLink 4.0)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฐ๊ฐ ์–‘๋ฐฉํ–ฅ 50 GB/s๋กœ ์ž‘๋™ํ•˜๋Š” 18๊ฐœ์˜ ๋งํฌ๋ฅผ ํ†ตํ•ด GPU๋‹น 900 GB/s์˜ ์–‘๋ฐฉํ–ฅ ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•œ๋‹ค (NVIDIA H100 Tensor Core GPU ๋ฐ์ดํ„ฐ์‹œํŠธ https://resources.nvidia.com/en-us-hopper-architecture/nvidia-h100-tensor-c).

DGX H100 ์•„ํ‚คํ…์ฒ˜์—์„œ, 4๊ฐœ์˜ 3์„ธ๋Œ€ NVSwitch๋Š” ๊ฐ GPU๊ฐ€ ์Šค์œ„์น˜ ์ „๋ฐ˜์— ๊ฑธ์ณ 5+4+4+5 ๋งํฌ๋กœ ์—ฐ๊ฒฐ๋˜๋Š” ๊ณ„์ธตํ™”๋œ ํ† ํด๋กœ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 8๊ฐœ์˜ GPU๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค. ์ด ๊ตฌ์„ฑ์€ ๋‹จ 1๊ฐœ์˜ NVSwitch๋ผ๋Š” ์ผ์ •ํ•œ ํ™‰ ์ˆ˜๋กœ ๋ชจ๋“  GPU ์Œ ๊ฐ„์— ์—ฌ๋Ÿฌ ์ง์ ‘ ๊ฒฝ๋กœ๋ฅผ ๋ณด์žฅํ•˜์—ฌ 3.6 TB/s์˜ ์ด ์–‘๋ฐฉํ–ฅ NVLink ๋„คํŠธ์›Œํฌ ๋Œ€์—ญํญ์„ ๊ตฌ์ถ•ํ•œ๋‹ค.

NVLink 2.0 (Volta)NVLink 3.0 (Ampere)NVLink 4.0 (Hopper)NVLink 5.0 (Blackwell)
๋Œ€์—ญํญ300 GB/s600 GB/s900 GB/s

ํ‘œ: ์„ธ๋Œ€๋ณ„ NVLink ๋Œ€์—ญํญ ๋น„๊ต, ์ด๋ก ์  ์‚ฌ์–‘์„ ๋ณด์—ฌ์ค€๋‹ค

๊ธฐ๋ณธ์ ์œผ๋กœ NCCL์€ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•  ๋•Œ ๋…ธ๋“œ ๋‚ด GPU ํ†ต์‹ ์„ ์œ„ํ•ด NVLink๋ฅผ ์šฐ์„ ์‹œํ•˜๋Š”๋ฐ, ์ด๋Š” ๋™์ผํ•œ ๋จธ์‹ ์— ์žˆ๋Š” GPU ๊ฐ„์— ๊ฐ€์žฅ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ๊ฐ€์žฅ ๋†’์€ ๋Œ€์—ญํญ ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ”Œ๋ž˜๊ทธ๋ฅผ ์ œ๋Œ€๋กœ ์„ค์ •ํ•˜์ง€ ์•Š์•˜๋‹ค๋ฉด NVLink ์‚ฌ์šฉ์„ ๋ฐฉํ•ดํ•˜๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค! ๐Ÿ˜ฑ

NVLink๋Š” CPU๋‚˜ ์‹œ์Šคํ…œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ณ  ์ง์ ‘ GPU ๋Œ€ GPU ๋ฉ”๋ชจ๋ฆฌ ์•ก์„ธ์Šค๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. NVLink๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์„ ๋•Œ NCCL์€ PCIe๋ฅผ ํ†ตํ•œ GPUDirect P2P๋กœ ๋˜๋Œ์•„๊ฐ€๊ฑฐ๋‚˜, ์†Œ์ผ“ ๊ฐ„ PCIe ์ „์†ก์ด ์ฐจ์„ ์ฑ…์ผ ๋•Œ ๊ณต์œ  ๋ฉ”๋ชจ๋ฆฌ (SHM) ์ „์†ก์„ ์‚ฌ์šฉํ•œ๋‹ค.

NVLink๊ฐ€ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋ ค๋ฉดย NCCL_DEBUG=INFO๋ฅผ ์„ค์ •ํ•˜๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฉ”์‹œ์ง€๋ฅผ ์ฐพ์œผ๋ฉด ๋œ๋‹ค:

NCCL INFO Channel 00/1 : 0[0] -> 1[1] via P2P/CUMEM

(CUMEM์€ ํ”ผ์–ด ํˆฌ ํ”ผ์–ด ์ž‘์—…์ด CUDA ๋ฉ”๋ชจ๋ฆฌ ํ•ธ๋“ค(cuMem API)์„ ์‚ฌ์šฉํ•จ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์—ฌ๊ธฐ(https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#cumem-host-allocations) ๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ.)

๋‹ค์Œ ๋‹ค์ด์–ด๊ทธ๋žจ์€ NVLink๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ด๋™ํ•˜๋Š” ์ง์ ‘ ๊ฒฝ๋กœ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.57.36.png

NVLink 4.0์˜ ์ด๋ก ์  ๋Œ€์—ญํญ์ธ 900 GB/s์™€ EFA์˜ ~50 GB/s๋ฅผ ๋น„๊ตํ•˜๋ฉด, ๋…ธ๋“œ ๋‚ด ํ†ต์‹ ์— ๋Œ€ํ•ด 18๋ฐฐ์˜ ์ด์ ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ์—์„œ ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” NCCL์˜ SendRecv ์„ฑ๋Šฅ ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ†ต์‹  ๊ฒฝ๋กœ์— ๊ฑธ์ณ ์‹ค์ œ ๋Œ€์—ญํญ์„ ์ธก์ •ํ–ˆ๋‹ค:

$ FI_PROVIDER=XXX NCCL_P2P_DISABLE=X sendrecv_perf -b 8 -e 8G -f 2 -g 1 -c 1 -n 100

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 8.58.39.png

์ด๊ฒƒ์€ NVLink๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋” ํšจ์œจ์ ์ธ์ง€ ์˜์‹ฌ์˜ ์—ฌ์ง€ ์—†์ด ๋ณด์—ฌ์ค€๋‹ค: ๊ทธ๊ฒƒ์€ EFA์˜ 38.16 GB/s (9๋ฐฐ ๋” ๋น ๋ฆ„, ๋˜๋Š” ์–‘๋ฐฉํ–ฅ 18๋ฐฐ)์™€ CPU ๊ธฐ์ค€์„ ์˜ 3.24 GB/s (112.6๋ฐฐ ๋” ๋น ๋ฆ„)์— ๋น„ํ•ดย 364.93 GB/s๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ธก์ •์€ NCCL์ด ๋…ธ๋“œ ๋‚ด GPU ํ†ต์‹ ์„ ์œ„ํ•ด NVLink๋ฅผ ์šฐ์„ ์‹œํ•˜๋Š” ์ด์œ ๋ฅผ ํ™•์ธ์‹œ์ผœ ์ฃผ์ง€๋งŒ, NVLink์˜ ์„ฑ๋Šฅ์„ ๋” ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์–‘๋ฐฉํ–ฅ ๋™์‹œ ๋ณต์‚ฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  GPU ์Œ ๊ฐ„์˜ ์–‘๋ฐฉํ–ฅ ๋Œ€์—ญํญ์„ ์ธก์ •ํ•˜๋Š”ย nvbandwidth๋ฅผ ์‹คํ–‰ํ•ด๋ณด์ž:

./nvbandwidth -t device_to_device_bidirectional_memcpy_write_ce -b <message_size> -i 5
memcpy CE GPU(row) <-> GPU(column) Total bandwidth (GB/s)
           0         1         2         3         4         5         6         7
 0       N/A    785.81    785.92    785.90    785.92    785.78    785.92    785.90
 1    785.83       N/A    785.87    785.83    785.98    785.90    786.05    785.94
 2    785.87    785.89       N/A    785.83    785.96    785.83    785.96    786.03
 3    785.89    785.85    785.90       N/A    785.96    785.89    785.90    785.96
 4    785.87    785.96    785.92    786.01       N/A    785.98    786.14    786.08
 5    785.81    785.92    785.85    785.89    785.89       N/A    786.10    786.03
 6    785.94    785.92    785.99    785.99    786.10    786.05       N/A    786.07
 7    785.94    786.07    785.99    786.01    786.05    786.05    786.14       N/A

SUM device_to_device_bidirectional_memcpy_write_ce_total 44013.06

์ธก์ •๋œ ์–‘๋ฐฉํ–ฅ ๋Œ€์—ญํญย 786 GB/s๋Š” NVLink 4.0์˜ ์ด๋ก ์  900 GB/s ์‚ฌ์–‘์˜ 85%๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. NVLink๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ CPU ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์™„์ „ํžˆ ์šฐํšŒํ–ˆ๋‹ค (gpu-to-gpu ํ†ต์‹ ์„ ์œ„ํ•ด)!

ํ•˜์ง€๋งŒ ์ด๊ฒƒ์ด ์ง‘ํ•ฉ ํ†ต์‹  ํŒจํ„ด์œผ๋กœ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™˜๋˜๋Š”๊ฐ€? NCCL ํ…Œ์ŠคํŠธ์˜ย all_reduce_perfย ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ๋…ธ๋“œ ๋‚ด์˜ allreduce ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ด ๋ณธ๋‹ค.

(์ง‘ํ•ฉ ํ†ต์‹  ํŒจํ„ด์— ๋Œ€ํ•œ ๋น ๋ฅธ ๋ณต์Šต์€ UltraScale Playbook ๋ถ€๋ก์„ ์ฐธ๊ณ ํ•ด๋ผ.)

$ ./all_reduce_perf -b 8 -e 16G -f 2 -g 1 -c 1 -n 100

(ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํ‚น ์Šคํฌ๋ฆฝํŠธ ๋ฐ ๊ตฌ์„ฑ์— ๋Œ€ํ•ด์„œ๋Š” AWS Distributed Training Samples์˜ ํ›Œ๋ฅญํ•œ ์ปฌ๋ ‰์…˜ (https://github.com/aws-samples/awsome-distributed-training/tree/main/micro-benchmarks/nccl-tests) ์„ ์ฐธ๊ณ ํ•ด๋ผ.)

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.01.15.png

์ž ๊น๋งŒโ€ฆ ์šฐ๋ฆฌ๋Š”ย 480 GB/s๋ฅผ ๋‹ฌ์„ฑํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์ด๋Š” NVLink 4.0์˜ ์ด๋ก ์  ๋‹จ๋ฐฉํ–ฅ ๋Œ€์—ญํญ์ธ 450 GB/s๋ฅผ ์ดˆ๊ณผํ•œ๋‹ค ๐Ÿ˜ฎ ์ด๊ฒƒ์€ ๋ฌด์Šจ ๋งˆ๋ฒ•์ด๋ฉฐ, ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ• ๊นŒ?

๋ฌธ์„œ๋ฅผ ์กฐ๊ธˆ ํŒŒํ—ค์ณ ๋ณด๋‹ˆ, ๋‹ต์€ NVIDIA์˜ ํ•˜๋“œ์›จ์–ด ๊ฐ€์† ์ง‘ํ•ฉ ์—ฐ์‚ฐ ๊ธฐ์ˆ ์ธ **NVLink SHARP (NVLS)**์— ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ๊ทธ๊ฒƒ์€ H100 GPU๊ฐ€ ์žˆ๋Š” ๋‹จ์ผ ๋…ธ๋“œ์—์„œ allreduce ์—ฐ์‚ฐ์— ๋Œ€ํ•ด ์•ฝ 1.3๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•œ๋‹ค!

image.png

NVSwitch๊ฐ€ ์ด๋Ÿฌํ•œ ํ•˜๋“œ์›จ์–ด ๊ฐ€์† ์ง‘ํ•ฉ ์—ฐ์‚ฐ์„ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์€ NVSwitch ์•„ํ‚คํ…์ฒ˜ ํ”„๋ ˆ์  ํ…Œ์ด์…˜ (https://hc34.hotchips.org/assets/program/conference/day2/Network and Switches/NVSwitch HotChips 2022 r5.pdf) ์„ ์ฐธ๊ณ ํ•ด๋ผ.

๊ทธ๊ฒŒ ๋‹ค๋ฅธ ๊ณณ์—์„œ๋„ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์„๊นŒ? alltoall ์„ฑ๋Šฅ์„ ๊ฒ€ํ† ํ•ด๋ณด์ž:

$ ./all_to_all_perf -b 8 -e 16G -f 2 -g 1 -c 1 -n 100

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.03.02.png

์šฐ๋ฆฌ๋Š” alltoall ์—ฐ์‚ฐ์— ๋Œ€ํ•ดย 340 GB/s๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š”๋ฐ, ์ด๋Š” NVLink 4.0์„ ์‚ฌ์šฉํ•˜๋Š” H100 ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ณต๊ฐœ๋œ ๋ฒค์น˜๋งˆํฌ์™€ ์ผ์น˜ํ•œ๋‹ค (์ถœ์ฒ˜ https://juser.fz-juelich.de/record/1019178/files/02-NCCL_NVSHMEM.pdf#page=20.00). allreduce์™€ ๋‹ฌ๋ฆฌ alltoall ์—ฐ์‚ฐ์€ NVLS ํ•˜๋“œ์›จ์–ด ๊ฐ€์†์˜ ์ด์ ์„ ์–ป์ง€ ๋ชปํ•˜๋ฉฐ, ์ด๋Š” allreduce๋กœ ๋‹ฌ์„ฑํ•œ 480 GB/s๊ณผ ๋‹ฌ๋ฆฌ ์—ฌ๊ธฐ์„œ๋Š” 340 GB/s๋ผ๋Š” ์ˆ˜์น˜๊ฐ€ ๋‚˜ํƒ€๋‚˜๋Š” ์ด์œ ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค. alltoall ํŒจํ„ด์€ ๋ชจ๋“  GPU ์Œ ๊ฐ„์˜ ๋” ๋ณต์žกํ•œ ์ง€์  ๊ฐ„ ๋ฐ์ดํ„ฐ ๊ตํ™˜์„ ์š”๊ตฌํ•˜๋ฉฐ, NVSwitch์˜ ์ง‘ํ•ฉ ๊ฐ€์† ๊ธฐ๋Šฅ๋ณด๋‹ค๋Š” ์ˆœ์ˆ˜ํ•œ NVLink์˜ ๊ธฐ๋ณธ ๋Œ€์—ญํญ์— ์˜์กดํ•œ๋‹ค.

โšกย ๊ณ ๊ธ‰ ์ปค๋„ ์ตœ์ ํ™”

์ผ๋ถ€ ์ตœ์ ํ™”๋œ ์ปค๋„์€ ์ „์†ก์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ „์šฉ ์›Œํ”„๋ฅผ ํ• ๋‹นํ•˜์—ฌ ๊ณ„์‚ฐ๊ณผ NVLink ํ†ต์‹ ์„ ๋ถ„๋ฆฌํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ThunderKittens๋Š” ํŠน์ • ์›Œํ”„๊ฐ€ NVLink ์ „์†ก์„ ๋ฐœํ–‰ํ•˜๊ณ  ์™„๋ฃŒ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๋™์•ˆ ๋‹ค๋ฅธ ์›Œํ”„๋Š” ๊ณ„์‚ฐ ์ž‘์—…์„ ๊ณ„์†ํ•˜๋Š” ์›Œํ”„ ์ˆ˜์ค€ ์„ค๊ณ„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. SM ๊ณ„์‚ฐ๊ณผ NVLink ํ†ต์‹ ์˜ ์ด ์„ธ๋ถ„ํ™”๋œ ์ค‘์ฒฉ์€ ๋Œ€๋ถ€๋ถ„์˜ GPU ๊ฐ„ ํ†ต์‹  ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ˆจ๊ธธ ์ˆ˜ ์žˆ๋‹ค. ๊ตฌํ˜„ ์„ธ๋ถ€ ์‚ฌํ•ญ์€ ๋‹ค์ค‘ GPU ์ปค๋„์— ๋Œ€ํ•œ ThunderKittens ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ(https://hazyresearch.stanford.edu/blog/2025-09-22-pgl#fine-grained-overlap-of-sm-compute-and-nvlink-communication-with-thunderkittens) ์„ ์ฐธ๊ณ ํ•ด๋ผ.

NVLink๊ฐ€ ๋‹จ์ผ ๋…ธ๋“œ ๋‚ด์—์„œ ํƒ์›”ํ•œ ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ํ”„๋Ÿฐํ‹ฐ์–ด ๋ชจ๋ธ ํ•™์Šต์€ ์—ฌ๋Ÿฌ ๋…ธ๋“œ์— ๊ฑธ์นœ ํ™•์žฅ์„ ์š”๊ตฌํ•œ๋‹ค.

์ด๊ฒƒ์€ ์ƒˆ๋กœ์šด ์ž ์žฌ์  ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๋„์ž…ํ•œ๋‹ค: NVLink๋ณด๋‹ค ํ›จ์”ฌ ๋‚ฎ์€ ๋Œ€์—ญํญ์—์„œ ์ž‘๋™ํ•˜๋Š” ๋…ธ๋“œ ๊ฐ„ ๋„คํŠธ์›Œํฌ ์ƒํ˜ธ ์—ฐ๊ฒฐ์ด๋‹ค.

GPU ๋Œ€ GPU ๋…ธ๋“œ ๊ฐ„ (GPU-to-GPU Internode)

์š”์•ฝ:ย ๋‹ค์ค‘ ๋…ธ๋“œ GPU ํ†ต์‹ ์€ InfiniBand (400 Gbps) ๋˜๋Š” RoCE (100 Gbps)์™€ ๊ฐ™์€ ๊ณ ์† ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. Allreduce๋Š” ์ž˜ ํ™•์žฅ๋˜์–ด (๋…ธ๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ 320-350 GB/s ์•ˆ์ •์ ), ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. Alltoall์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ณต์žก์„ฑ์œผ๋กœ ์ธํ•ด ๋Œ€์—ญํญ์ด ๋” ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋œ๋‹ค. ์ง€์—ฐ ์‹œ๊ฐ„์€ ๋…ธ๋“œ ๋‚ด ~13ฮผs์—์„œ ๋…ธ๋“œ ๊ฐ„ 55ฮผs+๋กœ ์ ํ”„ํ•œ๋‹ค. ๋นˆ๋ฒˆํ•œ all-to-all ์—ฐ์‚ฐ์ด ํ•„์š”ํ•œ MoE ์›Œํฌ๋กœ๋“œ์˜ ๊ฒฝ์šฐ, NVSHMEM์€ CPU ์กฐ์œจ ์ „์†ก๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์œผ๋กœ ๋น„๋™๊ธฐ GPU ์‹œ์ž‘ ํ†ต์‹ ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋”ฐ.

๋ชจ๋ธ์ด ๋‹จ์ผ ๋…ธ๋“œ๊ฐ€ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ์ด์ƒ์œผ๋กœ ํ™•์žฅ๋จ์— ๋”ฐ๋ผ, ํ•™์Šต์€ ๊ณ ์† ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์—ฐ๊ฒฐ๋œ ์—ฌ๋Ÿฌ ๋…ธ๋“œ์— ๊ณ„์‚ฐ์„ ๋ถ„์‚ฐ์‹œ์ผœ์•ผ ํ•œ๋‹ค. ๋ฒค์น˜๋งˆํฌ์— ๋›ฐ์–ด๋“ค๊ธฐ ์ „์—, ๋‹ค์ค‘ ๋…ธ๋“œ GPU ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ์ง๋ฉดํ•˜๊ฒŒ ๋  3๊ฐ€์ง€ ์ฃผ์š” ๋„คํŠธ์›Œํ‚น ๊ธฐ์ˆ ์„ ์‚ดํŽด๋ณธ๋‹ค:

์š”์•ฝํ•˜์ž๋ฉด:

์ด๋ฆ„์ด๋”๋„ท (25โ€“100 Gbps)์ด๋”๋„ท (200โ€“400 Gbps)RoCEInfiniband
์ œ์กฐ์—…์ฒด๋‹ค์ˆ˜๋‹ค์ˆ˜๋‹ค์ˆ˜NVIDIA/Mellanox
๋‹จ๋ฐฉํ–ฅ ๋Œ€์—ญํญ (Gbps)25โ€“100200โ€“400100400
์ข…๋‹จ ๊ฐ„ ์ง€์—ฐ ์‹œ๊ฐ„ (ฮผs)10-30N/A~1<1
RDMA์•„๋‹ˆ์š”์•„๋‹ˆ์š”์˜ˆ์˜ˆ

ํ‘œ: ์ƒํ˜ธ ์—ฐ๊ฒฐ ๋น„๊ต. ์ถœ์ฒ˜:ย https://www.sciencedirect.com/science/article/pii/S2772485922000618

AWS p5 ์ธ์Šคํ„ด์Šค์˜ ๊ฒฝ์šฐ NIC (๋„คํŠธ์›Œํฌ ์ธํ„ฐํŽ˜์ด์Šค ์นด๋“œ)๋กœ **Elastic Fabric Adapter (EFA)**๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์—ฌ๊ธฐ์„œ ๊ฐ GPU๋Š” ์ด์ „์— ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ PCIe Gen5 x16 ๋ ˆ์ธ์„ ํ†ตํ•ด 4๊ฐœ์˜ 100 Gbps EFA ๋„คํŠธ์›Œํฌ ์นด๋“œ์— ์—ฐ๊ฒฐ๋œ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.07.12.png

Libfabric EFA๋ฅผ ํ†ตํ•œ ๋…ธ๋“œ ๊ฐ„ GPU-๋Œ€-GPU ํ†ต์‹  ๊ฒฝ๋กœ

์œ„์— ์„ค๋ช…๋œ ๋ฐ”์™€ ๊ฐ™์ด, GPU์™€ ๋„คํŠธ์›Œํฌ ์นด๋“œ๊ฐ€ ๋™์ผํ•œ PCIe ์Šค์œ„์น˜์— ์—ฐ๊ฒฐ๋˜๋ฉด GPUDirect RDMA๋ฅผ ํ†ตํ•ด ํ†ต์‹ ์ด ํ•ด๋‹น ์Šค์œ„์น˜๋ฅผ ํ†ตํ•ด์„œ๋งŒ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ์„ค์ •์„ ํ†ตํ•ด PCIe Gen5 x16 ๋Œ€์—ญํญ์„ ์™„์ „ํžˆ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋‹ค๋ฅธ PCIe ์Šค์œ„์น˜๋‚˜ CPU ๋ฉ”๋ชจ๋ฆฌ ๋ฒ„์Šค๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋ก ์ ์œผ๋กœ, ๋…ธ๋“œ๋‹น 8๊ฐœ์˜ PCIe ์Šค์œ„์น˜ x ์Šค์œ„์น˜๋‹น 4๊ฐœ์˜ EFA NIC x ๊ฐ EFA NIC 100 Gbps๋Š” 3200 Gbps(400GB/s) ์˜ ๋Œ€์—ญํญ์„ ์ œ๊ณตํ•œ๋‹ค (์ด๋Š” AWS p5 ์‚ฌ์–‘์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š” ๋Œ€์—ญํญ์ด๋‹ค). ๊ทธ๋ ‡๋‹ค๋ฉด ์‹ค์ œ๋กœ๋Š” ์–ด๋–ป๊ฒŒ ์œ ์ง€๋˜๋Š”๊ฐ€? ์ด์ „๊ณผ ๋™์ผํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‹คํ–‰ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ๋…ธ๋“œ์— ๊ฑธ์ณ ์‹คํ–‰ํ•˜์—ฌ ์•Œ์•„๋ณด์ž!

Bandwidth Analysis

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.08.04.png

์ง€์  ๊ฐ„ send/receive ์—ฐ์‚ฐ์€ 2-4๊ฐœ ๋…ธ๋“œ์— ๋Œ€ํ•ด ์•ฝ 42-43 GB/s๋ฅผ ๋‹ฌ์„ฑํ•˜์ง€๋งŒ 5๊ฐœ ์ด์ƒ์˜ ๋…ธ๋“œ์— ๋Œ€ํ•ด์„œ๋Š” ์•ฝ 21 GB/s๋กœ ๋–จ์–ด์ง„๋‹ค. ์ด ์„ฑ๋Šฅ ์ €ํ•˜๋Š” NCCL์ด 4๊ฐœ ์ด์ƒ์˜ ๋…ธ๋“œ๋กœ ํ™•์žฅํ•  ๋•Œ ํ”ผ์–ด๋‹น ์ง€์  ๊ฐ„ ์ฑ„๋„ ์ˆ˜๋ฅผ 2๊ฐœ์—์„œ 1๊ฐœ๋กœ ์ž๋™์œผ๋กœ ์ค„์—ฌ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋Œ€์—ญํญ ํ™œ์šฉ๋ฅ ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋ก ์  ์ตœ๋Œ€์น˜๋Š” ~50 GB/s (4 EFA NIC ร— 12.5 GB/s ๊ฐ)๋กœ ์œ ์ง€๋œ๋‹ค. ์šฐ๋ฆฌ๋Š”ย NCCL_NCHANNELS_PER_NET_PEER=2 ๋ฅผ ์„ค์ •ํ•˜์—ฌ 5๊ฐœ ์ด์ƒ์˜ ๋…ธ๋“œ์—์„œ ์ด ํ…Œ์ŠคํŠธ์— ๋Œ€ํ•œ ์ „์ฒด ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณต์›ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์ง€๋งŒ, ์ด ํ”Œ๋ž˜๊ทธ๋Š” ์˜ˆ๋ฅผ ๋“ค์–ด all-to-all ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ฃผ์˜ํ•ด์„œ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค (์ž์„ธํ•œ ๋‚ด์šฉ์€ GitHub ์ด์Šˆ #1272 https://github.com/NVIDIA/nccl/issues/1272 ์ฐธ์กฐ).

all-reduce ์—ฐ์‚ฐ์€ ๋‹จ์ผ ๋…ธ๋“œ ๋‚ด์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ 480 GB/s์˜ ๋ฒ„์Šค ๋Œ€์—ญํญ์„ ๋‹ฌ์„ฑํ•œ๋‹ค. 2๊ฐœ ๋…ธ๋“œ๋กœ ํ™•์žฅํ•  ๋•Œ ๋Œ€์—ญํญ์€ 479 GB/s๋กœ ๊ฑฐ์˜ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€๋œ ํ›„, 3-16๊ฐœ ๋…ธ๋“œ์— ๋Œ€ํ•ด ์•ฝ 320-350 GB/s๋กœ ์•ˆ์ •ํ™”๋œ๋‹ค. ์ด ํŒจํ„ด์€ ์ค‘์š”ํ•œ ํŠน์ง•์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค: NVLink์—์„œ ๋…ธ๋“œ ๊ฐ„ ๋„คํŠธ์›Œํฌ ํŒจ๋ธŒ๋ฆญ์œผ๋กœ์˜ ์ „ํ™˜์œผ๋กœ ์ธํ•ด ๋…ธ๋“œ ๊ฒฝ๊ณ„๋ฅผ ๋„˜์„ ๋•Œ ์ดˆ๊ธฐ ํ•˜๋ฝ์ด ์žˆ์ง€๋งŒ, ๊ทธ ํ›„์—๋Š” ๋” ๋งŽ์€ ๋…ธ๋“œ๋ฅผ ์ถ”๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋Œ€์—ญํญ์ด ๊ฑฐ์˜ ์ผ์ •ํ•˜๊ฒŒ ํ™•์žฅ๋œ๋‹ค.

๐Ÿ’กย ๋…ธ๋“œ ์ „๋ฐ˜์— ๊ฑธ์นœ All-Reduce ํ™•์žฅ

2๊ฐœ ๋…ธ๋“œ๋ฅผ ๋„˜์–ด์„  ์ด ๊ฑฐ์˜ ์ผ์ •ํ•œ ํ™•์žฅ ๋™์ž‘์€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์— ์žˆ์–ด ์‹ค์ œ๋กœ ๊ฝค ๊ณ ๋ฌด์ ์ด๋‹ค. 3-16๊ฐœ ๋…ธ๋“œ์— ๊ฑธ์ณ ๋น„๊ต์  ์•ˆ์ •์ ์ธ 320-350 GB/s๋Š” all-reduce ์—ฐ์‚ฐ์— ์˜์กดํ•˜๋Š” ๋ณ‘๋ ฌํ™” ์ „๋žต (์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์—์„œ)์ด GPU๋‹น ์ƒ๋‹นํ•œ ๋Œ€์—ญํญ ์ €ํ•˜ ์—†์ด ์ˆ˜๋ฐฑ ๋˜๋Š” ์ˆ˜์ฒœ ๊ฐœ์˜ GPU๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. ์ด ๋กœ๊ทธ ์Šค์ผ€์ผ๋ง ํŠน์„ฑ์€ 8๊ฐœ์˜ GPU ๊ฐ๊ฐ์ด ๋ณ„๋„์˜ ์Šค์œ„์น˜ ๋ ˆ์ผ์— ์—ฐ๊ฒฐ๋˜์–ด ์–‘๋ถ„ ๋Œ€์—ญํญ(bisection bandwidth)์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ž˜ ์„ค๊ณ„๋œ 8-๋ ˆ์ผ ์ตœ์ ํ™” ํŒป ํŠธ๋ฆฌ(fat tree)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค๊ณ„์ธต ๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€์˜ ์ „ํ˜•์ด๋‹ค. ํ˜„๋Œ€ ํ”„๋Ÿฐํ‹ฐ์–ด ํ•™์Šต ํด๋Ÿฌ์Šคํ„ฐ๋Š” ์ผ์ƒ์ ์œผ๋กœ 100,000๊ฐœ ์ด์ƒ์˜ GPU์—์„œ ์ž‘๋™ํ•˜๋ฉฐ, ์ด ์•ˆ์ •์ ์ธ ํ™•์žฅ ๋™์ž‘์ด ๊ทธ๋Ÿฌํ•œ ๋Œ€๊ทœ๋ชจ Deployment ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.

๋‹ค๋ฅธ ๋Œ€์—ญํญ ๋งํฌ (๋…ธ๋“œ ๋‚ด NVLink ๋Œ€ ๋…ธ๋“œ ๊ฐ„ ๋„คํŠธ์›Œํฌ)๋กœ ์ž‘์—…ํ•  ๋•Œ, ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๋Œ€์—ญํญ์„ ์™„์ „ํžˆ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋Œ€์—ญํญ ๊ณ„์ธต์— ๋ณ‘๋ ฌํ™” ์ „๋žต์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ๊ณ ๋ คํ•ด๋ผ. ์ด๊ธฐ์ข… ๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€์— ๋Œ€ํ•œ ๋ณ‘๋ ฌํ™” ๊ตฌ์„ฑ ์ตœ์ ํ™”์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์ง€์นจ์€ Ultrascale playbook์„ ์ฐธ๊ณ ํ•ด๋ผ.

all-to-all ์—ฐ์‚ฐ์€ ๋” ๊ทน์ ์ธ ํ™•์žฅ ๋ฌธ์ œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค: ๋‹จ์ผ ๋…ธ๋“œ์— ๋Œ€ํ•ด 344 GB/s์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, 2๊ฐœ ๋…ธ๋“œ์—์„œ 81 GB/s๋กœ ๋–จ์–ด์ง€๊ณ  ๋” ํฐ ํด๋Ÿฌ์Šคํ„ฐ์— ๋Œ€ํ•ด ์•ฝ 45-58 GB/s๋กœ ๊ณ„์† ๊ฐ์†Œํ•œ๋‹ค. ์ด ๋” ๊ฐ€ํŒŒ๋ฅธ ์ €ํ•˜๋Š” all-to-all ํŒจํ„ด์˜ ์ง‘์ค‘์ ์ธ ๋„คํŠธ์›Œํฌ ์š”๊ตฌ๋ฅผ ๋ฐ˜์˜ํ•˜๋ฉฐ, ์—ฌ๊ธฐ์„œ ๊ฐ GPU๋Š” ๋…ธ๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋‹ค๋ฅธ ๋ชจ๋“  GPU์™€ ํ†ต์‹ ํ•ด์•ผ ํ•˜๋ฏ€๋กœ all-reduce ์—ฐ์‚ฐ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋งŽ์€ ๋„คํŠธ์›Œํฌ ํ˜ผ์žก์„ ์ƒ์„ฑํ•œ๋‹ค.

์ง€์—ฐ ์‹œ๊ฐ„ (latency) ๋ถ„์„

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.11.04.png

์ง€์—ฐ ์‹œ๊ฐ„ ์ธก์ •์€ ๋…ธ๋“œ ๊ฒฝ๊ณ„๋ฅผ ๋„˜๋Š” ๊ทผ๋ณธ์ ์ธ ๋น„์šฉ์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. Send/receive ์—ฐ์‚ฐ์€ ๋ชจ๋“  ๋‹ค์ค‘ ๋…ธ๋“œ ๊ตฌ์„ฑ ์ „๋ฐ˜์— ๊ฑธ์ณ 40-53 ฮผs์˜ ๋น„๊ต์  ์•ˆ์ •์ ์ธ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์œ ์ง€ํ•˜๋ฉฐ, ์ง€์  ๊ฐ„ ํ†ต์‹  ์ง€์—ฐ ์‹œ๊ฐ„์ด ํด๋Ÿฌ์Šคํ„ฐ ํฌ๊ธฐ๋ณด๋‹ค๋Š” ์ฃผ๋กœ ๊ธฐ๋ณธ ๋„คํŠธ์›Œํฌ ์™•๋ณต ์‹œ๊ฐ„์— ์˜ํ•ด ๊ฒฐ์ •๋จ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ์ผ๋ถ€ ๋ณ€๋™์€ ๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€ ๋ฐ ๋ผ์šฐํŒ… ํšจ๊ณผ๊ฐ€ ์—ฌ์ „ํžˆ ์—ญํ• ์„ ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

All-reduce ์—ฐ์‚ฐ์€ ๋‹จ์ผ ๋…ธ๋“œ ๋‚ด์—์„œ 12.9 ฮผs์˜ ์ตœ์†Œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, 2๊ฐœ ๋…ธ๋“œ์— ๋Œ€ํ•ด 55.5 ฮผ

s๋กœ ์ ํ”„ํ•˜๊ณ  ํด๋Ÿฌ์Šคํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๊ฑฐ์˜ ์„ ํ˜•์ ์œผ๋กœ ๊ณ„์† ์ฆ๊ฐ€ํ•˜์—ฌ 16๊ฐœ ๋…ธ๋“œ์—์„œ 235 ฮผs์— ๋„๋‹ฌํ•œ๋‹ค. ์ด ํ๋ฆ„์€ ์ฆ๊ฐ€๋œ ํ†ต์‹  ๊ฑฐ๋ฆฌ์™€ ๋” ๋งŽ์€ ๋…ธ๋“œ์— ๊ฑธ์นœ ์ถ•์†Œ ํŠธ๋ฆฌ(reduction tree)์˜ ์ฆ๊ฐ€ํ•˜๋Š” ๋ณต์žก์„ฑ์„ ๋ชจ๋‘ ๋ฐ˜์˜ํ•ด ๋ณด์—ฌ์ค€๋‹ค๋‹ค.

All-to-all ์—ฐ์‚ฐ์€ ์œ ์‚ฌํ•œ ์ถ”์„ธ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋‹จ์ผ ๋…ธ๋“œ ํ†ต์‹ ์— ๋Œ€ํ•ด 7.6 ฮผs์—์„œ ์‹œ์ž‘ํ•˜์ง€๋งŒ 2๊ฐœ ๋…ธ๋“œ์—์„œ 60 ฮผs๋กœ ์˜ฌ๋ผ๊ฐ€๊ณ  16๊ฐœ ๋…ธ๋“œ์—์„œ 621 ฮผs์— ๋„๋‹ฌํ•œ๋‹ค. all-to-all ์—ฐ์‚ฐ์— ๋Œ€ํ•œ ์ง€์—ฐ ์‹œ๊ฐ„์˜ ์ดˆ์„ ํ˜•(superlinear) ์„ฑ์žฅ์€ ๋” ๋งŽ์€ ๋…ธ๋“œ๊ฐ€ ์ง‘ํ•ฉ์— ์ฐธ์—ฌํ•จ์— ๋”ฐ๋ผ ๋„คํŠธ์›Œํฌ ํ˜ผ์žก ๋ฐ ์กฐ์ • ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋ณตํ•ฉ์ ์œผ๋กœ ์ž‘์šฉํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

๐Ÿš€ย ์ตœ์ ํ™”๋œ GPU ํ†ต์‹ ์„ ์œ„ํ•œ NVSHMEM

์ „๋ฌธ๊ฐ€ ๋ผ์šฐํŒ…์„ ์œ„ํ•ด ๋นˆ๋ฒˆํ•œ all-to-all ํ†ต์‹  ํŒจํ„ด์„ ํ•„์š”๋กœ ํ•˜๋Š” ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(MoE) ์•„ํ‚คํ…์ฒ˜์˜ ๋ถ€์ƒ์œผ๋กœ, ์ตœ์ ํ™”๋œ GPU ํ†ต์‹  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ ์  ๋” ์ค‘์š”ํ•ด์ง€๊ณ  ์žˆ๋‹ค.

NVSHMEM(https://developer.nvidia.com/nvshmem) ์€ ์—ฌ๋Ÿฌ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๋ถ„ํ• ๋œ ์ „์—ญ ์ฃผ์†Œ ๊ณต๊ฐ„(PGAS)์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ๊ณ ์„ฑ๋Šฅ ํ†ต์‹  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ์ƒ๋‹นํ•œ ๊ด€์‹ฌ์„ ์–ป๊ณ  ์žˆ๋‹ค. CPU๊ฐ€ ์กฐ์œจํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ „์†ก์— ์˜์กดํ•˜๋Š” ์ „ํ†ต์ ์ธ MPI ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, NVSHMEM์€ CPU-GPU ๋™๊ธฐํ™” ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋น„๋™๊ธฐ, GPU ์‹œ๋™ ์ž‘์—…์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

NVSHMEM์€ GPU ํ†ต์‹ ์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ์ฃผ์š” ์ด์ ์„ ์ œ๊ณตํ•œ๋‹ค: GPUDirect Async์™€ ๊ฐ™์€ ๊ธฐ์ˆ ์„ ํ†ตํ•ด, GPU๋Š” ๋…ธ๋“œ ๊ฐ„ ํ†ต์‹ ์„ ๋ฐœํ–‰ํ•  ๋•Œ CPU๋ฅผ ์™„์ „ํžˆ ์šฐํšŒํ•˜์—ฌ ์ž‘์€ ๋ฉ”์‹œ์ง€ (<1 KiB)์— ๋Œ€ํ•ด ์ตœ๋Œ€ 9.5๋ฐฐ ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์€ ์ง‘์ค‘์ ์ธ ๋„คํŠธ์›Œํฌ ํ†ต์‹  ํŒจํ„ด์„ ํ•„์š”๋กœ ํ•˜๋Š” ์ง‘ํ•ฉ ์—ฐ์‚ฐ์— ํŠนํžˆ ์œ ์ตํ•˜๋‹ค.

๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ํ˜„์žฌ Mellanox ์–ด๋Œ‘ํ„ฐ (CX-4 ์ด์ƒ)๊ฐ€ ์žˆ๋Š” InfiniBand/RoCE, Slingshot-11 (Libfabric CXI), ๋ฐ Amazon EFA (Libfabric EFA)๋ฅผ ์ง€์›ํ•œ๋‹ค. ์„ธ๋ถ„ํ™”๋œ ํ†ต์‹ ์œผ๋กœ ๊ฐ•๋ ฅํ•œ ํ™•์žฅ์„ ์š”๊ตฌํ•˜๋Š” ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ๊ฒฝ์šฐ, NVSHMEM์˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋‚ฎ์€ ๋‹จ๋ฐฉํ–ฅ ํ†ต์‹  ๊ธฐ๋ณธ ์š”์†Œ๋Š” ์ „ํ†ต์ ์ธ CPU ํ”„๋ก์‹œ ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

NVSHMEM ๋ฌธ์„œ์™€ GPUDirect Async์— ๋Œ€ํ•œ ์ด ์ž์„ธํ•œ ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ(https://developer.nvidia.com/blog/improving-network-performance-of-hpc-systems-using-nvidia-magnum-io-nvshmem-and-gpudirect-async/) ์—์„œ ์ž์„ธํ•œ ๋‚ด์šฉ์„ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค.

๋Œ€์—ญํญ ์ธก์ •์ด ๊ธฐ๋Œ€์— ๋ฏธ์น˜์ง€ ๋ชปํ•  ๋•Œ, ์—ฌ๋Ÿฌ ์š”์ธ์ด ์„ฑ๋Šฅ์„ ์ œํ•œํ•˜๋Š” ์›์ธ์ผ ์ˆ˜ ์žˆ๋”ฐ. ์ด๋Ÿฌํ•œ ์ž ์žฌ์  ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์ตœ์ ์˜ ์ƒํ˜ธ ์—ฐ๊ฒฐ ํ™œ์šฉ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค.

์ƒํ˜ธ ์—ฐ๊ฒฐ ๋ฌธ์ œ ํ•ด๊ฒฐ

์˜ˆ์ƒ๋ณด๋‹ค ๋‚ฎ์€ ๋Œ€์—ญํญ์„ ๊ฒฝํ—˜ํ•˜๊ณ  ์žˆ๋‹ค๋ฉด, ๋‹ค์Œ ์˜์—ญ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค:

๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ฒ„์ „

์˜ค๋ž˜๋œ NCCL, EFA, ๋˜๋Š” CUDA ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ์ค‘์š”ํ•œ ์„ฑ๋Šฅ ์ตœ์ ํ™”๋‚˜ ๋ฒ„๊ทธ ์ˆ˜์ •์ด ๋ˆ„๋ฝ๋  ์ˆ˜ ์žˆ๋‹ค. ํ•ญ์ƒ ๋ชจ๋“  ํ†ต์‹  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ตœ์‹  ํ˜ธํ™˜ ๋ฒ„์ „์„ ์‹คํ–‰ํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•œ๋‹ค. ์˜ˆ: AWS๋Š” ํ•˜๋“œ์›จ์–ด์— ์ตœ์ ํ™”๋œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ฒ„์ „์œผ๋กœ Deep Learning AMI๋ฅผ ์ •๊ธฐ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ๋˜ํ•œ ์ค‘์š”ํ•œ ์‹คํ—˜์„ ์œ„ํ•ด ์ด๋Ÿฌํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ฒ„์ „์„ ๊ธฐ๋กํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

CPU ์นœํ™”๋„ ๊ตฌ์„ฑ

๋ถ€์ ์ ˆํ•œ CPU ์นœํ™”๋„ ์„ค์ •์€ ๋ถˆํ•„์š”ํ•œ NUMA ๊ฐ„ ํŠธ๋ž˜ํ”ฝ์„ ์œ ๋ฐœํ•˜์—ฌ NCCL ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ GPU๋Š” ๋ฉ”๋ชจ๋ฆฌ ์•ก์„ธ์Šค ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋™์ผํ•œ NUMA ๋…ธ๋“œ์˜ CPU์— ๋ฐ”์ธ๋”ฉ๋˜์–ด์•ผ ํ•œ๋‹ค. ์‹ค์ œ์—์„œ, ์ด Github ์ด์Šˆ(https://github.com/NVIDIA/nccl/issues/1017#issuecomment-1751385723)๋Š”ย NCCL_IGNORE_CPU_AFFINITY=1ย ๋ฐย --cpu-bind none์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ปจํ…Œ์ด๋„ˆ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํฌ๊ฒŒ ์ค„์ด๋Š” ๋ฐ ์–ด๋–ป๊ฒŒ ๋„์›€์ด ๋˜์—ˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์—ฌ๊ธฐ(https://enterprise-support.nvidia.com/s/article/understanding-numa-node-for-performance-benchmarks#Mapping-between-PCI-device-driver-port-and-NUMA) ์—์„œ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค.

๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€ ๋ฐ ๋ฐฐ์น˜

๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์„ฑ๋Šฅ ๋ฌธ์ œ๋ฅผ ์ง„๋‹จํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜๋‹ค. ํด๋ผ์šฐ๋“œ ๋ฐฐ์น˜ ๊ทธ๋ฃน์€ ๋„์›€์ด ๋˜์ง€๋งŒ ์ธ์Šคํ„ด์Šค ๊ฐ„ ์ตœ์†Œ ๋„คํŠธ์›Œํฌ ํ™‰์„ ๋ณด์žฅํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค. ํ˜„๋Œ€ ๋ฐ์ดํ„ฐ ์„ผํ„ฐ ํŒป ํŠธ๋ฆฌ ํ† ํด๋กœ์ง€์—์„œ, ๋‹ค๋ฅธ ์ตœ์ƒ์œ„ ์Šค์œ„์น˜ ์•„๋ž˜์— ๋ฐฐ์น˜๋œ ์ธ์Šคํ„ด์Šค๋Š” ๋ผ์šฐํŒ… ๊ฒฝ๋กœ์˜ ์ถ”๊ฐ€ ๋„คํŠธ์›Œํฌ ํ™‰์œผ๋กœ ์ธํ•ด ๋” ๋†’์€ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ์ž ์žฌ์ ์œผ๋กœ ๋” ๋‚ฎ์€ ๋Œ€์—ญํญ์„ ๊ฒฝํ—˜ํ•  ๊ฒƒ์ด๋‹ค.

AWS EC2 ์‚ฌ์šฉ์ž์˜ ๊ฒฝ์šฐ, ์ธ์Šคํ„ด์Šค ํ† ํด๋กœ์ง€ API๋Š” ๋„คํŠธ์›Œํฌ ๋…ธ๋“œ ๋ฐฐ์น˜์— ๋Œ€ํ•œ ๊ท€์ค‘ํ•œ ๊ฐ€์‹œ์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค. ๋งจ ์•„๋ž˜ ๊ณ„์ธต (์ธ์Šคํ„ด์Šค์— ์ง์ ‘ ์—ฐ๊ฒฐ๋จ)์—์„œ ๋™์ผํ•œ ๋„คํŠธ์›Œํฌ ๋…ธ๋“œ๋ฅผ ๊ณต์œ ํ•˜๋Š” ์ธ์Šคํ„ด์Šค๋Š” ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ฐ€์žฅ ๊ฐ€๊น๊ณ  ๊ฐ€์žฅ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„ ํ†ต์‹ ์„ ๋‹ฌ์„ฑํ•  ๊ฒƒ์ด๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.16.20.png

ํ†ต์‹ ํ•˜๋Š” ๋…ธ๋“œ ๊ฐ„์˜ ๋„คํŠธ์›Œํฌ ํ™‰์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์€ ๋” ๋‚˜์€ ์ƒํ˜ธ ์—ฐ๊ฒฐ ์„ฑ๋Šฅ์œผ๋กœ ๊ณง๋ฐ”๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค. ์†Œ๊ทœ๋ชจ ์‹คํ—˜ ๋ฐ ์ œ๊ฑฐ ์‹คํ—˜์˜ ๊ฒฝ์šฐ, ์ธ์Šคํ„ด์Šค๊ฐ€ ๋™์ผํ•œ ๋„คํŠธ์›Œํฌ ์Šค์œ„์น˜์— ๊ณต๋™ ๋ฐฐ์น˜๋˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์€ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ๋Œ€์—ญํญ ํ™œ์šฉ ๋ชจ๋‘์—์„œ ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ฐจ์ด๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

์˜ฌ๋ฐ”๋ฅธ ํ™˜๊ฒฝ ๋ณ€์ˆ˜

๋„คํŠธ์›Œํฌ ์–ด๋Œ‘ํ„ฐ์— ๋Œ€ํ•œ ๋ˆ„๋ฝ๋˜๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ํ™˜๊ฒฝ ๋ณ€์ˆ˜๋Š” ๋Œ€์—ญํญ ํ™œ์šฉ์„ ์‹ฌ๊ฐํ•˜๊ฒŒ ์ œํ•œํ•  ์ˆ˜ ์žˆ๋‹ค. NCCL๊ณผ ๊ฐ™์€ ํ†ต์‹  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ์ ์‘ํ˜• ๋ผ์šฐํŒ…, GPU ์‹œ์ž‘ ์ „์†ก ๋ฐ ์ ์ ˆํ•œ ๋ฒ„ํผ ํฌ๊ธฐ ์กฐ์ •๊ณผ ๊ฐ™์€ ์ตœ์ ์˜ ์„ฑ๋Šฅ ๊ธฐ๋Šฅ์„ ํ™œ์„ฑํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํŠน์ • ๊ตฌ์„ฑ ํ”Œ๋ž˜๊ทธ์— ์˜์กดํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, AWS EFA (Elastic Fabric Adapter)๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ, ์ธ์Šคํ„ด์Šค ์œ ํ˜•์— ๋Œ€ํ•ด ๊ถŒ์žฅ๋˜๋Š” NCCL ๋ฐ EFA ํ™˜๊ฒฝ ๋ณ€์ˆ˜๋ฅผ ์„ค์ •ํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค. AWS EFA ์น˜ํŠธ์‹œํŠธ(https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/efa-cheatsheet.md)๋Š” ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ์ตœ์ ์˜ ํ”Œ๋ž˜๊ทธ ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ง€์นจ์„ ์ œ๊ณตํ•œ๋‹ค.

์ปจํ…Œ์ด๋„ˆ๋ณ„ ๊ณ ๋ ค ์‚ฌํ•ญ

์ปจํ…Œ์ด๋„ˆ (Docker/Enroot)๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ, ๋ช‡ ๊ฐ€์ง€ ๊ตฌ์„ฑ ๋‹จ๊ณ„๊ฐ€ ์ตœ์ ์˜ NCCL ์„ฑ๋Šฅ์— ์ค‘์š”ํ•˜๋‹ค:

๐Ÿค—ย ์ปค๋ฎค๋‹ˆํ‹ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ

์šฐ๋ฆฌ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ๋…ธ๋ ฅ์œผ๋กœ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ฒฐ๊ณผ๋ฅผ ์—ฌ๊ธฐ์— ๋ชจ์œผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์„ฑ๋Šฅ ๋ฌธ์ œ์— ์ง๋ฉดํ–ˆ๊ฑฐ๋‚˜ ํšจ๊ณผ์ ์ธ ๋””๋ฒ„๊น… ๋ฐฉ๋ฒ•์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค๋ฉด ํ† ๋ก  ํƒญ(https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook/discussions) ์œผ๋กœ ์ด๋™ํ•˜์—ฌ ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์ด ์ƒํ˜ธ ์—ฐ๊ฒฐ ํ™œ์šฉ์„ ์ตœ์ ํ™”ํ•˜๋„๋ก ๋•๊ธฐ ์œ„ํ•ด ๊ฒฝํ—˜์„ ๊ณต์œ ํ•ด์ฃผ์„ธ์š”.

์ด์ œ GPU-CPU ๋ฐ GPU-GPU ํ†ต์‹ ์—์„œ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•˜์œผ๋ฏ€๋กœ ์ผ๋ฐ˜์ ์œผ๋กœ ๋œ ์ฃผ๋ชฉ๋ฐ›๋Š” GPU ํ†ต์‹  ๋ถ€๋ถ„, ์ฆ‰ ์Šคํ† ๋ฆฌ์ง€ ๊ณ„์ธต๊ณผ์˜ ํ†ต์‹ ์„ ์‚ดํŽด๋ณด์ž!

GPU ๋Œ€ ์Šคํ† ๋ฆฌ์ง€ (GPU-to-Storage)

GPU์™€ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ ๊ฐ„์˜ ์—ฐ๊ฒฐ์€ ์ข…์ข… ๊ฐ„๊ณผ๋˜์ง€๋งŒ ํ•™์Šต ํšจ์œจ์„ฑ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค. ํ•™์Šต ์ค‘, GPU๋Š” ์Šคํ† ๋ฆฌ์ง€์—์„œ ์ง€์†์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ์–ด์•ผ ํ•˜๋ฉฐ (๋ฐ์ดํ„ฐ ๋กœ๋”ฉ, ํŠนํžˆ ๋Œ€์šฉ๋Ÿ‰ ์ด๋ฏธ์ง€/๋น„๋””์˜ค ํŒŒ์ผ์ด ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ) ์ฃผ๊ธฐ์ ์œผ๋กœ ๋ชจ๋ธ ์ƒํƒœ๋ฅผ ์Šคํ† ๋ฆฌ์ง€์— ๋‹ค์‹œ ์จ์•ผ ํ•œ๋‹ค (์ฆ‰, ์ฒดํฌํฌ์ธํŒ…). ํ˜„๋Œ€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ์‹คํ–‰์˜ ๊ฒฝ์šฐ, ์ด๋Ÿฌํ•œ I/O ์ž‘์—…์ด ์ ์ ˆํ•˜๊ฒŒ ์ตœ์ ํ™”๋˜์ง€ ์•Š์œผ๋ฉด ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

์š”์•ฝ:ย GPU-์Šคํ† ๋ฆฌ์ง€ I/O๋Š” ๋ฐ์ดํ„ฐ ๋กœ๋”ฉ ๋ฐ ์ฒดํฌํฌ์ธํŒ…์„ ํ†ตํ•ด ํ•™์Šต์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. GPUDirect Storage (GDS)๋Š” ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์œ„ํ•ด CPU๋ฅผ ์šฐํšŒํ•˜์—ฌ ์ง์ ‘ GPU ๋Œ€ ์Šคํ† ๋ฆฌ์ง€ ์ „์†ก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ GDS๊ฐ€ ํ™œ์„ฑํ™”๋˜์ง€ ์•Š์•˜์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋กœ์ปฌ NVMe RAID (RAID 0์˜ 8ร—3.5TB ๋“œ๋ผ์ด๋ธŒ)๋Š” 26.59 GiB/s ๋ฐ 337K IOPS (๋„คํŠธ์›Œํฌ ์Šคํ† ๋ฆฌ์ง€๋ณด๋‹ค 6.3๋ฐฐ ๋น ๋ฆ„)๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์ฒดํฌํฌ์ธํŠธ์— ์ด์ƒ์ ์ด๋‹ค.

์Šคํ† ๋ฆฌ์ง€ ํ† ํด๋กœ์ง€ ์ดํ•ด

GPU์™€ ์Šคํ† ๋ฆฌ์ง€ ์žฅ์น˜ ๊ฐ„์˜ ๋ฌผ๋ฆฌ์  ์—ฐ๊ฒฐ์€ GPU ์ƒํ˜ธ ์—ฐ๊ฒฐ๊ณผ ์œ ์‚ฌํ•œ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅธ๋‹ค. ์Šคํ† ๋ฆฌ์ง€ ์žฅ์น˜๋Š” PCIe ๋ธŒ๋ฆฌ์ง€๋ฅผ ํ†ตํ•ด ์—ฐ๊ฒฐ๋˜๋ฉฐ, ์ด ํ† ํด๋กœ์ง€๋ฅผ ์ดํ•ดํ•˜๋ฉด ์„ฑ๋Šฅ ํŠน์„ฑ๊ณผ ์ž ์žฌ์  ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

lstopo์˜ ์‹œ์Šคํ…œ ํ† ํด๋กœ์ง€๋ฅผ ๋ณด๋ฉด, NVMe ๋“œ๋ผ์ด๋ธŒ๊ฐ€ ์‹œ์Šคํ…œ์— ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ p5 ์ธ์Šคํ„ด์Šค์—๋Š” GPU๋‹น 1๊ฐœ์˜ NVMe SSD๊ฐ€ ์žˆ๋‹ค:

PCIBridge L#13 (busid=0000:46:01.5 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[54-54] PCIVendor="Amazon.com, Inc.")
PCI L#11 (busid=0000:54:00.0 id=1d0f:cd01 class=0108(NVMExp) link=15.75GB/s PCISlot=87-1 PCIVendor="Amazon.com, Inc." PCIDevice="NVMe SSD Controller")
    Block(Disk) L#9 (Size=3710937500 SectorSize=512 LinuxDeviceID=259:2 Model="Amazon EC2 NVMe Instance Storage" Revision=0 SerialNumber=AWS110C9F44F9A530351) "nvme1n1"

์ž์—ฐ์Šค๋Ÿฌ์šด ์งˆ๋ฌธ์€ GPU๊ฐ€ CPU๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ณ  NVMe ๋“œ๋ผ์ด๋ธŒ์— ์ง์ ‘ ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€์ผ ๊ฒƒ์ด๋‹ค. ๋Œ€๋‹ต์€ **GPUDirect Storage (GDS)**๋ฅผ ํ†ตํ•ด ๊ทธ๋ ‡๋‹ค, ์ด๋‹ค.

GPUDirect Storage๋Š” ์Šคํ† ๋ฆฌ์ง€ (๋กœ์ปฌ NVMe ๋˜๋Š” ์›๊ฒฉ NVMe-oF)์™€ GPU ๋ฉ”๋ชจ๋ฆฌ ๊ฐ„์˜ ์ง์ ‘ ๋ฐ์ดํ„ฐ ๊ฒฝ๋กœ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” NVIDIA์˜ GPUDirect ๊ธฐ์ˆ  ์ œํ’ˆ๊ตฐ์˜ ์ผ๋ถ€์ด๋‹ค. ์Šคํ† ๋ฆฌ์ง€ ์ปจํŠธ๋กค๋Ÿฌ ๊ทผ์ฒ˜์˜ DMA ์—”์ง„์ด ๋ฐ์ดํ„ฐ๋ฅผ GPU ๋ฉ”๋ชจ๋ฆฌ๋กœ ์ง์ ‘ ์ด๋™์‹œํ‚ค๊ฑฐ๋‚˜ GPU ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์ง์ ‘ ์ด๋™์‹œํ‚ฌ ์ˆ˜ ์žˆ๋„๋ก ํ•จ์œผ๋กœ์จ CPU ๋ฐ”์šด์Šค ๋ฒ„ํผ๋ฅผ ํ†ตํ•œ ๋ถˆํ•„์š”ํ•œ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์‚ฌ๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค. ์ด๋Š” CPU ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๊ณ , ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ด๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ•™์Šต๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์ง‘์•ฝ์  ์›Œํฌ๋กœ๋“œ์— ๋Œ€ํ•œ I/O ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

GPUDirect Storage๊ฐ€ ์‹œ์Šคํ…œ์— ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋ ค๋ฉด, GDS ๊ตฌ์„ฑ ํŒŒ์ผ์„ ํ™•์ธํ•˜๊ณ  ์ œ๊ณต๋œ ์ง„๋‹จ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค:

$ /usr/local/cuda/gds/tools/gdscheck.py -p
 =====================
 DRIVER CONFIGURATION:
 =====================
 NVMe               : Supported
 NVMeOF             : Unsupported
 SCSI               : Unsupported
 ScaleFlux CSD      : Unsupported
 NVMesh             : Unsupported
 DDN EXAScaler      : Unsupported
 IBM Spectrum Scale : Unsupported
 NFS                : Unsupported
 BeeGFS             : Unsupported
 WekaFS             : Unsupported
 Userspace RDMA     : Unsupported
 --Mellanox PeerDirect : Enabled
 --rdma library        : Not Loaded (libcufile_rdma.so)
 --rdma devices        : Not configured
 --rdma_device_status  : Up: 0 Down: 0
 =====================

NVMe: Supported ๋ฅผ ํ†ตํ•ด GDS๊ฐ€ ํ˜„์žฌ NVMe ๋“œ๋ผ์ด๋ธŒ์— ๋Œ€ํ•ด ์ž‘๋™ํ•˜๋„๋ก ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์œผ๋ฉฐ,ย Unsupportedย ํ”Œ๋ž˜๊ทธ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด ๋‹ค๋ฅธ ๋ชจ๋“  ์Šคํ† ๋ฆฌ์ง€ ์œ ํ˜•์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ตฌ์„ฑ๋˜์ง€ ์•Š์•˜๋‹ค. GDS๊ฐ€ ์Šคํ† ๋ฆฌ์ง€ ์œ ํ˜•์— ๋Œ€ํ•ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ตฌ์„ฑ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ,ย /etc/cufile.json์—์„œ ๊ตฌ์„ฑ ํŒŒ์ผ์„ ์ˆ˜์ •ํ•˜๋Š” ์ง€์นจ์— ๋Œ€ํ•ด NVIDIA GPUDirect Storage ๊ตฌ์„ฑ ๊ฐ€์ด๋“œ(https://docs.nvidia.com/gpudirect-storage/configuration-guide/index.html) ๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ.

๋ธ”๋ก ์Šคํ† ๋ฆฌ์ง€ ์žฅ์น˜

์‹œ์Šคํ…œ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์Šคํ† ๋ฆฌ์ง€ ์žฅ์น˜๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด,ย lsblk๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ธ”๋ก ์žฅ์น˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ํ‘œ์‹œํ•  ์ˆ˜ ์žˆ๋‹ค:

$ lsblk --fs -M
    NAME        FSTYPE            LABEL                   UUID                                 FSAVAIL FSUSE% MOUNTPOINT
...
    nvme0n1
    โ””โ”€nvme0n1p1 ext4              cloudimg-rootfs         24ec7991-cb5c-4fab-99e5-52c45690ba30  189.7G    35% /
โ”Œโ”ˆโ–ถ nvme1n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme2n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme3n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme8n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme5n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme4n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ”œโ”ˆโ–ถ nvme6n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โ””โ”ฌโ–ถ nvme7n1     linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
 โ””โ”ˆโ”ˆmd0         xfs                                       dddb6849-e5b5-4828-9034-96da65da27f0   27.5T     1% /scratch

์ด ์ถœ๋ ฅ์€ ์‹œ์Šคํ…œ์˜ ๋ธ”๋ก ์žฅ์น˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์ฃผ์š” ๊ด€์ฐฐ ์‚ฌํ•ญ:

(Amazon Elastic Block Store (EBS)๋Š” Amazon EC2 ์ธ์Šคํ„ด์Šค์™€ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋„๋ก ์„ค๊ณ„๋œ ๊ณ ์„ฑ๋Šฅ, ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ธ”๋ก ์Šคํ† ๋ฆฌ์ง€ ์„œ๋น„์Šค์ด๋‹ค.)

๋„คํŠธ์›Œํฌ ์Šคํ† ๋ฆฌ์ง€

๋กœ์ปฌ NVMe ์Šคํ† ๋ฆฌ์ง€ ์™ธ์—๋„, ์‹œ์Šคํ…œ์€ ๋„คํŠธ์›Œํฌ ์—ฐ๊ฒฐ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ๋‹ค:

$ df -h
Filesystem                                         Size  Used Avail Use% Mounted on
/dev/root                                          291G  101G  190G  35% /
weka-hopper.hpc.internal.huggingface.tech/default  393T  263T  131T  67% /fsx
10.53.83.155@tcp:/fg7ntbev                         4.5T  2.9T  1.7T  63% /admin
/dev/md0                                            28T  206G   28T   1% /scratch

์ด ์ถœ๋ ฅ์€ ๋‹ค์Œ์„ ๋ณด์—ฌ์ค€๋‹ค:

(์ฐธ๊ณ :ย /fsx๋Š” ์‹ค์ œ๋กœ Amazon FSx๊ฐ€ ์•„๋‹ˆ๋ผ WekaFS์ด๋‹ค. ์šฐ๋ฆฌ๋Š” FSx์—์„œ WekaFS๋กœ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ํ•  ๋•Œ ํŽธ์˜๋ฅผ ์œ„ํ•ด ๋™์ผํ•œ ๋งˆ์šดํŠธ ํฌ์ธํŠธ ์ด๋ฆ„์„ ์œ ์ง€ํ–ˆ๋‹ค.)

๋กœ์ปฌ NVMe RAID ์–ด๋ ˆ์ด (/scratch)๋Š” ๊ฐ€์žฅ ๋น ๋ฅธ I/O ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ˜๋ฉด, ๋„คํŠธ์›Œํฌ ํŒŒ์ผ ์‹œ์Šคํ…œ์€ ๊ณต์œ  ๋ฐ์ดํ„ฐ ์Šคํ† ๋ฆฌ์ง€๋ฅผ ์œ„ํ•œ ๋” ํฐ ์šฉ๋Ÿ‰์„ ์ œ๊ณตํ•œ๋‹ค.

๐Ÿ’พย ์Šคํ† ๋ฆฌ์ง€ ๊ธฐ์ˆ ์˜ ์ข…๋ฅ˜

RAID (Redundant Array of Independent Disks):ย ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ผ์ดํ•‘, ํŒจ๋ฆฌํ‹ฐ, ๋˜๋Š” ๋ฏธ๋Ÿฌ๋ง์„ ํ†ตํ•ด ์„ฑ๋Šฅ ๋ฐ/๋˜๋Š” ์‹ ๋ขฐ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋“œ๋ผ์ด๋ธŒ๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค.

NVMe (Non-Volatile Memory Express):ย PCIe์— ์ง์ ‘ ์—ฐ๊ฒฐ๋˜๋Š” SSD์šฉ ๊ณ ์„ฑ๋Šฅ ์Šคํ† ๋ฆฌ์ง€ ํ”„๋กœํ† ์ฝœ๋กœ, SATA/SAS๋ณด๋‹ค ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ œ๊ณตํ•œ๋‹ค.

WekaFS:ย AI/ML ์›Œํฌ๋กœ๋“œ๋ฅผ ์œ„ํ•ด ์„ค๊ณ„๋œ ๊ณ ์„ฑ๋Šฅ ๋ณ‘๋ ฌ ํŒŒ์ผ ์‹œ์Šคํ…œ์œผ๋กœ, ์—ฌ๋Ÿฌ ๋…ธ๋“œ์— ๊ฑธ์ณ ์ €์ง€์—ฐ ์•ก์„ธ์Šค์™€ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•œ๋‹ค.

FSx Lustre:ย ๋ณ‘๋ ฌ ์•ก์„ธ์Šค๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ๋ฐ์ดํ„ฐ ์„œ๋น„์Šค๋ฅผ ๋‹ค๋ฅธ ์„œ๋ฒ„์— ๋ถ„๋ฆฌํ•˜๋Š” HPC์šฉ์œผ๋กœ ์„ค๊ณ„๋œ ๋ณ‘๋ ฌ ํŒŒ์ผ ์‹œ์Šคํ…œ์ด๋‹ค. ๋Œ€์šฉ๋Ÿ‰ ํŒŒ์ผ์— ํšจ๊ณผ์ ์ด์ง€๋งŒ, ๋งŽ์€ ์ž‘์€ ํŒŒ์ผ์„ ํฌํ•จํ•˜๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ง‘์•ฝ์  AI/ML ์›Œํฌ๋กœ๋“œ์—์„œ๋Š” ์–ด๋ ค์›€์„ ๊ฒช์„ ์ˆ˜ ์žˆ๋‹ค.

์Šคํ† ๋ฆฌ์ง€ ๋Œ€์—ญํญ ๋ฒค์น˜๋งˆํ‚น

๊ฐ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด, GPUDirect Storage (GDS)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฝ๊ธฐ/์“ฐ๊ธฐ ์†๋„๋ฅผ ๋ฒค์น˜๋งˆํ‚นํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์Œ์€ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ํฌ๊ด„์ ์ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒค์น˜๋งˆํฌ ์Šคํฌ๋ฆฝํŠธ์ด๋‹ค:

gdsio -f /<disk_path>/gds_test.dat -d 0 -w <n_threads> -s 10G -i <io_size> -x 1 -I 1 -T 10

๋ฒค์น˜๋งˆํฌ๋Š” ์ฒ˜๋ฆฌ๋Ÿ‰, ์ง€์—ฐ ์‹œ๊ฐ„, IOPS๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ค์Œ ํ•ญ๋ชฉ๋“ค์— ๊ฑธ์ณ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค:

ํ™•์žฅ์„ฑ:ย ๋‹ค๋ฅธ ์Šค๋ ˆ๋“œ ์ˆ˜์™€ I/O ํฌ๊ธฐ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€. ์ด๋Š” ๋‹ค์–‘ํ•œ ์›Œํฌ๋กœ๋“œ ํŒจํ„ด์— ๋Œ€ํ•œ ์ตœ์ ์˜ ๊ตฌ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค:

์ „์†ก ๋ฐฉ๋ฒ• ํšจ์œจ์„ฑ:ย GPU_DIRECT ๋Œ€ CPU_GPU ๋Œ€ CPUONLY๋ฅผ ๋น„๊ตํ•˜๋ฉด CPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์šฐํšŒํ•˜๋Š” ๊ฒƒ์˜ ์ด์ ์„ ๋ณด์—ฌ์ค€๋‹ค:

๐Ÿ“Šย IOPS (I/O Operations Per Second)

IOPS๋Š” ์ดˆ๋‹น ์™„๋ฃŒ๋œ ๊ฐœ๋ณ„ I/O ์ž‘์—…์˜ ์ˆ˜์ด๋‹ค.ย gdsioย ์ถœ๋ ฅ์—์„œย ops / total_time์œผ๋กœ ๊ณ„์‚ฐ๋œ๋‹ค. IOPS๋Š” ๋‹ค์Œ์— ํŠนํžˆ ์ค‘์š”ํ•˜๋‹ค:

  • ์ž‘์€ I/O ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„ ๋žœ๋ค ์•ก์„ธ์Šค ํŒจํ„ด
  • ๋งŽ์€ ์ž‘์€ ํŒŒ์ผ์ด๋‚˜ ํฉ์–ด์ง„ ๋ฐ์ดํ„ฐ ์•ก์„ธ์Šค๊ฐ€ ์žˆ๋Š” ์›Œํฌ๋กœ๋“œ
  • ์›์‹œ ๋Œ€์—ญํญ๋ณด๋‹ค ์ž‘์—…๋‹น ์ง€์—ฐ ์‹œ๊ฐ„์ด ๋” ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์œ ์‚ฌ ์ž‘์—…
  • ๋” ๋†’์€ IOPS๋Š” ๋™์‹œ, ์„ธ๋ถ„ํ™”๋œ ๋ฐ์ดํ„ฐ ์•ก์„ธ์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋” ๋‚˜์€ ๋Šฅ๋ ฅ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.06.52.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.07.57.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.08.15.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.08.06.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.07.34.png

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-05 แ„‹แ…ฉแ„’แ…ฎ 5.07.23.png

๋ฒค์น˜๋งˆํฌ๋Š” 4๊ฐœ์˜ ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ ์ „๋ฐ˜์— ๊ฑธ์นœ ๊ทน์ ์ธ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋“œ๋Ÿฌ๋‚ธ๋‹ค:

**/scratchย (๋กœ์ปฌ NVMe RAID)**๋Š”ย 26.59 GiB/s ์ฒ˜๋ฆฌ๋Ÿ‰ย ๋ฐย 337K IOPS๋กœ ์ง€๋ฐฐ์ ์ด๋ฉฐ, FSx๋ณด๋‹ค ์ฒ˜๋ฆฌ๋Ÿ‰์€ 6.3๋ฐฐ ๋น ๋ฅด๊ณ  IOPS๋Š” 6.6๋ฐฐ ๋” ์ข‹๋‹ค. 8ร—3.5TB NVMe ๋“œ๋ผ์ด๋ธŒ์˜ ์ด ๋กœ์ปฌ RAID ์–ด๋ ˆ์ด๋Š” ๊ฐ€์žฅ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„ (ํ”ผํฌ IOPS์—์„œ 190ฮผs)์„ ์ œ๊ณตํ•˜๋ฉฐ ์Šค๋ ˆ๋“œ ์ˆ˜์— ๋”ฐ๋ผ ๋งค์šฐ ์ž˜ ํ™•์žฅ๋˜์–ด, ์ฒ˜๋ฆฌ๋Ÿ‰์˜ ๊ฒฝ์šฐ 1M I/O ํฌ๊ธฐ, 64 ์Šค๋ ˆ๋“œ์—์„œ ํ”ผํฌ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

**/fsxย (WekaFS)**๋Š”ย 4.21 GiB/sย ๋ฐย 51K IOPS์˜ ๊ฒฌ๊ณ ํ•œ ๋„คํŠธ์›Œํฌ ์Šคํ† ๋ฆฌ์ง€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์—ฌ, ํ•ฉ๋ฆฌ์ ์ธ ์„ฑ๋Šฅ์ด ํ•„์š”ํ•œ ๊ณต์œ  ๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์„ ํƒ์ด๋‹ค. FSx๋Š” CPUONLY ์ „์†ก์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ๊ณ ์˜ ์ฒ˜๋ฆฌ๋Ÿ‰(4.21 GiB/s)์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ˜๋ฉด, ์ตœ๊ณ ์˜ IOPS(51K)๋Š” GPUD ์ „์†ก ์œ ํ˜•์„ ์‚ฌ์šฉํ•œ๋‹ค.

/adminย (FSx Lustre)ย ๋ฐย /rootย (EBS)ย ํŒŒ์ผ ์‹œ์Šคํ…œ์€ ์•ฝ 1.1 GiB/s ์ฒ˜๋ฆฌ๋Ÿ‰์˜ ์œ ์‚ฌํ•œ ์ ๋‹นํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ IOPS ๊ธฐ๋Šฅ์—์„œ ํฌ๊ฒŒ ๋‹ค๋ฅด๋‹ค. Admin์€ GPUD ์ „์†ก์œผ๋กœ ํ”ผํฌ ์ฒ˜๋ฆฌ๋Ÿ‰(1.13 GiB/s)์„ ๋‹ฌ์„ฑํ•˜๊ณ  CPU_GPU ์ „์†ก์œผ๋กœ 17K IOPS์—์„œ ํ”ผํฌ๋ฅผ ์ฐ์–ด(Root๋ณด๋‹ค 24๋ฐฐ ๋” ์ข‹์Œ), ๋งŽ์€ ์ž‘์€ ์ž‘์—…์„ ํฌํ•จํ•˜๋Š” ์›Œํฌ๋กœ๋“œ์— ๋” ์ ํ•ฉํ•˜๋‹ค. Root์˜ ์—ด์•…ํ•œ IOPS ์„ฑ๋Šฅ(730)์€ ๋Œ€๊ทœ๋ชจ ์ˆœ์ฐจ ์ž‘์—…์—๋งŒ ๊ฐ€์žฅ ์ ํ•ฉํ•จ์„ ํ™•์ธ์‹œ์ผœ ์ค€๋‹ค.

GPU_DIRECT ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์ฐธ๊ณ  ์‚ฌํ•ญ: GPUDirect Storage (GDS)๋Š” ํ˜„์žฌ ์šฐ๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ํ™œ์„ฑํ™”๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, NVMe ์Šคํ† ๋ฆฌ์ง€ (Scratch ๋ฐ Root)์— ๋Œ€ํ•œ GPUD ๊ฒฐ๊ณผ๊ฐ€ CPUONLY ์ „์†ก์— ๋น„ํ•ด ์ €์กฐํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ์ด์œ ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค. GDS๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๊ตฌ์„ฑ๋˜๋ฉด, ํŠนํžˆ ๊ณ ์„ฑ๋Šฅ NVMe ์–ด๋ ˆ์ด์— ๋Œ€ํ•ด ์ง์ ‘ GPU ๋Œ€ ์Šคํ† ๋ฆฌ์ง€ ์ „์†ก์— ๋Œ€ํ•ด GPUD๊ฐ€ ์ƒ๋‹นํ•œ ์ด์ ์„ ๋ณด์ผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•œ๋‹ค.

์ตœ์ ์˜ ๊ตฌ์„ฑ ํŒจํ„ด:ย ๋ชจ๋“  ์Šคํ† ๋ฆฌ์ง€ ์œ ํ˜•์— ๊ฑธ์ณ, ์ตœ๋Œ€ ์ฒ˜๋ฆฌ๋Ÿ‰์€ 1M I/O ํฌ๊ธฐ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฐ˜๋ฉด, ์ตœ๋Œ€ IOPS๋Š” ํ…Œ์ŠคํŠธ๋œ ๊ฐ€์žฅ ์ž‘์€ ํฌ๊ธฐ (64K)์—์„œ ๋ฐœ์ƒํ•œ๋‹ค. ์ด ๊ณ ์ „์ ์ธ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” ์›Œํฌ๋กœ๋“œ ํŠน์„ฑ์— ๋”ฐ๋ผ ์›์‹œ ๋Œ€์—ญํญ(ํฐ I/O)๊ณผ ์ž‘์—… ๋™์‹œ์„ฑ(์ž‘์€ I/O) ์ค‘์—์„œ ์„ ํƒํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๋Œ€์šฉ๋Ÿ‰ ์ฒดํฌํฌ์ธํŠธ ํŒŒ์ผ์ด ์žˆ๋Š” ML ํ•™์Šต์˜ ๊ฒฝ์šฐ, Scratch์˜ย 1M-8M ๋ฒ”์œ„๊ฐ€ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค.

์š”์•ฝ

์—ฌ๊ธฐ๊นŒ์ง€ ์™”๋‹ค๋ฉด ์ถ•ํ•˜ํ•œ๋‹ค! ์ด์ œ ์Šคํ† ๋ฆฌ์ง€ ๊ณ„์ธต ๊ตฌ์กฐ์™€ ํ•™์Šต ์ธํ”„๋ผ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ดํ•ด๋ฅผ ๊ฐ–๊ฒŒ ๋˜์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋‹น์‹ ์ด ์ด ํŒŒํŠธ๋กœ๋ถ€ํ„ฐ ์–ป์–ด๊ฐ€๊ธธ ๋ฐ”๋ผ๋Š” ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์€ ์ด๊ฒƒ์ด๋‹ค:ย ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์‹๋ณ„ํ•ด๋‚ด๋Š” ๊ฒƒ์ด ์ด๋ก ์  ์ง€์‹๊ณผ ์‹ค์šฉ์  ์ตœ์ ํ™”๊ฐ€ ๊ตฌ๋ถ„๋˜๋Š” ์ง€์ ์ด๋‹ค.

์ด ๊ฐ€์ด๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ, ์šฐ๋ฆฌ๋Š” ์Šคํƒ์˜ ๋ชจ๋“  ์ˆ˜์ค€์—์„œ ์‹ค์ œ ๋Œ€์—ญํญ์„ ์ธก์ •ํ–ˆ๋‹ค: ๋‹จ์ผ GPU ๋‚ด HBM3์˜ 3TB/s, ๋…ธ๋“œ ๋‚ด GPU ๊ฐ„ NVLink์˜ 786 GB/s, CPU-GPU ์ „์†ก์„ ์œ„ํ•œ PCIe Gen4 x8์˜ 14.2 GB/s, ์ง€์  ๊ฐ„ ํ†ต์‹ ์„ ์œ„ํ•œ ๋…ธ๋“œ ๊ฐ„ ๋„คํŠธ์›Œํฌ์˜ 42 GB/s, ๊ทธ๋ฆฌ๊ณ  26.59 GB/s (๋กœ์ปฌ NVMe)์—์„œ 1.1 GB/s (๊ณต์œ  ํŒŒ์ผ ์‹œ์Šคํ…œ)์— ์ด๋ฅด๋Š” ์Šคํ† ๋ฆฌ์ง€ ์‹œ์Šคํ…œ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์ธก์ •์€ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด ์–ด๋””์„œ ๋А๋ ค์งˆ์ง€ ๋“œ๋Ÿฌ๋‚ด๋ฉฐ ๋†’์€ ๋ชจ๋ธ FLOPs ํ™œ์šฉ๋ฅ (MFU)์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์›์‹œ ๋Œ€์—ญํญ ์ˆ˜์น˜๋งŒ์œผ๋กœ๋Š” ์ „์ฒด ์ด์•ผ๊ธฐ๋ฅผ ์•Œ ์ˆ˜ ์—†๋‹ค. ํ˜„๋Œ€ ํ•™์Šต ์‹œ์Šคํ…œ์€ย ๊ณ„์‚ฐ๊ณผ ํ†ต์‹ ์„ ์ค‘์ฒฉ์‹œ์ผœ ํ†ต์‹  ๋น„์šฉ์„ ๊ณ„์‚ฐ ์ž‘์—… ๋’ค์— ํšจ๊ณผ์ ์œผ๋กœ ์ˆจ๊ธธ ์ˆ˜ ์žˆ๋‹ค. ์ด ๋ณ‘๋ ฌํ™”๋Š” ์ƒํ˜ธ ์—ฐ๊ฒฐ์ด ๋А๋ฆด ๋•Œ์—๋„ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์™„ํ™”ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.ย ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ„์‚ฐ๊ณผ ํ†ต์‹ ์„ ์ค‘์ฒฉํ•˜๋Š” ์ž์„ธํ•œ ์ „๋žต์€ Ultra-Scale Playbook์„ ์ฐธ์กฐํ•œ๋‹ค.

์•„๋ž˜ ๋‹ค์ด์–ด๊ทธ๋žจ์€ ๋ฒค์น˜๋งˆํ‚น๋œ ๋ชจ๋“  ์ธก์ •๊ฐ’์„ ๋‹จ์ผ ๋ทฐ๋กœ ์ข…ํ•ฉํ•˜์—ฌ GPU์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ๋Œ€์—ญํญ์ด ๊ทน์ ์œผ๋กœ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค:

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.28.46.png

์ด์ œ ํ•˜๋“œ์›จ์–ด ๋ฐ ์†Œํ”„ํŠธ์›จ์–ด ์„ค์ •์—์„œ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์‹๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•˜์œผ๋ฏ€๋กœ, ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€ ๋ช‡ ๋‹ฌ ๋™์•ˆ ์•ˆ์ •์ ์œผ๋กœ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ํƒ„๋ ฅ์ ์ธ ์‹œ์Šคํ…œ์„ ํ™•๋ณดํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด์ž.

ํƒ„๋ ฅ์ ์ธ ํ•™์Šต ์‹œ์Šคํ…œ ๊ตฌ์ถ•

๋น ๋ฅธ ํ•˜๋“œ์›จ์–ด๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์€ LLM ํ•™์Šต์„ ์œ„ํ•œ ์ข‹๊ณ  ์•ˆ์ •์ ์ธ ์ธํ”„๋ผ๋ฅผ ๊ฐ–๊ธฐ ์œ„ํ•œ ์ž…์žฅ๊ถŒ์ผ ๋ฟ์ด๋‹ค. ํ•™์Šต ์•„๋งˆ์ถ”์–ด์—์„œ ํ”„๋กœ๋กœ ๊ฐ€๋ ค๋ฉด, ์šฐ๋ฆฌ๋Š” raw ํ•œ ์ˆ˜์ค€์˜ ์†๋„๋ฅผ ๋„˜์–ด ์ „์ฒด ํ•™์Šต ๊ฒฝํ—˜์„ ๋” ์›ํ™œํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ  ๋‹ค์šดํƒ€์ž„์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋œ ํ™”๋ คํ•˜์ง€๋งŒ ์ค‘์š”ํ•œ ์ธํ”„๋ผ ์กฐ๊ฐ๋“ค์— ์ง‘์ค‘ํ•ด์•ผ ํ•œ๋‹ค.

์ด ์„น์…˜์—์„œ ์šฐ๋ฆฌ๋Š” ํ•˜๋“œ์›จ์–ด ๋ฐ ์†Œํ”„ํŠธ์›จ์–ด ์ตœ์ ํ™”์—์„œ **ํ”„๋กœ๋•์…˜ ์ค€๋น„ ์ƒํƒœ(production readiness)**๋กœ ๋„˜์–ด๊ฐ€๋ ค ํ•œ๋‹ค: ๋ถˆ๊ฐ€ํ”ผํ•œ ์žฅ์• ์—์„œ ์‚ด์•„๋‚จ์„ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ๊ฒฌ๊ณ ํ•˜๊ณ , ์ง€์†์ ์ธ ๊ด€๋ฆฌ ์—†์ด ์‹คํ–‰๋  ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์ž๋™ํ™”๋˜์—ˆ์œผ๋ฉฐ, ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ๋•Œ ์ ์‘ํ•  ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์œ ์—ฐํ•œ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๋…ธ๋“œ ์ƒํƒœ ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ๊ต์ฒด

์ถฉ๋ถ„ํžˆ ๋น ๋ฅธ GPU๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์€ ํ•™์Šต์— ์ค‘์š”ํ•˜์ง€๋งŒ, LLM ํ•™์Šต์€ ๋ฉฐ์น ์ด ์•„๋‹ˆ๋ผ ๋ช‡ ์ฃผ ๋˜๋Š” ๋ช‡ ๋‹ฌ ๋™์•ˆ ์‹คํ–‰๋˜๋ฏ€๋กœ ์‹œ๊ฐ„ ๊ฒฝ๊ณผ์— ๋”ฐ๋ฅธ GPU ์ƒํƒœ ์ถ”์ ์ด ์ค‘์š”ํ•˜๋‹ค. ์ดˆ๊ธฐ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ต๊ณผํ•œ GPU๋„ ์žฅ๊ธฐ๊ฐ„์˜ ํ•™์Šต ์‹คํ–‰ ์ค‘์— ์—ด ์Šค๋กœํ‹€๋ง, ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฅ˜, ๋˜๋Š” ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๊ฒช์„ ์ˆ˜ ์žˆ๋‹ค. ์ด ์„น์…˜์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ด ๋ฌธ์ œ์— ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์‚ฌ์šฉํ•˜๋Š” ๋„๊ตฌ๋ฅผ ๊ณต์œ ํ•  ๊ฒƒ์ด๋‹ค.

์‚ฌ์ „ ํ…Œ์ŠคํŠธ:ย SmolLM3๋ฅผ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์—, ์šฐ๋ฆฌ๋Š” ์—ฌ๋Ÿฌ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํฌ๊ด„์ ์ธ GPU ์ง„๋‹จ์„ ์‹คํ–‰ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ด ์Šค๋กœํ‹€๋ง, ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฅ˜, ๋ฐ ์„ฑ๋Šฅ ์ด์ƒ ์ง•ํ›„์— ๋Œ€ํ•ด GPU๋ฅผ ์ŠคํŠธ๋ ˆ์Šค ํ…Œ์ŠคํŠธํ•˜๋Š” ๋‚ด๋ถ€ ๋„๊ตฌ์ธย GPU Fryer๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ GPU ํ•˜๋“œ์›จ์–ด๋ฅผ ๊ฒ€์ฆํ•˜๊ณ , ์„ฑ๋Šฅ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋ฉฐ, ์ปดํ“จํŒ…, PCIe ์—ฐ๊ฒฐ์„ฑ, ๋ฉ”๋ชจ๋ฆฌ ๋ฌด๊ฒฐ์„ฑ, ๋ฐ ์—ด ์•ˆ์ •์„ฑ์„ ๋‹ค๋ฃจ๋Š” ์‹ฌ์ธต ์ง„๋‹จ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ์žฅ์• ๋‚˜ ์ „๋ ฅ ์ด์ƒ์˜ ๊ทผ๋ณธ ์›์ธ์„ ์‹๋ณ„ํ•˜๋Š” ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๋„๊ตฌ์ธ NVIDIA์˜ย DCGM ์ง„๋‹จ์„ ์‹คํ–‰ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ์ „ ํ…Œ์ŠคํŠธ๋Š” ํ•™์Šต ์ค‘ ๋ฌธ์ œ๋ฅผ ์ผ์œผ์ผฐ์„ ๋‘ ๊ฐœ์˜ ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š” GPU๋ฅผ ์žก์•„๋ƒˆ๋‹ค.

๋‹ค์Œ ํ‘œ์—์„œ DCGM ์ง„๋‹จ ๋„๊ตฌ๋กœ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋Š” ๋‚ด์šฉ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

ํ…Œ์ŠคํŠธ ์ˆ˜์ค€๊ธฐ๊ฐ„์†Œํ”„ํŠธ์›จ์–ดPCIe + NVLinkGPU ๋ฉ”๋ชจ๋ฆฌ๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์ง„๋‹จ๋ชฉํ‘œ ์ŠคํŠธ๋ ˆ์Šค๋ชฉํ‘œ ์ „๋ ฅNVBandwidth๋ฉ”๋ชจ๋ฆฌ ์ŠคํŠธ๋ ˆ์Šค์ž…๋ ฅ EDPp
r1 (์งง์Œ)์ดˆโœ“โœ“โœ“
r2 (์ค‘๊ฐ„)< 2๋ถ„โœ“โœ“โœ“โœ“โœ“
r3 (๊น€)< 30๋ถ„โœ“โœ“โœ“โœ“โœ“โœ“โœ“โœ“
r4 (์•„์ฃผ ๊น€)1-2์‹œ๊ฐ„โœ“โœ“โœ“โœ“โœ“โœ“โœ“โœ“โœ“โœ“

DCGM ์ง„๋‹จ ์‹คํ–‰ ์ˆ˜์ค€. ์ถœ์ฒ˜: NVIDIA DCGM ๋ฌธ์„œ

$ dcgmi diag -r 2 -v -d VERB
Successfully ran diagnostic for group.
+---------------------------+------------------------------------------------+
| Diagnostic | Result |
+===========================+================================================+
| -----  Metadata  ----------+------------------------------------------------ |
| DCGM Version | 3.3.1 |
| Driver Version Detected | 575.57.08 |
| GPU Device IDs Detected | 2330,2330,2330,2330,2330,2330,2330,2330 |
| -----  Deployment  --------+------------------------------------------------ |
| Denylist | Pass |
| NVML Library | Pass |
| CUDA Main Library | Pass |
| Permissions and OS Blocks | Pass |
| Persistence Mode | Pass |
| Environment Variables | Pass |
| Page Retirement/Row Remap | Pass |
| Graphics Processes | Pass |
| Inforom | Pass |

+-----  Integration  -------+------------------------------------------------+
| PCIe | Pass - All |
| Info | GPU 0 GPU to Host bandwidth:  14.26 GB/s, GPU |
| 0 Host to GPU bandwidth:  8.66 GB/s, GPU 0 b |
| idirectional bandwidth: 10.91 GB/s, GPU 0 GPU |
| to Host latency:  2.085 us, GPU 0 Host to GP |
| U latency:  2.484 us, GPU 0 bidirectional lat |
| ency:  3.813 us |

...
+-----  Hardware  ----------+------------------------------------------------+
| GPU Memory | Pass - All |
| Info | GPU 0 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 1 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 2 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 3 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 4 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 5 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 6 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 7 Allocated 83892938283 bytes (98.4%) |

+-----  Stress  ------------+------------------------------------------------+

๋…ธ๋“œ ์˜ˆ์•ฝ:ย SmolLM3๋Š” Slurm ๊ด€๋ฆฌ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ํ•™์Šต๋˜์—ˆ์œผ๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ์ „์ฒด ์‹คํ–‰์„ ์œ„ํ•ด ๊ณ ์ •๋œ 48๊ฐœ ๋…ธ๋“œ ์˜ˆ์•ฝ์„ ์˜ˆ์•ฝํ–ˆ๋‹ค. ์ด ์„ค์ •์€ ์‹œ๊ฐ„ ๊ฒฝ๊ณผ์— ๋”ฐ๋ฅธ ์ •ํ™•ํžˆ ๋™์ผํ•œ ๋…ธ๋“œ์˜ ์ƒํƒœ์™€ ์„ฑ๋Šฅ์„ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์—ˆ์œผ๋ฉฐ, ์šฐ๋ฆฌ๊ฐ€ ๋…ผ์˜ํ•œ ๋ฐ์ดํ„ฐ ์Šคํ† ๋ฆฌ์ง€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ์—๋„ ํ•„์š”ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œย ์˜ˆ๋น„ ๋…ธ๋“œย (์ž๋™์ฐจ์˜ ์ŠคํŽ˜์–ด ํƒ€์ด์–ด์ฒ˜๋Ÿผ)๋ฅผ ํ™•๋ณดํ•˜์—ฌ ํ•˜๋‚˜๊ฐ€ ์‹คํŒจํ•˜๋ฉด ์ˆ˜๋ฆฌ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š๊ณ  ์ฆ‰์‹œ ๊ต์ฒดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ๋‹ค. ์œ ํœด ์ƒํƒœ์ผ ๋•Œ, ์˜ˆ๋น„ ๋…ธ๋“œ๋Š” ํ‰๊ฐ€ ์ž‘์—…์ด๋‚˜ ๊ฐœ๋ฐœ ์‹คํ—˜์„ ์‹คํ–‰ํ–ˆ๋‹ค.

์ง€์†์ ์ธ ๋ชจ๋‹ˆํ„ฐ๋ง:ย ํ•™์Šต ์ค‘, ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๋…ธ๋“œ์—์„œ GPU ์˜จ๋„, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰, ์ปดํ“จํŒ… ํ™œ์šฉ๋ฅ  ๋ฐ ์ฒ˜๋ฆฌ๋Ÿ‰ ๋ณ€๋™๊ณผ ๊ฐ™์€ ์ฃผ์š” ์ง€ํ‘œ๋ฅผ ์ถ”์ ํ–ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Prometheus๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  GPU์—์„œ DCGM ์ง€ํ‘œ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์‹ค์‹œ๊ฐ„ ๋ชจ๋‹ˆํ„ฐ๋ง์„ ์œ„ํ•ด Grafana ๋Œ€์‹œ๋ณด๋“œ์— ์‹œ๊ฐํ™”ํ–ˆ๋‹ค.ย AWS ์ธํ”„๋ผ์—์„œ GPU ๋ชจ๋‹ˆํ„ฐ๋ง์„ ์œ„ํ•ด Prometheus์™€ Grafana๋ฅผ ๋ฐฐํฌํ•˜๋Š” ์ž์„ธํ•œ ์„ค์ • ์ง€์นจ์€ ์ด ์˜ˆ์‹œ ์„ค์ • ๊ฐ€์ด๋“œ(https://github.com/aws-samples/awsome-distributed-training/tree/3ae961d022399021cc4053c3ba19b182ca6b8dc8/4.validation_and_observability/4.prometheus-grafana) ๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ.ย Slack ๋ด‡์€ ๋…ธ๋“œ๊ฐ€ ์˜์‹ฌ์Šค๋Ÿฌ์šด ๋™์ž‘์„ ๋ณด์ผ ๋•Œ ์šฐ๋ฆฌ์—๊ฒŒ ๊ฒฝ๊ณ ํ•˜์—ฌ ์ „์ฒด ํ•™์Šต ์‹คํ–‰์„ ์ค‘๋‹จ์‹œํ‚ค๊ธฐ ์ „์— ์‚ฌ์ „์— ๊ณ ์žฅ ๋‚œ ํ•˜๋“œ์›จ์–ด๋ฅผ ๊ต์ฒดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค.

์ด ๋‹ค์ธต ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ•˜๋“œ์›จ์–ด ๋ฌธ์ œ๊ฐ€ ๊ด€๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ค‘๋‹จ์ด ๋˜๋„๋ก ํ–ˆ๋‹ค.

์—ด ํ˜„์‹ค ์ ๊ฒ€: GPU๊ฐ€ ๋А๋ ค์งˆ ๋•Œ

๋งˆ์ผ€ํŒ… ์‚ฌ์–‘์€ ์™„๋ฒฝํ•œ ๋ƒ‰๊ฐ์„ ๊ฐ€์ •ํ•˜์ง€๋งŒ ํ˜„์‹ค์€ ๋” ์ง€์ €๋ถ„ํ•˜๋‹ค. GPU๋Š” ๊ณผ์—ด๋  ๋•Œ ์ž๋™์œผ๋กœ ํด๋Ÿญ ์†๋„๋ฅผ ์ค„์—ฌ ์ž˜ ์„ค๊ณ„๋œ ์‹œ์Šคํ…œ์—์„œ๋„ ์ด๋ก ์  ์ตœ๋Œ€์น˜ ๋ฏธ๋งŒ์œผ๋กœ ์„ฑ๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆฐ๋‹ค.

image.png

์ด Grafana ๋Œ€์‹œ๋ณด๋“œ๋Š” ์šฐ๋ฆฌ GPU ํด๋Ÿฌ์Šคํ„ฐ ์ „๋ฐ˜์˜ ์—ด ์Šค๋กœํ‹€๋ง ์ด๋ฒคํŠธ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์•„๋ž˜ ํŒจ๋„์˜ ๋ง‰๋Œ€๋Š” ๊ณผ์—ด๋กœ ์ธํ•ด GPU๊ฐ€ ์ž๋™์œผ๋กœ ํด๋Ÿญ ์†๋„๋ฅผ ์ค„์ธ ๋•Œ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์šฐ๋ฆฌ๋Š” NVIDIA์˜ DCGM์—์„œย DCGM_FI_DEV_CLOCK_THROTTLE_REASONSย ์ง€ํ‘œ๋ฅผ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜์—ฌ ์—ด ์Šค๋กœํ‹€๋ง์„ ๊ฐ์ง€ํ•œ๋‹ค. ์ด ์ง€ํ‘œ๊ฐ€ 0์ด ์•„๋‹Œ ๊ฐ’์„ ๋ณด์ด๋ฉด, GPU๋Š” ๊ณผ์—ด๋กœ ์ธํ•ด ์ž๋™์œผ๋กœ ํด๋Ÿญ ์†๋„๋ฅผ ์ค„์ด๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. ์œ„์˜ ๋Œ€์‹œ๋ณด๋“œ๋Š” ์ด๋Ÿฌํ•œ ์Šค๋กœํ‹€๋ง ์ด๋ฒคํŠธ๊ฐ€ ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.

์—ด ์Šค๋กœํ‹€๋ง์€ ์˜ํ–ฅ์„ ๋ฐ›๋Š” GPU๋งŒ ํ•ด์น˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค; ์ „์ฒด ๋ถ„์‚ฐ ํ•™์Šต ์„ค์ •์— ํŒŒ๊ธ‰ ํšจ๊ณผ๋ฅผ ๋ฏธ์นœ๋‹ค. ํ…Œ์ŠคํŠธ ์ค‘, ์šฐ๋ฆฌ๋Š” ๋‹จ์ผ ์Šค๋กœํ‹€๋ง ๋…ธ๋“œ๊ฐ€ ์ง‘ํ•ฉ ํ†ต์‹  ์„ฑ๋Šฅ์— ์–ผ๋งˆ๋‚˜ ๊ทน์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ด€์ฐฐํ–ˆ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.33.50.png

์ŠคํŠธ๋ ˆ์Šค ํ…Œ์ŠคํŠธ ์ค‘ ๋…ธ๋“œ ์ „๋ฐ˜์˜ AllReduce ๋Œ€์—ญํญ ์ €ํ•˜. 14๊ฐœ ๋…ธ๋“œ ์ดํ›„์˜ ๊ธ‰๊ฒฉํ•œ ํ•˜๋ฝ (350 GB/s์—์„œ 100 GB/s๋กœ)์€ ๋‹จ์ผ ์—ด ์Šค๋กœํ‹€๋ง GPU์— ์˜ํ•ด ๋ฐœ์ƒํ–ˆ์œผ๋ฉฐ, ํ•˜๋‚˜์˜ ๋А๋ฆฐ ๋…ธ๋“œ๊ฐ€ ์ „์ฒด ๋ถ„์‚ฐ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ณ‘๋ชฉ ํ˜„์ƒ์— ๋น ๋œจ๋ฆด ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

์œ„์˜ ์ฐจํŠธ๋Š” 1์—์„œ 16๊ฐœ ๋…ธ๋“œ๋กœ ํ™•์žฅํ•จ์— ๋”ฐ๋ผ AllReduce ๋Œ€์—ญํญ์ด ์ €ํ•˜๋˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. 14๊ฐœ ๋…ธ๋“œ ์ดํ›„ 350 GB/s์—์„œ 100 GB/s๋กœ ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์— ์ฃผ๋ชฉํ•ด๋ผ (์ด์ „์—๋Š” ๋Œ€์—ญํญ์ด 300GB/s ์ด์ƒ ์œ ์ง€๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ–ˆ๋‹ค). ์ด๊ฒƒ์€ ๋„คํŠธ์›Œํฌ ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค: ์—ด ์Šค๋กœํ‹€๋ง์ด ์žˆ๋Š” ๋‹จ์ผ ๋…ธ๋“œ๊ฐ€ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋˜์–ด ๊ธฐ์šธ๊ธฐ ๋™๊ธฐํ™” ์ค‘์— ๋‹ค๋ฅธ ๋ชจ๋“  ๋…ธ๋“œ๊ฐ€ ๊ธฐ๋‹ค๋ฆฌ๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค. ๋ถ„์‚ฐ ํ•™์Šต์—์„œ, ์—ฌ๋Ÿฌ๋ถ„์€ ๊ฐ€์žฅ ๋А๋ฆฐ ๋…ธ๋“œ๋งŒํผ๋งŒ ๋น ๋ฅด๋‹ค.

๐Ÿ‘‰ย ํ•ต์‹ฌ ๊ตํ›ˆ:ย ๊ธด ํ•™์Šต ์‹คํ–‰์— ์ „๋…ํ•˜๊ธฐ ์ „์—, ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•˜๋“œ์›จ์–ด๋ฅผ ์ŠคํŠธ๋ ˆ์Šค ํ…Œ์ŠคํŠธํ•˜์—ฌ ์—ด ๋ฐ ์ „๋ ฅ ์ œํ•œ์„ ์‹๋ณ„ํ•œ๋‹ค. DCGM ์›๊ฒฉ ์ธก์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜จ๋„๋ฅผ ์ง€์†์ ์œผ๋กœ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ  ์‹ค์ œ ์—ด ์ œํ•œ์„ ๊ณ„ํšํ•œ๋‹ค. GPU ํด๋Ÿญ์ด ์ตœ๋Œ€ ์„ฑ๋Šฅ์œผ๋กœ ์„ค์ •๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ๋„ ์ข‹์€ ๊ด€ํ–‰์ด๋‹ค.ย ์ „๋ ฅ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด GPU๊ฐ€ ๊ด‘๊ณ ๋œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ด์œ ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ๋‚ด์šฉ์€ ์ „๋ ฅ ์Šค๋กœํ‹€๋ง์— ๋Œ€ํ•œ ์ด ํ›Œ๋ฅญํ•œ ๋ถ„์„(https://www.thonking.ai/p/strangely-matrix-multiplications)์„ ์ฐธ๊ณ ํ•ด๋ผ.

์ฒดํฌํฌ์ธํŠธ ๊ด€๋ฆฌ

์ฒดํฌํฌ์ธํŠธ๋Š” ๊ธด ํ•™์Šต ์‹คํ–‰ ์ค‘ ์šฐ๋ฆฌ์˜ ์•ˆ์ „๋ง์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ์„ธ ๊ฐ€์ง€ ์‹ค์šฉ์ ์ธ ์ด์œ ๋กœ ์ด๋ฅผ ์ •๊ธฐ์ ์œผ๋กœ ์ €์žฅํ–ˆ๋‹ค: ์žฅ์• ๋กœ๋ถ€ํ„ฐ์˜ ๋ณต๊ตฌ, ํ‰๊ฐ€๋ฅผ ํ†ตํ•œ ํ•™์Šต ์ง„ํ–‰ ๋ชจ๋‹ˆํ„ฐ๋ง, ๊ทธ๋ฆฌ๊ณ  ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•ด ์ค‘๊ฐ„ ๋ชจ๋ธ์„ ์ปค๋ฎค๋‹ˆํ‹ฐ์™€ ๊ณต์œ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ณต๊ตฌ ์ธก๋ฉด์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹ค. ์‹คํ–‰์ด ์‹คํŒจํ•˜๋ฉด, ์ฆ‰์‹œ ์žฌ๊ฐœํ•  ๊ฒฝ์šฐ ์ตœ๋Œ€ ์ €์žฅ ๊ฐ„๊ฒฉ๋งŒํผ๋งŒ ์žƒ๋„๋ก ์ตœ์‹  ์ €์žฅ๋œ ์ฒดํฌํฌ์ธํŠธ์—์„œ ๋‹ค์‹œ ์‹œ์ž‘ํ•˜๊ธฐ๋ฅผ ์šฐ๋ฆฌ๋Š” ์›ํ•œ๋‹ค (์˜ˆ: 4์‹œ๊ฐ„๋งˆ๋‹ค ์ €์žฅํ•˜๋Š” ๊ฒฝ์šฐ 4์‹œ๊ฐ„์˜ ํ•™์Šต).

๐Ÿ’กย ์žฌ๊ฐœ ํ”„๋กœ์„ธ์Šค ์ž๋™ํ™”

์žฌ๊ฐœ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ž๋™ํ™”ํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•ด๋ผ. ์˜ˆ๋ฅผ ๋“ค์–ด Slurm์—์„œ๋Š”ย SBATCH --requeue๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์ด ์ตœ์‹  ์ฒดํฌํฌ์ธํŠธ์—์„œ ์ž๋™์œผ๋กœ ๋‹ค์‹œ ์‹œ์ž‘๋˜๋„๋ก ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ˆ„๊ตฐ๊ฐ€ ์‹คํŒจ๋ฅผ ์•Œ์•„์ฐจ๋ฆฌ๊ณ  ์ˆ˜๋™์œผ๋กœ ๋‹ค์‹œ ์‹œ์ž‘ํ•˜๊ธฐ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ์‹œ๊ฐ„์„ ๋‚ญ๋น„ํ•˜๋Š” ๊ฒƒ์„ ํ”ผํ•  ์ˆ˜ ์žˆ๋‹ค.

์žฌ๊ฐœ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ตฌํ˜„ํ•  ๋•Œ ๋ช…์‹ฌํ•ด์•ผ ํ•  ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์ด ์žˆ๋‹ค:

๊ณผ๊ฑฐ์˜ ๊ณ ํ†ต์Šค๋Ÿฌ์šด ๊ตํ›ˆ:

์šฐ๋ฆฌ์˜ ์ฒซ ๋ฒˆ์งธ ๋Œ€๊ทœ๋ชจ ์‹คํ–‰ (StarCoder 15B) ๋™์•ˆ, ํ•™์Šต์€ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์žฌ์‹œ์ž‘์„ ํ†ตํ•ด ์ˆœ์กฐ๋กญ๊ฒŒ ์ง„ํ–‰๋˜์—ˆ๋‹ค. ๋งˆ์ง€๋ง‰ ๋‚ , ์šฐ๋ฆฌ๋Š” ์ด์ „ ์ฒ˜๋ฆฌ๋Ÿ‰ ํ…Œ์ŠคํŠธ ์Šคํฌ๋ฆฝํŠธ์˜ ๋งจ ๋์— ๋‚จ์•„ ์žˆ๋˜ย rm -rf $CHECKPOINT_PATHย ๋ช…๋ น์— ์˜ํ•ด ์ „์ฒด ์ฒดํฌํฌ์ธํŠธ ํด๋”๊ฐ€ ์‚ญ์ œ๋œ ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด ํŒŒ๊ดด์ ์ธ ๋ช…๋ น์€ Slurm ์ž‘์—…์ด ์‹ค์ œ๋กœ ์™„๋ฃŒ๋˜์—ˆ์„ ๋•Œ๋งŒ ํŠธ๋ฆฌ๊ฑฐ๋˜์—ˆ๋Š”๋ฐ, ์ด์ „ ์žฌ์‹œ์ž‘์—์„œ๋Š” ๋ฐœ์ƒํ•˜์ง€ ์•Š์•˜๋‹ค.

๋‹คํ–‰ํžˆ๋„, ์ „๋‚ ์˜ ์ฒดํฌํฌ์ธํŠธ๊ฐ€ ์ €์žฅ๋˜์–ด ์žˆ์–ด์„œ ํ•˜๋ฃจ์น˜ ์žฌํ•™์Šต ๋น„์šฉ๋งŒ ๋“ค์—ˆ๋‹ค. ๊ตํ›ˆ์€ ๋ช…ํ™•ํ–ˆ๋‹ค: ํ”„๋กœ๋•์…˜ ์Šคํฌ๋ฆฝํŠธ์— ํŒŒ๊ดด์ ์ธ ๋ช…๋ น์„ ๋‚จ๊ฒจ๋‘์ง€ ๋ง๊ณ , ์ˆ˜๋™ ๊ฐœ์ž…์— ์˜์กดํ•˜๊ธฐ๋ณด๋‹ค ์ €์žฅ ์งํ›„ ์ฒดํฌํฌ์ธํŠธ ๋ฐฑ์—…์„ ์ž๋™ํ™”ํ•ด๋ผ.

์šฐ๋ฆฌ์˜ nanotron ํ•™์Šต์—์„œ๋Š” ๋กœ์ปฌ์— 2์‹œ๊ฐ„๋งˆ๋‹ค ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ €์žฅํ•˜๊ณ , ์ฆ‰์‹œ ๊ฐ ์ฒดํฌํฌ์ธํŠธ๋ฅผ S3์— ์—…๋กœ๋“œํ•œ ๋‹ค์Œ, ๋ฐฑ์—…์ด ํ™•์ธ๋˜๋ฉด ๋กœ์ปฌ ๋ณต์‚ฌ๋ณธ์„ ์‚ญ์ œํ•œ๋‹ค. ์žฌ๊ฐœ ์‹œ, ์ตœ์‹  ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๋กœ์ปฌ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ S3์—์„œ ๊ฐ€์ ธ์˜จ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์Šคํ† ๋ฆฌ์ง€๋ฅผ ์ ˆ์•ฝํ•˜๊ณ , ๋ฐฑ์—…์„ ๋ณด์žฅํ•˜๋ฉฐ, ๋น ๋ฅธ ๋ณต๊ตฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

์ž๋™ํ™”๋œ ํ‰๊ฐ€

ํ‰๊ฐ€๋ฅผ ์ˆ˜๋™์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๋น ๋ฅด๊ฒŒ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋œ๋‹ค. ๋ฐ˜๋ณตํ•ด์„œ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „๊นŒ์ง€๋Š” ๊ฐ„๋‹จํ•ด ๋ณด์ธ๋‹ค. ๋ชจ๋“  ์‹คํ–‰์— ๋Œ€ํ•ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‹คํ–‰ํ•˜๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์ถ”์ ํ•˜๊ณ  ํ”Œ๋กฏํ•˜๋Š” ๊ฒƒ์€ ์ƒ๋‹นํ•œ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋œ๋‹ค. ํ•ด๊ฒฐ์ฑ…์€?ย ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ชจ๋“  ๊ฒƒ์„ ์ž๋™ํ™”ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” LightEval์„ ์‚ฌ์šฉํ•˜์—ฌ nanotron ์ฒดํฌํฌ์ธํŠธ์—์„œ ํ‰๊ฐ€๋ฅผ ์‹คํ–‰ํ–ˆ๋‹ค. ์ €์žฅ๋œ ๋ชจ๋“  ์ฒดํฌํฌ์ธํŠธ๋Š” ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ํ‰๊ฐ€ ์ž‘์—…์„ ํŠธ๋ฆฌ๊ฑฐํ•œ๋‹ค. ๊ฒฐ๊ณผ๋Š” Weights & Biases ๋˜๋Š” Trackio๋กœ ์ง์ ‘ ํ‘ธ์‹œ๋˜๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์—ด๊ณ  ๊ณก์„ ์ด ์ง„ํ™”ํ•˜๋Š” ๊ฒƒ์„ ์ง€์ผœ๋ณด๊ธฐ๋งŒ ํ•˜๋ฉด ๋˜์—ˆ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ์—๊ฒŒ ๋ง‰๋Œ€ํ•œ ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•ด ์ฃผ์—ˆ๊ณ  ์‹คํ–‰ ๋‚ด๋‚ด ํ‰๊ฐ€ ์ถ”์ ์„ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€ํ–ˆ๋‹ค.

ํ•™์Šต ์„ค์ •์—์„œ ๋‹จ ํ•˜๋‚˜๋งŒ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด,ย ํ‰๊ฐ€๋ฅผ ์ž๋™ํ™”ํ•ด๋ผ.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๋ ˆ์ด์•„์›ƒ, ์ฆ‰ ๋ชจ๋ธ์ด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ GPU ์ „์ฒด์— ์–ด๋–ป๊ฒŒ ๋ถ„์‚ฐ๋˜๋Š”์ง€ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด์ž.

ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰ ์ตœ์ ํ™”

์–ผ๋งˆ๋‚˜ ๋งŽ์€ GPU๊ฐ€ ํ•„์š”ํ•œ๊ฐ€?

์ข‹์€ ์งˆ๋ฌธ์ด๋‹ค! ์‚ฌ์–‘๊ณผ ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•œ ๋ชจ๋“  ์ด์•ผ๊ธฐ ํ›„์—, ์—ฌ์ „ํžˆ ์‹ค์šฉ์ ์ธ ์งˆ๋ฌธ์„ ํ•ด๊ฒฐํ•ด์•ผ ํ•œ๋‹ค: ์‹ค์ œ๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ GPU๋ฅผ ๋นŒ๋ฆฌ๊ฑฐ๋‚˜ ์‚ฌ์•ผ ํ•˜๋Š”๊ฐ€?

๊ธฐ๋ณธ ํฌ๊ธฐ ์กฐ์ • ๊ณต์‹:

GPUย ์ˆ˜=ํ•„์š”ํ•œย ์ดย FLOPsGPU๋‹นย ์ฒ˜๋ฆฌ๋Ÿ‰ร—๋ชฉํ‘œย ํ•™์Šตย ์‹œ๊ฐ„\text{GPU ์ˆ˜} = \frac{\text{ํ•„์š”ํ•œ ์ด FLOPs}}{\text{GPU๋‹น ์ฒ˜๋ฆฌ๋Ÿ‰} \times \text{๋ชฉํ‘œ ํ•™์Šต ์‹œ๊ฐ„}}

์ด ๊ณต์‹์€ ๋ฌธ์ œ๋ฅผ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๋‚˜๋ˆˆ๋‹ค:

ํ•ต์‹ฌ์ ์ธ ์ธ์‚ฌ์ดํŠธ: ํ”ผํฌ ์‚ฌ์–‘์ด ์•„๋‹ˆ๋ผย ํ˜„์‹ค์ ์ธ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ถ”์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ FLOPs ํ™œ์šฉ๋ฅ (MFU)์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค: ์‹ค์ œ๋กœ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์€ ์ด๋ก ์  ํ”ผํฌ ์„ฑ๋Šฅ์˜ ์ผ๋ถ€๋ถ„์ด๋‹ค.

SmolLM3์˜ ๊ฒฝ์šฐ, ๊ณ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์•˜๋‹ค:

๋จผ์ €, ํ‘œ์ค€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ทผ์‚ฌ์น˜์ธ ํ† ํฐ๋‹น 6N FLOPs (์—ฌ๊ธฐ์„œ N = ๋งค๊ฐœ๋ณ€์ˆ˜)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•„์š”ํ•œ ์ด FLOPs๋ฅผ ๊ณ„์‚ฐํ–ˆ๋‹ค:

์ดย FLOPs=6ร—3ร—109ย ๋งค๊ฐœ๋ณ€์ˆ˜ร—11ร—1012ย ํ† ํฐ=1.98ร—1023ย FLOPs\text{์ด FLOPs} = 6 \times 3 \times 10^9 \text{ ๋งค๊ฐœ๋ณ€์ˆ˜} \times 11 \times 10^{12} \text{ ํ† ํฐ} = 1.98 \times 10^{23} \text{ FLOPs}

์˜ˆ์ƒ MFU 30%๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์œ ํšจ GPU๋‹น ์ฒ˜๋ฆฌ๋Ÿ‰์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์œ ํšจย ์ฒ˜๋ฆฌ๋Ÿ‰=720ร—1012ย FLOPs/secร—0.30=216ร—1012ย FLOPs/sec\text{์œ ํšจ ์ฒ˜๋ฆฌ๋Ÿ‰} = 720 \times 10^{12} \text{ FLOPs/sec} \times 0.30 = 216 \times 10^{12} \text{ FLOPs/sec}

์ด์ œ ํฌ๊ธฐ ์กฐ์ • ๊ณต์‹์— ๋Œ€์ž…ํ•œ๋‹ค:

GPUย ์ˆ˜=1.98ร—1023ย FLOPs216ร—1012ย FLOPs/secร—4ย ์ฃผร—604,800ย ์ดˆ/์ฃผ\text{GPU ์ˆ˜} = \frac{1.98 \times 10^{23} \text{ FLOPs}}{216 \times 10^{12} \text{ FLOPs/sec} \times 4 \text{ ์ฃผ} \times 604{,}800 \text{ ์ดˆ/์ฃผ}} =1.98ร—10235.23ร—1020โ‰ˆ379ย GPU= \frac{1.98 \times 10^{23}}{5.23 \times 10^{20}} \approx 379 \text{ GPU}

์ด ๊ณ„์‚ฐ์€ ์šฐ๋ฆฌ์—๊ฒŒ 375-400๊ฐœ์˜ H100์„ ๊ฐ€๋ฆฌ์ผฐ๊ณ , ์šฐ๋ฆฌ๋Š” 384๊ฐœ์˜ H100์„ ํ™•๋ณดํ–ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ์˜ ๋ณ‘๋ ฌํ™” ์ „๋žต๊ณผ ์ž˜ ์ผ์น˜ํ•˜๊ณ  ๋…ธ๋“œ ์žฅ์•  ๋ฐ ์žฌ์‹œ์ž‘๊ณผ ๊ฐ™์€ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์•ฝ๊ฐ„์˜ ๋ฒ„ํผ์™€ ํ•จ๊ป˜ ํ˜„์‹ค์ ์ธ 4์ฃผ ํƒ€์ž„๋ผ์ธ์„ ์ œ๊ณตํ•œ ์ˆซ์ž์˜€๋‹ค.

์™œ ๋” ๋งŽ์€ GPU๊ฐ€ ํ•ญ์ƒ ๋” ๋‚˜์€ ๊ฒƒ์€ ์•„๋‹Œ๊ฐ€: ์•”๋‹ฌ์˜ ๋ฒ•์น™ ์ž‘์šฉ

์—ฌ๊ธฐ ์ง๊ด€์— ๋ฐ˜ํ•˜๋Š” ์ง„์‹ค์ด ์žˆ๋‹ค:ย ๋” ๋งŽ์€ GPU๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ์‹ค์ œ๋กœ ํ•™์Šต์ด ๋А๋ ค์งˆ ์ˆ˜ ์žˆ๋‹ค. ์•”๋‹ฌ์˜ ๋ฒ•์น™(Amdahlโ€™s Law, https://en.wikipedia.org/wiki/Amdahl%27s_law)์ด ์ž‘์šฉํ•˜๊ฒŒ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์•”๋‹ฌ์˜ ๋ฒ•์น™์€ ๋ณ‘๋ ฌํ™”๋กœ ์ธํ•œ ์†๋„ ํ–ฅ์ƒ์ด ๊ทผ๋ณธ์ ์œผ๋กœ ์›Œํฌ๋กœ๋“œ์˜ ์ง๋ ฌ (๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์—†๋Š”) ๋ถ€๋ถ„์— ์˜ํ•ด ์ œํ•œ๋œ๋‹ค๊ณ  ๋ช…์‹œํ•œ๋‹ค. LLM ํ•™์Šต์—์„œ, ์ด โ€œ์ง๋ ฌโ€ ๋ถ€๋ถ„์€ ์ฃผ๋กœย ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ์ด๋‹ค: ๋ณ‘๋ ฌํ™”๋  ์ˆ˜ ์—†๋Š” GPU ๊ฐ„์˜ ๊ธฐ์šธ๊ธฐ/๊ฐ€์ค‘์น˜/ํ™œ์„ฑํ™” ๋™๊ธฐํ™”์— ์†Œ๋น„๋˜๋Š” ์‹œ๊ฐ„์ด๋‹ค (์—ฌ๊ธฐ(https://acenet-arc.github.io/ACENET_Summer_School_General/05-performance/index.html)์„œ ์ž์„ธํžˆ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค).

๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์ตœ๋Œ€ย ์†๋„ย ํ–ฅ์ƒ=1์ง๋ ฌย ๋น„์œจ+๋ณ‘๋ ฌย ๋น„์œจํ”„๋กœ์„ธ์„œย ์ˆ˜\text{์ตœ๋Œ€ ์†๋„ ํ–ฅ์ƒ} = \frac{1}{\text{์ง๋ ฌ ๋น„์œจ} + \frac{\text{๋ณ‘๋ ฌ ๋น„์œจ}}{\text{ํ”„๋กœ์„ธ์„œ ์ˆ˜}}}

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.45.11.png

SmolLM3์˜ 30์–ต ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ํ†ต์‹ ์ด ๊ฐ ํ•™์Šต ๋‹จ๊ณ„์˜ 10%๋ฅผ ์ฐจ์ง€ํ•œ๋‹ค๋ฉด, ์•„๋ฌด๋ฆฌ ๋งŽ์€ GPU๋ฅผ ์ถ”๊ฐ€ํ•˜๋”๋ผ๋„ 10๋ฐฐ ์ด์ƒ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ ˆ๋Œ€ ์–ป์„ ์ˆ˜ ์—†๋‹ค. ๋” ๋‚˜์œ ๊ฒƒ์€, GPU๋ฅผ ์ถ”๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํ†ต์‹  ๋น„์œจ์ด ์ข…์ข…ย ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด:

SmolLM3์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š” ์•ฝํ•œ ํ™•์žฅ(weak scaling) ์›์น™์„ ์‚ฌ์šฉํ–ˆ๋‹ค: ์ „์—ญ ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” GPU ์ˆ˜์— ๋”ฐ๋ผ ํ™•์žฅ๋˜์–ด ์ „์—ญ์ ์œผ๋กœ GPU๋‹น ๋Œ€๋žต 8K ํ† ํฐ์„ ์œ ์ง€ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ ํ†ต์‹  ๋Œ€ ๊ณ„์‚ฐ ๋น„์œจ์„ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ์œ ์ง€ํ–ˆ๋‹ค.

์ตœ์ ์˜ ๋ณ‘๋ ฌํ™” ๊ตฌ์„ฑ ์ฐพ๊ธฐ

GPU๋ฅผ ํ™•๋ณดํ–ˆ๋‹ค๋ฉด, ๋‹ค์Œ ๊ณผ์ œ๋Š” ์‹ค์ œ๋กœ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋ณ‘๋ ฌํ™” ์ „๋žต์ด ์ค‘์š”ํ•ด์ง„๋‹ค.

์šฐ๋ฆฌ๋Š” ์ตœ์ ์˜ ํ•™์Šต ๊ตฌ์„ฑ์„ ์ฐพ๊ธฐ ์œ„ํ•ดย Ultra-Scale Playbook์˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋”ฐ๋ฅธ๋‹ค. ํ”Œ๋ ˆ์ด๋ถ์€ ๋ฌธ์ œ๋ฅผ ์„ธ ๊ฐ€์ง€ ์ˆœ์ฐจ์  ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆˆ๋‹ค: ๋จผ์ € ๋ชจ๋ธ์ด ๋ฉ”๋ชจ๋ฆฌ์— ๋งž๋Š”์ง€ ํ™•์ธํ•˜๊ณ , ๋ชฉํ‘œ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋‹ฌ์„ฑํ•œ ๋‹ค์Œ, ๋งˆ์ง€๋ง‰์œผ๋กœ ์ตœ๋Œ€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์œ„ํ•ด ์ตœ์ ํ™”ํ•œ๋‹ค. SmolLM3์— ์ด๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ์ ์šฉํ–ˆ๋Š”์ง€ ์‚ดํŽด๋ณด์ž.

(๋‹ค์–‘ํ•œ ๋ณ‘๋ ฌํ™” ์ „๋žต (๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌํ™”, ํ…์„œ ๋ณ‘๋ ฌํ™”, ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™”, ZeRO ๋“ฑ)์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์€ ๋‹ค์‹œ ํ•œ ๋ฒˆ Ultra-Scale Playbook์„ ํ™•์ธํ•  ๊ฒƒ์„ ์ด‰๊ตฌํ•œ๋‹ค.)

1๋‹จ๊ณ„: ํ•™์Šต ๋‹จ๊ณ„๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ๋งž์ถ”๊ธฐ

์ฒซ ๋ฒˆ์งธ ์งˆ๋ฌธ์€ ๊ฐ„๋‹จํ•˜๋‹ค: ์šฐ๋ฆฌ SmolLM3 30์–ต ๋ชจ๋ธ์ด ๋‹จ์ผ H100์˜ 80GB ๋ฉ”๋ชจ๋ฆฌ์— ๋งž๋Š”๊ฐ€? ์ด์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด, ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜, ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ, ๊ธฐ์šธ๊ธฐ ๋ฐ ํ™œ์„ฑํ™”์— ๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋น„๋ฅผ ์ถ”์ •ํ•˜๋Š” nanotron์˜ย predict_memoryย ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด๋ณธ๋‹ค.

แ„‰แ…ณแ„แ…ณแ„…แ…ตแ†ซแ„‰แ…ฃแ†บ 2025-12-04 แ„‹แ…ฉแ„’แ…ฎ 9.47.13.png

nanotron์˜ย predict_memoryย ๋„๊ตฌ์˜ ๋ฉ”๋ชจ๋ฆฌ ํƒ€์ž„๋ผ์ธ์€ SmolLM3 3B๊ฐ€ 74GB์—์„œ ํ”ผํฌ๋ฅผ ์ฐ์–ด H100์˜ 80GB ํ•œ๊ณ„์— ์ ‘๊ทผํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

๊ฒฐ๊ณผ๋Š” ์šฐ๋ฆฌ๊ฐ€ 80GB ํ•œ๊ณ„์— ๊ฐ€๊น๊ฒŒ ๋ฐ€์–ด๋ถ™์ด๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Š” ํ…์„œ ๋ณ‘๋ ฌํ™” (GPU ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ชจ๋ธ ๋ ˆ์ด์–ด ๋ถ„ํ• ), ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™” (GPU ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ชจ๋ธ ๊นŠ์ด ๋ถ„ํ• ), ๋˜๋Š” ZeRO ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒค๋”ฉ (์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ ๋ถ„์‚ฐ) ๋“ฑ GPU๋‹น ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ์–ด๋–ค ํ˜•ํƒœ์˜ ๋ณ‘๋ ฌํ™”๊ฐ€ ํ•„์š”ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋žต ์ค‘ ์ ์–ด๋„ ํ•˜๋‚˜๊ฐ€ ์—†๋‹ค๋ฉด ํšจ์œจ์ ์œผ๋กœ ๋˜๋Š” ์ „ํ˜€ ํ•™์Šตํ•  ์ˆ˜ ์—†์„ ๊ฒƒ์ด๋‹ค.

2๋‹จ๊ณ„: ๋ชฉํ‘œ ์ „์—ญ ๋ฐฐ์น˜ ํฌ๊ธฐ ๋‹ฌ์„ฑ

์ด์ œ ๋ชจ๋ธ์ด ์–ด๋–ค ํ˜•ํƒœ์˜ ๋ณ‘๋ ฌํ™”๋กœ ๋ฉ”๋ชจ๋ฆฌ์— ๋งž๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์•Œ์•˜์œผ๋ฏ€๋กœ, ์•ฝ 200๋งŒ ํ† ํฐ์˜ ๋ชฉํ‘œ ์ „์—ญ ๋ฐฐ์น˜ ํฌ๊ธฐ(GBS)๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด ์ œ์•ฝ ์กฐ๊ฑด์€ ์šฐ๋ฆฌ์—๊ฒŒ ์ฒซ ๋ฒˆ์งธ ๋ฐฉ์ •์‹์„ ์ œ๊ณตํ•œ๋‹ค:

GBS=DPร—MBSร—GRAD_ACCร—SEQLENโ‰ˆ2Mย tokensGBS = DP \times MBS \times GRAD\_ACC \times SEQLEN \approx 2M \text{ tokens}

์—ฌ๊ธฐ์„œ:

์ด๋‹ค.

์šฐ๋ฆฌ๋Š” ๋˜ํ•œ 384๊ฐœ์˜ H100์—์„œ ํ•˜๋“œ์›จ์–ด ์ œ์•ฝ ์กฐ๊ฑด์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค:

DPร—TPร—PP=384=27ร—3DPร—TPร—PP=384=2^7ร—3

์—ฌ๊ธฐ์„œ:

์ด๋‹ค.

์ด ๋‘ ๋ฐฉ์ •์‹์€ ์šฐ๋ฆฌ์˜ ํƒ์ƒ‰ ๊ณต๊ฐ„์„ ์ •์˜ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด์„œ ๋‘ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋ชจ๋‘ ๋งŒ์กฑํ•˜๋Š” ๊ฐ’์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค.

3๋‹จ๊ณ„: ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰ ์ตœ์ ํ™”

์ œ์•ฝ ์กฐ๊ฑด์ด ํ™•๋ฆฝ๋˜์—ˆ์œผ๋ฏ€๋กœ, ํ•™์Šต ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ณ‘๋ ฌํ™” ๊ตฌ์„ฑ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ํƒ์ƒ‰ ๊ณต๊ฐ„์€ ํ•˜๋“œ์›จ์–ด ํ† ํด๋กœ์ง€์™€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์˜ํ•ด ์ •์˜๋œ๋‹ค.

์šฐ๋ฆฌ์˜ ํ•˜๋“œ์›จ์–ด ์„ค์ •์€ ์œ„ ์„น์…˜์—์„œ ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ ๋‘ ๊ฐ€์ง€ ๋ณ„๊ฐœ์˜ ์ƒํ˜ธ ์—ฐ๊ฒฐ ์œ ํ˜•์„ ์ œ์‹œํ•œ๋‹ค: ๋…ธ๋“œ ๋‚ด ํ†ต์‹ ์„ ์œ„ํ•œ NVLink (900 GB/s)์™€ ๋…ธ๋“œ ๊ฐ„ ํ†ต์‹ ์„ ์œ„ํ•œ EFA (~50 GB/s). ์ด ํ† ํด๋กœ์ง€๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋„คํŠธ์›Œํฌ ํŠน์„ฑ์— ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์ ์–ด๋„ ๋‘ ๊ฐ€์ง€ ํ˜•ํƒœ์˜ ๋ณ‘๋ ฌํ™”๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ƒํ˜ธ ์—ฐ๊ฒฐ ๊ฐ„์˜ ๊ทน์ ์ธ ๋Œ€์—ญํญ ์ฐจ์ด๋Š” ์–ด๋–ค ๋ณ‘๋ ฌํ™” ์ „๋žต์ด ๊ฐ€์žฅ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น  ๊ฒƒ์ด๋‹ค.

๋ชจ๋ธ ๊ด€์ ์—์„œ, SmolLM3์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ์˜ต์…˜์„ ์ œํ•œํ•œ๋‹ค. ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ **์ „๋ฌธ๊ฐ€ ๋ณ‘๋ ฌํ™”(Expert Parallelism)**๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ 4096 ์‹œํ€€์Šค ๊ธธ์ด๋กœ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฒƒ์€ **์ปจํ…์ŠคํŠธ ๋ณ‘๋ ฌํ™”(Context Parallelism)**๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ์—๊ฒŒ ํƒ์ƒ‰ํ•  ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ณ‘๋ ฌํ™” ์ฐจ์›, ์ฆ‰ ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌํ™”(DP), ํ…์„œ ๋ณ‘๋ ฌํ™”(TP), ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™”(PP)๋ฅผ ๋‚จ๊ธด๋‹ค.

2๋‹จ๊ณ„์˜ ์ œ์•ฝ ์กฐ๊ฑด์„ ๊ณ ๋ คํ•  ๋•Œ, ์šฐ๋ฆฌ๋Š” ์—ฌ๋Ÿฌ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๊ฑธ์ณ ์Šค์œ•ํ•ด์•ผ ํ•œ๋‹ค:

์ด๊ฒƒ์ด ์••๋„์ ์ธ ์ˆ˜์˜ ์กฐํ•ฉ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์šฉ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ฐ ์ฐจ์›์„ ๋จผ์ € ๋…๋ฆฝ์ ์œผ๋กœ ๋ฒค์น˜๋งˆํ‚นํ•œ ๋‹ค์Œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ํฌ๊ฒŒ ํ•ด์น˜๋Š” ๊ตฌ์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์€ ๋ชจ๋“  ๋ณ‘๋ ฌํ™” ์ „๋žต์ด ๋™์ผํ•˜๊ฒŒ ์ƒ์„ฑ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์ด๋‹ค. ์ผ๋ถ€๋Š” ํŠนํžˆ ์šฐ๋ฆฌ ๊ทœ๋ชจ์—์„œ ์ด์ ๋ณด๋‹ค ํ›จ์”ฌ ํฐ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋„์ž…ํ•œ๋‹ค.

์šฐ๋ฆฌ์˜ ๊ฒฝ์šฐ, **ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™”(PP)**๋Š” ๋‚˜์œ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ๋ณด์˜€๋‹ค. PP๋Š” ๋…ธ๋“œ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋นˆ๋ฒˆํ•œ ํŒŒ์ดํ”„๋ผ์ธ ๋ฒ„๋ธ” ๋™๊ธฐํ™”๋ฅผ ์š”๊ตฌํ•˜๋ฉฐ, ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ 30์–ต ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ž ์žฌ์  ์ด์ ์„ ๋„˜์–ด์„ฐ๋‹ค. ๋˜ํ•œ ํŒŒ์ดํ”„๋ผ์ธ ๋ฒ„๋ธ”์„ ์™„์ „ํžˆ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ๋„๋กœ ํšจ์œจ์ ์ธ PP ์Šค์ผ€์ค„์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์—†์—ˆ๊ธฐ ๋•Œ๋ฌธ์— PP์˜ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ์ด ๋”์šฑ ์ œํ•œ๋˜์—ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, 0๋ณด๋‹ค ๋†’์€ ZeRO ์ˆ˜์ค€์€ ๋ฉ”๋ชจ๋ฆฌ์— ๋„์›€์ด ๋˜๋Š” ๊ฒƒ๋ณด๋‹ค ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋” ๋งŽ์ด ํ•ด์น˜๋Š” ์ƒ๋‹นํ•œ all-gather ๋ฐ reduce-scatter ์ž‘์—…์„ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ดˆ๊ธฐ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ์šฐ๋ฆฌ๋Š” ํƒ์ƒ‰ ๊ณต๊ฐ„์„ ๊ทน์ ์œผ๋กœ ์ขํž ์ˆ˜ ์žˆ์—ˆ๊ณ ,ย ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌํ™”์™€ ์ ๋‹นํ•œย ํ…์„œ ๋ณ‘๋ ฌํ™”๋ฅผ ๊ฒฐํ•ฉํ•œ ๊ตฌ์„ฑ์— ์ง‘์ค‘ํ–ˆ๋‹ค.

๐Ÿ‘‰ ๊ฐ ๊ตฌ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 5ํšŒ ๋ฐ˜๋ณต์— ๋Œ€ํ•ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‹คํ–‰ํ•˜๊ณ  **GPU๋‹น ์ดˆ๋‹น ํ† ํฐ (tok/s/gpu)**์„ ๊ธฐ๋กํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๊ถ๊ทน์ ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์‹ ๊ฒฝ ์“ฐ๋Š” ์ง€ํ‘œ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” Weights & Biases์™€ Trackio๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๊ตฌ์„ฑ์„ ๊ธฐ๋กํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ณ‘๋ ฌํ™” ์ „๋žต์„ ์‰ฝ๊ฒŒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.

nanotron์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์˜ต์…˜์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฒค์น˜๋งˆํ‚นํ•œ ํ›„, ์šฐ๋ฆฌ๋Š”ย DP = 192์— ์ •์ฐฉํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌ ๊ธฐ์šธ๊ธฐ ๋™๊ธฐํ™”๋ฅผ ์œ„ํ•ด ๋…ธ๋“œ ๊ฐ„ EFA ๋Œ€์—ญํญ์„ ํ™œ์šฉํ•œ๋‹ค. ์ด๋Š” 192๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๋ชจ๋ธ ๋ณต์ œ๋ณธ์ด ๊ฐ๊ฐ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ๋ฐฐ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•จ์„ ์˜๋ฏธํ•œ๋‹ค. ํ…์„œ ๋ณ‘๋ ฌํ™”์˜ ๊ฒฝ์šฐ, ์šฐ๋ฆฌ๋Š”ย TP = 2๋ฅผ ์„ ํƒํ•˜์—ฌ ํ…์„œ ๋ณ‘๋ ฌ ํ†ต์‹ ์„ ๋‹จ์ผ ๋…ธ๋“œ ๋‚ด์— ์œ ์ง€ํ•˜์—ฌ NVLink์˜ ๋†’์€ ๋Œ€์—ญํญ์„ ์™„์ „ํžˆ ํ™œ์šฉํ–ˆ๋‹ค. ์ด๊ฒƒ์€ ๊ฐ ๋ ˆ์ด์–ด์˜ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๋‘ ๊ฐœ์˜ GPU์— ๋ถ„ํ• ํ•˜์—ฌ ์ˆœ๋ฐฉํ–ฅ ๋ฐ ์—ญ๋ฐฉํ–ฅ ํŒจ์Šค๋ฅผ ์œ„ํ•œ ๋น ๋ฅธ ํ†ต์‹ ์„ ์š”๊ตฌํ•œ๋‹ค.

์šฐ๋ฆฌ์˜ย ๋งˆ์ดํฌ๋กœ ๋ฐฐ์น˜ ํฌ๊ธฐ = 3์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ˜๋‹ค. ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” Tensor ์ฝ”์–ด๋ฅผ ๋” ์ž˜ ํ™œ์šฉํ•˜๊ฒ ์ง€๋งŒ, ์šฐ๋ฆฌ๋Š” ์ด๋ฏธ ๋ฉ”๋ชจ๋ฆฌ ํ•œ๊ณ„์— ๊ฐ€๊น๊ฒŒ ๋ฐ€์–ด๋ถ™์ด๊ณ  ์žˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์šฐ๋ฆฌ๋Š”ย ZeRO-0์„ ์„ ํƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ ์ƒค๋”ฉ์ด ์—†์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ZeRO-1์ด๋‚˜ ZeRO-3์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, 384๊ฐœ์˜ GPU์— ๊ฑธ์ณ ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ๋ถ„์‚ฐํ•˜๋Š” ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ์ฒ˜๋ฆฌ๋Ÿ‰์„ ํฌ๊ฒŒ ํ•ด์น  ๊ฒƒ์ด๋‹ค.

(์ด๋Ÿฌํ•œ ๋ณ‘๋ ฌํ™” ๊ฒฐ์ • ์ค‘ ๋‹ค์ˆ˜๋Š” ์‹คํ—˜ ๋‹น์‹œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ƒํƒœ์˜ ์˜ํ–ฅ์„ ๋ฐ›์•˜๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด nanotron์€ ์•„์ง ZeRO-3์„ ์ง€์›ํ•˜์ง€ ์•Š์•˜๊ณ , ์šฐ๋ฆฌ๋Š” ํŒŒ์ดํ”„๋ผ์ธ ๋ฒ„๋ธ”์„ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ๋„๋กœ ์ตœ์ ํ™”๋œ ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™” ์Šค์ผ€์ค„์ด ๋ถ€์กฑํ–ˆ๋‹ค. ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋ฐœ์ „ํ•จ์— ๋”ฐ๋ผ ์ด๋Ÿฌํ•œ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ค‘ ์ผ๋ถ€๊ฐ€ ๋ฐ”๋€” ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ์—ฌ๋Š” ์–ธ์ œ๋‚˜ ํ™˜์˜ํ•œ๋‹ค!)

์ด ๊ตฌ์„ฑ์€ ์šฐ๋ฆฌ์˜ 384 H100 ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด์„œ ์•ฝ 200๋งŒ ํ† ํฐ ( 192ร—3ร—1ร—4096โ‰ˆ2.3M)์˜ ๋ชฉํ‘œ ์ „์—ญ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.ย stage1_8T.yaml (https://github.com/huggingface/smollm/blob/main/text/pretraining/smollm3/stage1_8T.yaml)์—์„œ ์ „์ฒด ํ•™์Šต ๊ตฌ์„ฑ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Conclusion

์šฐ๋ฆฌ๋Š” ๊ฐ„๋‹จํ•œ ์งˆ๋ฌธ์œผ๋กœ ์ด ์—ฌ์ •์„ ์‹œ์ž‘ํ–ˆ๋‹ค:ย 2025๋…„์— ๊ณ ์„ฑ๋Šฅ LLM์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์‹ค์ œ๋กœ ๋ฌด์—‡์ด ํ•„์š”ํ•œ๊ฐ€?ย ์‚ฌ์ „ ํ•™์Šต์—์„œ ์‚ฌํ›„ ํ•™์Šต์— ์ด๋ฅด๋Š” ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ์•ˆ๋‚ดํ•œ ํ›„, ์šฐ๋ฆฌ๋Š” ๊ธฐ์ˆ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ทธ๊ฒƒ๋“ค์„ ์ž‘๋™์‹œํ‚ค๋Š”ย ๋ฐฉ๋ฒ•๋ก ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต.ย ์šฐ๋ฆฌ๋Š” ํ•™์Šต ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•œ ํ•™์Šต ๋‚˜์นจ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์•ˆ๋‚ดํ•œ ๋‹ค์Œ, ๋ชฉํ‘œ๋ฅผ ๊ตฌ์ฒด์ ์ธ ์•„ํ‚คํ…์ฒ˜ ๊ฒฐ์ •์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ œ๊ฑฐ ์‹คํ—˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์„ค์ •ํ•˜๊ณ , ๋ณ€๊ฒฝ ์‚ฌํ•ญ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•˜๊ณ , ์ˆ˜์‹ญ์–ต ํ† ํฐ ์‹คํ—˜์—์„œ ์ˆ˜์กฐ ํ† ํฐ ์‹คํ–‰์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์•˜๋‹ค. ์šฐ๋ฆฌ๋Š” ๋Œ€๊ทœ๋ชจ์—์„œ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ๋Š” ์ธํ”„๋ผ ๋ฌธ์ œ (์ฒ˜๋ฆฌ๋Ÿ‰ ๋ถ•๊ดด, ๋ฐ์ดํ„ฐ๋กœ๋” ๋ณ‘๋ชฉ ํ˜„์ƒ, ๋ฏธ๋ฌ˜ํ•œ ๋ฒ„๊ทธ)์™€ ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ์ฒด๊ณ„์ ์ธ ์œ„ํ—˜ ์ œ๊ฑฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ทธ๊ฒƒ๋“ค์„ ์กฐ๊ธฐ์— ํฌ์ฐฉํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š”์ง€ ๋ฌธ์„œํ™”ํ–ˆ๋‹ค.

์‹ค์ œ ์‚ฌํ›„ ํ•™์Šต.ย ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ ํ”„๋กœ๋•์…˜ ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ๊ฐ€๋Š” ๊ฒƒ์ด ์ž์ฒด์ ์ธ ์ฒด๊ณ„์  ์ ‘๊ทผ ๋ฐฉ์‹์„ ์š”๊ตฌํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค: ์–ด๋–ค ๊ฒƒ์„ ํ•™์Šตํ•˜๊ธฐ ์ „์— ํ‰๊ฐ€๋ฅผ ์ˆ˜๋ฆฝํ•˜๊ณ , SFT ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ๋ฐ˜๋ณตํ•˜๊ณ , ์„ ํ˜ธ๋„ ์ตœ์ ํ™”๋ฅผ ์ ์šฉํ•˜๊ณ , ์„ ํƒ์ ์œผ๋กœ RL๋กœ ๋” ๋ฐ€์–ด๋ถ™์ด๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ”์ด๋ธŒ ํ…Œ์ŠคํŠธ๊ฐ€ ์ง€ํ‘œ๊ฐ€ ๋†“์นœ ๋ฒ„๊ทธ๋ฅผ ์–ด๋–ป๊ฒŒ ์žก๋Š”์ง€, ์ฑ„ํŒ… ํ…œํ”Œ๋ฆฟ์ด ์–ด๋–ป๊ฒŒ ์กฐ์šฉํžˆ ์ง€์นจ ๋”ฐ๋ฅด๊ธฐ๋ฅผ ๊นจ๋œจ๋ฆด ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ๊ท ํ˜•์ด ์‚ฌ์ „ ํ•™์Šต๋งŒํผ ์‚ฌํ›„ ํ•™์Šต์—์„œ ์™œ ์ค‘์š”ํ•œ์ง€ ๋ณด์•˜๋‹ค.

๋‘ ๋‹จ๊ณ„ ๋ชจ๋‘์—์„œ, ์šฐ๋ฆฌ๋Š” ๋™์ผํ•œ ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์œผ๋กœ ๊ณ„์† ๋Œ์•„์™”๋‹ค:ย ์‹คํ—˜์„ ํ†ตํ•ด ๋ชจ๋“  ๊ฒƒ์„ ๊ฒ€์ฆํ•˜๊ณ , ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ๋ณ€๊ฒฝํ•˜๊ณ , ๊ทœ๋ชจ๊ฐ€ ์ƒˆ๋กœ์šด ๋ฐฉ์‹์œผ๋กœ ๋ฌผ๊ฑด์„ ๋ถ€์ˆ  ๊ฒƒ์ด๋ผ๊ณ  ์˜ˆ์ƒํ•˜๊ณ , ๋ชจ๋“  ์ƒˆ๋กœ์šด ๋…ผ๋ฌธ์„ ์ซ“๋Š” ๋Œ€์‹  ์‚ฌ์šฉ ์‚ฌ๋ก€๊ฐ€ ๊ฒฐ์ •์„ ์ฃผ๋„ํ•˜๊ฒŒ ํ•˜๋ผ.ย ์ด ํ”„๋กœ์„ธ์Šค๋ฅผ ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” SmolLM3๋ฅผ ํ•™์Šต์‹œ์ผฐ๋‹ค: ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์ง„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” 30์–ต ๋‹ค๊ตญ์–ด ์ถ”๋ก  ๋ชจ๋ธ์ด๋‹ค. ๊ทธ ๊ณผ์ •์—์„œ, ์šฐ๋ฆฌ๋Š” ๋ฌด์—‡์ด ์ž‘๋™ํ•˜๊ณ , ๋ฌด์—‡์ด ๊นจ์ง€๊ณ , ์ƒํ™ฉ์ด ์ž˜๋ชป๋  ๋•Œ ๋””๋ฒ„๊น…ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋งŽ์€ ๊ฒƒ์„ ๋ฐฐ์› ๋‹ค. ์šฐ๋ฆฌ๋Š” ์„ฑ๊ณต๊ณผ ์‹คํŒจ ๋ชจ๋‘๋ฅผ ๋ฌธ์„œํ™”ํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ–ˆ๋‹ค.

๋‹ค์Œ์€ ๋ฌด์—‡์ธ๊ฐ€?

์ด ๋ธ”๋กœ๊ทธ๋Š” ํ˜„๋Œ€ LLM ํ•™์Šต์˜ ๊ธฐ์ดˆ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ์ด ๋ถ„์•ผ๋Š” ๋น ๋ฅด๊ฒŒ ์ง„ํ™”ํ•œ๋‹ค. ๋” ๊นŠ์ด ๋“ค์–ด๊ฐ€๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์šฐ๋ฆฌ๋Š” ์ด ๋ธ”๋กœ๊ทธ๊ฐ€ ์—ฌ๋Ÿฌ๋ถ„์ด ํ”„๋Ÿฐํ‹ฐ์–ด๋ฅผ ์ถ”์ง„ํ•˜๋Š” ๋Œ€ํ˜• ์—ฐ๊ตฌ์†Œ์— ์žˆ๋“  ํŠน์ • ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์†Œ๊ทœ๋ชจ ํŒ€์— ์žˆ๋“  ์ƒ๊ด€์—†์ด ๋ช…ํ™•์„ฑ๊ณผ ์ž์‹ ๊ฐ์„ ๊ฐ€์ง€๊ณ  ๋‹ค์Œ ํ•™์Šต ํ”„๋กœ์ ํŠธ์— ์ ‘๊ทผํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๊ธฐ๋ฅผ ํฌ๋งํ•œ๋‹ค.

์ด์ œ ๊ฐ€์„œ ๋ฌด์–ธ๊ฐ€๋ฅผ ํ•™์Šต์‹œํ‚ค์ž. ๊ทธ๋ฆฌ๊ณ  ์ƒˆ๋ฒฝ 2์‹œ์— ์†์‹ค์ด ๋ฏธ์Šคํ„ฐ๋ฆฌํ•˜๊ฒŒ ๊ธ‰๋“ฑํ•  ๋•Œ ๊ธฐ์–ตํ•ด๋ผ:ย ๋ชจ๋“  ํ›Œ๋ฅญํ•œ ๋ชจ๋ธ ๋’ค์—๋Š” ๋””๋ฒ„๊น… ์ด์•ผ๊ธฐ๊ฐ€ ์žˆ๋‹ค.ย ์˜คํ”ˆ ์†Œ์Šค์™€ ์˜คํ”ˆ ์‚ฌ์ด์–ธ์Šค์˜ ํฌ์Šค๊ฐ€ ํ•ญ์ƒ ํ•จ๊ป˜ ํ•˜๊ธฐ๋ฅผ!

๊ฐ์‚ฌ์˜ ๋ง

๊ท€์ค‘ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์‹  Guilherme, Hugo, Mario์™€ Trackio์— ๋„์›€์„ ์ค€ Abubakar์—๊ฒŒ ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

    Below is a curated list of papers, books, and blog posts that have informed us the most on our LLM training journey.

    LLM Architecture

    Optimisers & training parameters

    Data curation

    Scaling laws

    Post-training

    Infrastructure

    Training frameworks

    Evaluation