Introduction
์ค๋๋ ๊ณ ์ฑ๋ฅ LLM์ ํ์ต์ํค๊ธฐ ์ํด ์ค์ ๋ก ๋ฌด์์ด ํ์ํ๊ฐ?
๊ณต๊ฐ๋ ์ฐ๊ตฌ ์๋ฃ๋ค์ ์ด๋ฅผ ๊ฐ๋จํ๊ฒ ๋ณด์ด๋๋ก ๋ง๋ ๋ค: ์ ๋ต์ ์ธ ์ํคํ ์ฒ ์ ํ, ์ ์คํ๊ฒ ์ ๋ณ๋ ๋ฐ์ดํฐ์ , ๊ทธ๋ฆฌ๊ณ ์ถฉ๋ถํ ์ปดํจํ ์์์ด๋ค. ๊ฒฐ๊ณผ๋ ๊น๋ํ๊ฒ ๋ค๋ฌ์ด์ ธ ์์ผ๋ฉฐ, ์ ๊ฑฐ ์คํ(ablation)์ ๊ตฌ์กฐ์ ์ด๊ณ ๋ช ํํ๋ค. ๋ชจ๋ ๊ฒฐ์ ์ ๋์ด์ผ๋ณด๋ฉด ๋น์ฐํ๊ฒ ๋ณด์ธ๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ณด๊ณ ์๋ค์ ์ค์ง ์ฑ๊ณตํ ๊ฒ๋ง์ ๋ณด์ฌ์ฃผ๋ฉฐ ์ฅ๋ฐ๋น ํ๊ณ ๋ฅผ ์ ์ฉํ ๋ฟ์ด๋ค โ ๊ทธ๋ค์ ์๋ฒฝ 2์์ ๋ฐ์ดํฐ๋ก๋ ๋๋ฒ๊น ์ธ์ , ์์ค๊ฐ ๊ธ๋ฑ(loss spikes), ๋๋ ํ์ต์ ์กฐ์ฉํ ๋ฐฉํดํ๋ ๋ฏธ๋ฌํ ํ ์ ๋ณ๋ ฌํ ๋ฒ๊ทธ(๋์ค์ ์ฐธ์กฐ)๋ ํฌ์ฐฉํ์ง ์๋๋ค. ํ์ค์ ๋ ์ง์ ๋ถํ๊ณ , ๋ ๋ฐ๋ณต์ ์ด๋ฉฐ, ์ต์ข ๋ ผ๋ฌธ์ ๋ด๊ธฐ์ง ์๋ ๊ฒฐ์ ๋ค๋ก ๊ฐ๋ํ๋ค.
11์กฐ(T) ํ ํฐ์ผ๋ก ํ์ต๋ 3B ๋งค๊ฐ๋ณ์์ ๋ค๊ตญ์ด ์ถ๋ก ๋ชจ๋ธ์ธ SmolLM3์ ํ์ต ๋นํ์ธ๋ ์คํ ๋ฆฌ๋ฅผ ํจ๊ป ์ดํด๋ณด์. ์ด๊ฒ์ ํ๋ฒํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ด ์๋๋ผ, ์ธ๊ณ์ ์์ค์ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐ ํ์ํ ๊น์ ํต์ฐฐ๋ ฅ์ผ๋ก ์ด์ด์ง ๊ฒฐ์ , ๋ฐ๊ฒฌ, ๊ทธ๋ฆฌ๊ณ ๋ง๋ค๋ฅธ ๊ณจ๋ชฉ์ ๊ฑฐ๋ฏธ์ค์ ํ์ด๋ด๋ ์์ ์ด๋ค.
๋ํ ์ด ๊ธ์ ์ฐ๋ฆฌ์ ๋ชจ๋ธ ํ์ต ์ฅํธ ์๋ฆฌ์ฆ์ ๋ง์ง๋ง ์ํ์ด๋ค: ์ฐ๋ฆฌ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ตฌ์ถ(FineWeb), ์์ฒ ๊ฐ์ GPU๋ฅผ ์กฐํ๋กญ๊ฒ ์๋์ํค๊ธฐ ์ํ ์ค์ผ์คํธ๋ ์ด์ (Ultra Scale Playbook), ๊ทธ๋ฆฌ๊ณ ํ๋ก์ธ์ค์ ๊ฐ ๋จ๊ณ์์ ์ต์ ์ ํ๊ฐ ์งํ ์ ํ(Evaluation Guidebook)์ ๋ค๋ฃจ์ด ์๋ค. ์ด์ ์ฐ๋ฆฌ๋ ์ด ๋ชจ๋ ๊ฒ์ ๋ชจ์ ๊ฐ๋ ฅํ AI ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค. ์ฐ๋ฆฌ๋ ์ฑ๊ณตํ ์ต์ข ๋ ์ํผ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ ๊ฒฐ์ ์ ํ์ฑํ๋ ์คํจ, ์ธํ๋ผ ๊ณ ์ฅ, ๊ทธ๋ฆฌ๊ณ ๋๋ฒ๊น ํ๋ก์ธ์ค๋ฅผ ํฌํจํ์ฌ ์ ์ฒด ์ฌ์ ์ ์๋ดํ๋ค.
์ด ์ด์ผ๊ธฐ๋ ํ ํธ์ ๋๋ผ๋ง์ฒ๋ผ ์ฝํ๋ค: ๋๋๋ก ์ ๋งํ๋ ์๊ท๋ชจ ์ ๊ฑฐ ์คํ์ด ๋๊ท๋ชจ์์๋ ์ ์ฉ๋์ง ์๋ ๋ฐฉ์, ์ฐ๋ฆฌ๊ฐ 1์กฐ ํ ํฐ ํ์ต ํ์ ํ์ต์ ์ฌ์์ํ๋ ์ด์ , ๊ฐ๋ ฅํ ์์ด ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋ค๊ตญ์ด, ์ํ, ์ฝ๋๋ผ๋ ์๋ก ๊ฒฝ์ํ๋ ๋ชฉํ๋ค์ ๊ท ํ์ ๋ง์ถ์๋ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ์ฌํ ํ์ต(post-trained)ํ๋ ๋ฐฉ๋ฒ์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
์ฐ๋ฆฌ๋ ๋ํ ์ฐ๋ฆฌ๊ฐ ํ๋ ๋ชจ๋ ๊ฒ๋ค์ ๋์ ํ ๋ชฉ๋ก์ผ๋ก ๋์ดํ๋ ๋์ , ์ฐ๋ฆฌ์ ๋ชจํ์ ํตํ ์ง์์ ์๋ ์ด์ผ๊ธฐ์ ์ค์ ์ ๋๋ ค ํ๋ค. ์ด ๊ธ์ โ์ฐ๋ฆฌ๋ ํ๋ฅญํ ๋ฐ์ดํฐ์ ๊ณผ GPU๋ฅผ ๊ฐ์ง๊ณ ์๋คโ์์ โ์ฐ๋ฆฌ๋ ์ ๋ง ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋คโ๋ก ๋์๊ฐ๋ ค๋ ๋ชจ๋ ์ด๋ค์ ์ํ ๊ฐ์ด๋๋ก ์๊ฐํ๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ๊ฐ๋ฐฉ์ฑ์ด ์ฐ๊ตฌ์ ํ๋ก๋์ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๊ณ , ์ฌ๋ฌ๋ถ์ ๋ค์ ํ์ต ์คํ์ ์กฐ๊ธ ๋ ํผ๋์ค๋ฝ๊ฒ ๋ง๋๋ ๋ฐ ๋์์ด ๋๊ธฐ๋ฅผ ํฌ๋งํ๋ค.
์ด ๋ธ๋ก๊ทธ ๊ธ์ ์ฝ๋ ๋ฐฉ๋ฒ
์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ์์์ ์๋๊น์ง ๋ชจ๋ ์ฝ์ ํ์๋ ์์ผ๋ฉฐ, ์ด ์์ ์์ ์ด๋ฏธ ํ ๋ฒ์ ๋๊น์ง ํ์ค์ ์ผ๋ก ์ฝ๊ธฐ์๋ ๋๋ฌด ๊ธธ๋ค. ์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ๊ฑด๋๋ฐ๊ฑฐ๋ ๊ฐ๋ณ์ ์ผ๋ก ์ฝ์ ์ ์๋ ๋ช ๊ฐ์ง ๋๋ ทํ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค:
- ํ์ต ๋์นจ๋ฐ (Training compass):ย ์์ฒด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํด์ผ ํ๋์ง ์ฌ๋ถ์ ๋ํ ๋์ ์์ค์ ๋ ผ์์ด๋ค. ๋ชจ๋ ๋ฒค์ฒ ์บํผํธ(VC) ์๊ธ์ ์์งํ๊ธฐ ์ ์ ์ค์ค๋ก์๊ฒ ๋ฌผ์ด๋ด์ผ ํ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ๊ณผ, ์์ฌ ๊ฒฐ์ ๊ณผ์ ์ ์ฒด๊ณ์ ์ผ๋ก ์๊ฐํ๋ ๋ฐฉ๋ฒ์ ์๋ดํ๋ค. ์ด ๋ถ๋ถ์ ๋์ ์์ค์ ์น์ ์ด๋ฏ๋ก, ๊ธฐ์ ์ ์ธ ๋ด์ฉ์ผ๋ก ๋ฐ๋ก ๊ฑด๋๋ฐ๊ณ ์ถ๋ค๋ฉด ์ด ๋ถ๋ถ์ ๋น ๋ฅด๊ฒ ์ง๋ ์คํฌ๋กคํด๋ผ.
- ์ฌ์ ํ์ต (Pretraining):ย ํ์ต ๋์นจ๋ฐ ๋ค์ ์น์ ๋ค์ ์์ฒด ์ฌ์ ํ์ต ์คํ์ ์ํ ๊ฒฌ๊ณ ํ ๋ ์ํผ๋ฅผ ๊ตฌ์ถํ๋ ๋ฐ ํ์ํ ๋ชจ๋ ๊ฒ์ ๋ค๋ฃฌ๋ค: ์ ๊ฑฐ ์คํ์ ์คํํ๋ ๋ฐฉ๋ฒ, ํ๊ฐ ์งํ๋ฅผ ์ ํํ๋ ๋ฐฉ๋ฒ, ๋ฐ์ดํฐ ์์ค๋ฅผ ํผํฉํ๋ ๋ฐฉ๋ฒ, ์ํคํ ์ฒ ์ ํ, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋, ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก ํ์ต ๋ง๋ผํค์ ๊ฒฌ๋๋ด๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด ์น์ ์ ์ฒ์๋ถํฐ ์ฌ์ ํ์ต์ ๊ณํํ๊ณ ์์ง ์๋๋ผ๋, continual pretraining (์ผ๋ช ์ค๊ฐ ํ์ต)์ ๊ด์ฌ์ด ์๋ค๋ฉด ์ ์ฉ๋๋ค.
- ์ฌํ ํ์ต (Post-training):ย ์ด ๋ธ๋ก๊ทธ์ ์ด ๋ถ๋ถ์์๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ต๋ํ ํ์ฉํ๋ ๋ฐ ํ์ํ ๋ชจ๋ ํธ๋ฆญ์ ๋ฐฐ์ฐ๊ฒ ๋ ๊ฒ์ด๋ค. SFT, DPO, GRPO๋ก ์์ํ๋ ์ ์ฒด ์ฌํ ํ์ต๋ค ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ธ ๋ณํฉ(model merging)์ ์ํ ๊ธฐ์ ๊ณผ ์ฐ๊ธ์ ์ ๋ฐฐ์ด๋ค. ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ ์๋ํ๊ฒ ๋ง๋๋ ์ง์์ ๋๋ถ๋ถ์ ๊ณ ํต์ค๋ฌ์ด ๊ตํ์ ํตํด ์ต๋๋๋ฉฐ, ๋ฐ๋ผ๊ฑด๋ ์ฌ๋ฌ๋ถ์๊ฒ ๊ทธ์ค ์ผ๋ถ๋ฅผ ๋์ด์ฃผ๊ธฐ ์ํด ์ฐ๋ฆฌ์ ๊ฒฝํ์ ๊ณต์ ํ๋ค.
- ์ธํ๋ผ (Infrastructure):ย ์ฌ์ ํ์ต์ด ์ผ์ดํฌ์ด๊ณ ์ฌํ ํ์ต์ด ๊ทธ ์์ ์ฌ๋ฆฌ๋ ์์ด์ฑ๊ณผ ์ฒด๋ฆฌ๋ผ๋ฉด, ์ธํ๋ผ๋ ์ฐ์ ์ฉ ์ค๋ธ์ด๋ค. ๊ทธ๊ฒ ์์ด๋ ์๋ฌด ์ผ๋ ์ผ์ด๋์ง ์์ผ๋ฉฐ, ๊ณ ์ฅ ๋๋ฉด ์ฌ๋ฌ๋ถ์ ํ๋ณตํ ์ผ์์ผ ๋ฒ ์ดํน ์ธ์ ์ ํ์ฌ ์ํ์ผ๋ก ๋ณํ๋ค. GPU ํด๋ฌ์คํฐ๋ฅผ ์ดํดํ๊ณ , ๋ถ์ํ๊ณ , ๋๋ฒ๊น ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ง์์ ๋ค์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ๋ฌธ์, ํฌ๋ผ ๋ฑ ์ธํฐ๋ท ์ ๋ฐ์ ํฉ์ด์ ธ ์๋ค. ์ด ์น์ ์ GPU ๋ ์ด์์, CPU/GPU/๋ ธ๋/์ ์ฅ์ ๊ฐ์ ํต์ ํจํด, ๊ทธ๋ฆฌ๊ณ ๋ณ๋ชฉ ํ์์ ์๋ณํ๊ณ ๊ทน๋ณตํ๋ ๋ฐฉ๋ฒ์ ์๋ดํ๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ๋ ์ด๋์๋ถํฐ ์์ํด์ผ ํ ๊น? ๊ฐ์ฅ ํฅ๋ฏธ๋กญ๋ค๊ณ ์๊ฐํ๋ ์น์ ์ ์ ํํ๊ณ ์์ํด๋ผ!
Training compass: why โ what โ how

๊ธฐ๊ณ ํ์ต ๋ถ์ผ๋ ์ต์ ํ์ ๊ฐ๋ฐ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ฐ๋ฆฌ๋ ์์ค ๊ณก์ , ๋ชจ๋ธ ์ํคํ ์ฒ, ๊ทธ๋ฆฌ๊ณ ์ฒ๋ฆฌ๋(throughput)์ ์ง์ฐฉํ๋ค; ๊ฒฐ๊ตญ ๊ธฐ๊ณ ํ์ต์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ชจ๋ธ์ ์์ค ํจ์๋ฅผ ์ต์ ํํ๋ ๊ฒ์ ๊ดํ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด๋ฌํ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ์ข ์ข ์ง๋ฌธ๋์ง ์๋ ๋ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ด ์๋ค: ์ฐ๋ฆฌ๊ฐ ์ ๋ง ์ด ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํ๋๊ฐ?
์๋ ํํธ๋งต์์ ๋ณด๋ฏ์ด, ์คํ ์์ค AI ์ํ๊ณ๋ ๊ฑฐ์ ๋งค์ผ ์ธ๊ณ์ ์์ค์ ๋ชจ๋ธ์ ์ถ์ํ๋ค: Qwen, Gemma, DeepSeek, Kimi, Llama ๐ชฆ, Olmo ๋ฑ ๊ทธ ๋ชฉ๋ก์ ๋งค๋ฌ ๊ธธ์ด์ง๋ค. ์ด๊ฒ๋ค์ ๋จ์ํ ์ฐ๊ตฌ ํ๋กํ ํ์ ์ด๋ ์ฅ๋๊ฐ ์์๊ฐ ์๋๋ค: ๊ทธ๋ค์ ๋ค๊ตญ์ด ์ดํด์์๋ถํฐ ์ฝ๋ ์์ฑ ๋ฐ ์ถ๋ก ์ ์ด๋ฅด๊ธฐ๊น์ง ๋๋ผ์ด ํญ๋์ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ํฌ๊ดํ๋ ํ๋ก๋์ ์์ค์ ๋ชจ๋ธ์ด๋ค. ๋๋ถ๋ถ์ ๊ด๋ํ ๋ผ์ด์ ์ค์ ์ฌ๋ฌ๋ถ์ด ๊ทธ๋ค์ ์ฌ์ฉํ๋ ๊ฒ์ ๋์ธ ์ค๋น๊ฐ ๋ ํ๋ฐํ ์ปค๋ฎค๋ํฐ์ ํจ๊ป ์ ๊ณต๋๋ค.

์ด๋ ๋ถํธํ ์ง์ค์ ์ ๊ธฐํ๋ค: ์๋ง๋ ์ฌ๋ฌ๋ถ์ย ์์ฒด ๋ชจ๋ธ์ ํ์ต์ํฌ ํ์๊ฐ ์์ย ์ ์๋ค.
์ด๊ฒ์ โLLM ํ์ต ๊ฐ์ด๋โ๋ฅผ ์์ํ๋ ์ด์ํ ๋ฐฉ๋ฒ์ฒ๋ผ ๋ณด์ผ ์ ์๋ค. ๊ทธ๋ฌ๋ ์คํจํ ๋ง์ ํ์ต ํ๋ก์ ํธ๋ ๋์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ฒ๊ทธ ์๋ ์ฝ๋ ๋๋ฌธ์ ์คํจํ ๊ฒ์ด ์๋๋ผ, ๋๊ตฐ๊ฐ ํ์ํ์ง ์์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ๋ก ๊ฒฐ์ ํ๊ธฐ ๋๋ฌธ์ ์คํจํ๋ค. ๋ฐ๋ผ์ ํ์ต์ ์ ๋ ํ๊ณ , ๊ทธ๊ฒ์ ์คํํ๋ ๋ฐฉ๋ฒ์ ๊น์ด ๋ฐ์ด๋ค๊ธฐ ์ ์, ์ฌ๋ฌ๋ถ์ ๋ ๊ฐ์ง ์ง๋ฌธ์ ๋ตํด์ผ ํ๋ค: ์ ์ด ๋ชจ๋ธ์ ํ์ต์ํค๋๊ฐ? ๊ทธ๋ฆฌ๊ณ ์ด๋ค ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํ๋๊ฐ? ๋ช ํํ ๋ต๋ณ ์์ด๋, ์ฌ๋ฌ๋ถ์ ์ธ์์ ์ด๋ฏธ ์๊ฑฐ๋, ๋ ๋์๊ฒ๋, ์๋ฌด๋ ํ์๋ก ํ์ง ์๋ ๊ฒ์ ๊ตฌ์ถํ๋ ๋ฐ ์๊ฐ์์ ์ปดํจํ ์์๊ณผ ์์ง๋์ด๋ง ์๊ฐ์ ๋ญ๋นํ ๊ฒ์ด๋ค.
๋จผ์ ย ์๋ถํฐ ์์ํ๋ค. ์๋ํ๋ฉด ๋ชฉ์ ์ ์ดํดํ์ง ๋ชปํ๋ฉด, ๋ค๋ฐ๋ฅด๋ ์ด๋ค ๊ฒ์ ๋ํด์๋ ์ผ๊ด์ฑ ์๋ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๐์ด ์น์ ์ ๋ํ์ฌ
์ด ์น์ ์ ๋ธ๋ก๊ทธ์ ๋๋จธ์ง ๋ถ๋ถ๊ณผ ๋ค๋ฅด๋ค: ์คํ๊ณผ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ๋ณด๋ค๋ ์ ๋ต์ ๊ณํ์ ๊ฐ๊น๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ ์ฒ์๋ถํฐ (from scratch) ํ์ตํด์ผ ํ ์ง ๋ง์ง์ ๋ํ ๊ฒฐ์ ๊ณผ, ๋ฌด์จ ๋ชจ๋ธ์ ๊ตฌ์ถํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ณผ์ ์ ์๋ดํ๋ค. ์ด๋ฏธ ๋น์ ์ด โ์โ ์ โ๋ฌด์โ ์ ๋ํด ๊น์ด ์๊ฐํ๋ค๋ฉด, ๊ธฐ์ ์ ์ธ ์ฌ์ธต ๋ถ์์ ์ํด โ๋ชจ๋ ํฐ ๋ชจ๋ธ์ ์์ ์ ๊ฑฐ ์คํ์ผ๋ก ์์ํ๋คโ ์ฑํฐ๋ก ์์ ๋กญ๊ฒ ๊ฑด๋๋ฐ์ด๋ ๋๋ค. ๊ทธ๋ฌ๋ ํ์ ์ด ์๋ค๋ฉด, ์ฌ๊ธฐ์ ์๊ฐ์ ํฌ์ํ๋ ๊ฒ์ด ๋์ค์ ๋ง์ ๋ ธ๋ ฅ์ ์ ์ฝํด ์ค ๊ฒ์ด๋ค.
์: ์๋ฌด๋ ๋ตํ๊ณ ์ถ์ด ํ์ง ์๋ ์ง๋ฌธ
์ค์ ๋ก ์ผ์ด๋๋ ์ผ์ ๋ํด ์์งํด์ง์. ๋๊ตฐ๊ฐ (์ด์ด ์ข๋ค๋ฉด) GPU ํด๋ฌ์คํฐ์ ์ ๊ทผํ๊ฒ ๋๊ณ , ์๋ง๋ ์ฐ๊ตฌ ๋ณด์กฐ๊ธ์ ํตํด์, ๋๋ ํ์ฌ์ ์ฌ์ ์์์ ํตํด์์ผ ๊ฒ์ด๋ฉฐ, ์๋์ ๊ฐ์ ์ฌ๊ณ ๊ณผ์ ์ ๊ฑฐ์น ๊ฒ์ด๋ค: โ์ฐ๋ฆฌ์๊ฒ๋ 3๊ฐ์ ๋์ 100๊ฐ์ H100์ด ์๋ค. ๋ชจ๋ธ์ ํ์ต์ํค์!โ ๋ชจ๋ธ ํฌ๊ธฐ๋ ์์๋ก ์ ํ๋๊ณ , ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๊ฒ์์ ์กฐ๋ฆฝ๋๋ค. ํ์ต์ด ์์๋๋ค. ๊ทธ๋ฆฌ๊ณ 6๊ฐ์ ํ, ์ปดํจํ ์์ฐ๊ณผ ํ ์ฌ๊ธฐ๋ฅผ ์์งํ ํ์๋, ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ์๋ฌด๋ ์๋ผ๊ณ ๋ฌป์ง ์์๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ๋์ง ์์ ์ฑ๋ก ๋จ์์๊ฒ ๋๋ค.
๋ค์์ ๋ชจ๋ธ์ ํ์ต์ํค์งย ๋ง์์ผ ํ ย ๋ช ๊ฐ์ง ์ด์ ์ด๋ค:

โ์ฐ๋ฆฌ๊ฐ ์์ฒด ๋ชจ๋ธ์ ํ์ต์์ผฐ๋คโ๋ ๊ฒ์ ๋งค๋ ฅ์ ๊ฐํ์ง๋ง, ๋ง์ ์๊ฐ๊ณผ ์์์ ํฌ์ํ๊ธฐ ์ ์, ๋ค์์ ๋ฌป๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ด๋ค: ์ ์ด ๋ชจ๋ธ์ ํ์ต์ํฌ ํ์๊ฐ ์๋๊ฐ?
์๋ ์์๋๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ํ๋ก์ ํธ๋ฅผ ์์ํ๊ธฐ ์ ์ ๊ฑฐ์ณ์ผ ํ ์ฌ๊ณ ๊ณผ์ ์ ์๋ดํ๋ค. ๊ธฐ์ ์ ๊ด์ ์์, ์ฌ๋ฌ๋ถ์ ๋ณธ์ง์ ์ผ๋ก ๋จผ์ ๊ธฐ์กด ๋ชจ๋ธ ์ค์์ ์์ ์ ์ํํ๋๋ก ํ๋กฌํํธ๋ฅผ ์ฃผ๊ฑฐ๋ ํ์ธ ํ๋ํ ์ ์๋ ๋ชจ๋ธ์ด ์๋์ง ํ์ธํด์ผ ํ๋ค.

๋ง์ถคํ ์ฌ์ ํ์ต์ด ์๋ฏธ๊ฐ ์๋ ์ธ ๊ฐ์ง ์ผ๋ฐ์ ์ธ ์์ญ์ด ๋ณธ์ง์ ์ผ๋ก ์๋ค: ์๋ก์ด ์ฐ๊ตฌ๋ฅผ ํ๊ณ ์ถ๊ฑฐ๋, ํ๋ก๋์ ์ฌ์ฉ ์ฌ๋ก์ ๋ํ ๋งค์ฐ ๊ตฌ์ฒด์ ์ธ ํ์๊ฐ ์๊ฑฐ๋, ๋๋ ์คํ ๋ชจ๋ธ ์ํ๊ณ์ ๊ฒฉ์ฐจ๋ฅผ ์ฑ์ฐ๊ณ ์ถ๊ฑฐ๋์ด๋ค. ๊ฐ๊ฐ์ ๊ฐ๋จํ ์ดํด๋ณด์:
์ฐ๊ตฌ: ๋ฌด์์ ์ดํดํ๊ณ ์ถ์๊ฐ?
LLM ๋ถ์ผ์์ ํ ์ ์๋ ์ฐ๊ตฌ๋ ํ๋ถํ๋ค. LLM ์ฐ๊ตฌ ํ๋ก์ ํธ์ ๊ณตํต์ ์ ์ผ๋ฐ์ ์ผ๋ก ๋ช ํํ๊ฒ ์ ์๋ ์ง๋ฌธ์ผ๋ก ์์ํ๋ค๋ ๊ฒ์ด๋ค:
- ์ฐ๋ฆฌ๋ ์ด ์๋ก์ด ์ตํฐ๋ง์ด์ ์์์ ํ์ต์ 10B+ ๋ชจ๋ธ๋ก ํ์ฅํ ์ ์๋๊ฐ?ย (Muon is Scalable for LLM Training์์)
- ๊ฐํ ํ์ต๋ง์ผ๋ก, SFT ์์ด, ์ถ๋ก ๋ฅ๋ ฅ์ ์์ฑํ ์ ์๋๊ฐ?ย (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning์์)
- ์์ํ๊ฒ ํฉ์ฑ ๊ต๊ณผ์ ๋ฐ์ดํฐ๋ก ์ข์ ์ํ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์๋๊ฐ?ย (Textbooks Are All You Need์์)
- ์ค์ง ๊ณต๊ฐ์ ์ผ๋ก ๋ผ์ด์ ์ค๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋๊ฐ?ย (The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text์์)
๊ฐ์ค์ ๊ฐ๋ฅํ ํ ๊ตฌ์ฒด์ ์ผ๋ก ๋ง๋ค๊ณ ํ์ํ ์คํ ๊ท๋ชจ์ ๋ํด ์๊ฐํ๋ ๊ฒ์ด ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ๋์ธ๋ค.
ํ๋ก๋์ : ๊ธฐ์กด ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ ์ด์ ๋ ๋ฌด์์ธ๊ฐ?
๊ธฐ์ ์ด ์์ฒด ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ํด ๊ธฐ์กด์ ์กด์ฌํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ ์ฃผ์ ์ด์ ๋ ์ธ ๊ฐ์ง๊ฐ ์๋ค. ๊ทธ์ค ๋ ๊ฐ์ง๋ ๊ธฐ์ ์ ์ด๋ฉฐ ๋ค๋ฅธ ํ๋๋ ๊ฑฐ๋ฒ๋์ค ๋๋ฌธ์ด๋ค.
์์ฒด ๋ชจ๋ธ์ ํ์ต์ํค๋ ์ฒซ ๋ฒ์งธ ์ด์ ๋ย ๋๋ฉ์ธ ํน์์ฑ์ด๋ค: ์ฌ๋ฌ๋ถ์ ๋ฐ์ดํฐ๋ ์์ ์ด ๊ธฐ์กด ๋ชจ๋ธ์ด ์ ์ฒ๋ฆฌํ ์ ์๋ ๊ณ ๋๋ก ์ ๋ฌธํ๋ ์ดํ๋ ๊ตฌ์กฐ๋ฅผ ํฌํจํ ๋์ด๋ค. ์๋ฅผ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
- ๊ณ ์ ํ ์ดํ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ๊ฐ์ง DNA ๋ชจ๋ธ.
- ๋๋ฉ์ธ๋ณ ์ ๋ฌธ ์ฉ์ด์ ๋ ผ๋ฆฌ์ ๋ํ ๊น์ ์ดํด๊ฐ ํ์ํ ๋ฒ๋ฅ ๋๋ ๊ธ์ต ๋ชจ๋ธ.
๋ ๋ฒ์งธ ์ด์ ๋ก๋ย ๋ฐฐํฌ ์ ์ฝ์ด ์๋ค: ์ฌ๋ฌ๋ถ์ ํ๋์จ์ด, ์ง์ฐ ์๊ฐ ๋๋ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ์๊ตฌ ์ฌํญ์ ๋ง์ถ ๋ชจ๋ธ์ด ํ์ํ ๋์ด๋ค. ์๋ฅผ ๋ค์ด, ๋๋ก ์ด๋ FPGA์ ๊ฐ์ ๋ง์ถคํ ํ๋์จ์ด์ ํจ๊ป ์จํ๋ ๋ฏธ์ค ์์คํ ์์ ์คํ๋๋ LLM์ด๋ค.
์ฌ๊ธฐ ์ด๋ฅผ ํ์ธํ๋ ๊ฐ๋จํ ํ ์คํธ๊ฐ ์๋ค: Qwen3, Gemma3 ๋๋ ๋ค๋ฅธ ํ์ฌ SOTA ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฉฐ์น ๋์ ๋ง๋ค๊ณ ์ ํ๋ ๊ฒ์ ๊ฐ๋ฐํด ๋ณธ๋ค. ํ๋กฌํํ , ๋๊ตฌ ์ฌ์ฉ ๋๋ post-training ์ ํตํด ์ฑ๋ฅ ๋ชฉํ์ ๋๋ฌํ ์ ์๋๊ฐ? ๊ทธ๋ ์ง ์๋ค๋ฉด, ์๋ง๋ ์์ฒด ๋ชจ๋ธ์ ํ์ต์ํฌ ๋งํ ๋์ด๋ค.
์๊ตฌ ์ฌํญ์ ์ถฉ์กฑํ๋ ๋ฐ ํ์ํ post-training ์์ฐ์ด ๋ง๋ํ๋๋ผ๋, ์ฒ์๋ถํฐ ์์ํ๋ ๊ฒ๋ณด๋ค ์ฌ์ ํ ์ ๋ ดํ ์ ์๋ค. ๋ชจ๋ธ์ 1์กฐ(T) ํ ํฐ ๋์ ํ์ธ ํ๋ํ๋ ๊ฒ์ 10์กฐ(T) ํ ํฐ ์ด์์ ํ์ต์ํค๊ธฐ ์ํด ์ฒ์๋ถํฐ ์์ํ๋ ๊ฒ๋ณด๋ค ์ฌ์ ํ ๋ ๊ฒฝ์ ์ ์ด๋ค.
(์ด ์์ ์์ LLM ํ์ต์๋ค์ ๊ธฐ์ ์ ์ผ๋ก ์ด๋ฅผ ์ฌํ ํ์ต(post-training) ๋์ ์ค๊ฐ ํ์ต(mid-training)์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ ์์ํ๋ค.)
์์ฒด ์ฌ๋ด ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ์ธ ๋ฒ์งธ ์ด์ ๋ย ์์ ๋ฐ ๊ฑฐ๋ฒ๋์ค์ด๋ค: ๊ท์ ์ฐ์ ์ด๋ ๊ณ ์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํด ์์ผ๋ฏ๋ก ํ์ต ๋ฐ์ดํฐ, ๋ชจ๋ธ ๋์ ๋ฐ ์ ๋ฐ์ดํธ ์ฃผ๊ธฐ์ ๋ํ ์์ ํ ํต์ ๊ฐ ํ์ํ๋ค. ์ฌ๋ฌ๋ถ์ ๋ชจ๋ธ์ ๋ฌด์์ด ๋ค์ด๊ฐ๋์ง ์ ํํ ์์์ผ ํ๋ฉฐ ๊ท์ ๊ธฐ๊ด์ ๊ทธ๊ฒ์ ์ฆ๋ช ํ ์ ์์ด์ผ ํ๋ค. ์ด๋ค ๊ฒฝ์ฐ์๋ ์์ฒด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ฒ ์ธ์ ๋ค๋ฅธ ์ ํ์ ์ฌ์ง๊ฐ ์์ ์ ์๋ค.
์ด๊ฒ์ด ๊ธฐ์ ๋ค์ด ์ฌ๋ด ๋ชจ๋ธ์ ํ์ต์ํค๋ ์ฃผ์ ์ด์ ์ด์ง๋ง, ์คํ ๋ชจ๋ธ์ ์ถ์ํ๋ ํ์ฌ๋ ์กฐ์ง์ ๊ฒฝ์ฐ๋ ์ด๋จ๊น?
์ ๋ต์ ์คํ ์์ค: ์ฑ์ธ ์ ์๋ ๊ฒฉ์ฐจ๊ฐ ๋ณด์ด๋๊ฐ?
์๋ จ๋ AI ์ฐ๊ตฌ์๋ค์ด ์๋ก์ด ์คํ ๋ชจ๋ธ์ ์ถ์ํ๋ ๊ฐ์ฅ ํํ ์ด์ ์ค ํ๋๋ ์คํ ์์ค ์ํ๊ณ์์ ํน์ ๊ฒฉ์ฐจ๋ ์๋ก์ด AI ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์๋ณํ๊ธฐ ๋๋ฌธ์ด๋ค.
ํจํด์ ์ผ๋ฐ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ๋ค; ์ฌ๋ฌ๋ถ์ ์ถฉ๋ถํ ํ์๋์ง ์์ ์์ญ์ ๋ฐ๊ฒฌํ๋ค. ์ด์ฉ๋ฉด ๋งค์ฐ ๊ธด ์ปจํ ์คํธ๋ฅผ ๊ฐ์ง ๊ฐ๋ ฅํ ์จ๋๋ฐ์ด์ค ๋ชจ๋ธ์ด ์๊ฑฐ๋, ๋ค๊ตญ์ด ๋ชจ๋ธ์ ์กด์ฌํ์ง๋ง ์ ์์ ์ธ์ด์์๋ ์ฝํ๊ฑฐ๋, ๋๋ ๋ถ์ผ๊ฐ Genie3์ ๊ฐ์ ์ธํฐ๋ํฐ๋ธํ ์ธ๊ณ ๋ชจ๋ธ๋ก ์ด๋ํ๊ณ ์๋๋ฐ ์ข์ ์คํ ๊ฐ์ค์น ๋ชจ๋ธ์ด ์๋ ์ํฉ์ด๋ค.
์ฌ๋ฌ๋ถ์ ๋ ์ํ ์ ์๋ค๊ณ ๋ฏฟ์ ๋งํ ์ด์ ๊ฐ ์๋ค; ์๋ง๋ ๋ ๋์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํ๊ฑฐ๋, ๋ ๋์ ํ์ต ๋ ์ํผ๋ฅผ ๊ฐ๋ฐํ๊ฑฐ๋, ์๋๋ฉด ๋ค๋ฅธ ์ฌ๋๋ค์ด ํ ์ ์์๋ ๊ณณ์์ ๊ณผ๋ํ๊ฒ ํ์ต์ํฌ ์ปดํจํ ์์์ด ์์ ์ ์๋ค. ์ฌ๋ฌ๋ถ์ ๋ชฉํ๋ ๊ตฌ์ฒด์ ์ด๋ค: โ์ญ๋ ์ต๊ณ ์ ๋ชจ๋ธโ์ด ์๋๋ผ, โ์จ๋๋ฐ์ด์ค ์ฌ์ฉ์ ์ํ ์ต๊ณ ์ 3B ๋ชจ๋ธโ ๋๋ โ1M ์ปจํ ์คํธ๋ฅผ ๊ฐ์ง ์ต์ด์ ์ํ ๋ชจ๋ธโ์ด๋ค.
์ด๊ฒ์ ํ์ค์ ์ธ ๋ชฉํ์ด๋ฉฐ ์ฑ๊ณต์ ๊ฐ์น๋ฅผ ์ฐฝ์ถํ๋ค: ๊ฐ๋ฐ์๋ค์ด ์ฌ๋ฌ๋ถ์ ๋ชจ๋ธ์ ์ฑํํ๊ณ , ๊ทธ๊ฒ์ด ๋ค๋ฅธ ์ฌ๋๋ค์ ์ํ ์ธํ๋ผ๊ฐ ๋๊ฑฐ๋, ๊ธฐ์ ์ ์ ๋ขฐ๋๋ฅผ ํ๋ฆฝํ๋ค. ๊ทธ๋ฌ๋ ์ฑ๊ณต์ ๊ฒฝํ์ ํ์๋ก ํ๋ค. ๊ฒฝ์์ด ์น์ดํ ๊ณต๊ฐ์์ ์ค์ ๋ก ๋ฌด์์ด ์คํ ๊ฐ๋ฅํ๊ณ ์ ๋ขฐํ ์ ์๊ฒ ์คํํ๋ ๋ฐฉ๋ฒ์ ์์์ผ ํ๋ค. ์ด๋ฅผ ๊ตฌ์ฒดํํ๊ธฐ ์ํด, Hugging Face์์ ์ด ์ง๋ฌธ์ ๋ํด ์ด๋ป๊ฒ ์๊ฐํ๋์ง ์ดํด๋ณธ๋ค.
Hugging Face์ ์ฌ์
๊ทธ๋ ๋ค๋ฉด Hugging Face๋ ์ ์คํ ๋ชจ๋ธ์ ํ์ต์ํค๋๊ฐ? ๋ต์ ๊ฐ๋จํ๋ค: ์ฐ๋ฆฌ๋ ์คํ ์์ค ์ํ๊ณ์ ์ ์ฉํ๊ณ , ๋ค๋ฅธ ์ฌ๋๋ค์ด ๊ฑฐ์ ์ฑ์ฐ์ง ์๋ ๊ฒฉ์ฐจ๋ฅผ ์ฑ์ฐ๋ ๊ฒ์ ๊ตฌ์ถํ๋ค.
์๋ฐฑ๋ง ๊ฐ์ ์คํ ๊ฐ์ค์น ๋ชจ๋ธ์ด ์์ง๋ง, ์์ ํ ์คํ๋ ๋ชจ๋ธ์ ํ์ต์ํค๋ ์กฐ์ง์ ๊ฑฐ์ ์๋ค. Hugging Face ์ธ์๋ Ai2์ Stanford์ Marin ์ปค๋ฎค๋ํฐ๊ฐ ์๋ค.
์ฌ๊ธฐ์๋ ๋ฐ์ดํฐ์ , ํด๋ง ๋ฐ ํ์ต ๋ชจ๋ธ์ด ํฌํจ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์์ํ ๋ชจ๋ LLM ํ์ต ํ๋ก์ ํธ๋ ๊ฒฉ์ฐจ๋ฅผ ๋ฐ๊ฒฌํ๊ณ ์๋ฏธ ์๋ ๊ฒ์ ๊ธฐ์ฌํ ์ ์๋ค๊ณ ๋ฏฟ๋ ๊ฒ์์ ์์๋์๋ค.
์ฐ๋ฆฌ๋ GPT-3(Brown et al., 2020)๊ฐ ์ถ์๋ ํ ์ฒซ LLM ํ๋ก์ ํธ๋ฅผ ์์ํ๋ค. ๋น์์๋ ์๋ฌด๋ ์คํ ๋์ฒด์ฌ๋ฅผ ๊ตฌ์ถํ์ง ์๋ ๊ฒ์ฒ๋ผ ๋๊ปด์ก๊ณ , ์ฐ๋ฆฌ๋ ๊ทธ ์ง์์ด ๋ช๋ช ์ฐ์ ์ฐ๊ตฌ์์๋ง ๊ฐํ๊ฒ ๋ ๊น ๋ด ์ฐ๋ คํ๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ GPT-3์ ์คํ ๋ฒ์ ์ ํ์ต์ํค๊ธฐ ์ํด BigScience ์ํฌ์์ ์์ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ Bloom์ด์๊ณ , 175B ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๊ธฐ ์ํด ํ์ต ์คํ, ํ ํฌ๋์ด์ , ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต ์ฝํผ์ค๋ฅผ ๊ตฌ์ถํ๋ ๋ฐ 1๋ ๋์ ์์ญ ๋ช ์ ๊ธฐ์ฌ์๋ค์ ์์ ์์ ๋น๋กฏ๋์๋ค.
Bloom์ ํ์์์ 2022๋ ์ StarCoder(Li et al., 2023)์๋ค. OpenAI๋ GitHub Copilot์ ์ํด Codex(Chen et al., 2021)๋ฅผ ๊ฐ๋ฐํ์ง๋ง, ๊ทธ๊ฒ์ ํด๋ก์ฆ๋ ์์ค์๋ค. ์คํ ์์ค ๋์์ ๊ตฌ์ถํ๋ ๊ฒ์ ์ํ๊ณ์ ๊ฐ์น๋ฅผ ์ ๊ณตํ ๊ฒ์ด ๋ถ๋ช ํ๋ค. ๊ทธ๋์ ServiceNow์์ ํ๋ ฅ์ผ๋ก BigCode ์ฐํ์์, ์ฐ๋ฆฌ๋ The Stack ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ณ , Codex๋ฅผ ์ฌํํ๊ธฐ ์ํด StarCoder 15B๋ฅผ ํ์ต์์ผฐ๋ค. StarCoder2(Lozhkov et al., 2024)๋ ์ฐ๋ฆฌ๊ฐ ๋ ์ค๋ ํ์ต์ํฌ ์ ์์๋ค๋ ๊ฒ์ ๋ฐฐ์ฐ๊ณ , ๋ ์ค๋ ํ์ต๋ ๋ ์์ ๋ชจ๋ธ์ด ํ๋์ ํฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ฐ์น ์์ ์ ์๋ค๋ ๊ฒ์ ์ธ์ํ๋ ๊ฒ์์ ๋น๋กฏ๋์๋ค. ์ฐ๋ฆฌ๋ ๋น์ ์คํ ์ฝ๋ ๋ชจ๋ธ์ ์ํด ๋ค๋ฅธ ๋๊ตฌ๋ ํด๋ณธ ์ ์๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ง์ ์์กฐ ํ ํฐ์ผ๋ก ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(3B/7B/15B)๋ฅผ ํ์ต์์ผฐ๋ค.
SmolLM ํจ๋ฐ๋ฆฌ๋ ๋น์ทํ ํจํด์ ๋ฐ๋๋ค. ์ฐ๋ฆฌ๋ ๊ฐ๋ ฅํ ์ํ ๋ชจ๋ธ์ด ๊ฑฐ์ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ณ , ๋ง์นจ ๊ฐ๋ ฅํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ธ FineWeb-Edu(Penedo et al., 2024)๋ฅผ ๊ตฌ์ถํ ์ฐธ์ด์๋ค. SmolLM (135M/360M/1.7B)์ด ์ฐ๋ฆฌ์ ์ฒซ ๋ฒ์งธ ๋ฒ์ ์ด์๋ค. SmolLM2 (Allal et al., 2025)๋ ๋ ๋์ ๋ฐ์ดํฐ์ ๋ ๊ธด ํ์ต์ ์ด์ ์ ๋ง์ถ์ด ์ฌ๋ฌ ๋ถ์ผ์์ SOTA ์ฑ๋ฅ์ ๋๋ฌํ๋ค. SmolLM3๋ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก , ๋ค๊ตญ์ด ๋ฐ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ถ๊ฐํ๋ฉด์ 3B๋ก ํ์ฅํ์ผ๋ฉฐ, ์ด๋ ์ปค๋ฎค๋ํฐ๊ฐ 2025๋ ์ ์ค์ํ๊ฒ ์๊ฐํ๋ ๊ธฐ๋ฅ๋ค์ด์๋ค.
์ด ํจํด์ ์ฌ์ ํ์ต์ ๋์ด ํ์ฅ๋์๋ค: ์ฐ๋ฆฌ๋ DPO๊ฐ ๋๊ท๋ชจ์์ ์๋ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด Zephyr(Tunstall et al., 2023)๋ฅผ ํ์ต์์ผฐ๊ณ , DeepSeek R1์ ์ฆ๋ฅ ํ์ดํ๋ผ์ธ์ ์ฌํํ๊ธฐ ์ํด Open-R1์ ์์ํ์ผ๋ฉฐ, ๊ตญ์ ์ ๋ณด ์ฌ๋ฆผํผ์๋์์ SOTA ์ฑ๋ฅ์ ๊ฐ์ง ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ์ ์ํ OlympicCoder๋ฅผ ์ถ์ํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ ๋น์ ์ ์ํ SmolVLM(Marafioti et al., 2025)๊ณผ ๋ก๋ด ๊ณตํ์ ์ํ SmolVLA(Shukor et al., 2025)์ ํจ๊ป ๋ค๋ฅธ ์์๋ค์ ํ์ํ๋ค.
(HF ๊ณผํ ํ๋ก์ ํธ์ ๋ํด ๊ถ๊ธํ๋ค๋ฉด, ์ฌ๊ธฐ์ ๊ฐ์๋ฅผ ์ฐพ์ ์ ์๋คย **https://huggingface.co/science)**
๋ฐ๋ผ๊ฑด๋, ์ด ์น์ ์ ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ณ ์ถ์์ง์ ๋ํด ๊น์ด ์๊ฐํ๋ ๊ฒ์ ๊ฐ์น๋ฅผ ์ฌ๋ฌ๋ถ์๊ฒ ํ์ ์์ผฐ์ ๊ฒ์ด๋ค.
์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ๋๋จธ์ง ๋ถ๋ถ์์๋ ์ฌ๋ฌ๋ถ์ด ์ด๋ฌํ ์๊ธฐ ์ฑ์ฐฐ์ ์๋ฃํ๊ณ ํ์ตํ ์ ๋นํ ์ด์ ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ๊ฒ ๋ค.
๋ฌด์(What): ๋ชฉํ๋ฅผ ๊ฒฐ์ ์ผ๋ก ๋ณํํ๊ธฐ
์ด์ ๋น์ ์ ์ ๋ชจ๋ธ์ ํ์ต์์ผ์ผ ํ๋์ง ์์๋ค, ๊ทธ๋ ๋ค๋ฉด ๋ฌด์์ ํ์ต์์ผ์ผ ํ๋๊ฐ? โ๋ฌด์โ์ด๋ ๋ชจ๋ธ ์ ํ(dense, MoE, ํ์ด๋ธ๋ฆฌ๋, ์๋ก์ด ๊ฒ), ๋ชจ๋ธ ํฌ๊ธฐ, ์ํคํ ์ฒ ์ธ๋ถ ์ฌํญ ๋ฐ ๋ฐ์ดํฐ ํผํฉ์ ์๋ฏธํ๋ค.ย ํ๋์ ์์ ์ ์ฐฉํ๋ฉด,ย ๊ทธ๊ฒ์ผ๋ก๋ถํฐ ๋ฌด์์ ๋์ถํ ์ ์๋ค. ์๋ฅผ ๋ค์ด:
- ์จ๋๋ฐ์ด์ค๋ฅผ ์ํ ๋น ๋ฅธ ๋ชจ๋ธ โ ์๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ
- ๋ค๊ตญ์ด ๋ชจ๋ธ โ ํฐ ํ ํฌ๋์ด์ ์ดํ
- ๋งค์ฐ ๊ธด ์ปจํ ์คํธ โ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ
use-case ์ ์ํด ์ฃผ๋๋๋ ๊ฒฐ์ ์ธ์๋, ๋ ์์ ์ ์ด๊ฑฐ๋, ๋ ์ํ ํจ์จ์ ์ด๊ฑฐ๋, ๋๋ ๋ ๋น ๋ฆ์ผ๋ก์จ ํ์ต ์์ฒด๋ฅผ ์ต์ ํํ๋ ๋ช ๊ฐ์ง ์ ํ ์ฌํญ๋ ์๋ค. ์ด๋ฌํ ๊ฒฐ์ ์ ํญ์ ๊ทธ๋ ๊ฒ ๋ช ํํ๊ฒ ๊ตฌ๋ถ๋์ง ์์ง๋ง, ๊ฒฐ์ ๊ณผ์ ์ ๋๋ต ๋ ๋จ๊ณ๋ก ๋๋ ์ ์๋ค:
- ๊ณํ:ย ์คํ์ ์คํํ๊ธฐ ์ ์, ์ฌ๋ฌ๋ถ์ use-case๋ฅผ ๊ฒฐ์ ํด์ผ ํ๋ ๊ตฌ์ฑ ์์์ ๋งคํํ๋ค. ๋ฐฐํฌ ํ๊ฒฝ์ ๋ชจ๋ธ ํฌ๊ธฐ ์ ์ฝ ์กฐ๊ฑด์ ๊ฒฐ์ ํ๋ค. ํ์๋ผ์ธ์ ๊ฐ์ํ ์ ์๋ ์ํคํ ์ฒ ์ํ์ ๊ฒฐ์ ํ๋ค. ๋ชฉํ capability ๋ค์ ๋ฐ์ดํฐ์ ์๊ตฌ ์ฌํญ์ ๊ฒฐ์ ํ๋ค. ์ด ๋จ๊ณ๋ย โ**์โ**๋ก๋ถํฐ์ ๊ฐ ์ ์ฝ ์กฐ๊ฑด์ย โ**๋ฌด์โ**์ ๊ตฌ์ฒด์ ์ธ ์ฌ์์ ์ฐ๊ฒฐํ๋ ๋จ๊ณ์ด๋ค.
- ๊ฒ์ฆ:ย ์ผ๋จ ์์ํ ์ง์ ๊ณผ ์ ์ฌ์ ์์ ๋ชฉ๋ก์ ๊ฐ๊ฒ ๋๋ฉด, ์ฒด๊ณ์ ์ผ๋ก ํ ์คํธํด๋๊ฐ๋ค. ํ ์คํธ๋ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์, ๋น์ ์ use case์ ๋ํ ์ฑ๋ฅ์ ์๋ฏธ ์๊ฒ ๊ฐ์ ํ๊ฑฐ๋ ํ์ต์ ์ต์ ํํ ์ ์๋ ๋ณ๊ฒฝ ์ฌํญ์ ์ง์คํด์ผ ํ๋ค. ์ด๊ฒ์ด ์ ๊ฑฐ ์คํ(ablations)์ด ๋ฑ์ฅํ๋ ์ง์ ์ด๋ฉฐ, ์ ๊ฑฐ ์คํ ์น์ ์์ ์ด๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๐ํ ์คํธํ ๊ฐ์น๊ฐ ์๋ ๊ฒ์ ์๋ณํ๋ ๋ฒ์ ๋ฐฐ์ด๋ค. ๋จ์ํ ํ ์คํธ๋ฅผ ์คํํ๋ ๋ฐฉ๋ฒ๋ง์ด ์๋๋ค.
๊ด๋ จ ์๋ ์ ํ์ ๋ํ ์๋ฒฝํ ์ ๊ฑฐ ์คํ์ ์ค์ํ ์ ํ์ ๋ํ ๋ถ์ฃผ์ํ ์ ๊ฑฐ ์คํ๋งํผ์ด๋ ๋ง์ ์ปดํจํ ์์์ ๋ญ๋นํ๋ค.
๋ค์ ์ฑํฐ๋ค์์๋ ๋น์ ์ด ๋ชจ๋ธ์ ์ ์ํ๊ธฐ ์ํด ๊ฐ์ง๋ ๋ชจ๋ ์ข ๋ฅ์ ์ต์ ๊ณผ, ์ฒด๊ณ์ ์ธ ์คํ์ ํตํด ์ ํ์ ์ขํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ฐฐ์ฐ๊ฒ ๋ ๊ฒ์ด๋ค. ๊ฑฐ๊ธฐ๋ก ๊ฐ๊ธฐ ์ ์ ์ฐ๋ฆฌ๋ huggingface ๋ด์์ ์์ฒด ๋ชจ๋ธ ํ์ต์ ํ ๊ฒฝํ๊ณผ ๋ค๋ฅธ ๋๋ผ์ด ํ๋ค์ด ํ๋ฅญํ LLM์ ๊ตฌ์ถํ๋ ๊ฒ์ ๊ด์ฐฐํ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ๊ณผ ํ๋ก์ ํธ๋ฅผ ์ค์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๋ช ๊ฐ์ง ๋ฐฐ์ด ์ ์ ๊ณต์ ํ๊ณ ์ ํ๋ค.
์ํผ ํ์: ์๋์ ๋ฐ์ดํฐ
๋ฌผ๋ก ๋ก๋ง๋ก ๊ฐ๋ ๊ธธ์ ๋ง์ง๋ง, ์ฐ๋ฆฌ๋ ์ฑ๊ณต์ ์ธ LLM ํ์ต ํ์ ์ผ๊ด๋๊ฒ ๊ตฌ๋ณํ๋ ๊ฒ์ดย โIteration Speedโ ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. LLM ํ์ต์ ์ค๋ก Training ์ ํด๋ณด๋ฉฐ ๋ฐฐ์ฐ๋ ๋ถ์ผ์ด๋ฉฐ, ๋ ์์ฃผ Training ํด๋ณผ์๋ก ํ์ ๋ ๋์์ง ๊ฒ์ด๋ค. ๋ฐ๋ผ์ 1๋ ์ ํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ํ๊ณผ ๋ถ๊ธฐ์ ํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ํ ์ฌ์ด์์, ํ์๊ฐ ํจ์ฌ ๋ ๋น ๋ฅด๊ฒ ๊ฐ์ ๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด Qwen ๋ฐ DeepSeek์ ํ๋ค์ ๋ณด์. ์ด์ ๋๊ตฌ๋ ์๋ ์ด๋ฆ์ด ๋ ๊ทธ๋ค์ ์ผ๊ด๋๊ฒ ๋น ๋ฅธ ์๋๋ก ์๋ก์ด ๋ชจ๋ธ์ ์ถ์ํ๋ ์ง์๋๋ ๊ธฐ๋ก์ ๊ฐ์ง๊ณ ์๋ค.
Iteration Speed ์ธ์๋, LLM ํ์ต์ ๊ฐ์ฅ ์ํฅ๋ ฅ ์๋ ์ธก๋ฉด์ ๋จ์ฐ์ฝย ๋ฐ์ดํฐ ํ๋ ์ด์ ์ด๋ค. ๋ชจ๋ธ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ํคํ ์ฒ ์ ํ์ ๋ฐ์ด๋ค๋ ค๋ ์์ฐ์ค๋ฌ์ด ๊ฒฝํฅ์ด ์์ง๋ง, LLM ํ์ต์์ ํ์ํ ํ์ ๋ค๋ฅธ ๋ฌด์๋ณด๋ค๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ง์ฐฉํ๋ ํ์ด๋ค.
๋ฐ๋ณต ์๋์ ์ฐ๊ฒฐ๋ ๋ ๋ค๋ฅธ ์ธก๋ฉด์ย ํ ๊ท๋ชจ์ด๋ค: ์ฃผ์ ์ฌ์ ํ์ต ์์ ์ ์ํด์๋ ์คํํ ์ถฉ๋ถํ ์ปดํจํ ์์์ ๊ฐ์ถ ์์์ ์ธ๋ ฅ๋ง ํ์ํ๋ค. ์ค๋๋ Llama 3์ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ ๋ฐ๋ ์๋ง๋ 2~3๋ช ๋ง ํ์ํ ๊ฒ์ด๋ค. ๋ ๋ค์ํ ํ์ต๊ณผ ๋ค์ด์คํธ๋ฆผ ์์ (๋ฉํฐ๋ชจ๋ฌ, ๋ค๊ตญ์ด, post-training ๋ฑ)์ ๋ชจํ์ ์์ํ ๋์๋ง ๊ฐ ๋๋ฉ์ธ์์ ํ์ํด์ง๊ธฐ ์ํด ์ฒ์ฒํ ๋ช ๋ช ์ ์ฌ๋๋ค์ ๋ ์ถ๊ฐํด์ผ ํ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ์๊ณ ์ ๊ฐ์ถฐ์ง ํ์ผ๋ก ์์ํ๊ณ , 2~3๊ฐ์๋ง๋ค ์๋ก์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค. ๊ทธ๋ฌ๋ฉด ์งง์ ์๊ฐ ๋ด์ ์ ์์ ์ค๋ฅผ ๊ฒ์ด๋ค. ์ด์ ์ด ๋ธ๋ก๊ทธ์ ๋๋จธ์ง ๋ถ๋ถ์ ์ด ํ์ ๊ธฐ์ ์ ์ธ ์ผ์์ ์ด์ ์ ๋ง์ถ ๊ฒ์ด๋ค!
Every big model starts with a small ablation
์ฐ๋ฆฌ๊ฐ LLM ํ์ต์ ์์ํ๊ธฐ ์ ์, ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ํ์ต ํจ์จ์ ๊ฒฐ์ ํ ๋ง์ ๊ฒฐ์ ์ ๋ด๋ ค์ผ ํ๋ค. ์ด๋ค ์ํคํ ์ฒ๊ฐ ์ฐ๋ฆฌ์ ์ฌ์ฉ ์ฌ๋ก์ ๊ฐ์ฅ ์ ํฉํ๊ฐ? ์ด๋ค ์ตํฐ๋ง์ด์ ์ ํ์ต๋ฅ ์ค์ผ์ค์ ์ฌ์ฉํ๊ณ ์ด๋ค ๋ฐ์ดํฐ ์์ค๋ฅผ ํผํฉํ ๊ฒ์ธ๊ฐ?
์ด๋ฌํ ๊ฒฐ์ ๋ค์ด ์ด๋ป๊ฒ ์ด๋ฃจ์ด์ง๋์ง์ ๋ํ ์ง๋ฌธ์ ์์ฃผ ๋ฌผ์ด์ง๋ค. ์ฌ๋๋ค์ ๋๋๋ก ๊ทธ๊ฒ๋ค์ ๋ํ ๊ฒฐ์ ์ด ๋จ์ง ๊ทธ๊ฒ๋ค์ ๋ํด ๊น์ด ์๊ฐํจ์ผ๋ก์จ ์ด๋ฃจ์ด์ง๋ค๊ณ ์์ํ๊ณค ํ๋ค. ์ ๋ต์ ์ฌ๊ณ ๋ ํ์์ ์ด์ง๋งโํ ์คํธํ ๊ฐ์น๊ฐ ์๋ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ์๋ณํ๋ ๊ฒ์ ๋ํด ๋ ผ์ํ๋ ์ด์ ์น์ ์์ ๋ค๋ฃจ์๋ฏ์ดโ์ถ๋ก ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค. LLM์์๋ ํญ์ ์ง๊ด์ ์ด์ง ์์ ์ผ์ด ์ผ์ด๋๋ฉฐ, ์๋ํด์ผ ํ ๊ฒ์ด๋ผ๋ ๊ฐ์ค์ด ์ค์ ๋ก๋ ์ฑ๊ณตํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค.
์๋ฅผ ๋ค์ด, โ๊ฐ์ฅ ๋์ ํ์ง์ ๋ฐ์ดํฐโ์ฒ๋ผ ๋ณด์ด๋ ๊ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ด ํญ์ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ณ๋ ๊ฒ์ ์๋๋ค. ์ธ๋ฅ์ ๊ณผํ์ ์ง์์ด ๋ฐฉ๋ํ๊ฒ ๋ชจ์ฌ์๋ arXiv๋ฅผ ์๋ก ๋ค์ด๋ณด์. ์ง๊ด์ ์ผ๋ก, ๊ทธ๋ฌํ ํ๋ถํ STEM ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ์ด ์ฐ์ํ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ด์ผ ํ ๊ฒ ๊ฐ์ง ์์๊ฐ? ํ์ง๋ง ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์์ผ๋ฉฐ, ํนํ ์ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ฑ๋ฅ์ ํด์น ์๋ ์๋ค (Shao et al., 2024). ์์ผ๊น? ๊ทธ ์ด์ ๋ arXiv ๋ ผ๋ฌธ์ด ์ง์์ผ๋ก ๊ฐ๋ ์ฐจ ์์ง๋ง, ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ ๋ฐฐ์ฐ๋ ๋ค์ํ๊ณ ์ผ๋ฐ์ ์ธ ํ ์คํธ์๋ ์๋นํ ๋ค๋ฅธ, ๊ณ ๋๋ก ์ ๋ฌธํ๋๊ณ ์ข์ ํ๋ฌธ์ ์คํ์ผ๋ก ์์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฌธ์ ์ ๋ํด ์ค๋ซ๋์ ์ด์ฌํ ๊ณ ๋ฏผํ๋ ๊ฒ์ด ๋์์ด ๋์ง ์๋๋ค๋ฉด, ๋ฌด์์ด ์๋ํ๋์ง ์ด๋ป๊ฒ ์ ์ ์์๊น? ์ฐ๋ฆฌ๋ ํ๋ฅญํ ๊ฒฝํ์ฃผ์์๋ค์ฒ๋ผ ๋ง์ ์คํ์ ์คํํด์ผ ํ๋ค! ๊ธฐ๊ณ ํ์ต์ ์์ ์ํ์ด ์๋๋ผ, ์ค์ ๋ก๋ ๋งค์ฐ ์คํ์ ์ธ ๊ณผํ์ด๋ค.
์ด๋ฌํ ์คํ๋ค์ด ์ฐ๋ฆฌ์ ๋ง์ ์ค์ํ ๊ฒฐ์ ์ ์๋ดํ ๊ฒ์ด๋ฏ๋ก, ๊ทธ๊ฒ๋ค์ ์ ์ค์ ํ๋ ๊ฒ์ด ์ ๋ง๋ก ์ค์ํ๋ค. ๋ณธ์ง์ ์ผ๋ก ์ฐ๋ฆฌ๋ ๊ทธ๋ค๋ก๋ถํฐ ๋ ๊ฐ์ง ์ฃผ์ ์์ฑ์ ์ํ๋ค:
- ์๋:ย ์์ฃผ ๋ฐ๋ณตํ ์ ์๋๋ก ๊ฐ๋ฅํ ํ ๋น ๋ฅด๊ฒ ์คํ๋์ด์ผ ํ๋ค. ๋ ๋ง์ ์ ๊ฑฐ ์คํ์ ์คํํ ์๋ก, ๋ ๋ง์ ๊ฐ์ค์ ํ ์คํธํ ์ ์๋ค.
- ์ ๋ขฐ์ฑ:ย ๊ทธ๋ค์ ๊ฐ๋ ฅํ ๋ณ๋ณ๋ ฅ์ ์ ๊ณตํด์ผ ํ๋ค. ์ฐ๋ฆฌ๊ฐ ๋ณด๋ ๋ฉํธ๋ฆญ์ด ์ด๊ธฐ์ ๋ค๋ฅธ ์ค์ ๋ค์ ์๋ฏธ ์๊ฒ ๊ตฌ๋ณํ ์ ์๋ค๋ฉด, ์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ์ ๊ฑฐ์ ์๋ฌด๊ฒ๋ ๋๋ฌ๋ด์ง ๋ชปํ ์ ์๋ค (๊ทธ๋ฆฌ๊ณ ๋ ธ์ด์ฆ๊ฐ ๋ง๋ค๋ฉด, ์ฐ๋ฆฌ๋ ๋ ธ์ด์ฆ๋ฅผ ์ซ์ ์ํ์ด ์๋ค!). ๋ ์์ธํ ๋ด์ฉ์ FineTaks ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์(https://huggingface.co/spaces/HuggingFaceFW/blogpost-fine-tasks) ํ์ธํด๋ผ.
ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ ๊ฑฐ ์คํ์ ์ค์ ํ๊ธฐ ์ ์, ์ํคํ ์ฒ ์ ํ๊ณผ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํ ๋ช ๊ฐ์ง ๊ธฐ๋ณธ์ ์ธ ์ ํ์ ์ฐ๋ฆฌ๋ ํด์ผ ํ๋ค. ์ฐ๋ฆฌ์ ๋์นจ๋ฐ์ ์ํด ์๋ด๋๋ ์ด๋ฌํ ๊ฒฐ์ ๋ค์ ์ด๋ค ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ ์ง, ์ปดํจํ ์์ฐ์ ์ด๋ป๊ฒ ํ ๋นํ ์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ค ๊ธฐ์ค์ (baseline)์์ ์์ํ ์ง์ ์ํฅ์ ๋ฏธ์น๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ํ ์จ๋๋ฐ์ด์ค ๋ชจ๋ธ์ ๋ชฉํ๋ก ํ๊ธฐ ๋๋ฌธ์ 3B ๋งค๊ฐ๋ณ์์ ๋ฐ์งํ Llama ์คํ์ผ ์ํคํ ์ฒ๋ฅผ ์ ํํ๋ค. ๊ทธ๋ฌ๋ย ๋ชจ๋ธ ์ํคํ ์ฒ ์ค๊ณย ์ฑํฐ์์ ๋ณด๋ฏ์ด, MoE ๋๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ด ์ฌ๋ฌ๋ถ์ ์ฌ์ฉ ์ฌ๋ก์ ๋ ์ ํฉํ ์ ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ๋ ๋ค๋ฅธ ์ฅ๋จ์ ์ ์๋ฐํ๋ค. ์ฐ๋ฆฌ๋ ๋์ค์ ์ด๋ฌํ ์ ํ๋ค์ ๊น์ด ํ์ํ๊ณ , ์ด๋ฌํ ๊ฒฐ์ ๋ค์ ๋ด๋ฆฌ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ค. ์ง๊ธ์ ๊ฐ์ฅ ์ค์ฉ์ ์ธ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ โBaseline ์ ํโ๋ถํฐ ์์ํ๋ค.
๊ธฐ์ค์ (Baseline) ์ ํ
๋ชจ๋ ์ฑ๊ณต์ ์ธ ๋ชจ๋ธ์ ๊ฒ์ฆ๋ ๊ธฐ๋ฐ์ ๋ฐํ์ผ๋ก ๊ตฌ์ถ๋๋ฉฐ, ํ์์ ๋ฐ๋ผ ๊ทธ ๊ธฐ๋ฐ์ ์์ ํด์ ๋ง๋ค์ด์ง๋ค. Qwen์ด ์ฒซ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(Bai et al., 2023)๋ฅผ ํ์ต์์ผฐ์ ๋, ๊ทธ๋ค์ Llama์ ์ํคํ ์ฒ์์ ์์ํ๋ค. Meta๊ฐ Llama 3๋ฅผ ํ์ต์์ผฐ์ ๋, ๊ทธ๋ค์ Llama 2์์ ์์ํ๋ค. Kimi K2๋ DeepSeek-V3์ MoE ์ํคํ ์ฒ์์ ์์ํ๋ค. ์ด๊ฒ์ ์ํคํ ์ฒ๋ฟ๋ง ์๋๋ผ ํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฐ ์ตํฐ๋ง์ด์ ์๋ ์ ์ฉ๋๋ค.
์์ผ๊น? ์ข์ ์ํคํ ์ฒ์ ํ์ต ์ค์ ์ค๊ณ๋ ์๋ง์ ์กฐ์ง์ ๊ฑธ์ณ ์๋ ๊ฐ์ ๋ฐ๋ณต์ ํ์๋ก ํ๋ค. ํ์ค ํธ๋์คํฌ๋จธ์ Adam๊ณผ ๊ฐ์ ์ตํฐ๋ง์ด์ ๋ ์์ฒ ๋ฒ์ ์คํ์ ํตํด ๊ฐ์ ๋์๋ค. ์ฌ๋๋ค์ ๊ทธ๊ฒ๋ค์ด ์คํจํ๋ ์ํฉ๋ค์ ๋ฐ๊ฒฌํ๊ณ , ๋ถ์์ ์ฑ์ ๋๋ฒ๊น ํ์ผ๋ฉฐ, ๊ตฌํ์ ์ต์ ํํ๋ค. ๊ฒ์ฆ๋ ๊ธฐ๋ฐ์์ ์์ํ๋ค๋ ๊ฒ์ ๊ทธ ๋ชจ๋ ์ถ์ ๋ ์ง์์ ๊ณ์นํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์๋ก ์์ํ๋ค๋ ๊ฒ์ ๋ชจ๋ ๋ฌธ์ ๋ฅผ ์ค์ค๋ก ์ฌ๋ฐ๊ฒฌํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๋ค์์ ์ํคํ ์ฒ์ ์ข์ ์ถ๋ฐ์ ์ ๋ง๋๋ ์์์ด๋ค:
- ์ ์ฝ ์กฐ๊ฑด๊ณผ ์ผ์น:ย ๋ฐฐํฌ ๋์ ๋ฐ ์ฌ์ฉ ์ฌ๋ก์ ์ผ์นํ๋ค.
- ๋๊ท๋ชจ์์ ๊ฒ์ฆ:ย ์ ์ฌํ๊ฑฐ๋ ๋ ํฐ ํฌ๊ธฐ์์ ์์กฐ ํ ํฐ ์คํ.
- ๋ฌธ์ํ๊ฐ ์ ๋์ด ์์:ย ์คํ ๋ชจ๋ธ์์ ์๋ํ๋ ๊ฒ์ผ๋ก ์ ์ฆ๋ ์๋ ค์ง ํ์ดํผํ๋ผ๋ฏธํฐ.
- ํ๋ ์์ํฌ ์ง์:ย ์ด์์ ์ผ๋ก๋ ๊ณ ๋ ค ์ค์ธ ํ์ต ํ๋ ์์ํฌ์ ์ฌ์ฉํ๋ ค๋ ์ถ๋ก ํ๋ ์์ํฌ์์ ์ง์๋์ด์ผ ํ๋ค.
์๋๋ ๋ค์ํ ์ํคํ ์ฒ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํ ๊ฐ๋ ฅํ 2025๋ ๊ธฐ์ค์ ์ต์ ์ ์ ์ฒด๋ ์๋์ง๋ง ์ผ๋ถ ๋ชฉ๋ก์ด๋ค:
| ์ํคํ ์ฒ ์ ํ | ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ | ํฌ๊ธฐ |
|---|---|---|
| ๋ฐ์งํ(Dense) | Llama 3.1 | 8B, 70B |
| ๋ฐ์งํ(Dense) | Llama 3.2 | 1B, 3B |
| ๋ฐ์งํ(Dense) | Qwen3 | 0.6B, 1.7B, 4B, 14B, 32B |
| ๋ฐ์งํ(Dense) | Gemma3 | 12B, 27B |
| ๋ฐ์งํ(Dense) | SmolLM2, SmolLM3 | 135M, 360M, 1.7B, 3B |
| MoE | Qwen3 MoE | 30B-A3B, 235B-A122B |
| MoE | GPT-OSS | 21B-A3B, 117B-A5B |
| MoE | Kimi Moonlight | 16B-A3B |
| MoE | Kimi-k2 | 1T-A32B |
| MoE | DeepSeek V3 | 671B-A37B |
| ํ์ด๋ธ๋ฆฌ๋(Hybrid) | Zamba2 | 1.2B, 2.7B, 7B |
| ํ์ด๋ธ๋ฆฌ๋(Hybrid) | Falcon-H1 | 0.5B, 1.5B, 3B, 7B, 34B |
| MoE + ํ์ด๋ธ๋ฆฌ๋ | Qwen3-Next | 80B-A3B |
| MoE + ํ์ด๋ธ๋ฆฌ๋ | MiniMax-01 | 456B-A46B |
๋น์ ์ด ์ํ๋ ์ํคํ ์ฒ ์ ํ์ผ๋ก ๊ฐ์ ๋น์ ์ด ๋ชจ๋ธ์ด ๊ฐ๊ธฐ๋ฅผ ์ํ๋ ๋งค๊ฐ๋ณ์ ์์ ๊ฐ๊น์ด ๊ธฐ์ค์ ์ ์ ํํด๋ผ. ๋น์ ์ด ์์ํ๊ธฐ๋ก ํ ์ํคํ ์ฒ๊ฐ ํ์ ๋ ๊ฒ์ ์๋๋ฏ๋ก ๋๋ฌด ๋ง์ด ๊ณ ๋ฏผํ์ง๋ ๋ง๋ผ. ๋ค์ ์น์ ์์, ์ฐ๋ฆฌ๋ ๊ธฐ์ค์ ์์ ์ฌ๋ฌ๋ถ์๊ฒ ์ต์ ์ธ ์ต์ข ์ํคํ ์ฒ๋ก ๊ฐ๋ ๋ฐฉ๋ฒ์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
๊ธฐ์ค์ ์์ : ์ํ ํํผ์ ๊ท์จ
์ด์ ์๋ํ๊ณ ์ฌ๋ฌ๋ถ์ ์ฌ์ฉ ์ฌ๋ก์ ๋ง๋ ๊ธฐ์ค์ ์ด ์๋ค. ๋น์ ์ ์ฌ๊ธฐ์ ๋ฉ์ถ๊ณ , ๋น์ ์ด ์ค๋นํ ๋ฐ์ดํฐ๋ก (Data Mixture) (๋น์ ์ด ๊ทธ๊ฒ์ ์ ๋ง๋ค์๋ค๊ณ ๊ฐ์ ํ๊ณ ) ๊ทธ๊ฒ์ ํ์ต์์ผ ๊ด์ฐฎ์ ๋ชจ๋ธ์ ์ป์ ์ ์๋ค. ๋ง์ ์ฑ๊ณต์ ์ธ ํ๋ก์ ํธ๊ฐ ์ ํํ ๊ทธ๋ ๊ฒ ํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์ค์ ์ ์ฌ๋ฌ๋ถ์ ํน์ ์ ์ฝ ์กฐ๊ฑด์ ์ต์ ํ๋์ง ์์์ผ๋ฉฐ, ๊ทธ๊ฒ๋ค์ ๊ตฌ์ถํ ์ฌ๋๋ค์ ์ฌ์ฉ ์ฌ๋ก ๋ฐ ๋ฐฐํฌ ๋์์ ๋ง๊ฒ ์ค๊ณ๋์๋ค. ๋ฐ๋ผ์ ์ฌ๋ฌ๋ถ์ ๋ชฉํ์ ๋ ์ ์ผ์นํ๋๋ก ๋ง๋ค ๊ฐ์น๊ฐ ์๋ ์์ ์ฌํญ์ด ์์ ์ ์๋ค. ํ์ง๋ง ๋ชจ๋ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ์ํ์ ์๋ฐํ๋ค: ์ฑ๋ฅ์ ํฅ์์ํค๊ฑฐ๋, ํญ๋ฝ์ํค๊ฑฐ๋, ๋๋ ์๋ฌด๊ฒ๋ ํ์ง ์์ผ๋ฉด์ ์ ๊ฑฐ ์คํ ์ปดํจํ ์์์ ๋ญ๋นํ ์ ์๋ค.
์ด ๋ย Derisking๋ผ๋ ์ด ๊ท์จ์ด ๋น์ ์ด ๊ถค๋๋ฅผ ๋ฒ์ด๋์ง ์๊ฒ ์ ์งํด์ค ๊ฒ์ด๋ค:ย ํ ์คํธํ์ฌ ๋์์ด ๋๋ค๋ ๊ฒ์ด ์ ์ฆ๋์ง ์๋ ํ ์๋ฌด๊ฒ๋ ๋ณ๊ฒฝํ์ง ์๋๋ค.
๐๋ฌด์์ด Derisking (์ํ ํํผ)๋ก ๊ฐ์ฃผ๋๋๊ฐ?
๋ณ๊ฒฝ ์ฌํญ์ด ๋ชฉํ ๊ธฐ๋ฅ์ ๋ํ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ฑฐ๋, ํ์ฉ ๊ฐ๋ฅํ ์ ์ถฉ์์ ๋์ด ์ฑ๋ฅ์ ํด์น์ง ์์ผ๋ฉด์ ์๋ฏธ ์๋ ์ด์ (์: ๋ ๋น ๋ฅธ ์ถ๋ก , ๋ ๋ฎ์ ๋ฉ๋ชจ๋ฆฌ, ๋ ๋์ ์์ ์ฑ)์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ํ ์คํธ๊ฐ ๋ณด์ฌ์ค ๋ ๋ณ๊ฒฝ ์ฌํญ์ ์ํ ํํผ๊ฐ ๋ ๊ฒ์ด๋ค.
๊น๋ค๋ก์ด ๋ถ๋ถ์ ์ฌ๋ฌ๋ถ์ ๊ธฐ์ค์ ๊ณผ ํ์ต ์ค์ ์ ์์ ํ ์ ์๋ ๋ง์ ๊ตฌ์ฑ ์์๊ฐ ์๋ค๋ ๊ฒ์ด๋ค: ์ดํ ์ ๋ฉ์ปค๋์ฆ, Positional encodings, ํ์ฑํ ํจ์, ์ตํฐ๋ง์ด์ , ํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ, ์ ๊ทํ ๋ฐฉ์, ๋ชจ๋ธ ๋ ์ด์์ ๋ฑ์ด๋ค. ๊ฐ๊ฐ์ ์ ์ฌ์ ์ธ ์คํ์ ๋ํํ๋ฉฐ, ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ค์ ์ข ์ข ๋น์ ํ์ ์ธ ๋ฐฉ์์ผ๋ก ์ํธ ์์ฉํ๋ค. ์ฌ๋ฌ๋ถ์ ๋ชจ๋ ๊ฒ์ ํ ์คํธํ๊ฑฐ๋ ๋ชจ๋ ์ํธ ์์ฉ์ ํ์ํ ์๊ฐ์ด๋ ์ปดํจํ ์์์ด ์๋ค.
ํ์ฌ ๊ธฐ์ค์ ์ ๋ํด ์ ๋งํ ๋ณ๊ฒฝ ์ฌํญ๋ค์ ํ ์คํธํ๋ ๊ฒ๋ถํฐ ์์ํ๋ค. ๋ฌด์์ธ๊ฐ ์๋ํ๋ฉด, ๊ทธ๊ฒ์ ํตํฉํ์ฌ ์๋ก์ด ๊ธฐ์ค์ ์ ๋ง๋ค๊ณ , ๊ทธ๊ฒ์ ๋ํด ๋ค์ ๋ณ๊ฒฝ ์ฌํญ์ ํ ์คํธํ๋ค. ์ปดํจํ ์์ฐ์ด ํ๋ฝํ๋ค๋ฉด ๋ณ๊ฒฝ ์ฌํญ๋ค์ ๊ฐ๋ณ์ ์ผ๋ก ํ ์คํธํ๊ณ leave-one-out ๋ถ์์ ์คํํ ์ ์๋ค.
๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์ฒ ์ ํ ๊ทธ๋ฆฌ๋ ๊ฒ์์ด๋ ๋์ค๋ ๋ชจ๋ ์ํคํ ์ฒ ๋ณํ์ ํ ์คํธํ๋ ํจ์ ์ ๋น ์ ธ์๋ ์ ๋๋ค.
๐ฏย ์ ๋ต์ ์คํ
์ด๋ค ์คํ์ ์คํํ ๊ฐ์น๊ฐ ์๋์ง ๋ชจ๋ฅธ๋ค๋ฉด ์คํ์ ์คํํ๋ ๋ฐฉ๋ฒ์ ์๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค. ์ด๋ค ์์ ์ฌํญ์ด๋ ํ ์คํธํ๊ธฐ ์ ์ ์ค์ค๋ก์๊ฒ ๋ ๊ฐ์ง ์ง๋ฌธ์ ๋์ ธ์ผ ํ๋ค:
- ์ด๊ฒ์ด ๋ด๊ฐ ๋ชฉํ๋ก ํ๊ณ ์๋ ํน์ ํ use case์ ๋์์ด ๋ ๊ฒ์ธ๊ฐ?
- ์ด๊ฒ์ด ๋์ ํ์ต์ ์ต์ ํํ ๊ฒ์ธ๊ฐ?
์์ ์ฌํญ์ด ๋ ์ง๋ฌธ ์ค ์ด๋ ํ๋๋ฅผ ๋ช ํํ๊ฒ ๋ค๋ฃจ์ง ์๋๋ค๋ฉด, ๊ฑด๋๋ฐ์ด๋ผ.
์ด์ ์ ๋ต์ ๊ณํ์ ํตํด ๋ฌด์์ด ์ ๋งํ์ง ์๋ณํ๋ ๋ฐฉ๋ฒ์ ์์์ผ๋ฏ๋ก, ๊ฒฝํ์ ๊ฒ์ฆ์ผ๋ก ๋์ด๊ฐ ์ฐจ๋ก์ด๋ค. ๋ค์ ์น์ ๋ค์์๋ ์ด๋ฌํ ๋ณ๊ฒฝ ์ฌํญ๋ค์ ์ค์ ๋ก ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ์ ๋ขฐํ ์ ์๋ ์คํ์ ์ค์ ํ๋ ๋ฐฉ๋ฒ, ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ผ๋ฐ์ ์ธ ํจ์ ์ ํผํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃฐ ๊ฒ์ด๋ค. ๊ทธ๋ฐ ๋ค์ ๋ค์ ์ฑํฐ๋ค์์๋ ์ธ๊ธฐ ์๋ ์ํคํ ์ฒ, ๋ฐ์ดํฐ, ์ธํ๋ผ ๋ฐ ํ์ต ๊ฒฐ์ ๋ค์ ํ ์คํธํ๋ ๊ตฌ์ฒด์ ์ธ ์์๋ค์ ์๋ดํ ๊ฒ์ด๋ค.
์ด์ ์ฐ๋ฆฌ์ ์คํ์ ์ฌ์ฉํ ์ ์๋ ๊ฐ๋จํ ์ ๊ฑฐ ์คํ ์ค์ ์ ๋ง๋ค์ด๋ณด์. ๋จผ์ , ์ด๋ค ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ํํ ์ง ๊ฒฐ์ ํด์ผ ํ๋ค.
ํ์ต ํ๋ ์์ํฌ ์ ํ
์ฐ๋ฆฌ๊ฐ ๋ด๋ ค์ผ ํ ์ฒซ ๋ฒ์งธ ๊ฒฐ์ ์ ๋ชจ๋ธ ํ์ต์ ์ํด, ๊ทธ๋ฆฌ๊ณ ๋์๊ฐ ์ฐ๋ฆฌ์ ๋ชจ๋ ์ ๊ฑฐ ์คํ์ ์คํํ๊ธฐ ์ํด ์ด๋ค ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ ์ง์ด๋ค. ์ด ์ ํ์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ณ ๋ ค ์ฌํญ์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์ ํฌํจํ๋ค:
- ํ๋ ์์ํฌ๋ ์ฐ๋ฆฌ์ ๋ชฉํ ์ํคํ ์ฒ๋ฅผ ์ง์ํ๊ฑฐ๋ ์ฐ๋ฆฌ๊ฐ ๊ทธ๊ฒ์ ์ฝ๊ฒ ํ์ฅํ ์ ์๋๋ก ํด์ผ ํ๋ค.
- ๊ทธ๊ฒ์ ์์ ์ ์ด๊ณ ํ๋ก๋์ ์ค๋น๊ฐ ๋์ด ์์ด์ผ ํ๋ฉฐ, ํ์ต ์ค๊ฐ์ ๋ฏธ์คํฐ๋ฆฌํ๊ฒ ๊ณ ์ฅ ๋๊ธฐ ์ฌ์ด ๊ฒฝํฅ์ด ์์ด์ผ ํ๋ค.
- ์ฐ๋ฆฌ๊ฐ ๋น ๋ฅด๊ฒ ๋ฐ๋ณตํ๊ณ ์ปดํจํ ์์ฐ์ ์ต๋ํ ํ์ฉํ ์ ์๋๋ก ๊ฐ๋ ฅํ ์ฒ๋ฆฌ๋์ ์ ๊ณตํด์ผ ํ๋ค.
์ค์ ๋ก๋ ์ด๋ฌํ ์๊ตฌ ์ฌํญ๋ค์ด ์๋ก ์์ถฉ๋์ด ํธ๋ ์ด๋์คํ๋ฅผ ์์ฑํ ์ ์๋ค. ์ฌ์ฉ ๊ฐ๋ฅํ ์ต์ ๋ค์ ์ดํด๋ณธ๋ค.
| ํ๋ ์์ํฌ | ๊ธฐ๋ฅ | ์ค์ ๊ฒ์ฆ | ์ต์ ํ | ์ฝ๋ ๋ผ์ธ ์ (ํต์ฌ / ์ ์ฒด) | ํ์ฅ์ฑ ๋ฐ ๋๋ฒ๊น |
|---|---|---|---|---|---|
| Megatron-LM | โ ๊ด๋ฒ์ํจ | โ Kimi-K2, Nemotron | โ 3D ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ๊ตฌ์ | 93k / 269k | โ ๏ธ ์ด๋ณด์์๊ฒ๋ ์ด๋ ค์ |
| DeepSpeed | โ ๊ด๋ฒ์ํจ | โ BLOOM, GLM | โ ZeRO ๋ฐ 3D ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ๊ตฌ์ | 94k / 194k | โ ๏ธ ์ด๋ณด์์๊ฒ๋ ์ด๋ ค์ |
| TorchTitan | โก ๊ธฐ๋ฅ ์ธํธ ์ฑ์ฅ ์ค | โ ๏ธ ์ต์ ์ด์ง๋ง PyTorch ํ์์ ํ ์คํธ๋จ | โก ๋ฐ์งํ ๋ชจ๋ธ์ ์ต์ ํ๋จ, MoE ๊ฐ์ ์งํ ์ค. | 7k / 9k | โก ๋ณดํต: ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ ธํ์ฐ ํ์ |
| Nanotron | ๐ฏ ์ต์ํ, HF ์ฌ์ ํ์ต์ ๋ง์ถค | โ ์ (StarCoder, SmolLM) | โ ์ต์ ํ๋จ (UltraScale Playbook) | 15k / 66k | โก ๋ณดํต: ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ ธํ์ฐ ํ์ |
์ ํ๋ ์ธ๊ธฐ ์๋ ํ๋ ์์ํฌ ๊ฐ์ ์ฃผ์ ํธ๋ ์ด๋์คํ๋ฅผ ์์ฝํ๋ค. ์ฒ์ ์ธ ํ๋ ์์ํฌ์ ์ฝ๋ ๋ผ์ธ ์๋ TorchTitan ๊ธฐ์ ๋ณด๊ณ ์(Liang et al., 2025)์์ ๊ฐ์ ธ์จ ๊ฒ์ด๋ค. ๊ฐ๊ฐ์ ๋ํด ๋ ์์ธํ ๋ ผ์ํ๋ค:
Nvidia์ Megatron-LM์ ์๋ ๊ฐ ์กด์ฌํด ์์ผ๋ฉฐ ์ค์ ๊ฒ์ฆ๋์๋ค. ๊ทธ๊ฒ์ Kimi์ K2(Team et al., 2025)์ ๊ฐ์ ๋ชจ๋ธ์ ๊ตฌ๋ํ๋ฉฐ, ๊ฒฌ๊ณ ํ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ๊ณ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋๋ถ๋ถ์ ํ๋ก๋์ ๊ธฐ๋ฅ์ ๊ฐ์ถ๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๊ทธ ์ฑ์๋๋ ๋ณต์ก์ฑ์ ์๋ฐํ๋ค: ์ฝ๋๋ฅผ ์ฒ์ ์ ํ ๋ ํ์ํ๊ณ ์์ ํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค.
DeepSpeed๋ ๋น์ทํ ๋ฒ์ฃผ์ ์ํ๋ค. ๊ทธ๊ฒ์ ZeRO ์ต์ ํ์ ์ ๊ตฌ์์ด๋ฉฐ BLOOM ๋ฐ GLM๊ณผ ๊ฐ์ ๋ชจ๋ธ์ ๊ตฌ๋ํ๋ค. Megatron-LM๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ๊ด๋ฒ์ํ๊ฒ ์ค์ ๊ฒ์ฆ๋๊ณ ์ต์ ํ๋์์ง๋ง, ๋์ผํ ๋ณต์ก์ฑ ๋ฌธ์ ๋ฅผ ๊ณต์ ํ๋ค. ํนํ ์ฌ์ฉ์ ์ ์ ๊ธฐ๋ฅ์ ๊ตฌํํ๊ฑฐ๋ ์์์น ๋ชปํ ๋์์ ๋๋ฒ๊น ํ ๋, ํฐ ์ฝ๋๋ฒ ์ด์ค(์ด 194k ๋ผ์ธ)๋ ์์ํ ๋ ์ํ์ ์ผ ์ ์๋ค.
๋ฐ๋ฉด์, PyTorch์ ์ต์ TorchTitan ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ปดํฉํธํ๊ณ ๋ชจ๋์ ์ฝ๋๋ฒ ์ด์ค ๋๋ถ์ ํจ์ฌ ๊ฐ๋ณ๊ณ ํ์ํ๊ธฐ ์ฝ๋ค. ๊ทธ๊ฒ์ ์ฌ์ ํ์ต์ ํ์ํ ํต์ฌ ๊ธฐ๋ฅ์ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ ๋น ๋ฅธ ์คํ์ ํ๋ฅญํ๋ค. ๊ทธ๋ฌ๋ ๋ ์ต์ ์ด๋ฏ๋ก, ์ค์ ๊ฒ์ฆ์ด ๋ ๋์๊ณ ํ๋ฐํ๊ฒ ๊ฐ๋ฐ ์ค์ด๋ฏ๋ก ์ฌ์ ํ ์ฝ๊ฐ ๋ถ์์ ํ ์ ์๋ค.
์ฐ๋ฆฌ๋ ๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ํํ์ฌ, ์ฒ์๋ถํฐ ์์ฒด ํ๋ ์์ํฌ์ธ nanotron์ ๊ตฌ์ถํ๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์๊ฒ ์์ ํ ์ ์ฐ์ฑ๊ณผ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ๋ํ ๊น์ ์ดํด๋ฅผ ์ ๊ณตํ๋ค; ๋์ค์ Ultra Scale Playbook์ผ๋ก ๋ฐ์ ํ ํต์ฐฐ๋ ฅ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์คํ ์์ค๋ก ๊ณต๊ฐํ ์ดํ, ์ฐ๋ฆฌ๋ ์ปค๋ฎค๋ํฐ๋ก๋ถํฐ ๊ท์คํ ํผ๋๋ฐฑ์ ๋ฐ์์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๊ธฐ๋ฅ์ ๋จผ์ ์์ฒด์ ์ผ๋ก ์ค์ ๊ฒ์ฆํด์ผ ํ๋ค. ์ด์ ์ด ํ๋ ์์ํฌ๋ ํ์ต์ ํ์ํ ๋ชจ๋ ํ๋ก๋์ ๊ธฐ๋ฅ์ ์ง์ํ์ง๋ง, MoE ์ง์๊ณผ ๊ฐ์ ์์ญ์ ์ฌ์ ํ ๊ตฌ์ถ ์ค์ด๋ค.
์ฒ์๋ถํฐ ๊ตฌ์ถํ๋ ๊ฒ์ ๊ทธ๋๋ ํฉ๋ฆฌ์ ์ด์์ง๋ง, ๋ฌธ์ ๋๋ฒ๊น ๋ฐ ๋๋ฝ๋ ๊ธฐ๋ฅ ์ถ๊ฐ์ ๋ํ ํ ์ ๋ฌธ ์ง์๊ณผ ์๊ฐ์ ๋ง๋ํ ํฌ์๋ฅผ ์๊ตฌํ๋ค. ๊ฐ๋ ฅํ ๋์์ ๊ธฐ์กด ํ๋ ์์ํฌ๋ฅผ ํฌํฌํ๊ณ ํ์์ ๋ง๊ฒ ๊ฐ์ ํ๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, Thinking Machines Lab์ TorchTitan์ ํฌํฌ๋ก ๋ด๋ถ ์ฌ์ ํ์ต ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถํ๋ค (์ถ์ฒ https://x.com/cHHillee/status/1949470943291805832).
๊ถ๊ทน์ ์ผ๋ก, ์ฌ๋ฌ๋ถ์ ์ ํ์ ํ์ ์ ๋ฌธ ์ง์, ๋ชฉํ ๊ธฐ๋ฅ, ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ฐ์ ํฌ์ํ ์ํฅ์ด ์๋ ์๊ฐ ๋ ๊ฐ์ฅ ํ๋ก๋์ ์ค๋น๊ฐ ๋ ์ต์ ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋ฌ๋ ค์๋ค.
์ฌ๋ฌ ํ๋ ์์ํฌ๊ฐ ์ฌ๋ฌ๋ถ์ ํ์๋ฅผ ์ง์ํ๋ค๋ฉด, ์ฌ๋ฌ๋ถ์ ํน์ ํ๋์จ์ด์์ ๊ทธ๋ค์ Throughput์ ๋น๊ตํด๋ผ. ๋น ๋ฅธ ์คํ๊ณผ ์๋ ์คํ์ ์ํด์๋ ๋ ๊ฐ๋จํ ์ฝ๋๋ฒ ์ด์ค๊ฐ ์ข ์ข ์น๋ฆฌํ๋ค.
์ ๊ฑฐ ์คํ ์ค์
ํ๋ ์์ํฌ๋ฅผ ์ ํํ์ผ๋ฏ๋ก, ์ด์ ์ ๊ฑฐ ์คํ ์ค๊ณ๋ฅผ ํด์ผ ํ๋ค. ์ฐ๋ฆฌ๋ ๋น ๋ฅด๊ฒ ๋ฐ๋ณตํ ์ ์์ ๋งํผ ๋น ๋ฅด๋ฉด์๋, ๊ฒฐ๊ณผ๊ฐ ์ฐ๋ฆฌ์๊ฒ ์ ํธ๋ฅผ ์ ๊ณตํ๊ณ ์ต์ข ๋ชจ๋ธ๋ก ์ด์ ๋ ์ ์์ ๋งํผ ์ถฉ๋ถํ ํฐ ์คํ์ด ํ์ํ๋ค. ์ด๊ฒ์ ์ค์ ํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณด์.
์ ๊ฑฐ ์คํ ํ๋ ์์ํฌ ์ค์
์ ๊ฑฐ ์คํ์ ๋ชฉํ๋ ์์ ๊ท๋ชจ๋ก ์คํ์ ์คํํ๊ณ , ์ต์ข ํ๋ก๋์ ์คํ์ ์์ ์๊ฒ ์ถ์ ํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ฒ์ด๋ค.
๋ ๊ฐ์ง ์ฃผ์ ์ ๊ทผ ๋ฐฉ์์ด ์๋ค. ์ฒซ์งธ, ์ฐ๋ฆฌ๋ ๋ชฉํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๊ฐ์ ธ์์ ๋ ์ ์ ํ ํฐ์ผ๋ก ํ์ต์ํฌ ์ ์๋ค. SmolLM3 ์ ๊ฑฐ ์คํ์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ต์ข 11์กฐ(T) ํ ํฐ ๋์ ์ ์ฒด 3B ๋ชจ๋ธ์ 100B ํ ํฐ์ผ๋ก ํ์ต์์ผฐ๋ค. ๋์งธ, ์ฐ๋ฆฌ์ ๋ชฉํ ๋ชจ๋ธ์ด ๋๋ฌด ํฌ๋ค๋ฉด, ์ ๊ฑฐ ์คํ์ ์ํด ๋ ์์ ๋๋ฆฌ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์๋ค. ์๋ฅผ ๋ค์ด, Kimi๊ฐ 32B ํ์ฑ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง 1์กฐ ๋งค๊ฐ๋ณ์ Kimi K2 ๋ชจ๋ธ์ ๊ฐ๋ฐํ์ ๋, ๋ชจ๋ ์ ๊ฑฐ ์คํ์ ์ ์ฒด ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋น์ฉ์ด ๋๋ฌด ๋ง์ด ๋ค์์ ๊ฒ์ด๋ฏ๋ก, ๊ทธ๋ค์ 5์ต ํ์ฑ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง 3B MoE ๋ชจ๋ธ์์ ์ผ๋ถ ์ ๊ฑฐ ์คํ์ ์คํํ๋ค (Team et al., 2025).
ํ ๊ฐ์ง ํต์ฌ ์ง๋ฌธ์ ์ด๋ฌํ ์๊ท๋ชจ ๋ฐ๊ฒฌ์ด ์ค์ ๋ก ์ ์ด๋๋์ง ์ฌ๋ถ์ด๋ค. ์ฐ๋ฆฌ์ ๊ฒฝํ์, ์์ ๊ท๋ชจ์์ ์ฑ๋ฅ์ ํด์น๋ ๊ฒ์ด ์๋ค๋ฉด, ๋๊ท๋ชจ์์๋ ์์ ์๊ฒ ๋ฐฐ์ ํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์์ ๊ท๋ชจ์์ ์๋ํ๋ ๊ฒ์ด ์๋ค๋ฉด, ์ด๋ฌํ ๋ฐ๊ฒฌ์ด ๋ ํฐ ๊ท๋ชจ๋ก ์ถ์ ๋ ๊ฒ์ด๋ผ๋ ๋์ ํ๋ฅ ๋ก ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๊ธฐ ์ํด ํฉ๋ฆฌ์ ์ธ ์์ ํ ํฐ์ผ๋ก ํ์ต์์ผฐ๋์ง ํ์ธํด์ผ ํ๋ค. ๋ ์ค๋ ํ์ต์์ผฐ๊ณ ์ ๊ฑฐ ์คํ ๋ชจ๋ธ์ด ์ต์ข ๋ชจ๋ธ์ ๊ฐ๊น์ธ์๋ก ๋ ์ข๋ค.
์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์์๋ ๋ชจ๋ ์ ๊ฑฐ ์คํ์ ๊ธฐ์ค์ด ๋๋ ๋ฐ๋๋ผ ํธ๋์คํฌ๋จธ๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ์ ์ฃผ์ ์ค์ ์ 45B ํ ํฐ์ผ๋ก ํ์ต๋ Llama3.2 1B ์ํคํ ์ฒ๋ฅผ ๋ฐ๋ฅด๋ 1B ํธ๋์คํฌ๋จธ์ด๋ค. ์ด๊ฒ์ ์ด nanotron ์ค์ ์ ์ฌ์ฉํ์ฌ 8xH100 ๋ ธ๋์์ ํ์ตํ๋ ๋ฐ ์ฝ 1.5์ผ์ด ๊ฑธ๋ฆฐ๋ค (GPU๋น ์ด๋น 42k ํ ํฐ). SmolLM3 ํ์ต ๋์, ์ฐ๋ฆฌ๋ 100B ํ ํฐ์ผ๋ก ํ์ต๋ 3B ๋ชจ๋ธ์์ ์ด๋ฌํ ์ ๊ฑฐ ์คํ์ ์คํํ๋ค (์ค์ ์ ์ฌ๊ธฐ https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs.). ์ฐ๋ฆฌ๋ ๊ฐ ์ฑํฐ์ ๋์์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ณต์ ํ ๊ฒ์ด๋ค (๊ฒฐ๋ก ์ด ์ผ์นํ๋ค๋ ๊ฒ์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค).
์ฐ๋ฆฌ์ ๊ธฐ์ค 1B ์ค์ ์ ๊ตฌ์กฐํ๋ YAML ํ์์ผ๋ก ๋ชจ๋ ํ์ ํ์ต ์ธ๋ถ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๋ค. ๋ค์์ ํต์ฌ ์น์ ์ด๋ค:
## ๋ฐ์ดํฐ์
๋ฐ ํผํฉ ๊ฐ์ค์น
data_stages:
- data:
dataset:
dataset_folder:
- fineweb-edu
- stack-edu-python
- finemath-3plus
dataset_weights:
- 0.7
- 0.2
- 0.1
## ๋ชจ๋ธ ์ํคํ
์ฒ, Llama3.2 1B ์ค์
model:
model_config:
hidden_size: 2048
num_hidden_layers: 16
num_attention_heads: 32
num_key_value_heads: 8
intermediate_size: 8192
max_position_embeddings: 4096
rope_theta: 50000.0
tie_word_embeddings: true
## ํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ, ์ฝ์ฌ์ธ ์ค์ผ์ค์ ๊ฐ์ง AdamW
optimizer:
clip_grad: 1.0
learning_rate_scheduler:
learning_rate: 0.0005
lr_decay_starting_step: 2000
lr_decay_steps: 18000
lr_decay_style: cosine
lr_warmup_steps: 2000
lr_warmup_style: linear
min_decay_lr: 5.0e-05
optimizer_factory:
adam_beta1: 0.9
adam_beta2: 0.95
adam_eps: 1.0e-08
name: adamW
## ๋ณ๋ ฌ ์ฒ๋ฆฌ, 1๊ฐ ๋
ธ๋
parallelism:
dp: 8 # 8๊ฐ GPU์ ๊ฑธ์น ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ
tp: 1 # 1B ๊ท๋ชจ์์๋ ํ
์ ๋๋ ํ์ดํ๋ผ์ธ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ํ์ ์์
pp: 1
## ํ ํฌ๋์ด์
tokenizer:
tokenizer_max_length: 4096
tokenizer_name_or_path: HuggingFaceTB/SmolLM3-3B
## ๋ฐฐ์น ํฌ๊ธฐ, ์ํ์ค ๊ธธ์ด ๋ฐ 30B ํ ํฐ์ ๋ํ ์ด ํ์ต
tokens:
batch_accumulation_per_replica: 16
micro_batch_size: 3 # GBS (๊ธ๋ก๋ฒ ๋ฐฐ์น ํฌ๊ธฐ)=dp * batch_acc* MBS * sequence=1.5M tokens
sequence_length: 4096
train_steps: 20000 # GBS * 20000 = 30B
...(์๋ต)์ ๊ฑฐ ์คํ์ ์ํด, ์ฐ๋ฆฌ๋ ๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ์ผ์ ํ๊ฒ ์ ์งํ๋ฉด์ ํ ์คํธํ๋ ๋ด์ฉ์ ๋ฐ๋ผ ๋ค๋ฅธ ์น์ ๋ค์ ์์ ํ๋ค: ์ํคํ ์ฒ ์ ํ์ ์ํ model ์น์ , ์ตํฐ๋ง์ด์ ๋ฐ ํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ํ optimizer ์น์ , ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ํ๋ ์ด์ ์ ์ํ data_stages ์น์ .
โ๏ธํ ๋ฒ์ ํ๋๋ง ์์ ํ๊ธฐ
๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ์ผ์ ํ๊ฒ ์ ์งํ๋ฉด์ ์ ๊ฑฐ ์คํ๋น ํ๋์ ๋ณ์๋ง ๋ณ๊ฒฝํด๋ผ. ์ฌ๋ฌ ๊ฐ์ง๋ฅผ ๋ณ๊ฒฝํ๊ณ ์ฑ๋ฅ์ด ํฅ์๋๋ฉด, ๋ฌด์์ด ์์ธ์ธ์ง ์ ์ ์๋ค. ์์ ์ฌํญ๋ค์ ๊ฐ๋ณ์ ์ผ๋ก ํ ์คํธํ ๋ค์, ์ฑ๊ณต์ ์ธ ๊ฒ๋ค์ ๊ฒฐํฉํ๊ณ ์ฌํ๊ฐํ๋ค.
์ ๊ฑฐ ์คํ์ ์คํํ ๋, ์ผ๋ถ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ๋งค๊ฐ๋ณ์ ์๋ฅผ ํฌ๊ฒ ๋ฐ๊ฟ ์ ์๋ค. ์๋ฅผ ๋ค์ด, tied embedding ์์ untied embedding ์ผ๋ก ์ ํํ๋ฉด ์๋ฒ ๋ฉ ๋งค๊ฐ๋ณ์๊ฐ ๋ ๋ฐฐ๊ฐ ๋๋ ๋ฐ๋ฉด, MHA์์ GQA ๋๋ MQA๋ก ๊ฐ๋ฉด ์ดํ ์ ๋งค๊ฐ๋ณ์๊ฐ ์๋นํ ๊ฐ์ํ๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋งค๊ฐ๋ณ์ ์๋ฅผ ์ถ์ ํ๊ณ ๋๋๋ก ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ต ๋์ผํ๊ฒ ์ ์งํ๊ธฐ ์ํด ๋ค๋ฅธ ํ์ดํผํ๋ผ๋ฏธํฐ(์: ์๋ ํฌ๊ธฐ ๋๋ ๋ ์ด์ด ์)๋ฅผ ์กฐ์ ํด์ผ ํ๋ค. ๋ค์์ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฅธ ๊ตฌ์ฑ์ ๋ํ ๋งค๊ฐ๋ณ์ ์๋ฅผ ์ถ์ ํ๋ ๋ฐ ์ฌ์ฉํ๋ ๊ฐ๋จํ ํจ์์ด๋ค:
from transformers import LlamaConfig, LlamaForCausalLM
def count_parameters(
tie_embeddings=True,
num_key_value_heads=4,
num_attention_heads=32,
hidden_size=2048,
num_hidden_layers=16,
intermediate_size=8192,
vocab_size=128256,
sequence_length=4096,
):
config = LlamaConfig(
hidden_size=hidden_size,
num_hidden_layers=num_hidden_layers,
num_attention_heads=num_attention_heads,
num_key_value_heads=num_key_value_heads,
intermediate_size=intermediate_size,
vocab_size=vocab_size,
max_position_embeddings=sequence_length,
tie_word_embeddings=tie_embeddings,
)
model = LlamaForCausalLM(config)
return f"{sum(p.numel() for p in model.parameters())/1e9:.2f}B"์ฐ๋ฆฌ๋ ๋ํ Dense ํธ๋์คํฌ๋จธ์ ๊ฒฝ์ฐ LLM ๋งค๊ฐ๋ณ์ ๋ถํฌ๋ฅผ ์๊ฐํํ๋ ๋ํํ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ ์ํคํ ์ฒ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ฑฐ๋ ์ ๊ฑฐ ์คํ์ ์ํ ์ค์ ์ ํ ๋ ์ ์ฉํ ์ ์๋ค.

๋ฌด์์ด ์๋ํ๋์ง ์ดํดํ๊ธฐ: ํ๊ฐ
์ ๊ฑฐ ์คํ์ ์์ํ๊ณ ๋์, ๋ฌด์์ด ์๋ํ๋์ง ์๋์ง ์ด๋ป๊ฒ ์ ์ ์์๊น?
๋ชจ๋ธ์ ํ์ต์ํค๋ ์ฌ๋์ด๋ผ๋ฉด ๋๊ตฌ๋ Loss ๋ฅผ ๋ณด๋ ๊ฒ์ด ์ฒซ ๋ฒ์งธ ๋ณธ๋ฅ์ผ ์ ์๊ณ , ์ค์ ๋ก ๊ทธ๊ฒ์ด ์ค์ํ๋ค. ์ฌ๋ฌ๋ถ์ Loss ๊ฐ ๊ฑฐ์น ๊ธ๋ฑ์ด๋ ๋ถ์์ ์ฑ ์์ด ๋ถ๋๋ฝ๊ฒ ๊ฐ์ํ๋ ๊ฒ์ ๋ณด๊ณ ์ถ์ด ํ ๊ฒ์ด๋ค. ๋ง์ ์ํคํ ์ฒ ์ ํ์ ๋ํด, loss ๋ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ๊ณผ ์ ์๊ด๊ด๊ณ๊ฐ ์์ผ๋ฉฐ ์ถฉ๋ถํ ์ ์๋ค (Y. Chen et al., 2025). ๊ทธ๋ฌ๋ loss๋ง ๋ณด๋ ๊ฒ์ ํญ์ ์ ๋ขฐํ ์ ์์ง ์๋ค. ๋ฐ์ดํฐ ์ ๊ฑฐ ์คํ์ ์๋ฅผ ๋ค๋ฉด, ์ํคํผ๋์์์ ํ์ตํ๋ ๊ฒ์ด ์น ํ์ด์ง์์ ํ์ตํ๋ ๊ฒ๋ณด๋ค ๋ ๋ฎ์ loss๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง (๋ค์ ํ ํฐ์ ์์ธกํ๊ธฐ๊ฐ ๋ ์ฝ๊ธฐ ๋๋ฌธ์), ๊ทธ๊ฒ์ด ๋ ์ ๋ฅํ ๋ชจ๋ธ์ ์ป๋๋ค๋ ๊ฒ์ ์๋ฏธํ์ง๋ ์๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, ์คํ ๊ฐ์ ํ ํฌ๋์ด์ ๋ฅผ ๋ณ๊ฒฝํ๋ฉด, ํ ์คํธ๊ฐ ๋ค๋ฅด๊ฒ ๋ถํ ๋๊ธฐ ๋๋ฌธ์ loss ๋ฅผ ์ง์ ๋น๊ตํ ์ ์๋ค. ์ผ๋ถ ๋ณ๊ฒฝ ์ฌํญ์ ๋ํ ์ถ๋ก ๋ฐ ์ํ๊ณผ ๊ฐ์ ํน์ ๊ธฐ๋ฅ์ ํน๋ณํ ์ํฅ์ ๋ฏธ์น๊ณ ํ๊ท loss ์์๋ ๋ณด์ด์ง ์์ ์๋ ์๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ชจ๋ธ์ ์ฌ์ ํ์ต loss๊ฐ ์๋ ด๋ ํ์๋ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ๊ณ์ ๊ฐ์ ๋ ์ ์๋ค (Liu et al., 2022).
์ฐ๋ฆฌ๋ ์ ์ฒด ๊ทธ๋ฆผ์ ๋ณด๊ณ ์ด๋ฌํ ๋ฏธ๋ฌํ ํจ๊ณผ๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋ ์ธ๋ถํ๋ ํ๊ฐ๊ฐ ํ์ํ๋ฉฐ, ์์ฐ์ค๋ฌ์ด ์ ๊ทผ ๋ฐฉ์์ ์ง์, ์ดํด, ์ถ๋ก ๋ฐ ์ฐ๋ฆฌ์๊ฒ ์ค์ํ ๊ธฐํ ๋๋ฉ์ธ์ ํ ์คํธํ๋ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ์ ๊ฑฐ ์คํ์ ๊ฒฝ์ฐ, ์ข์ ์ด๊ธฐ ์ ํธ๋ฅผ ์ ๊ณตํ๋ ์์ ์ ์ง์คํ๊ณ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฒค์น๋งํฌ๋ ํผํ๋ ๊ฒ์ด ์ข๋ค. FineTasks ๋ฐ FineWeb2์์ ์ ๋ขฐํ ์ ์๋ ํ๊ฐ ์์ ์ ๋ค ๊ฐ์ง ํต์ฌ ์์น์ผ๋ก ์ ์๋๋ค:
- ๋จ์กฐ์ฑ(Monotonicity):ย ๋ฒค์น๋งํฌ ์ ์๋ ๋ชจ๋ธ์ด ๋ ์ค๋ ํ์ตํ ์๋ก ์ผ๊ด๋๊ฒ ํฅ์๋์ด์ผ ํ๋ค.
- ๋ฎ์ ๋ ธ์ด์ฆ:ย ๋์ผํ ์ค์ ์ด์ง๋ง ๋ค๋ฅธ ๋๋ค ์๋๋ก ๋ชจ๋ธ์ ํ์ต์ํฌ ๋, ๋ฒค์น๋งํฌ ์ ์๋ ํฌ๊ฒ ๋ณ๋ํ์ง ์์์ผ ํ๋ค.
- ๋๋ค ์ด์์ ์ฑ๋ฅ:ย ๋ง์ ๊ธฐ๋ฅ์ ํ์ต ํ๋ฐ์๋ง ๋ํ๋๋ฏ๋ก, ์ฅ๊ธฐ๊ฐ ๋์ ๋๋ค ์์ค์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์์ ์ ์ ๊ฑฐ ์คํ์ ์ ์ฉํ์ง ์๋ค. ์ฐ๋ฆฌ๊ฐ ๋์ค์ ์ค๋ช ํ๋ฏ์ด, ์ฌ๋ฌ ์ ํ ํ์์ MMLU์ ๊ฒฝ์ฐ๊ฐ ๊ทธ๋ ๋ค.
- ์์ ์ผ๊ด์ฑ(Ranking consistency):ย ํ ์ ๊ทผ ๋ฐฉ์์ด ์ด๊ธฐ ๋จ๊ณ์์ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ฉด, ์ด ์์๋ ํ์ต์ด ๊ณ์๋จ์ ๋ฐ๋ผ ์์ ์ ์ผ๋ก ์ ์ง๋์ด์ผ ํ๋ค.
์์ ์ ํ์ง์ ๋ํ ์์ ๊ณต์ํ (Task formulation, ๋ชจ๋ธ์๊ฒ ์ง๋ฌธํ๋ ๋ฐฉ์)์ ๋ฉํธ๋ฆญ ์ ํ (๋ต๋ณ ์ ์๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์)์๋ ์์กดํ๋ค.
์ธ ๊ฐ์ง ์ผ๋ฐ์ ์ธ ์์ ๊ณต์ํ๋ย ๊ฐ๊ด์ ํ์(Multiple Choice Format, MCF),ย ํด๋ก์ฆ ํ์(Cloze Formulation, CF), ๊ทธ๋ฆฌ๊ณ ์์ ํ์ ์์ฑ(Freeform Generation, FG)์ด๋ค. ๊ฐ๊ด์ ํ์์ ๋ชจ๋ธ์ด ํ๋กฌํํธ์ ๋ช ์์ ์ผ๋ก ์ ์๋๊ณ A/B/C/D๊ฐ ์ ๋์ฌ๋ก ๋ถ์ ์ฌ๋ฌ ์ ํ ์ฌํญ ์ค์์ ์ต์ ์ ์ ํํ๋๋ก ์๊ตฌํ๋ค (์๋ฅผ ๋ค์ด, MMLU์์ ์ํ๋๋ ๋ฐฉ์). ํด๋ก์ฆ ํ์์์๋, ํ๋กฌํํธ์์ ์ ๊ณตํ์ง ์๊ณ ์ด๋ค ์ ํ์ง๊ฐ ๋ ๊ฐ๋ฅ์ฑ์ด ๋์์ง ๋ณด๊ธฐ ์ํด ๋ค๋ฅธ ์ ํ์ง๋ค์ ๊ฐ๋ฅ์ฑ(likelihood)์ ๋น๊ตํ๋ค. FG์์๋, ์ฃผ์ด์ง ํ๋กฌํํธ์ ๋ํ ๊ทธ๋ฆฌ๋ ์์ฑ์ ์ ํ๋๋ฅผ ๋ณธ๋ค. FG๋ ๋ชจ๋ธ์ ๋ง์ ์ ์ฌ ์ง์์ ์๊ตฌํ๋ฉฐ, ์ ์ฒด ํ์ต ์ ์ ์งง์ ์ฌ์ ํ์ต ์ ๊ฑฐ ์คํ์์ ์ค์ ๋ก ์ ์ฉํ๊ธฐ์๋ ๋ณดํต ๋๋ฌด ์ด๋ ค์ด ์์ ์ด๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์์ ๊ท๋ชจ์ ์ ๊ฑฐ ์คํ์ ์คํํ ๋ ๊ฐ๊ด์ ํ์์ ์ง์คํด์ผ ํ๋ค (MCF ๋๋ CF).
๐์ฃผ์ ์ฌํญ
post-train ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๋ชจ๋ธ์ด ์ค์ ๋ก ์ ์ฉํ ์๋ต์ ์์ฑํ ์ ์๋์ง ํ๊ฐํ๊ธฐ ๋๋ฌธ์ FG๊ฐ ์ฃผ์ ๊ณต์ํ๊ฐ ๋๋ค. ์ฐ๋ฆฌ๋ post-training ์ฑํฐ์์ ์ด๋ฌํ ๋ชจ๋ธ์ ๋ํ ํ๊ฐ๋ฅผ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
๋ค์ํ ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ์ ํ์ต ์ด๊ธฐ์ MCF์ ์ด๋ ค์์ ๊ฒช์ผ๋ฉฐ, ๊ด๋ฒ์ํ ํ์ต ํ์์ผ ์ด ๊ธฐ์ ์ ๋ฐฐ์ฐ๋ฏ๋ก, CF๊ฐ ์ด๊ธฐ ์ ํธ์ ๋ ๋ซ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค (Du et al., 2025; Gu et al., 2025; J. Li et al., 2025). ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์์ ์ ๊ฑฐ ์คํ์๋ CF๋ฅผ ์ฌ์ฉํ๊ณ , MCF๋ ๋ชจ๋ธ์ด MCF์ ๋ํด ์ถฉ๋ถํ ๋์ ์ ํธ ๋ ๋ ธ์ด์ฆ ๋น์จ์ ์ป๊ธฐ ์ํ ์๊ณ๊ฐ์ ํต๊ณผํ ํ ๋ ๋์ ์ค๊ฐ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๋ฏ๋ก ์ฃผ ์คํ์ ํตํฉํ๋ค. ๋ํ, CF์ ๊ฐ์ ์ํ์ค ๊ฐ๋ฅ์ฑ ํ๊ฐ์์ ๋ชจ๋ธ์ ๋ต๋ณ์ ์ ์๋ฅผ ๋งค๊ธฐ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ย ์ ๋ต์ด ๋ฌธ์ ์๋ก ์ ๊ทํ๋ ๊ฐ์ฅ ๋์ ๋ก๊ทธ ํ๋ฅ ์ ๊ฐ์ง๋ ์ง๋ฌธ์ ๋น์จ์ผ๋ก ์ ํ๋๋ฅผ ๊ณ์ฐํ๋ค.(accuracy as the percentage of questions where the the correct answer has the highest log probability normalised by character count) ์ด ์ ๊ทํ๋ ๋ ์งง์ ๋ต๋ณ์ ๋ํ ํธํฅ์ ๋ฐฉ์งํ๋ค.
์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ ํ๊ฐ ์ค์ํธ์๋ FineWeb ์ ๊ฑฐ ์คํ์ ๋ฒค์น๋งํฌ๊ฐ ํฌํจ๋๋ฉฐ, ๋๋ฌด ๋ ธ์ด์ฆ๊ฐ ๋ง๋ค๊ณ ํ๋จํ SIQA๋ ์ ์ธํ๋ค. ์ฐ๋ฆฌ๋ ๊ธด ์ปจํ ์คํธ ์ ๊ฑฐ ์คํ์ ์ํด GSM8K ๋ฐ HumanEval๊ณผ ๊ฐ์ ์ํ ๋ฐ ์ฝ๋ ๋ฒค์น๋งํฌ์ ๊ธด ์ปจํ ์คํธ ๋ฒค์น๋งํฌ RULER๋ฅผ ์ถ๊ฐํ๋ค. ์ด๋ฌํ ์์ ๋ค์ ์งํฉ์ ์๋ ํ์ ํ์๋ ๋๋ก ๋ค์ํ ํ์์ ๊ฑธ์ณ ์ธ๊ณ ์ง์, ์ถ๋ก ๋ฐ ์์์ ํ ์คํธํ๋ค. ์ผ๋ถ ์ถ๊ฐ ๋ ธ์ด์ฆ๋ฅผ ๊ฐ์ํ๊ณ ํ๊ฐ ์๋๋ฅผ ๋์ด๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ ๋ฒค์น๋งํฌ์์ 1,000๊ฐ์ ์ง๋ฌธ๋ง ํ๊ฐํ๋ค (GSM8K, HumanEval ๋ฐ RULER ์ ์ธ, ์ด๋ 3B SmolLM3 ์ ๊ฑฐ ์คํ์๋ ์ ์ฒด๋ฅผ ์ฌ์ฉํ์ง๋ง ์๋์ 1B ์คํ์์๋ ์๋ตํ๋ค). ๋ํ ์์์ ์ค๋ช ํ ๋๋ก ๋ชจ๋ ๊ฐ๊ด์ ๋ฒค์น๋งํฌ์ ๋ํด ํด๋ก์ฆ ํ์(CF) ํ๊ฐ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ๋ค๊ตญ์ด ์ ๊ฑฐ ์คํ ๋ฐ ์ค์ ํ์ต์ ๊ฒฝ์ฐ, ๋ค๊ตญ์ด์ฑ์ ํ ์คํธํ๊ธฐ ์ํด ๋ ๋ง์ ๋ฒค์น๋งํฌ๋ฅผ ์ถ๊ฐํ๋ฉฐ, ์ด๋ ๋์ค์ ์์ธํ ์ค๋ช ํ๊ฒ ๋ค. ์ด๋ฌํ ํ๊ฐ๋ LightEval์ ์ฌ์ฉํ์ฌ ์คํ๋๋ฉฐ, ์๋ ํ๋ ๊ฐ ๋ฒค์น๋งํฌ์ ์ฃผ์ ํน์ง์ ์์ฝํ๋ค:
| ๋ฒค์น๋งํฌ | ๋๋ฉ์ธ | ์์ ์ ํ | ์ง๋ฌธ ์ | ํ ์คํธํ๋ ๋ด์ฉ |
|---|---|---|---|---|
| MMLU | ์ง์ | ๊ฐ๊ด์ | 14k | 57๊ฐ ์ฃผ์ ์ ๊ฑธ์น ๊ด๋ฒ์ํ ํ์ ์ง์ |
| ARC | ๊ณผํ ๋ฐ ์ถ๋ก | ๊ฐ๊ด์ | 7k | ์ด๋ฑํ๊ต ์์ค์ ๊ณผํ ์ถ๋ก |
| HellaSwag | ์์ ์ถ๋ก | ๊ฐ๊ด์ | 10k | ์ผ์ ์ํฉ์ ๋ํ ์์ ์ถ๋ก (์ด์ผ๊ธฐ ์์ฑ) |
| WinoGrande | ์์ ์ถ๋ก | ์ด์ง ์ ํ | 1.7k | ์ธ๊ณ ์ง์์ด ํ์ํ ๋๋ช ์ฌ ํด๊ฒฐ |
| CommonSenseQA | ์์ ์ถ๋ก | ๊ฐ๊ด์ | 1.1k | ์ผ์ ๊ฐ๋ ์ ๋ํ ์์ ์ถ๋ก |
| OpenBookQA | ๊ณผํ | ๊ฐ๊ด์ | 500 | ์ถ๋ก ์ ํฌํจํ ๊ธฐ์ด ๊ณผํ ์ฌ์ค |
| PIQA | ๋ฌผ๋ฆฌ์ ์์ | ์ด์ง ์ ํ | 1.8k | ์ผ์ ๋ฌผ์ฒด์ ๋ํ ๋ฌผ๋ฆฌ์ ์์ |
| GSM8K | ์ํ | ์์ ํ์ ์์ฑ | 1.3k | ์ด๋ฑํ๊ต ์ํ ๋จ์ด ๋ฌธ์ |
| HumanEval | ์ฝ๋ | ์์ ํ์ ์์ฑ | 164 | ๋ ์คํธ๋ง(docstring)์ผ๋ก๋ถํฐ ํ์ด์ฌ ํจ์ ํฉ์ฑ |
์ด๋ฌํ ํ๊ฐ๋ค์ด ์ค์ ๋ก ๋ฌด์์ ํ ์คํธํ๋์ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๊ฐ๊ฐ์ ์ป๊ธฐ ์ํด ๊ฐ๊ฐ์ ๋ช ๊ฐ์ง ์์ ์ง๋ฌธ์ ์ดํด๋ณด์:

์์ ์์๋ค์ ํ์ด๋ณด๋ฉด์ ๊ฐ ๋ฒค์น๋งํฌ์ ์ง๋ฌธ ์ ํ์ ๋ณด์. MMLU์ ARC๊ฐ ๊ฐ๊ด์์ผ๋ก ์ฌ์ค์ ์ง์์ ํ ์คํธํ๊ณ , GSM8K๊ฐ ์ํ ๋ฌธ์ ์ ๋ํ ์์น์ ๋ต๋ณ ๊ณ์ฐ์ ์๊ตฌํ๋ฉฐ, HumanEval์ด ์์ ํ ํ์ด์ฌ ์ฝ๋ ์์ฑ์ ์๊ตฌํ๋ค๋ ์ ์ ์ฃผ๋ชฉํด๋ผ. ์ด๋ฌํ ๋ค์์ฑ์ ์ ๊ฑฐ ์คํ ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๋ฅ๋ ฅ์ ๋ค์ํ ์ธก๋ฉด์ ํ ์คํธํ๋ ๊ฒ์ ๋ณด์ฅํ๋ค.
์ ๊ฑฐ ์คํ์ ์ํ ๋ฐ์ดํฐ ํผํฉ์ ๋ฌด์์ธ๊ฐ?
์ํคํ ์ฒ ์ ๊ฑฐ ์คํ์ ์ํด, ์ฐ๋ฆฌ๋ ๊ด๋ฒ์ํ ์์ ์์ ์ด๊ธฐ ์ ํธ๋ฅผ ์ ๊ณตํ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๊ณ ์ ๋ ํผํฉ์ผ๋ก ํ์ตํด๋ณธ๋ค. ์ฐ๋ฆฌ๋ ์์ด(FineWeb-Edu), ์ํ(FineMath), ๊ทธ๋ฆฌ๊ณ ์ฝ๋(Stack-Edu-Python)๋ฅผ ์ฌ์ฉํ๋ค. ์ํคํ ์ฒ ๋ฐ๊ฒฌ์ ๋ค๊ตญ์ด ๋ฐ์ดํฐ๋ฅผ ํฌํจํ์ฌ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ฐ ๋๋ฉ์ธ์๋ ์ ์ถ์ ๋์ด์ผ ํ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ ํผํฉ์ ๊ฐ๋จํ๊ฒ ์ ์งํ ์ ์๋ค.
๋ฐ์ดํฐ ์ ๊ฑฐ ์คํ์ ์ํด, ์ฐ๋ฆฌ๋ ๋ฐ๋ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค: ์ํคํ ์ฒ๋ฅผ ๊ณ ์ ํ๊ณ ๋ฐ์ดํฐ ํผํฉ์ ์ฒด๊ณ์ ์ผ๋ก ๋ณ๊ฒฝํ์ฌ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ์ดํดํ๋ค.
๊ฒฌ๊ณ ํ ์ ๊ฑฐ ์คํ ์ค์ ์ ์ง์ ํ ๊ฐ์น๋ ๋จ์ํ ์ข์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋์ด์ ๋ค. ์ฃผ ํ์ต ์คํ ์ค์ ํ์ฐ์ ์ผ๋ก ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๋ (๊ทธ๋ฆฌ๊ณ ์๋ฌด๋ฆฌ ์ค๋นํด๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ์ด๋ค), ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ๊ฐ ๋ด๋ฆฐ ๋ชจ๋ ๊ฒฐ์ ์ ๋ํด ํ์ ํ๊ณ , ์ ๋๋ก ํ ์คํธ๋์ง ์์๊ณ ๋ฌธ์ ๋ฅผ ์ผ์ผํฌ ์ ์๋ ๊ตฌ์ฑ ์์๋ฅผ ๋น ๋ฅด๊ฒ ์๋ณํ๊ณ ์ ํ๋ค. ์ด๋ฌํ ์ค๋น๋ ๋๋ฒ๊น ์๊ฐ์ ์ ์ฝํ๊ณ ๋ฏธ๋์ ์ ์ ๊ฑด๊ฐ์ ๋ณด์ฅํ๋ค.
์ ๊ฑฐ ์คํ ๋น์ฉ ์ถ์
์ ๊ฑฐ ์คํ์ ๋๋์ง๋ง GPU ์๊ฐ์ ์๊ตฌํ๋ฉฐ, ์ด๋ฌํ ์คํ์ ๋น์ฉ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค. ์๋ ํ๋ SmolLM3 ์ฌ์ ํ์ต์ ๋ํ ์ฐ๋ฆฌ์ ์ ์ฒด ์ปดํจํ ๋ถ์์ ๋ณด์ฌ์ค๋ค: ์ฃผ ์คํ (๊ฐ๋ ๋ฐ์ํ๋ ๋ค์ดํ์์ ๊ณ ๋ ค), ํ์ต ์ ํ์ ์ ๊ฑฐ ์คํ, ๊ทธ๋ฆฌ๊ณ ์ฌ์์์ ๊ฐ์ ํ๊ณ ์ผ๋ถ ๋๋ฒ๊น ์ ์ด๋ํ ์์์น ๋ชปํ ํ์ฅ ๋ฌธ์ ์ ์๋น๋ ์ปดํจํ ์์ (์ด๋ ๋์ค์ ์์ธํ ์ค๋ช ํ ๊ฒ์ด๋ค).
| ๋จ๊ณ | GPU ์ | ์ผ ์ | GPU-์๊ฐ |
|---|---|---|---|
| ์ฃผ ์ฌ์ ํ์ต ์คํ | 384 | 30 | 276,480 |
| ์ ๊ฑฐ ์คํ (์ฌ์ ํ์ต) | 192 | 15 | 69,120 |
| ์ ๊ฑฐ ์คํ (์ค๊ฐ ํ์ต) | 192 | 10 | 46,080 |
| ํ์ต ์ฌ์ค์ ๋ฐ ๋๋ฒ๊น | 384/192 | 3/4 | 46,080 |
| ์ด ๋น์ฉ | - | - | 437,760 |
์ด ์์น๋ ์ค์ํ ์ฌ์ค์ ๋๋ฌ๋ธ๋ค:ย ์ ๊ฑฐ ์คํ ๋ฐ ๋๋ฒ๊น ์ ์ด 161,280 GPU ์๊ฐ์ ์๋นํ์ผ๋ฉฐ, ์ด๋ ์ฐ๋ฆฌ์ ์ฃผ ํ์ต ์คํ ๋น์ฉ (276,480 GPU ์๊ฐ)์ ์ ๋ฐ ์ด์์ด๋ค.ย ์ฐ๋ฆฌ๋ SmolLM3 ๊ฐ๋ฐ ์ ๋ฐ์ ๊ฑธ์ณ ์ด 100๊ฐ ์ด์์ ์ ๊ฑฐ ์คํ์ ์คํํ๋ค: ์ฌ์ ํ์ต ์ ๊ฑฐ ์คํ์ 20์ผ, ์ค๊ฐ ํ์ต ์ ๊ฑฐ ์คํ์ 10์ผ, ๊ทธ๋ฆฌ๊ณ ์ฌ์์์ ๊ฐ์ ํ๊ณ ์ผ๋ถ ๋๋ฒ๊น ์ ์ด๋ํ ์์์น ๋ชปํ ํ์ต ๋ฌธ์ ์์ ํ๋ณตํ๋ ๋ฐ 7์ผ์ ๋ณด๋๋ค (์ด๋ ๋์ค์ ์์ธํ ์ค๋ช ํ ๊ฒ์ด๋ค).
์ด๊ฒ์ ์ ์ ๊ฑฐ ์คํ ๋น์ฉ์ด ์ฌ๋ฌ๋ถ์ ์ปดํจํ ์์ฐ์ ํฌํจ๋์ด์ผ ํ๋์ง๋ฅผ ๊ฐ์กฐํ๋ค: ํ์ต ๋น์ฉ, ์ ๊ฑฐ ์คํ ๋น์ฉ, ๊ทธ๋ฆฌ๊ณ ์์์น ๋ชปํ ์ํฉ์ ๋ํ ๋ฒํผ๋ฅผ ๊ณํํด์ผ ํ๋ค. SOTA ์ฑ๋ฅ์ ๋ชฉํ๋ก ํ๊ฑฐ๋, ์๋ก์ด ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ๊ตฌํํ๊ฑฐ๋, ์ด๋ฏธ ๊ฒ์ฆ๋ ๋ ์ํผ๊ฐ ์๋ ๊ฒฝ์ฐ, ์ ๊ฑฐ ์คํ์ ์ฌ์ํ ์คํ์ด ์๋๋ผ ์๋นํ ๋น์ฉ ์ผํฐ๊ฐ ๋๋ค.
๋ค์ ์น์ ์ผ๋ก ๋์ด๊ฐ๊ธฐ ์ ์, ์คํ์ ์คํํ๋ ๋ชจ๋ ์ฌ๋์ด ๋ฐ๋ผ์ผ ํ ๋ช ๊ฐ์ง ๊ธฐ๋ณธ ๊ท์น์ ํ๋ฆฝํ๊ฒ ๋ค.
์ฐธ์ฌ ๊ท์น
์์ฝ:ย ํธ์ง์ฆ์ ๊ฐ์ ธ๋ผ(Be paranoid).
ํ๊ฐ ์ค์ํธ(Evaluation suite)๋ฅผ ๊ฒ์ฆํ๋ค.ย ์ด๋ค ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ ์, ์ฌ๋ฌ๋ถ์ด ๋น๊ตํ ๋ชจ๋ธ๋ค์ ๊ณต๊ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ์ฌ๋ฌ๋ถ์ ํ๊ฐ ์ค์ํธ๊ฐ ์ฌํํ ์ ์๋์ง ํ์ธํ๋ค. ๋ฒค์น๋งํฌ๊ฐ ์์ฑ์ ์ธ ์ฑ๊ฒฉ(์: GSM8k)์ ๊ฐ์ง๋ค๋ฉด, ๋์ฑ ํธ์ง์ฆ์ ์ผ๋ก ๋ช ๊ฐ์ง ์ํ์ ์๋์ผ๋ก ๊ฒ์ฌํ์ฌ ํ๋กฌํํธ๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ํ์ํ๋์๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ์ฌํ ๊ณผ์ ์ด ์ ํํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋์ง ํ์ธํ๋ค. ํ๊ฐ๋ ๋ชจ๋ ๋จ์ผ ๊ฒฐ์ ์ ์๋ดํ ๊ฒ์ด๋ฏ๋ก, ์ด ๋จ๊ณ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ํํ๋ ๊ฒ์ด ํ๋ก์ ํธ ์ฑ๊ณต์ ์ค์ํ๋ค!
๋ชจ๋ ๋ณ๊ฒฝ ์ฌํญ์ ํ ์คํธํ๋ค. ์๋ฌด๋ฆฌ ์๋๋ผ๋ ์๊ด์๋ค.ย ๊ฒ๋ณด๊ธฐ์๋ ๋ฌดํดํด ๋ณด์ด๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ ๊ทธ๋ ์ด๋๋ โ๋ ์ค๋ง ๋ณ๊ฒฝํโ ์ปค๋ฐ์ ์ํฅ์ ๊ณผ์ํ๊ฐํ์ง ์๋๋ค. ์ด๋ฌํ ์์ ๋ณ๊ฒฝ ์ฌํญ๋ค์ ์ฌ๋ฌ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ค์ผ์ํฌ ๋ฏธ๋ฌํ ๋ฒ๊ทธ๋ ์ฑ๋ฅ ๋ณํ๋ฅผ ์ ๋ฐํ ์ ์๋ค. ํ๊ท๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ๋ฌ๋ถ์๊ฒ ์ค์ํ ์ฌ๋ก์ ๋ํ ๊ฐ๋ ฅํ ํ ์คํธ ์ค์ํธ๋ฅผ ๊ฐ์ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ํ์ํ๋ค.
(์ด๋ค ๊ฒฝ์ฐ์๋ ๋ฒ๊ทธ๊ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ต์ ๋ฒ์ ์ผ๋ก ์ ๊ทธ๋ ์ด๋ํจ์ผ๋ก์จ ํด๊ฒฐ๋ ์ ์๋ค. ์ด์ ๋ํ ์๋ฆ๋ค์ด ์์์ ์ผ๋ถ ํ์ ๋๋ฒ๊น ์ Elana Simon์ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ https://elanapearl.github.io/blog/2025/the-bug-that-taught-me-pytorch/?t=1 ์ ์ฐธ์กฐํด๋ผ.)
ํ ๋ฒ์ ํ๋์ฉ ๋ณ๊ฒฝํ๋ค.ย ์คํ ๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ๋์ผํ๊ฒ ์ ์งํ๋ค. ์ผ๋ถ ๋ณ๊ฒฝ ์ฌํญ์ ์์์น ๋ชปํ ๋ฐฉ์์ผ๋ก ์๋ก ์ํธ ์์ฉํ ์ ์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋จผ์ ๊ฐ ๋ณ๊ฒฝ ์ฌํญ์ ๊ฐ๋ณ ๊ธฐ์ฌ๋๋ฅผ ํ๊ฐํ ๋ค์, ์ ์ฒด ์ํฅ์ ๋ณด๊ธฐ ์ํด ๊ทธ๊ฒ๋ค์ ๊ฒฐํฉํด ๋ณด๋ ค ํ๋ค.
์ถฉ๋ถํ ํ ํฐ์ผ๋ก ํ์ตํ๊ณ ์ถฉ๋ถํ ํ๊ฐ๋ฅผ ์ฌ์ฉํ๋ค.ย ์์์ ์ธ๊ธํ๋ฏ์ด, ์ฐ๋ฆฌ๋ ํ๊ฐ ์ค์ํธ์์ ์ข์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ํ๋ณดํ๊ณ ์ ๋ขฐํ ์ ์๋ ์ ํธ๋ฅผ ์ป์ ๋งํผ ์ถฉ๋ถํ ์ค๋ ํ์ตํด์ผ ํ๋ค. ์ฌ๊ธฐ์ ์ง๋ฆ๊ธธ์ ํํ๋ ๊ฒ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๊ฒฐ๊ณผ์ ๋์ ๊ฒฐ์ ์ผ๋ก ์ด์ด์ง ๊ฒ์ด๋ค.
์ด๋ฌํ ๊ท์น๋ค์ ๋ฐ๋ฅด๋ ๊ฒ์ด ์ง๋์น๊ฒ ์กฐ์ฌ์ค๋ฝ๊ฒ ๋๊ปด์ง ์ ์์ง๋ง, ๋์์ ๋ฉฐ์น ์ ์ ์ผ์ด๋ ๋ฌด๊ดํ ์ข ์์ฑ ์ ๋ฐ์ดํธ๋ก ์ธํด ๋ฐ์ํ ๊ฒ์ผ๋ก ๋ฐํ์ง๋ ๋ถ๊ฐ์ฌ์ํ ์ฑ๋ฅ ์ ํ๋ฅผ ๋๋ฒ๊น ํ๋ ๋ฐ ์๊ฐ์ ๋ณด๋ด๋ ๊ฒ์ด๋ค. ํฉ๊ธ ์์น: ์ผ๋จ ์ข์ ์ค์ ์ ๊ฐ์ถ์๋ค๋ฉด, ํ ์คํธ๋์ง ์์ ์ฑ๋ก ๋์ด๊ฐ์๋ ์ ๋๋ ๋ณ๊ฒฝ ์ฌํญ์ ์๋ค!
Designing the model architecture
์ด์ ์คํ ํ๋ ์์ํฌ๊ฐ ๋ง๋ จ๋์์ผ๋ฏ๋ก, ๋ชจ๋ธ์ ์ ์ํ ์ค์ํ ๊ฒฐ์ ๋ค์ ๋ด๋ฆด ์๊ฐ์ด๋ค. ๋ชจ๋ธ ํฌ๊ธฐ๋ถํฐ ์ดํ ์ ๋ฉ์ปค๋์ฆ, ํ ํฌ๋์ด์ ์ ํ์ ์ด๋ฅด๊ธฐ๊น์ง ์ฐ๋ฆฌ๊ฐ ๋ด๋ฆฌ๋ ๋ชจ๋ ์ ํ์ ๋ชจ๋ธ ํ์ต ๋ฐ ์ฌ์ฉ์ ์ํฅ์ ๋ฏธ์น ์ ์ฝ๊ณผ ๊ธฐํ๋ฅผ ๋ง๋ค์ด๋ธ๋ค.
ํ์ต ๋์นจ๋ฐ์ ๊ธฐ์ตํด๋ผ: ๊ธฐ์ ์ ์ ํ์ ํ๊ธฐ ์ ์,ย ์์ย ๋ฌด์์ ๋ํ ๋ช ํ์ฑ์ด ํ์ํ๋ค. ์ ์ด ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ๊ทธ๊ฒ์ ์ด๋ป๊ฒ ๋ณด์ฌ์ผ ํ๋๊ฐ?
์ด๊ฒ์ ์๋ช ํ๊ฒ ๋ค๋ฆฌ๊ฒ ์ง๋ง, ์ด์ ์ ๋ ผ์ํ๋ ํ์ต ๋์นจ๋ฐ์์ ์ค๋ช ํ๋ฏ์ด, ์ฐ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ์คํ์ ๋ฌดํํ ๊ณต๊ฐ์์ ๊ธธ์ ์์ง ์์ผ๋ ค๋ฉด ์ฌ๊ธฐ์ ์ ์คํ๊ฒ ๋ํด์ผ ์ข์ ๊ฒฐ์ ์ ํ์ฑํ ์ ์๋ค. ์ฐ๋ฆฌ๋ ์์ด์์ SOTA ๋ชจ๋ธ์ ๋ชฉํ๋ก ํ๋๊ฐ? ๊ธด ์ปจํ ์คํธ๊ฐ ์ฐ์ ์์์ธ๊ฐ? ์๋๋ฉด ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ๊ฒ์ฆํ๋ ค ํ๋๊ฐ? ํ์ต ๋ฃจํ๋ ์ด ๋ชจ๋ ๊ฒฝ์ฐ์ ์ ์ฌํ๊ฒ ๋ณด์ผ ์ ์์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์คํํ๋ ์คํ๊ณผ ์ฐ๋ฆฌ๊ฐ ์์ฉํ๋ ํธ๋ ์ด๋์คํ๋ ๋ค๋ฅผ ๊ฒ์ด๋ค. ์ด ์ง๋ฌธ์ ์ผ์ฐ ๋ตํ๋ ๊ฒ์ ๋ฐ์ดํฐ ์์ ๊ณผ ์ํคํ ์ฒ ์์ ์ฌ์ด์ ์ฐ๋ฆฌ์ ์๊ฐ์ ์ด๋ป๊ฒ ๊ท ํ ์๊ฒ ๋ฐฐ๋ถํ ์ง, ๊ทธ๋ฆฌ๊ณ ์คํ์ ์์ํ๊ธฐ ์ ์ ๊ฐ๊ฐ์์ ์ผ๋ง๋ ํ์ ํ ์ง ๊ฒฐ์ ํ๋ ๋ฐ ๋์์ด ๋๋ค.
๋ฐ๋ผ์, ๋ชจ๋ฒ์ ๋ณด์ฌ SmolLM3์ ์ค๊ณ๋ฅผ ์๋ดํ ๋ชฉํ๋ค์ ์ดํด๋ณธ๋ค. ์ฐ๋ฆฌ๋ ๊ฒฝ์๋ ฅ ์๋ ๋ค๊ตญ์ด ์ฑ๋ฅ, ๊ฒฌ๊ณ ํ ์ํ ๋ฐ ์ฝ๋ฉ ๋ฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ ฅํ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ๋ฅผ ๊ฐ์ถ ์จ๋๋ฐ์ด์ค ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ์ํ๋ค. ์ด์ ์ ์ธ๊ธํ๋ฏ์ด, ์ด๊ฒ์ ์ฐ๋ฆฌ๋ฅผย 3B ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง Dense ๋ชจ๋ธ๋ก ์ด๋์๋ค: ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ์ํด ์ถฉ๋ถํ ํฌ์ง๋ง, ํด๋ํฐ์ ํธ์ํ๊ฒ ๋ง์ ๋งํผ ์ถฉ๋ถํ ์๋ค. ์ฐ๋ฆฌ๋ ์ฃ์ง ๋๋ฐ์ด์ค์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๊ณผ ์ฐ๋ฆฌ์ ํ๋ก์ ํธ ํ์๋ผ์ธ(์ฝ 3๊ฐ์)์ ๊ณ ๋ คํ์ฌ MoE ๋๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ ๋์ ๋ฐ์งํ ํธ๋์คํฌ๋จธ๋ฅผ ์ ํํ๋ค.
์ฐ๋ฆฌ๋ ๋ ์์ ๊ท๋ชจ(1.7B ๋งค๊ฐ๋ณ์)์ ์์ด์ฉ SmolLM2์์ ์๋ํ๋ ๋ ์ํผ๋ฅผ ๊ฐ์ง๊ณ ์์์ง๋ง, ๊ท๋ชจ๋ฅผ ํ์ฅํ๋ ๊ฒ์ ๋ชจ๋ ๊ฒ์ ์ฌ๊ฒ์ฆํ๊ณ ๋ค๊ตญ์ด์ฑ ๋ฐ ํ์ฅ๋ ์ปจํ ์คํธ ๊ธธ์ด์ ๊ฐ์ ์๋ก์ด ๋์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๋ ์ ์ ์๋ ๋ชฉํ๋ฅผ ๊ฐ๋ ๊ฒ์ด ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๋์ง์ ๋ํ ๋ช ํํ ์์์ด๋ค. ์๋ฅผ ๋ค์ด, SmolLM2์์๋ ์ฌ์ ํ์ต์ด ๋๋ ๋ฌด๋ ต ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ํ์ฅํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์์ผ๋ฏ๋ก, SmolLM3์์๋ ์ฒ์๋ถํฐ NoPE ๋ฐ ๋ฌธ์ ๋ด ๋ง์คํน(intra-document masking)๊ณผ ๊ฐ์ ์ํคํ ์ฒ ์ ํ์ ํ์ฌ (๋์ค์ ์ฐธ์กฐ) ๊ทธ๊ฒ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ป์ ๊ฐ๋ฅ์ฑ์ ๊ทน๋ํํ๊ณ , ๊ทธ๊ฒ์ ํจ๊ณผ๊ฐ ์์๋ค.
(SmolLM2๋ ์ฐ๋ฆฌ์ ์ด์ ์ธ๋ ์ํ ์ธ์ด ๋ชจ๋ธ์ด์์ผ๋ฉฐ, ์จ๋๋ฐ์ด์ค ๋ฐฐํฌ๋ฅผ ์ํด ์ค๊ณ๋ 1์ต 3500๋ง, 3์ต 6์ฒ๋ง, ๊ทธ๋ฆฌ๊ณ 17์ต ๋งค๊ฐ๋ณ์์ ์ธ ๊ฐ์ง ๋ณํ์ด ์์๋ค. ๊ทธ๊ฒ๋ค์ 8k ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๊ฐ์ง ์์ด ์ ์ฉ์ด์๋ค.)
์ฐ๋ฆฌ์ ๋ชฉํ๊ฐ ๋ช ํํด์ง๋ฉด, ์ฐ๋ฆฌ๋ ๊ทธ๊ฒ๋ค์ ์คํํ ๊ธฐ์ ์ ๊ฒฐ์ ๋ค์ ๋ด๋ฆฌ๊ธฐ ์์ํ ์ ์๋ค. ์ด ์ฑํฐ์์๋ ์ํคํ ์ฒ, ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ฐ์ ์ด๋ฌํ ํต์ฌ ๊ฒฐ์ ๋ค์ ๋ํ ์ฐ๋ฆฌ์ ์ฒด๊ณ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ดํด๋ณผ ๊ฒ์ด๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์ย ์ ๋ต์ ๊ณํ ๋จ๊ณ๋ก ์๊ฐํ๋ค. ์ด๋ฌํ ๊ธฐ๋ณธ ์ฌํญ์ ์ฌ๋ฐ๋ฅด๊ฒ ํ์ ํ๋ฉด ์ค์ ํ์ต ๋ง๋ผํค ๋์ ๋น์ฉ์ด ๋ง์ด ๋๋ ์ค์๋ฅผ ํผํ ์ ์๋ค.
์ํคํ ์ฒ ์ ํ
Qwen3, Gemma3, ๋๋ DeepSeek v3์ ๊ฐ์ ์ต๊ทผ ๋ชจ๋ธ๋ค์ ๋ณด๋ฉด, ๊ทธ๋ค์ ์ฐจ์ด์ ์๋ ๋ถ๊ตฌํ๊ณ , ๊ทธ๋ค ๋ชจ๋๊ฐ 2017๋ ์ ๋์ ๋ ๋์ผํ ๊ธฐ๋ฐ์ธ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ๊ณต์ ํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค (Vaswani et al., 2023). ์๋ ์ ๊ฑธ์ณ ๋ฐ๋ ๊ฒ์ ๊ทผ๋ณธ์ ์ธ ๊ตฌ์กฐ๊ฐ ์๋๋ผ, ๊ทธ ํต์ฌ ๊ตฌ์ฑ ์์์ ๋ํ ๊ฐ์ ์ฌํญ์ด๋ค. ๋ฐ์งํ ๋ชจ๋ธ, ์ ๋ฌธ๊ฐ ํผํฉ(Mixture of Experts), ๋๋ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ๋ฅผ ๊ตฌ์ถํ๋ , ์ฌ๋ฌ๋ถ์ ์ด๋ฌํ ๋์ผํ ๋น๋ฉ ๋ธ๋ก๋ค์ ๊ฐ์ง๊ณ ์์ ํ๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ๊ฐ์ ์ฌํญ๋ค์ ๋ ๋์ ์ฑ๋ฅ์ ์ถ๊ตฌํ๊ณ ํน์ ๋์ ๊ณผ์ ๋ค์ ํด๊ฒฐํ๋ ค๋ ํ๋ค๋ก๋ถํฐ ๋ํ๋ฌ๋ค: ์ถ๋ก ์ค ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ, ๋๊ท๋ชจ์์์ ํ์ต ๋ถ์์ ์ฑ, ๋๋ ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ํ์์ฑ์ด ๋ฐ๋ก ๊ทธ๊ฒ๋ค์ด๋ค. Multi-Head Attention (MHA)์์ Grouped Query Attention (GQA) (Ainslie et al., 2023)๊ณผ ๊ฐ์ ๋ ์ปดํจํ ํจ์จ์ ์ธ ์ดํ ์ ๋ณํ์ผ๋ก์ ์ ํ๊ณผ ๊ฐ์ ์ผ๋ถ ์์ ์ฌํญ์ ์ด์ ๋๋ฆฌ ์ฑํ๋์๋ค. ๋ค๋ฅธ ๊ฒ๋ค, ์๋ฅผ ๋ค์ด ๋ค๋ฅธ Positional ์ธ์ฝ๋ฉ ๋ฐฉ์๋ค์ ์ฌ์ ํ ๋ ผ์ ์ค์ด๋ค. ๊ฒฐ๊ตญ, ์ค๋๋ ์ ์คํ๋ค์ ๋ด์ผ์ ๊ธฐ์ค์ ์ผ๋ก ๊ตฌ์ฒดํ๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ค๋๋ ํ๋ LLM์ ์ค์ ๋ก ๋ฌด์์ ์ฌ์ฉํ๋๊ฐ? ์ ๋์ ์ธ ๋ชจ๋ธ๋ค์ด ์๋ ดํ ๋ชจ์ต์ ์ดํด๋ณด์. ๋ถํํ๋, ๋ชจ๋ ๋ชจ๋ธ์ด ๊ทธ๋ค์ ํ์ต ์ธ๋ถ ์ ๋ณด๋ฅผ ๊ณต๊ฐํ๋ ๊ฒ์ ์๋์ง๋ง, DeepSeek, OLMo, Kimi, ๊ทธ๋ฆฌ๊ณ SmolLM๊ณผ ๊ฐ์ ํจ๋ฐ๋ฆฌ๋ก๋ถํฐ ํ์ฌ์ ํ๊ฒฝ์ ์ถฉ๋ถํ ํฌ๋ช ํ๊ฒ ์์๋ณผ ์ ์๋ค:
| ๋ชจ๋ธ | ์ํคํ ์ฒ | ๋งค๊ฐ๋ณ์ | ํ์ต ํ ํฐ | ์ดํ ์ | ์ปจํ ์คํธ ๊ธธ์ด (์ต์ข ) | ์์น ์ธ์ฝ๋ฉ | ์ ๋ฐ๋ | ์ด๊ธฐํ (std) | ์ตํฐ๋ง์ด์ | ์ต๋ LR | LR ์ค์ผ์ค | ์์ ์คํ | ๋ฐฐ์น ํฌ๊ธฐ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DeepSeek LLM 7B | Dense | 7B | 2T | GQA | 4K | RoPE | BF16 | 0.006 | AdamW | 4.2ร10โ44.2ร10โ4 | Multi-Step | 2K | 9.4M |
| DeepSeek LLM 67B | Dense | 67B | 2T | GQA | 4K | RoPE | BF16 | 0.006 | AdamW | 3.2ร10โ43.2ร10โ4 | Multi-Step | 2K | 18.9M |
| DeepSeek V2 | MoE | 236B (21B active) | 8.1T | MLA | 128K | Partial RoPE | - | 0.006 | AdamW | 2.4ร10โ42.4ร10โ4 | Multi-Step | 2K | 9.4Mโ37.7M (warmup 225B) |
| DeepSeek V3 | MoE | 671B (37B active) | 14.8T | MLA | 129K | Partial RoPE | FP8 | 0.006 | AdamW | 2.2ร10โ42.2ร10โ4 | Multi-Step + Cosine | 2K | 12.6Mโ62.9M (warmup 469B) |
| MiniMax-01 | MoE + ํ์ด๋ธ๋ฆฌ๋ | 456B (45.9 active) | 11.4T | Linear attention + GQA | 4M | Partial RoPE | - | Xavier init with deepnorm scaling | AdamW | 2ร10โ42ร10โ4 | Multi-Step | 500 | 16Mโ32Mโ64Mโ128M |
| Kimi K2 | MoE | 1T (32B active) | 15.5T | MLA | 128K | Partial RoPE | BF16 | likely 0.006 | MuonClip | 2ร10โ42ร10โ4 | WSD | 500 | 67M |
| OLMo 2 7B | Dense | 7B | 5T | MHA | 4K | RoPE | BF16 | 0.02 | AdamW | 3ร10โ43ร10โ4 | Cosine | 2K | 4.2M |
| SmolLM3 | Dense | 3B | 11T | GQA | 128K | NoPE | BF16 | 0.02 | AdamW | 2ร10โ42ร10โ4 | WSD | 2K | 2.3M |
์์ง MLA, NoPE ๋๋ WSD์ ๊ฐ์ ์ฉ์ด๋ฅผ ์ดํดํ์ง ๋ชปํด๋ ๊ฑฑ์ ํ์ง ์์๋ ์ข๋ค. ์ฐ๋ฆฌ๋ ์ด ์น์ ์์ ์ถํ ๊ฐ๊ฐ์ ์ค๋ช ํ ๊ฒ์ด๋ค. ์ง๊ธ์ ๋ค์์ฑ์ด ์ด๋์ ๋ํ๋๋์ง์ ๋ํด ์ฃผ๋ชฉํด๋ผ: ๋ค๋ฅธ ์ดํ ์ ๋ฉ์ปค๋์ฆ (MHA, GQA, MLA), ์์น ์ธ์ฝ๋ฉ (RoPE, NoPE, partial RoPE), ๊ทธ๋ฆฌ๊ณ ํ์ต๋ฅ ์ค์ผ์ค (Cosine, Multi-Step, WSD)์ด๋ค.
์ด ๊ธด ์ํคํ ์ฒ ์ ํ ๋ชฉ๋ก์ ๋ณด๋ฉด ์ด๋์๋ถํฐ ์์ํด์ผ ํ ์ง ํ์ ํ๊ธฐ๊ฐ ๋ค์ ๋ฒ ์ฐจ๋ค. ๋๋ถ๋ถ์ ์ด๋ฌํ ์ํฉ์์์ ๊ฐ์ด, ์ฐ๋ฆฌ๋ ํ ๋จ๊ณ์ฉ ์งํํ๋ฉฐ ํ์ํ ๋ชจ๋ ๋ ธํ์ฐ๋ฅผ ์ ์ง์ ์ผ๋ก ๊ตฌ์ถํ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ๋จผ์ ๊ฐ์ฅ ๊ฐ๋จํ ๊ธฐ๋ณธ ์ํคํ ์ฒ(๋ฐ์งํ ๋ชจ๋ธ)์ ์ด์ ์ ๋ง์ถ๊ณ ๊ฐ ์ํคํ ์ฒ ์ธก๋ฉด์ ์์ธํ ์กฐ์ฌํ ๊ฒ์ด๋ค. ๋์ค์, ์ฐ๋ฆฌ๋ MoE ๋ฐ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๊น์ด ๋ฐ์ด๋ค์ด ๊ทธ๊ฒ๋ค์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์ ํ์ธ ๋๋ฅผ ๋ ผ์ํ ๊ฒ์ด๋ค. ๋ง์ง๋ง์ผ๋ก ์ฐ๋ฆฌ๋ ์ข ์ข ๊ฐ๊ณผ๋๊ณ ์ ํ๊ฐ๋๋ ๊ตฌ์ฑ ์์์ธ ํ ํฌ๋์ด์ ๋ฅผ ํ์ํ๋ค. ๊ธฐ์กด ๊ฒ์ ์ฌ์ฉํด์ผ ํ๋๊ฐ ์๋๋ฉด ์์ฒด์ ์ผ๋ก ํ์ตํด์ผ ํ๋๊ฐ? ์ฐ๋ฆฌ์ ํ ํฌ๋์ด์ ๊ฐ ์ข์์ง ์ด๋ป๊ฒ ํ๊ฐํ๋๊ฐ?
๐ย ์ ๊ฑฐ ์คํ ์ค์
์ด ์ฑํฐ์ ๋๋จธ์ง ๋ถ๋ถ์์, ์ฐ๋ฆฌ๋ ์์ ์ค๋ช ๋ ์ค์ ์ ์ฌ์ฉํ์ฌ ๋๋ถ๋ถ์ ์ํคํ ์ฒ ์ ํ์ ์ ๊ฑฐ ์คํ์ ํตํด ๊ฒ์ฆํ ๊ฒ์ด๋ค: FineWeb-Edu, FineMath, ๊ทธ๋ฆฌ๊ณ Python-Edu์ ํผํฉ์ผ๋ก๋ถํฐ 45B ํ ํฐ์ผ๋ก ํ์ต๋ ์ฐ๋ฆฌ์ 1B baseline ๋ชจ๋ธ (Llama3.2 1B ์ํคํ ์ฒ๋ฅผ ๋ฐ๋ฆ)์ ๊ธฐ๋ฐ์ผ๋ก. ๊ฐ ์คํ์ ๋ํด, ์ฐ๋ฆฌ๋ ๊ฐ ์์ ์ฌํญ์ ์ํฅ์ ํ๊ฐํ๊ธฐ ์ํด ํ์ต ์์ค ๊ณก์ ๊ณผ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ ์ ์๋ฅผ ๋ชจ๋ ๋ณด์ฌ์ค ๊ฒ์ด๋ค. ๋ชจ๋ ์คํ์ ์ํ ์ค์ ์ HuggingFaceTB/training-guide-nanotron-configs์์ ์ฐพ์ ์ ์๋ค.
์ด์ ๋ชจ๋ LLM์ ํต์ฌ์ธ ์ดํ ์ ๋ฉ์ปค๋์ฆ๋ถํฐ ์์ํด๋ณด์.
์ดํ ์
ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ ์ฃผ๋ณ์ ๊ฐ์ฅ ํ๋ฐํ ์ฐ๊ตฌ ๋ถ์ผ ์ค ํ๋๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด๋ค. ํผ๋ํฌ์๋ ๋ ์ด์ด๋ ์ฌ์ ํ์ต ์ค ์ปดํจํ ์ ์ง๋ฐฐํ๋ ๋ฐ๋ฉด, ์ดํ ์ ์ ์ถ๋ก ์ (ํนํ ๊ธด ์ปจํ ์คํธ์์) ์ฃผ์ ๋ณ๋ชฉ ํ์์ด ๋๋ฉฐ, ์ฌ๊ธฐ์ ์ปดํจํ ๋น์ฉ์ด ๋์์ง๊ณ KV ์บ์๊ฐ ๋น ๋ฅด๊ฒ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋นํ์ฌ Throughput ์ ๊ฐ์์ํจ๋ค. ์ฃผ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ๋ค์ด ๋ฅ๋ ฅ๊ณผ ์๋๋ฅผ ์ด๋ป๊ฒ ํธ๋ ์ด๋์คํํ๋์ง์ ๋ํ ๊ฐ๋ตํ ๋๋ฌ๋ณด๊ธฐ๋ฅผ ํด๋ณด์.
๋ด ์ดํ ์ ์ ์ํ ํค๋ ์๋ ๋ช ๊ฐ์ธ๊ฐ?
(Jay Alamar์ ์ ๋ช ํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ https://jalammar.github.io/illustrated-transformer/์ ํ์ธํ์ฌ ๋น ๋ฅด๊ฒ ๋ณต์ตํด๋ผ!)
**Multi-head attention (MHA)**๋ ์ค๋ฆฌ์ง๋ ํธ๋์คํฌ๋จธ์ ํจ๊ป ๋์ ๋ ํ์ค ์ดํ ์ ์ด๋ค (Vaswani et al., 2023). ์ฃผ์ ์์ด๋์ด๋ N๊ฐ์ ์ดํ ์ ํค๋๊ฐ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ๋์ผํ ๊ฒ์ ์์ ์ ์ํํ๋ค๋ ๊ฒ์ด๋ค: ์๋ ์ํ๋ฅผ ์ฟผ๋ฆฌ, ํค, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ผ๋ก ๋ณํํ ๋ค์, ํ์ฌ ์ฟผ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ํค ์ผ์น๋ฅผ ํตํด ๊ฐ์ฅ ๊ด๋ จ์ฑ์ด ๋์ ํ ํฐ์ ๊ฒ์ํ๊ณ ๋ง์ง๋ง์ผ๋ก ์ผ์นํ๋ ํ ํฐ๊ณผ ์ฐ๊ฒฐ๋ ๊ฐ์ ์ ๋ฌํ๋ค. ์ถ๋ก ์ ์ฐ๋ฆฌ๋ ๊ณผ๊ฑฐ ํ ํฐ์ ๋ํ KV ๊ฐ์ ๋ค์ ๊ณ์ฐํ ํ์๊ฐ ์์ผ๋ฉฐ ๊ทธ๊ฒ๋ค์ ์ฌ์ฌ์ฉํ ์ ์๋ค. ๊ณผ๊ฑฐ KV ๊ฐ์ ๋ํ ๋ฉ๋ชจ๋ฆฌ๋ฅผย KV-Cache๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ปจํ ์คํธ ์ฐฝ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ, ์ด ์บ์๋ ๋น ๋ฅด๊ฒ ์ถ๋ก ๋ณ๋ชฉ ํ์์ด ๋ ์ ์์ผ๋ฉฐ GPU ๋ฉ๋ชจ๋ฆฌ์ ํฐ ๋ถ๋ถ์ ์๋นํ๋ค. ๋ค์์ MHA์ 8192์ ์ํ์ค ๊ธธ์ด๋ฅผ ๊ฐ์ง Llama 3 ์ํคํ ์ฒ์ ๋ํ KV-Cache ๋ฉ๋ชจ๋ฆฌ ๋ฅผ ์ถ์ ํ๋ ๊ฐ๋จํ ๊ณ์ฐ์ด๋ค:
์์ ๊ณ์ 2๋ ํค ๋ฐ ๊ฐ ์บ์๋ฅผ ๋ชจ๋ ์ ์ฅํ๋ ๊ฒ์์ ๋น๋กฏ๋๋ค๋ ์ ์ ์ฃผ์ํด๋ผ. ๋ณด์๋ค์ํผ, ์บ์๋ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ์ง๋ง, ์ปจํ ์คํธ ์ฐฝ์ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ์ด์ ์๋ฐฑ๋ง ํ ํฐ์ ์ด๋ฅธ๋ค. ๋ฐ๋ผ์ ์บ์์ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๊ฒ์ ์ถ๋ก ์ ์ปจํ ์คํธ ํ์ฅ์ ํจ์ฌ ์ฝ๊ฒ ๋ง๋ค ๊ฒ์ด๋ค.
๋ฌป๊ฒ ๋๋ ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์: ๊ฐ ํค๋์ ๋ํด ์๋ก์ด KV ๊ฐ์ด ์ ๋ง๋ก ํ์ํ๊ฐ? ์ด๋ค. ์๋ง๋ ์๋ ๊ฒ์ด๋ฉฐ,ย Multi-Query Attention (MQA)ย (Shazeer, 2019)์ย Grouped Query Attention (GQA)ย (Ainslie et al., 2023) ๋ ๋ค ์ด๊ฒ์ ๋ค๋ฃฌ๋ค. ๊ฐ์ฅ ๊ฐ๋จํ ๊ฒฝ์ฐ๋ ๋ชจ๋ ํค๋์ ๊ฑธ์ณ KV ๊ฐ์ ๊ณต์ ํ๋ ๊ฒ์ด๋ฉฐ, ์ด ๊ฒฝ์ฐ KV ์บ์์ ํฌ๊ธฐ๋ฅผ ๋ก ๋๋ ์ ์๋ค. ์ด๋ ์๋ฅผ ๋ค์ด Llama 3 70B์ ๊ฒฝ์ฐ 64๋ถ์ 1 ๊ฐ์์ด๋ค! ์ด๊ฒ์ด MQA์ ์์ด๋์ด์ด๋ฉฐ MHA์ ๋์์ผ๋ก StarCoder์ ๊ฐ์ ์ผ๋ถ ๋ชจ๋ธ์์ ์ฌ์ฉ๋์๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ๊ฐ ๊ธฐ๊บผ์ด ํฌ๊ธฐํ๋ ค๋ ๊ฒ๋ณด๋ค ์กฐ๊ธ ๋ ๋ง์ ์ดํ ์ ๋ฅ๋ ฅ์ ํฌ๊ธฐํ ์ ์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์ค๊ฐ ์ง์ ์ ๊ณ ๋ คํ๊ณ ํค๋ ๊ทธ๋ฃน์ ๊ฑธ์ณ KV ๊ฐ์ ๊ณต์ ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, 4๊ฐ์ ํค๋๊ฐ ๋์ผํ KV ๊ฐ์ ๊ณต์ ํ๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ด GQA ์ ๊ทผ ๋ฐฉ์์ด๋ฉฐ MQA์ MHA ์ฌ์ด์ ์ค๊ฐ ์ง์ ์ ์ฐพ๋๋ค.
๋ ์ต๊ทผ์, DeepSeek-v2 (๊ทธ๋ฆฌ๊ณ v3์์๋ ์ฌ์ฉ๋จ)๋ย Multi-Latent Attention (MLA)ย (DeepSeek-AI et al., 2024)๋ฅผ ๋์ ํ๋๋ฐ, ์ด๋ ์บ์๋ฅผ ์์ถํ๊ธฐ ์ํด ๋ค๋ฅธ ์ ๋ต์ ์ฌ์ฉํ๋ค: KV ๊ฐ์ ์๋ฅผ ์ค์ด๋ ๋์ ๊ทธ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ์คํ ์๊ฐ์ KV ๊ฐ์ผ๋ก ์์ถ ํด์ ๋ ์ ์๋ ์ ์ฌ ๋ณ์๋ฅผ ์ ์ฅํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํตํด ๊ทธ๋ค์ MHA๋ณด๋ค ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉด์ 2.25๊ฐ์ ๊ทธ๋ฃน์ ๊ฐ์ง GQA์ ํด๋นํ๋ ์บ์๋ก ์ค์ด๋ ๋ฐ ์ฑ๊ณตํ๋ค! ์ด๊ฒ์ด RoPE์ ํจ๊ป ์๋ํ๋๋ก ํ๊ธฐ ์ํด, ์ฌ๋ถ์ ์์ ์ ์ฌ ๋ฒกํฐ๋ฅผ ๊ฐ์ง ์์ ์กฐ์ ์ด ํ์ํ๋ค. DeepSeek-v2์์ ๊ทธ๋ค์ ์ฃผ ์ ์ฌ ๋ณ์์ ๋ํด ๋ฅผ, RoPE ๋ถ๋ถ์ ๋ํด ๋ฅผ ์ ํํ์ฌ ์ด
๋ฅผ ์ ํํ๋๋ฐ, ์ด๋ K์ V ๋ชจ๋์ ๋์์ ์ฌ์ฉ๋์ด ์์ ๊ณ์ 2๋ฅผ ์ ๊ฑฐํ๋ค.
(RoPE (Rotary Position Embeddings)๋ ์ํ์ค ๋ด ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฟผ๋ฆฌ ๋ฐ ํค ๋ฒกํฐ๋ฅผ ํ์ ์์ผ ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ค๋๋ LLM์์ ํํ ์ฌ์ฉ๋๋ค.)
๋ค์ ๊ทธ๋ํฝ์์ ๊ฐ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ํ ์๊ฐ์ ์ค๋ช ์ ๋ณผ ์ ์๋ค:

Multi-Head Attention (MHA), Grouped-Query Attention (GQA), Multi-Query Attention (MQA), ๋ฐ Multi-head Latent Attention (MLA)์ ๋จ์ํ๋ ๊ทธ๋ฆผ์ด๋ค. MLA๋ ํค์ ๊ฐ์ ์ ์ฌ ๋ฒกํฐ๋ก ๊ณต๋ ์์ถํจ์ผ๋ก์จ, ์ถ๋ก ์ค KV ์บ์๋ฅผ ์๋นํ ๊ฐ์์ํจ๋ค.
๋ค์ ํ๋ ์ด ์น์ ์์ ๋ฐฉ๊ธ ๋ ผ์ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋น๊ตํ๋ค. ๋จ์ํ๋ฅผ ์ํด ํ ํฐ๋น ์ฌ์ฉ๋๋ ๋งค๊ฐ๋ณ์๋ฅผ ๋น๊ตํ๋ค. ์ด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ค๋ฉด ๋จ์ํ ๋งค๊ฐ๋ณ์๋น ๋ฐ์ดํธ (์ผ๋ฐ์ ์ผ๋ก 2)์ ์ํ์ค ๊ธธ์ด๋ฅผ ๊ณฑํ๋ฉด ๋๋ค:
| ์ดํ ์ ๋ฉ์ปค๋์ฆ | ํ ํฐ๋น KV-์บ์ ๋งค๊ฐ๋ณ์ |
|---|---|
| MHA | |
| MQA | |
| GQA | (์ผ๋ฐ์ ์ผ๋ก g=2,4,8) |
| MLA |
์ด์ ์ด๋ฌํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ์ค์ ์คํ์์ ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ณด์!
์ ๊ฑฐ ์คํ - GQA๊ฐ MHA๋ฅผ ์ด๊ธด๋ค
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ๋ค๋ฅธ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋น๊ตํ๋ค. ์ฐ๋ฆฌ์ ๊ธฐ์ค ๋ชจ๋ธ์ 32๊ฐ์ ํค๋์ 8๊ฐ์ KV ํค๋๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๋น์จ 32/8=4๋ฅผ ๊ฐ์ง GQA์ ํด๋นํ๋ค. MHA๋ฅผ ์ฌ์ฉํ๊ฑฐ๋, ๋๋ ํจ์ฌ ๋ ์ ์ KV ํค๋์ ๋ ๋์ GQA ๋น์จ๋ก ๊ฐ๋ค๋ฉด ์ฑ๋ฅ์ ์ด๋ป๊ฒ ๋ณํ ๊น?
(์ผ๋ถ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ GQA ๋น์จ์ ์ด๋ ๊ฒ ๋ถ๋ฅธ๋ค: ์ฟผ๋ฆฌ ๊ทธ๋ฃน = ์ฟผ๋ฆฌ ํค๋ / KV ํค๋)
KV ํค๋ ์๋ฅผ ๋ณ๊ฒฝํ๋ ๊ฒ์ ํนํ MHA์ ๊ฒฝ์ฐ ๋งค๊ฐ๋ณ์ ์์ ์ํฅ์ ๋ฏธ์น๋ค. ์ผ๊ด์ฑ์ ์ํด, MHA ์คํ์ ๊ฒฝ์ฐ ๋ ์ด์ด ์๋ฅผ ์กฐ์ ํ๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด 1์ต ์ด์์ ๋งค๊ฐ๋ณ์ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋๋จธ์ง๋ ๊ธฐ๋ณธ 16๊ฐ ๋ ์ด์ด๋ฅผ ์ ์งํ๋ค.
| ์ดํ ์ ์ ํ | ์ฟผ๋ฆฌ ํค๋ | KV ํค๋ | ๋ ์ด์ด | ๋งค๊ฐ๋ณ์ ์ | ๋น๊ณ |
|---|---|---|---|---|---|
| MQA | 32 | 1 | 16 | 1.21B | |
| GQA (๋น์จ 16) | 32 | 2 | 16 | 1.21B | |
| GQA (๋น์จ 8) | 32 | 4 | 16 | 1.22B | ์ฐ๋ฆฌ์ Baseline |
| GQA (๋น์จ 4) | 32 | 8 | 16 | 1.24B | |
| GQA (๋น์จ 2) | 32 | 16 | 15 | 1.22B | ๋ ์ด์ด ๊ฐ์ |
| MHA | 32 | 32 | 14 | 1.20B | ๋ ์ด์ด ๊ฐ์ |
| GQA (๋น์จ 2) | 32 | 16 | 16 | 1.27B | ๋๋ฌด ํผ - ์ ๊ฑฐ ์คํ ์ ํจ |
| MHA | 32 | 32 | 16 | 1.34B | ๋๋ฌด ํผ - ์ ๊ฑฐ ์คํ ์ ํจ |
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ MHA, MQA, ๊ทธ๋ฆฌ๊ณ 4๊ฐ์ GQA ์ค์ (๋น์จ 2, 4, 8, 16)์ ๋น๊ตํ๋ค. nanotron ์ค์ ์ ์ฌ๊ธฐ์์ ์ฐพ์ ์ ์๋ค. https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/tree/main/attention
์ ๊ฑฐ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, MQA์ 16๊ฐ ๊ทธ๋ฃน์ ๊ฐ์ง GQA (๊ฐ๊ฐ 1๊ฐ์ 2๊ฐ์ KV ํค๋๋ง ๋จ๊น)๊ฐ MHA๋ณด๋ค ํ์ ํ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๋ฐ๋ฉด์, 2, 4, 8๊ฐ ๊ทธ๋ฃน์ ๊ฐ์ง GQA ๊ตฌ์ฑ์ MHA ์ฑ๋ฅ๊ณผ ๋๋ต ์ผ์นํ๋ค.


๊ฒฐ๊ณผ๋ ์์ค ๊ณก์ ๊ณผ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ ๋ชจ๋์์ ์ผ๊ด๋์๋ค. ์ฐ๋ฆฌ๋ HellaSwag, MMLU, ARC์ ๊ฐ์ ๋ฒค์น๋งํฌ์์ ์ด๊ฒ์ ๋ช ํํ๊ฒ ๊ด์ฐฐํ๋ ๋ฐ๋ฉด, OpenBookQA์ WinoGrande์ ๊ฐ์ ๋ฒค์น๋งํฌ๋ ์ฝ๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ๋ณด์๋ค.
์ด๋ฌํ ์ ๊ฑฐ ์คํ์ ๊ธฐ๋ฐ์ผ๋ก, GQA๋ MHA์ ๊ฒฌ๊ณ ํ ๋์์ด๋ค. ์ด๋ ์ถ๋ก ์์ ๋ ํจ์จ์ ์ด๋ฉด์ ์ฑ๋ฅ์ ์ ์งํ๋ค. ์ผ๋ถ ์ต์ ๋ชจ๋ธ์ ํจ์ฌ ๋ ํฐ KV ์บ์ ์์ถ์ ์ํด MLA๋ฅผ ์ฑํํ์ง๋ง, ์์ง ๋๋ฆฌ ์ฑํ๋์ง๋ ์์๋ค. ์ ๊ฑฐ ์คํ ๋น์ nanotron์ MLA๊ฐ ๊ตฌํ๋์ง ์์์ผ๋ฏ๋ก ์ฐ๋ฆฌ๋ MLA๋ฅผ ์ ๊ฑฐ ์คํํ์ง ์์๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 4๊ฐ ๊ทธ๋ฃน์ ๊ฐ์ง GQA๋ฅผ ์ฌ์ฉํ๋ค.
์ดํ ์ ์ํคํ ์ฒ ์์ฒด๋ฅผ ๋์ด, ์ฐ๋ฆฌ๊ฐ ํ์ต ์ค์ ์ฌ์ฉํ๋ ์ดํ ์ ํจํด๋ ์ค์ํ๋ค. ์ดํ ์ ๋ง์คํน์ ์ดํด๋ณด์.
๋ฌธ์ ๋ง์คํน
์ฐ๋ฆฌ๊ฐ ํ์ต ์ํ์ค ์ ๋ฐ์ ๊ฑธ์ณ ์ดํ ์ ์ ์ ์ฉํ๋ ๋ฐฉ์์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋์ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ ๋ฌธ์ ๋ง์คํน๊ณผ ๋ฐ์ดํฐ๋ก๋์์ ํ์ต ์ํ์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๋ ๋์ ์ง๋ฌธ์ผ๋ก ์ด์ด์ง๋ค.
์ฌ์ ํ์ต ์ค์, ์ฐ๋ฆฌ๋ ๊ณ ์ ๋ ์ํ์ค ๊ธธ์ด๋ก ํ์ตํ์ง๋ง ์ฐ๋ฆฌ์ ๋ฌธ์๋ ๊ฐ๋ณ์ ์ธ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ค. ์ฐ๊ตฌ ๋ ผ๋ฌธ์ 10k ํ ํฐ์ผ ์ ์๋ ๋ฐ๋ฉด, ์งง์ ์ฝ๋ ์ค๋ํซ์ ์๋ฐฑ ํ ํฐ๋ง ๊ฐ์ง ์ ์๋ค. ๊ฐ๋ณ ๊ธธ์ด ๋ฌธ์๋ฅผ ๊ณ ์ ๊ธธ์ด ํ์ต ์ํ์ค์ ์ด๋ป๊ฒ ๋ง์ถ๋๊ฐ? ์งง์ ๋ฌธ์๋ฅผ ์ฐ๋ฆฌ์ ๋ชฉํ ๊ธธ์ด์ ๋๋ฌํ๋๋ก ํจ๋ฉํ๋ ๊ฒ์ ๋ฌด์๋ฏธํ ํจ๋ฉ ํ ํฐ์ ์ปดํจํ ์์์ ๋ญ๋นํ๋ค. ๋์ , ์ฐ๋ฆฌ๋ **ํจํน(packing)**์ ์ฌ์ฉํ๋ค: ๋ฌธ์๋ค์ ์ํ์ค ๋(EOS) ํ ํฐ๊ณผ ํจ๊ป ์๊ณ ์ฐ๊ฒฐํ ๋ค์, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ํ์ค ํฌ๊ธฐ์ ์ผ์นํ๋ ๊ณ ์ ๊ธธ์ด ๋ฉ์ด๋ฆฌ๋ก ๋๋๋ค.
(์ฐ๋ฆฌ๋ ๋ฌธ์ ์์(BOS) ํ ํฐ์ ๋ฌธ์ ์์ ๋ถ๋ถ์ ์ถ๊ฐํ ์๋ ์๋ค. ์ด ๊ฒฝ์ฐ ๋ชจ๋ธ/ํ ํฌ๋์ด์ ์ค์ ์์ ๋ค๋ฅธย bos_token_id๊ฐ ์์์ ์๊ฒ ๋ ๊ฒ์ด๋ค.)
์ค์ ์์ ์ด๊ฒ์ด ์ด๋ป๊ฒ ๋ณด์ด๋์ง ๋ณด์:
File 1: "Recipe for granola bars..." (400 tokens) <EOS>
File 2: "def hello_world()..." (300 tokens) <EOS>
File 3: "Climate change impacts..." (1000 tokens) <EOS>
File 4: "import numpy as np..." (3000 tokens) <EOS>
...
After concatenation and chunking into 4k sequences:
Sequence 1: [File 1] + [File 2] + [File 3] + [partial File 4]
Sequence 2: [rest of File 4] + [File 5] + [File 6] + ...ํ์ต ์ํ์ค๋ 4k ์ปจํ ์คํธ๋ฅผ ์ฑ์ธ ๋งํผ ์ถฉ๋ถํ ๊ธธ๋ค๋ฉด ํ๋์ ์์ ํ ํ์ผ์ ํฌํจํ ์ ์์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ํ์ผ์ด ์งง์ผ๋ฏ๋ก, ์ํ์ค๋ ์ฌ๋ฌ ๋๋ค ํ์ผ์ ์ฐ๊ฒฐ์ ํฌํจํ๋ค.
ํ์ค causal masking ์ ์ฌ์ฉํ๋ฉด, ํ ํฐ์ ํจํน๋ ์ํ์ค์ ๋ชจ๋ ์ด์ ํ ํฐ์ ์ดํ ์ ํ ์ ์๋ค. ์ ์์๋ค์์, ํ์ผ 4์ ํด๋น ํ์ด์ฌ ํจ์ ๋ด์ ํ ํฐ์ ๊ทธ๋๋๋ผ ๋ฐ ๋ ์ํผ, ๊ธฐํ ๋ณํ ๊ธฐ์ฌ, ๊ทธ๋ฆฌ๊ณ ํจ๊ป ํจํน๋ ๋ค๋ฅธ ๋ชจ๋ ์ฝํ ์ธ ์ ์ดํ ์ ํ ์ ์๋ค. ์ผ๋ฐ์ ์ธ 4k ์ฌ์ ํ์ต ์ปจํ ์คํธ๊ฐ ๋ฌด์์ ํฌํจํ๋์ง ๋น ๋ฅด๊ฒ ์ดํด๋ณด์. ๋น ๋ฅธ ๋ถ์ (https://www.harmdevries.com/post/context-length/)์ ๋ฐ๋ฅด๋ฉด CommonCrawl ๋ฐ GitHub์ ํ์ผ ์ค ์๋น ๋ถ๋ถ(์ฝ 80-90%)์ด 2k ํ ํฐ๋ณด๋ค ์งง๋ค.
์๋ ์ฐจํธ๋ ์ด ๋ธ๋ก๊ทธ ์ ์ฒด์์ ์ฌ์ฉ๋ ๋ ์ต๊ทผ ๋ฐ์ดํฐ์ ์ ๋ํ ํ ํฐ ๋ถํฌ๋ฅผ ์กฐ์ฌํ ๊ฒฐ๊ณผ์ด๋ค:

FineWeb-Edu, DCLM, FineMath ๋ฐ Python-Edu์ ๋ฌธ์ ์ค 80% ์ด์์ด 2k ํ ํฐ ๋ฏธ๋ง์ ํฌํจํ๋ค. ์ด๋ 2k ๋๋ 4k ํ์ต ์ํ์ค์ ํ์ค ์ธ๊ณผ์ ๋ง์คํน์ ์ฌ์ฉํ๋ฉด, ํ ํฐ์ ๋๋ค์๊ฐ ํจ๊ป ํจํน๋ ๊ด๋ จ ์๋ ๋ฌธ์์ ์ดํ ์ ํ๋ ๋ฐ ์ปดํจํ ์์์ ์๋นํ ๊ฒ์์ ์๋ฏธํ๋ค.
PDF์ ๋ ๊ธด ๋ฌธ์
๋๋ถ๋ถ์ ์น ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ ์งง์ ๋ฌธ์๋ก ๊ตฌ์ฑ๋์ด ์์ง๋ง, PDF ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ ์๋นํ ๋ ๊ธด ์ฝํ ์ธ ๋ฅผ ํฌํจํ๋ค. FinePDFs ๋ฌธ์๋ ์น ํ ์คํธ๋ณด๋ค ํ๊ท 2๋ฐฐ ๋ ๊ธธ๋ฉฐ, FineWeb-Edu ๋ฐ DCLM๊ณผ ํผํฉ๋ ๋ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
๊ณ์ฐ ๋นํจ์จ์ฑ ์ธ์๋, Zhao et al. (2024)์ ์ด ์ ๊ทผ ๋ฐฉ์์ด ์ฑ๋ฅ์ ์ ํ์ํฌ ์ ์๋ ๊ด๋ จ ์๋ ์ฝํ ์ธ ๋ก๋ถํฐ ๋ ธ์ด์ฆ๋ฅผ ์ ๋ฐํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ๋ค์ **๋ฌธ์ ๋ด ๋ง์คํน(intra-document masking)**์ ์ฌ์ฉํ ๊ฒ์ ์ ์ํ๋๋ฐ, ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ์ดํ ์ ๋ง์คํฌ๋ฅผ ์์ ํ์ฌ ํ ํฐ์ด ๋์ผํ ๋ฌธ์ ๋ด์ ์ด์ ํ ํฐ์๋ง ์ดํ ์ ํ ์ ์๋๋ก ํ๋ค. ์๋ ์๊ฐํ๋ ์ด๋ฌํ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋ค:

SkyLadder์ Zhu et al. (2025)์ ๋ฌธ์ ๋ด ๋ง์คํน์์ ์ ์ฌํ ์ด์ ์ ๋ฐ๊ฒฌํ์ง๋ง, ๋ค๋ฅธ ์ค๋ช ์ ์ ๊ณตํ๋ค. ๊ทธ๋ค์ ๋ ์งง์ ์ปจํ ์คํธ ๊ธธ์ด๊ฐ ํ์ต์ ๋ ์ ์๋ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ๋ฌธ์ ๋ด ๋ง์คํน์ ํ๊ท ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ค์ธ๋ค.

SkyLadder์ ์ด ํ๋กฏ๋ค์ ์ฌ๋ฌ ๋ฐ๊ฒฌ์ ๋ณด์ฌ์ค๋ค: (a) ๋ ์งง์ ์ปจํ ์คํธ๊ฐ ์ฌ์ ํ์ต ์ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ณ (๋ ๋ฎ์ ๊ฒ์ฆ ํผ๋๋), (b) ๋ฌธ์ ๋ด ๋ง์คํน(IntraDoc)์ด ๋๋ค ํจํน(Random) ๋ฐ ์๋ฏธ๋ก ์ ๊ทธ๋ฃนํ(BM25)๋ณด๋ค ๋ ๋ฎ์ ํผ๋๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, (c) ๋ ์งง์ ์ปจํ ์คํธ ์ด์ ์ ์์น ์ธ์ฝ๋ฉ ์์ด๋ ์ ์ง๋๊ณ , (d) IntraDoc์ ๋ ์งง์ ์ ํจ ์ปจํ ์คํธ ๊ธธ์ด๋ก ํธํฅ๋ ๋ถํฌ๋ฅผ ์์ฑํ๋ค.
Llama3 (Grattafiori et al., 2024)๋ ๋ฌธ์ ๋ด ๋ง์คํน์ผ๋ก ํ์ตํ์ผ๋ฉฐ, ๊ทธ๋ค์ ์งง์ ์ปจํ ์คํธ ์ฌ์ ํ์ต ์ค์๋ ์ ํ๋ ์ํฅ์ ๋ฐ๊ฒฌํ์ง๋ง, ์ดํ ์ ์ค๋ฒํค๋๊ฐ ๋ ์ค์ํด์ง๋ ๊ธด ์ปจํ ์คํธ ํ์ฅ์๋ ์๋นํ ์ด์ ์ ๋ฐ๊ฒฌํ๋ค. ๋ํ, ProLong ๋ ผ๋ฌธ (Gao et al., 2025)์ ๋ฌธ์ ๋ง์คํน์ ์ฌ์ฉํ์ฌ Llama3 8B์ ์ปจํ ์คํธ๋ฅผ ์ง์์ ์ธ ์ฌ์ ํ์ต์์ ํ์ฅํ๋ ๊ฒ์ด ๊ธด ์ปจํ ์คํธ ๋ฐ ์งง์ ์ปจํ ์คํธ ๋ฒค์น๋งํฌ ๋ชจ๋์ ์ด์ ์ ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ 1B ๊ธฐ์ค ๋ชจ๋ธ์ ๋ํด ์ ๊ฑฐ ์คํ์ ์คํํ๊ณ ๋ฌธ์ ๋ง์คํน์ด ์งง์ ์ปจํ ์คํธ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋์ง ํ ์คํธํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค. ์ค์ ์ ์ฌ๊ธฐ(https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/blob/main/doc_masking/doc_masking.yaml) ์์ ์ฐพ์ ์ ์๋ค. ๊ฒฐ๊ณผ๋ ์๋ ์ฐจํธ์ ํ์๋ ๋๋ก ํ์ค ์ธ๊ณผ์ ๋ง์คํน๊ณผ ๋น๊ตํ์ฌ ๋์ผํ ์์ค ๊ณก์ ๊ณผ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ ์ ์๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
nanotron์์ ๋ฌธ์ ๋ง์คํน์ ํ์ฑํํ๋ ค๋ฉด, ๋ชจ๋ธ ์ค์ ์์ ์ด ํ๋๊ทธ๋ฅผ ์ฐธ(true)์ผ๋ก ์ค์ ํ๊ธฐ๋ง ํ๋ฉด ๋๋ค:
model_config:
_attn_implementation: flash_attention_2
_fused_rms_norm: true
_fused_rotary_emb: true
_use_doc_masking: true # ์ด ๋ถ๋ถ์ true๋ก ์ค์ 

Llama3์ ์ ์ฌํ๊ฒ, PIQA์์์ ์์ ๊ฐ์ ์ ์ ์ธํ๋ฉด, ์งง์ ์ปจํ ์คํธ ์์ ์ ๋์ ๋๋ ์ํฅ์ ๊ด์ฐฐ๋์ง ์์๋ค. ๊ทธ๋ฌ๋ ๋ฌธ์ ๋ง์คํน์ ํ์ต ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ๊ธด ์ํ์ค๋ก ํ์ฅํ ๋ ์ค์ํด์ง๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ 4k์์ 64k ํ ํฐ์ผ๋ก ํ์ฅํ๋ ๊ธด ์ปจํ ์คํธ ํ์ฅ์ ํนํ ์ค์ํ๋ค (ํ์ต ๋ง๋ผํคย ์ฑํฐ์์ ์์ธํ ์ค๋ช ). ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ SmolLM3์ ์ ์ฒด ํ์ต ์คํ ์ ๋ฐ์ ๊ฑธ์ณ ๊ทธ๊ฒ์ ์ฑํํ๋ค.
์ฐ๋ฆฌ๋ ์ด ์น์ ์์ ์ดํ ์ ์ด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์๋ค. ์ด์ ํธ๋์คํฌ๋จธ์ ๋ ๋ค๋ฅธ ์ฃผ์ ํ๋ผ๋ฏธํฐ ๋ธ๋ก์ธ ์๋ฒ ๋ฉ์ ์ดํด๋ณด์.
์๋ฒ ๋ฉ ๊ณต์
์ฐ๋ฆฌ์ ๊ธฐ์ค ์ ๊ฑฐ ์คํ ๋ชจ๋ธ์ ์ค์ (config)์ ๋ณด๋ฉด, ํ์ค ํธ๋์คํฌ๋จธ์ ๋ค๋ฅธ ํ ๊ฐ์ง๋ย tie_word_embeddingsย ํ๋๊ทธ๋ก ํ์ฑํ๋ย ์๋ฒ ๋ฉ ๊ณต์ ์ด๋ค.
LLM์๋ ๋ ๊ฐ์ง ์๋ฒ ๋ฉ ๊ตฌ์ฑ ์์๊ฐ ์๋ค: ํ ํฐ ๋ ๋ฒกํฐ ์กฐํ ํ ์ด๋ธ ์ญํ ์ ํ๋ย ์ ๋ ฅ ์๋ฒ ๋ฉย (ํฌ๊ธฐย vocab_sizeย รย hidden_dim)๊ณผ, ์๋ ์ํ๋ฅผ ์ดํ ๋ก์ง์ผ๋ก ๋งคํํ๋ ์ต์ข ์ ํ ๋ ์ด์ด์ธย ์ถ๋ ฅ ์๋ฒ ๋ฉย (hidden_dimย รย vocab_size)์ด๋ค. ์ด๊ฒ๋ค์ด ๋ณ๊ฐ์ ํ๋ ฌ์ธ ๊ณ ์ ์ ์ธ ๊ฒฝ์ฐ, ์ด ์๋ฒ ๋ฉ ๋งค๊ฐ๋ณ์๋ 2 ร vocab_size ร hidden_dim ์ด๋ค. ๋ฐ๋ผ์ ์ํ ์ธ์ด ๋ชจ๋ธ์์๋, ํนํ ํฐ vocabulary size ์์๋ ์๋ฒ ๋ฉ์ด ์ ์ฒด ํ๋ผ๋ฏธํฐ ์์ ํฐ ๋ถ๋ถ์ ์ฐจ์งํ ์ ์๋ค. ์ด๋ก ์ธํด ์๋ฒ ๋ฉ ๊ณต์ (์ถ๋ ฅ์์ ์ ๋ ฅ ์๋ฒ ๋ฉ์ ์ฌ์ฌ์ฉ)๋ ์ํ ๋ชจ๋ธ์๊ฒ ์์ฐ์ค๋ฌ์ด ์ต์ ํ๊ฐ ๋๋ค.

๋ ํฐ ๋ชจ๋ธ์ ์๋ฒ ๋ฉ์ด ๋งค๊ฐ๋ณ์ ์์ฐ์ ๋ ์์ ๋ถ๋ถ์ ์ฐจ์งํ๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ์ด ๊ธฐ์ ์ ์ฌ์ฉํ์ง ์๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ ์ํ ์ฐจํธ์ ํ์๋ ๋๋ก ๊ณต์ ์๋ ์ด ์๋ฒ ๋ฉ์ Llama3.2 8B์์๋ 13%, Llama3.1 70B์์๋ 3%๋ง์ ์ฐจ์งํ๋ค.


์ ๊ฑฐ ์คํ - Tied ์๋ฒ ๋ฉ์ ๊ฐ์ง ๋ชจ๋ธ์ ๋ ํฐ Untied ๋ณํ๊ณผ ์ผ์นํ๋ค
์ด์ ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ ๋ชจ๋ธ์ ๋ํ ์๋ฒ ๋ฉ ๊ณต์ ์ ์ํฅ์ ํ๊ฐํ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ MobileLLM์ด 125M ๊ท๋ชจ์์ ์ด ๊ธฐ์ ์ ๋ํด ์ํํ ํฌ๊ด์ ์ธ ์ ๊ฑฐ ์คํ์์ ํต์ฐฐ๋ ฅ์ ์ป๋๋ค. ๊ฑฐ๊ธฐ์ ๊ทธ๋ค์ ๊ณต์ ๊ฐ ์ต์ํ์ ์ ํ๋ ์ ํ๋ก ๋งค๊ฐ๋ณ์๋ฅผ 11.8% ๊ฐ์์ํจ๋ค๋ ๊ฒ์ ์ ์ฆํ๋ค.
๋ฌถ์ด์ง ์์ ์๋ฒ ๋ฉ์ ์ฐ๋ฆฌ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ 1.2B์์ 1.46B์ผ๋ก ์ฆ๊ฐ์ํค๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ง์ถ๊ธฐ ์ํด Untied ํ๋ผ๋ฏธํฐ์ด์ง๋ง ๋ ์ ์ ๋ ์ด์ด(12 ๋ ์ด์ด)๋ฅผ ๊ฐ์ง ๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ต์ํฌ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ 1.2B ๋ชจ๋ธ์ ๋น๊ตํ ๊ฒ์ด๋ค: ๋ฌถ์ธ ์๋ฒ ๋ฉ์ ๊ฐ์ง ์ฐ๋ฆฌ์ ๊ธฐ์ค์ (16 ๋ ์ด์ด) ๋ ๋์ผํ ๋งค๊ฐ๋ณ์ ์์ฐ์ ์ ์งํ๊ธฐ ์ํด ๋ ์ ์ ๋ ์ด์ด (12 ๋ ์ด์ด)๋ฅผ ๊ฐ์ง ๋ฌถ์ด์ง ์์ ๋ฒ์ , ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ ์ฐธ์กฐ์ ์ผ๋ก ์ฐ๋ฆฌ์ ๊ธฐ์ค์ ๊ณผ ๋์ผํ ๋ ์ด์ด ์ (16)๋ฅผ ๊ฐ์ง 14์ต 6์ฒ๋ง ๋ฌถ์ด์ง ์์ ๋ชจ๋ธ์ ๋น๊ต์ด๋ค. nanotron ์ค์ ์ ์ฌ๊ธฐ (https://huggingface.co/datasets/HuggingFaceTB/training-guide-nanotron-configs/blob/main/baseline_config_1B.yaml) ์์ ์ฐพ์ ์ ์๋ค.


์์ค ๋ฐ ํ๊ฐ ๊ฒฐ๊ณผ๋ ์ฐ๋ฆฌ์ ๊ธฐ์ค 1.2B ๋ชจ๋ธ์ด Tied Embedding ์ ๊ฐ์ง๊ณ ์์์๋ ๋ถ๊ตฌํ๊ณ , WinoGrande๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ 18% ๋ ์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง์๋ ๋ถ๊ตฌํ๊ณ 1.46B Untied ๋ชจ๋ธ๊ณผ ํ์ ํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค. Untied Embedding ๊ณผ ๊ฐ์๋ ๋ ์ด์ด(16 vs 12)๋ฅผ ๊ฐ์ง 1.2์ต ๋ชจ๋ธ์ ๋ ๋์ ์์ค๊ณผ ๋ ๋ฎ์ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ ์ ์๋ฅผ ๋ณด์ด๋ฉด์ ๋ ๊ตฌ์ฑ ๋ชจ๋๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๊ฒ์ ๋ชจ๋ธ ๊น์ด๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ๋์ผํ ๋งค๊ฐ๋ณ์ ์์ฐ์์ ์๋ฒ ๋ฉ์ ๋ฌถ์ง ์๋ ๊ฒ๋ณด๋ค ๋ ํฐ ์ด์ ์ ์ ๊ณตํจ์ ์์ฌํ๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ์ฐ๋ฆฌ๋ SmolLM3 3B ๋ชจ๋ธ์ ๋ฌถ์ธ ์๋ฒ ๋ฉ(tied embeddings)์ ์ ์งํ๋ค.
์ด์ ์ฐ๋ฆฌ๋ ์๋ฒ ๋ฉ ๊ณต์ ์ ๋ต๊ณผ ๊ทธ ์ฅ๋จ์ ์ ํ์ํ๋ค. ๊ทธ๋ฌ๋ ์๋ฒ ๋ฉ๋ง์ผ๋ก๋ ์ํ์ค์์ ํ ํฐ์ ์์๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ค. ์ด ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ดย ์์น ์ธ์ฝ๋ฉ(Positional Encoding)์ ์ญํ ์ด๋ค. ๋ค์ ์น์ ์์๋ ํ์ค RoPE์์๋ถํฐ ๊ธด ์ปจํ ์คํธ์ ๋ํ ๋ ํจ๊ณผ์ ์ธ ๋ชจ๋ธ๋ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ NoPE (No Positional Encoding)์ ๊ฐ์ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ด๋ฅด๊ธฐ๊น์ง ์์น ์ธ์ฝ๋ฉ ์ ๋ต์ด ์ด๋ป๊ฒ ๋ฐ์ ํ๋์ง ์ดํด๋ณผ ๊ฒ์ด๋ค.
์์น ์ธ์ฝ๋ฉ(Positional Encoding) ๋ฐ ๊ธด ์ปจํ ์คํธ
ํธ๋์คํฌ๋จธ๊ฐ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ๋, ๊ทผ๋ณธ์ ์ธ ๋์ ์ ์ง๋ฉดํ๋ค: ๊ทธ๋ค์ ๋ณ๋ ฌ ์ดํ ์ ์์ ์ ํตํด ์ ์ฒด ์ํ์ค๋ฅผ ๋์์ ์๋นํ๋ฏ๋ก, ๋ณธ์ง์ ์ผ๋ก ๋จ์ด ์์์ ๋ํ ๊ฐ๊ฐ์ด ์๋ค. ์ด๊ฒ์ ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง ๋ฌธ์ ๋ฅผ ๋ง๋ ๋ค. ๋ช ์์ ์ธ ์์น ์ ๋ณด ์์ด๋, ๋ชจ๋ธ์ ๊ด์ ์์ โAdam์ Muon์ ์ด๊ธด๋คโ๋ โMuon์ Adam์ ์ด๊ธด๋คโ์ ๋น์ทํ๊ฒ ๋ณด์ธ๋ค.
ํด๊ฒฐ์ฑ ์ย ์์น ์๋ฒ ๋ฉ์ด๋ค: ๊ฐ ํ ํฐ์ ์ํ์ค์์ ๊ณ ์ ํ โ์ฃผ์โ๋ฅผ ์ ๊ณตํ๋ ์ํ์ ์ธ์ฝ๋ฉ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๊ธฐ BERT์ 512 ํ ํฐ์์๋ถํฐ ์ค๋๋ ์ ๋ฐฑ๋ง ํ ํฐ ๋ชจ๋ธ์ ์ด๋ฅด๊ธฐ๊น์ง ์ ์ ๋ ๊ธด ์ปจํ ์คํธ๋ก ๋์๊ฐ์ ๋ฐ๋ผ, ์์น ์ธ์ฝ๋ฉ์ ์ ํ์ ์ฑ๋ฅ๊ณผ ๊ณ์ฐ ํจ์จ์ฑ ๋ชจ๋์ ์ ์ ๋ ์ค์ํด์ ธ์๋ค.
์์น ์ธ์ฝ๋ฉ์ ์งํ
์ด๊ธฐ ํธ๋์คํฌ๋จธ๋ ๊ฐ๋จํ **์ ๋ ์์น ์๋ฒ ๋ฉ(Absolute Position Embeddings, APE)**์ ์ฌ์ฉํ๋ค (Vaswani et al., 2023). ์ด๋ ๋ณธ์ง์ ์ผ๋ก ๊ฐ ์์น (1, 2, 3โฆ)๋ฅผ ํ ํฐ ์๋ฒ ๋ฉ์ ์ถ๊ฐ๋๋ ๋ฒกํฐ์ ๋งคํํ๋ ํ์ต๋ ์กฐํ ํ ์ด๋ธ์ด์๋ค. ์ด๊ฒ์ ์งง์ ์ํ์ค์๋ ์ ์๋ํ์ง๋ง, ์ฃผ์ ํ๊ณ๊ฐ ์์๋ค: ๋ชจ๋ธ์ ์ต๋ ์ ๋ ฅ ์ํ์ค ๊ธธ์ด๋ ํ์ต๋ ์ต๋ ์ ๋ ฅ ์ํ์ค ๊ธธ์ด๋ก ์ ํ๋์๋ค. ๊ทธ๋ค์ ๋ ๊ธด ์ํ์ค์ ๋ํ ์ฆ๊ฐ์ ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์์๋ค.
์ด ๋ถ์ผ๋ ์ ๋ ์์น ๋์ ํ ํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ํฌ์ฐฉํ๋ย ์๋ ์์น ์ธ์ฝ๋ฉ์ผ๋ก ์งํํ๋ค. ์ด๊ฒ์ ์ง๊ด์ ์ผ๋ก ํฉ๋ฆฌ์ ์ด๋ค. ๋ ๋จ์ด๊ฐ (5, 8) ๋ (105, 108) ์์น์ ์๋์ง ์ฌ๋ถ๋ณด๋ค 3 ์์น ๋จ์ด์ ธ ์๋์ง ์ฌ๋ถ๊ฐ ๋ ์ค์ํ๋ค.
(์์น ์ธ์ฝ๋ฉ์ ๋ํ ๋ ๊น์ ํ๊ตฌ๋ฅผ ์ํด, ์ด ๋ธ๋ก๊ทธ (https://huggingface.co/blog/designing-positional-encoding) ๋ ๊ธฐ๋ณธ ์์น ์ง์ ์์ ํ์ ์ธ์ฝ๋ฉ์ผ๋ก์ ๋จ๊ณ๋ณ ๊ฐ๋ฐ ๊ณผ์ ์ ์๋ดํ๋ค.)
ALiBi (Attention with Linear Biases)ย (Press et al., 2022)๋ ํนํ ํ ํฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ดํ ์ ์ ์๋ฅผ ์์ ํ๋ค. ๋ ํ ํฐ์ด ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์์๋ก, ์ดํ ์ ๊ฐ์ค์น์ ์ ์ฉ๋๋ ๊ฐ๋จํ ์ ํ ํธํฅ์ ํตํด ๊ทธ๋ค์ ์ดํ ์ ์ ๋ ๋ง์ด ํ๋ํฐ๋ฅผ ๋ฐ๋๋ค. Alibi์ ์์ธํ ๊ตฌํ์ ์ด ์๋ฃ(https://nn.labml.ai/transformers/alibi/index.html) ๋ฅผ ํ์ธํ๋ฉด ๋๋ค.
๊ทธ๋ฌ๋ ์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ง๋ฐฐํด ์จ ๊ธฐ์ ์ **ํ์ ์์น ์๋ฒ ๋ฉ(Rotary Position Embedding, RoPE)**์ด๋ค (Su et al., 2023).
RoPE: ํ์ ์ผ๋ก์์ ์์น
RoPE์ ํต์ฌ ํต์ฐฐ๋ ฅ์ ์์น ์ ๋ณด๋ฅผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์์ย ํ์ ๊ฐ๋๋ก ์ธ์ฝ๋ฉํ๋ ๊ฒ์ด๋ค. ํ ํฐ ์๋ฒ ๋ฉ์ ์์น ๋ฒกํฐ๋ฅผ ์ถ๊ฐํ๋ ๋์ , RoPE๋ ์ฟผ๋ฆฌ ๋ฐ ํค ๋ฒกํฐ๋ฅผ ๊ทธ๋ค์ ์ ๋ ์์น์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ๊ฐ๋๋ก ํ์ ์ํจ๋ค.
์ง๊ด์ ๋ค์๊ณผ ๊ฐ๋ค: ์ฐ๋ฆฌ๋ ์๋ฒ ๋ฉ์ ๊ฐ ์ฐจ์ ์์ ์ ์์ ์ขํ๋ก ์ทจ๊ธํ๊ณ , ๋ค์ ๋ ๊ฐ์ง์ ์ํด ๊ฒฐ์ ๋๋ ๊ฐ๋๋ก ๊ทธ๊ฒ๋ค์ ํ์ ์ํจ๋ค:
- ์ํ์ค์์ ํ ํฐ์ ์์น
- ์ฐ๋ฆฌ๊ฐ ์์ ํ๋ ์ฐจ์ ์ (๋ค๋ฅธ ์์ ๋ฒ ์ด์ค/์ฐธ์กฐ ์ฃผํ์์ ์ง์์ธ ๋ค๋ฅธ ์ฃผํ์๋ก ํ์ ํ๋ค)
import torch
def apply_rope_simplified(x, pos, dim=64, base=10000):
"""
Rotary Position Embedding (RoPE)
์์ด๋์ด:
- ๊ฐ ํ ํฐ์ ์์น ์ธ๋ฑ์ค p (0, 1, 2, ...)๋ฅผ ๊ฐ์ง๋ค.
- ๋ฒกํฐ ์ฐจ์์ ๊ฐ ์์ ์ธ๋ฑ์ค k (0 .. dim/2 - 1)๋ฅผ ๊ฐ์ง๋ค.
- RoPE๋ ๋ชจ๋ ์ [x[2k], x[2k+1]]์ ๊ฐ๋ ฮธ_{p,k}๋งํผ ํ์ ์ํจ๋ค.
๊ณต์:
ฮธ_{p,k} = p * base^(-k / (dim/2))
- ์์ k (์ด๊ธฐ ์ฐจ์ ์) โ ๋๋ฆฐ ์ง๋ โ ์ฅ๊ฑฐ๋ฆฌ ์ ๋ณด ํฌ์ฐฉ.
- ํฐ k (ํ๊ธฐ ์ฐจ์ ์) โ ๋น ๋ฅธ ์ง๋ โ ์ธ๋ถ ์ ๋ณด ํฌ์ฐฉ.
"""
rotated = []
for i in range(0, dim, 2):
k = i // 2 # ์ด ์ฐจ์ ์์ ์ธ๋ฑ์ค
# ์ฃผํ์ ํญ: k๊ฐ ๋์์๋ก โ ์ง๋์ด ๋น ๋ฆ
inv_freq = 1.0 / (base ** (k / (dim // 2)))
theta = pos * inv_freq # ์์น p์ ์ k์ ๋ํ ํ์ ๊ฐ๋
cos_t = torch.cos(torch.tensor(theta, dtype=x.dtype, device=x.device))
sin_t = torch.sin(torch.tensor(theta, dtype=x.dtype, device=x.device))
x1, x2 = x[i], x[i+1]
# 2D ํ์ ์ ์ฉ
rotated.extend([x1 * cos_t - x2 * sin_t,
x1 * sin_t + x2 * cos_t])
return torch.stack(rotated)
## Q, K: [batch, heads, seq, d_head]
Q = torch.randn(1, 2, 4, 8)
K = torch.randn(1, 2, 4, 8)
## ๐ Q์ K์ ๋ด์ *์ ์* RoPE ์ ์ฉ
Q_rope = torch.stack([apply_rope(Q[0,0,p], p) for p in range(Q.size(2))])
K_rope = torch.stack([apply_rope(K[0,0,p], p) for p in range(K.size(2))])
scores = (Q_rope @ K_rope.T) / math.sqrt(Q.size(-1))
attn_weights = torch.softmax(scores, dim=-1)์ด ์ฝ๋๊ฐ ๋ณต์กํด ๋ณด์ผ ์ ์์ผ๋ฏ๋ก ๊ตฌ์ฒด์ ์ธ ์์๋ก ๋ถ์ํด๋ณด์. ๋ฌธ์ฅ โThe quick brown foxโ์์ ๋จ์ด โfoxโ๋ฅผ ๊ณ ๋ คํด๋ณด์. ์ฐ๋ฆฌ์ ๊ธฐ์ค 1B ๋ชจ๋ธ์์, ๊ฐ ์ดํ ์ ํค๋๋ 64์ฐจ์ ์ฟผ๋ฆฌ/ํค ๋ฒกํฐ๋ก ์์ ํ๋ค. RoPE๋ ์ด ๋ฒกํฐ๋ฅผ 32์์ผ๋ก ๊ทธ๋ฃนํํ๋ค: (x1,x2), (x3, x4), (x5, x6) ๋ฑ์ด๋ค. ์ฐ๋ฆฌ๋ 2D ๊ณต๊ฐ์์ ์์ ์ค์ฌ์ผ๋ก ํ์ ํ๊ธฐ ๋๋ฌธ์ ์์ผ๋ก ๋ค๋ฃจ๋ ๊ฒ์ด๋ค ๋จ์ํ๋ฅผ ์ํด, ์ฒซ ๋ฒ์งธ ์ (x1,x2) ์ ์ด์ ์ ๋ง์ถฐ ๋ณด์. ๋จ์ด โfoxโ๋ ์ฐ๋ฆฌ ๋ฌธ์ฅ์์ ์์น 3์ ๋ํ๋๋ฏ๋ก, RoPE๋ ์ด ์ฒซ ๋ฒ์งธ ์ฐจ์ ์์ ๋ค์์ผ๋ก ํ์ ์ํฌ ๊ฒ์ด๋ค:
rotation_angle = position ร ฮธโ
= 3 ร (1/10000^(0/32))
= 3 ร 1.0
= 3.0 radians
= 172ยฐ degrees์ฐ๋ฆฌ์ ๊ธฐ๋ณธ ์ฃผํ์๋ 10000์ด์ง๋ง, ์ฒซ ๋ฒ์งธ ์ฐจ์ ์ (k=0)์ ๊ฒฝ์ฐ ์ฐ๋ฆฌ์ ์ง์๋ 0์ด๋ฏ๋ก ๊ธฐ๋ณธ ์ฃผํ์๋ ๊ณ์ฐ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค (์ฐ๋ฆฌ๋ 0์ ๊ณฑ์ ํ๋ค). ์๋ ์๊ฐํ๋ ์ด๊ฒ์ ๋ณด์ฌ์ค๋ค:

์ด์ ๋ ํ ํฐ์ด ์ดํ ์ ์ ํตํด ์ํธ ์์ฉํ ๋ ๋ง๋ฒ์ด ๋ฐ์ํ๋ค. ๊ทธ๋ค์ ํ์ ๋ ํํ ๊ฐ์ ๋ด์ ์ ๊ทธ๋ค์ ํ์ ๊ฐ๋ ๊ฐ์ ์์์ฐจ๋ฅผ ํตํด ๊ทธ๋ค์ ์๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ง์ ์ธ์ฝ๋ฉํ๊ฒ ๋๋ค. (์ฌ๊ธฐ์ m ๊ณผ n์ ํ ํฐ ์์น์ด๋ค)
dot_product(RoPE(x, m), RoPE(y, n)) = ฮฃโ [xโ * yโ * cos((m-n) * ฮธโ)]
์ดํ ์ ํจํด์ (m - n)์๋ง ์์กดํ๋ฏ๋ก, 5 ์์น ๋จ์ด์ง ํ ํฐ์ ์ํ์ค ๋ด ๊ทธ๋ค์ ์ ๋ ์์น์ ๊ด๊ณ์์ด ํญ์ ๋์ผํ ๊ฐ๋ ๊ด๊ณ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ํ์ค ๋ด ์ด๋ ์ ๋ ์์น์์๋ ์๋ํ๊ณ ๋ ๊ธด ์ํ์ค๋กย ์ถ์ ํ ์ ์๋ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ํจํด์ ํ์ตํ๊ฒ ๋๋ค.
RoPE ์ฃผํ์๋ฅผ ์ค์ ํ๋ ๋ฐฉ๋ฒ?
์ค์ ์ํฉ์์๋, ๋๋ถ๋ถ์ LLM ์ฌ์ ํ์ต์ 10K ๋๋ 50K์ ๊ฐ์ ์๋ง ๋จ์์ RoPE ๊ธฐ๋ณธ ์ฃผํ์๋ฅผ ์ฌ์ฉํ์ฌ ์๋์ ์ผ๋ก ์งง์ ์ปจํ ์คํธ ๊ธธ์ด (2K-4K ํ ํฐ)๋ก ์์ํ๋ค. ์ฒ์๋ถํฐ ๋งค์ฐ ๊ธด ์ํ์ค๋ก ํ์ตํ๋ ๊ฒ์ ์ดํ ์ ์ ์ํ์ค ๊ธธ์ด์ ๋ํ 2์ฐจ ํ์ฅ๊ณผ ์ด์ ์ ๋ฌธ์ ๋ง์คํน ์น์ ์์ ๋ณด์๋ฏ์ด ๊ธด ์ปจํ ์คํธ ๋ฐ์ดํฐ (4K ์ด์์ ์ํ)์ ์ ํ๋ ๊ฐ์ฉ์ฑ์ผ๋ก ์ธํด ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค ๊ฒ์ด๋ค. ์ฐ๊ตฌ๋ ๋ํ ์งง์ ์ปจํ ์คํธ ์ฑ๋ฅ์ ํด์น ์ ์์์ ์์ฌํ๋ค (Zhu et al., 2025). ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ๋จ์ด ๊ฐ์ ๋จ๊ฑฐ๋ฆฌ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ์ผ๋ก ์์ํ๋ฏ๋ก ๊ธด ์ํ์ค๋ ํฌ๊ฒ ๋์์ด ๋์ง ์๋๋ค. ์ผ๋ฐ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ๋ ์งง์ ์ํ์ค๋ก ๋๋ถ๋ถ์ ์ฌ์ ํ์ต์ ์ํํ ๋ค์, ์ง์์ ์ธ ์ฌ์ ํ์ต์ ํ๊ฑฐ๋ ์ต์ข ์์ฒ์ต ํ ํฐ์ ๋ ๊ธด ์ํ์ค์ ์๋นํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ํ์ค ๊ธธ์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ, ํ ํฐ ์์น์ ๋น๋กํ๋ ํ์ ๊ฐ๋๊ฐ ์ฆ๊ฐํ๊ณ , ์ด๋ ๋จผ ํ ํฐ์ ๋ํ ์ดํ ์ ์ ์๊ฐ ๋๋ฌด ๋น ๋ฅด๊ฒ ๊ฐ์ ํ๋๋ก ์ ๋ฐํ ์ ์๋ค (Roziรจre et al., 2024; Xiong et al., 2023):
ฮธ = position x 1 / (base^(k/(dim/2)))
ํด๊ฒฐ์ฑ ์ ABF ๋ฐ YaRN๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ํ์ค ๊ธธ์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ธฐ๋ณธ ์ฃผํ์๋ฅผ ์ฆ๊ฐ์์ผ ๊ทธ๋ฌํ ๊ฐ์ ๋ฅผ ๋ฐฉ์งํ๋ ๊ฒ์ด๋ค.
RoPE ABF (RoPE with Adjusted Base Frequency)ย (Xiong et al., 2023b): RoPE ๊ณต์์์ ๊ธฐ๋ณธ ์ฃผํ์๋ฅผ ์ฆ๊ฐ์์ผ ๊ธด ์ปจํ ์คํธ์์์ ์ดํ ์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ด ์กฐ์ ์ ํ ํฐ ์์น ๊ฐ์ ํ์ ๊ฐ๋๋ฅผ ๋ฆ์ถ์ด ๋จผ ํ ํฐ์ ์ดํ ์ ์ ์๊ฐ ๋๋ฌด ๋น ๋ฅด๊ฒ ๊ฐ์ ํ๋ ๊ฒ์ ๋ฐฉ์งํ๋ค. ABF๋ ๋จ์ผ ๋จ๊ณ (์ง์ ์ ์ธ ์ฃผํ์ ๋ถ์คํธ) ๋๋ ๋ค๋จ๊ณ (์ปจํ ์คํธ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ ์ง์ ์ฆ๊ฐ)๋ก ์ ์ฉ๋ ์ ์๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ตฌํ์ด ๊ฐ๋จํ๋ฉฐ, ์๋ฒ ๋๋ ๋ฒกํฐ๋ฅผ ์ฆ๊ฐ๋ ์ธ๋ถ์ฑ์ผ๋ก ๋ถ์ฐ์์ผ ๋ชจ๋ธ์ด ๋จผ ์์น๋ฅผ ๋ ์ฝ๊ฒ ๊ตฌ๋ณํ ์ ์๋๋ก ํ๋ค. ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ด์ง๋ง, ABF์ ๋ชจ๋ ์ฐจ์์ ๊ฑธ์น ๊ท ์ผํ ์ค์ผ์ผ๋ง์ ๊ทน๋๋ก ๊ธด ์ปจํ ์คํธ์๋ ์ต์ ์ด ์๋ ์ ์๋ค.
YaRN (Yet another RoPE extensioN)ย (Peng et al., 2023): ๋จํ ๋๋ ์ค์ผ์ผ๋ง ํจ์๋ฅผ ์ฌ์ฉํ์ฌ RoPE ์ฐจ์์ ๊ฑธ์ณ ์ฃผํ์๋ฅผ ๋ถ๊ท ์ผํ๊ฒ ๋ณด๊ฐํ๋ ๋ ์ ๊ตํ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค. ABF์ ๊ท ์ผํ ์กฐ์ ๊ณผ ๋ฌ๋ฆฌ, YaRN์ ๋ค๋ฅธ ์ฃผํ์ ๊ตฌ์ฑ ์์์ ๋ค๋ฅธ ์ค์ผ์ผ๋ง ๊ณ์๋ฅผ ์ ์ฉํ์ฌ ํ์ฅ๋ ์ปจํ ์คํธ ์ฐฝ์ ์ต์ ํํ๋ค. ์ด๋ ๋์ ์ดํ ์ ์ค์ผ์ผ๋ง ๋ฐ ์ดํ ์ ๋ก์ง์์์ ์จ๋ ์กฐ์ ๊ณผ ๊ฐ์ ์ถ๊ฐ ๊ธฐ์ ์ ํฌํจํ๋ฉฐ, ์ด๋ ๋งค์ฐ ํฐ ์ปจํ ์คํธ ํฌ๊ธฐ์์ ์ฑ๋ฅ์ ๋ณด์กดํ๋ ๋ฐ ๋์์ด ๋๋ค. YaRN์ ๊ฐ๋ ฅํ ์ถ์ ์ ์ํด ๋ ์ ์ ํ ํฐ๊ณผ ๋ ์ ์ ํ์ธ ํ๋์ ์๊ตฌํ๋ ํจ์จ์ ์ธ โ์งง๊ฒ ํ์ตํ๊ณ ๊ธธ๊ฒ ํ ์คํธํ๋โ ์ ๋ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ABF๋ณด๋ค ๋ ๋ณต์กํ์ง๋ง, YaRN์ ์ผ๋ฐ์ ์ผ๋ก ๋ ๋ถ๋๋ฌ์ด ์ค์ผ์ผ๋ง์ ์ ๊ณตํ๊ณ ์น๋ช ์ ์ธ ์ดํ ์ ์์ค์ ์ํํจ์ผ๋ก์จ ๊ทน๋๋ก ๊ธด ์ปจํ ์คํธ์ ๋ํด ๋ ๋์ ๊ฒฝํ์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค. ์ด๋ ํ์ธ ํ๋ ์์ด๋ ์ถ๋ก ๋จ๋ ์ผ๋ก ํ์ฉ๋ ์๋ ์๋ค.
์ด๋ฌํ ์ฃผํ์ ์กฐ์ ๋ฐฉ๋ฒ๋ค์ ์ดํ ์ ์ ์ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ฆ์ถ๊ณ ๋จผ ํ ํฐ์ ๊ธฐ์ฌ๋ฅผ ์ ์งํ๋ค. ์๋ฅผ ๋ค์ด, Qwen3์ ํ์ต์ ์ํ์ค ๊ธธ์ด๊ฐ 4k ์ปจํ ์คํธ์์ 32k๋ก ํ์ฅ๋จ์ ๋ฐ๋ผ ABF๋ฅผ ์ฌ์ฉํ์ฌ ์ฃผํ์๋ฅผ 10k์์ 1M์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ ํฌํจํ๋ค (ํ์ ๊ทธ ํ YaRN์ ์ ์ฉํ์ฌ 131k, 4๋ฐฐ ์ถ์ ์ ๋๋ฌํ๋ค). ์ต์ ๊ฐ์ ๋ํ ๊ฐ๋ ฅํ ํฉ์๋ ์์ผ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์ปจํ ์คํธ ํ์ฅ ๋จ๊ณ์์ ๋ค๋ฅธ RoPE ๊ฐ์ ์คํํ์ฌ ํน์ ์ค์ ๋ฐ ํ๊ฐ ๋ฒค์น๋งํฌ์ ๊ฐ์ฅ ์ ํฉํ ๊ฒ์ ์ฐพ๋ ๊ฒ์ด ์ข๋ค.
์ค๋๋ ๋๋ถ๋ถ์ ์ฃผ์ ๋ชจ๋ธ์ RoPE๋ฅผ ์ฌ์ฉํ๋ค: Llama, Qwen, Gemma, ๊ทธ๋ฆฌ๊ณ ๋ค๋ฅธ ๋ง์ ๋ชจ๋ธ๋ค์ด ๊ทธ๋ ๋ค. ์ด ๊ธฐ์ ์ ๋ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ํคํ ์ฒ (๋ฐ์งํ, MoE, ํ์ด๋ธ๋ฆฌ๋)์ ๊ฑธ์ณ Robust ํ๋ค๋ ๊ฒ์ด ์ ์ฆ๋์๋ค. ์ต๊ทผ์ ๋ํ๋ ๋ช ๊ฐ์ง RoPE ๋ณํ์ ๋ ์ดํด๋ณด์.
ํ์ด๋ธ๋ฆฌ๋ ์์น ์ธ์ฝ๋ฉ ์ ๊ทผ ๋ฐฉ์
๋ชจ๋ธ์ด ์ ์ ๋ ํฐ ์ปจํ ์คํธ๋ก ๋์๊ฐ์ ๋ฐ๋ผ (Meta AI, 2025; Yang et al., 2025), RoPE์กฐ์ฐจ๋ ์ฑ๋ฅ ๋ฌธ์ ์ ๋ถ๋ชํ๊ธฐ ์์ํ๋ค. ๊ธด ์ปจํ ์คํธ ํ์ฅ ์ค RoPE์ ์ฃผํ์๋ฅผ ์ฆ๊ฐ์ํค๋ ํ์ค ์ ๊ทผ ๋ฐฉ์์ Needle in the Haystack (NIAH) (Kamradt, 2023)๋ณด๋ค ๋ ๋์ ์ ์ธ Ruler ๋ฐ HELMET (Hsieh et al., 2024; Yen et al., 2025)๊ณผ ๊ฐ์ ๊ธด ์ปจํ ์คํธ ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋ ๋ ํ๊ณ๊ฐ ์๋ค. ์ฌ๊ธฐ์ ๋์์ด ๋๋ ์๋ก์ด ๊ธฐ์ ๋ค์ด ๋์ ๋์๋ค.
์ฐ๋ฆฌ๋ ํธ๋์คํฌ๋จธ๊ฐ ํ ํฐ ์์๋ฅผ ์ดํดํ๊ธฐ ์ํด ์์น ์ ๋ณด๊ฐ ํ์ํ๋ค๊ณ ๋งํจ์ผ๋ก์จ ์ด ์น์ ์ ์์ํ์ง๋ง, ์ต๊ทผ ์ฐ๊ตฌ๋ ์ด ๊ฐ์ ์ ๋์ ํ๊ณ ์๋ค. ๋ช ์์ ์ธ ์์น ์ธ์ฝ๋ฉ์ด ๊ฒฐ๊ตญ ํ์ํ์ง ์๋ค๋ฉด ์ด๋จ๊น?
NoPE (No Position Embedding)ย (Kazemnejad et al., 2023)๋ ๋ช ์์ ์ธ ์์น ์ธ์ฝ๋ฉ ์์ด ํธ๋์คํฌ๋จธ๋ฅผ ํ์ต์์ผ, ๋ชจ๋ธ์ด ์ธ๊ณผ์ ๋ง์คํน ๋ฐ ์ดํ ์ ํจํด์ ํตํด ์์น ์ ๋ณด๋ฅผ ์์์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํ๋ค. ์ ์๋ค์ ์ด ์ ๊ทผ ๋ฐฉ์์ด ALiBi ๋ฐ RoPE์ ๋นํด ๋ ๋์ ๊ธธ์ด ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ํ์ต ๊ธธ์ด๋ฅผ ๋์ด ์ธ์ฝ(extrapolate) ํ๊ธฐ ์ํ ๋ช ์์ ์ธ ์์น ์ธ์ฝ๋ฉ ์์ด, NoPE๋ ์์ฐ์ค๋ฝ๊ฒ ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ค. ํ์ง๋ง ์ค์ ๋ก๋, NoPE ๋ชจ๋ธ์ RoPE์ ๋นํด ์งง์ ์ปจํ ์คํธ ์ถ๋ก ๋ฐ ์ง์ ์์ ์์ ๋ ์ฝํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์๋ค (Yang et al.). ์ด๊ฒ์ ๋ช ์์ ์ธ ์์น ์ธ์ฝ๋ฉ์ด ์ธ์ฝ์ ์ ํํ ์ ์์ง๋ง, ํ์ต ์ปจํ ์คํธ ๊ธธ์ด ๋ด์ ์์ ์ ์ ์ฉํ ๊ท๋ฉ์ ํธํฅ์ ์ ๊ณตํจ์ ์์ฌํ๋ค.
RNoPE ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์:ย ์ด๋ฌํ ์ฅ๋จ์ ์ ๊ณ ๋ คํ ๋; B. Yang et al. (2025)์ ๋ค๋ฅธ ์์น ์ธ์ฝ๋ฉ ์ ๋ต์ ๊ฒฐํฉํ๋ ๊ฒ์ด ํฅ๋ฏธ๋ก์ธ ์ ์๋ค๊ณ ์ ์ํ๋ค. ๊ทธ๋ค์ ๋ชจ๋ธ ์ ์ฒด์ ๊ฑธ์ณ RoPE ๋ ์ด์ด์ NoPE ๋ ์ด์ด๋ฅผ ๋ฒ๊ฐ์ ์ฌ์ฉํ๋ RNoPE๋ฅผ ๋์ ํ๋ค. RoPE ๋ ์ด์ด๋ ๋ช ์์ ์ธ ์์น ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ ์ต๊ทผ์ฑ ํธํฅ์ ๊ฐ์ง ๋ก์ปฌ ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ๋ฉด, NoPE ๋ ์ด์ด๋ ๊ธด ๊ฑฐ๋ฆฌ์ ๊ฑธ์น ์ ๋ณด ๊ฒ์์ ๊ฐ์ ํ๋ค. ์ด ๊ธฐ์ ์ ์ต๊ทผ Llama4, Command A ๋ฐ SmolLM3์์ ์ฌ์ฉ๋์๋ค.
๐๋ช ๋ช ๊ท์น
๋๋จธ์ง ์ด ๋ธ๋ก๊ทธ์์๋ ๋จ์ํ๋ฅผ ์ํด RNoPE๋ฅผ โNoPEโ๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. (๋น์ ์ ํ ๋ก ์์ ์ฌ๋๋ค์ด RNoPE๋ฅผ ์๋ฏธํ๊ธฐ ์ํด โNoPEโ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ข ์ข ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค).
์ ๊ฑฐ ์คํ - NoPE๋ ์งง์ ์ปจํ ์คํธ์์ RoPE์ ์ผ์นํ๋ค
ํ์ด๋ธ๋ฆฌ๋ NoPE ์ ๊ทผ ๋ฐฉ์์ ํ ์คํธํ๋ค. ์ฐ๋ฆฌ๋ ์์ RoPE 1B ์ ๊ฑฐ ์คํ ๊ธฐ์ค์ ๊ณผ 4๋ฒ์งธ ๋ ์ด์ด๋ง๋ค ์์น ์ธ์ฝ๋ฉ์ ์ ๊ฑฐํ๋ NoPE ๋ณํ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ๊ธฐ์ ๊ฐ์ ์ํธ ์์ฉ์ ํ ์คํธํ๊ธฐ ์ํด NoPE์ ๋ฌธ์ ๋ง์คํน์ ๊ฒฐํฉํ ์ธ ๋ฒ์งธ ์ค์ ์ ๋น๊ตํ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ์ ๊ธฐ๋ณธ ์ง๋ฌธ์ ๋ค์๊ณผ ๊ฐ๋ค: ๋ ๋์ ๊ธด ์ปจํ ์คํธ ๊ธฐ๋ฅ์ ์ป์ผ๋ฉด์ ๊ฐ๋ ฅํ ์งง์ ์ปจํ ์คํธ ์ฑ๋ฅ์ ์ ์งํ ์ ์๋๊ฐ?


์์ค ๋ฐ ํ๊ฐ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ๋ชจ๋์์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, NoPE๊ฐ ๋ ๋์ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ๋ฅผ ์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ๋์์ ๊ฐ๋ ฅํ ์งง์ ์ปจํ ์คํธ ๊ธฐ๋ฅ์ ์ ์งํจ์ ๋ํ๋ธ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ์ฐ๋ฆฌ๋ SmolLM3์ย NoPE + ๋ฌธ์ ๋ง์คํนย ์กฐํฉ์ ์ฑํํ๋ค.
Partial/Fractional RoPE:ย ๋ ๋ค๋ฅธ ๋ณด์์ ์ธ ์์ด๋์ด๋ ๋ชจ๋ธ ์ฐจ์์ ์ผ๋ถ์๋ง RoPE๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด๋ค. ์ ์ฒด ๋ ์ด์ด๋ฅผ RoPE์ NoPE ์ฌ์ด์ ๋ฒ๊ฐ์ ์ฌ์ฉํ๋ RNoPE์ ๋ฌ๋ฆฌ, Partial RoPE๋ ๋์ผํ ๋ ์ด์ด ๋ด์์ ๊ทธ๊ฒ๋ค์ ํผํฉํ๋ค. GLMโ4.5 (5 Team et al., 2025) ๋๋ Minimax-01 (MiniMax et al., 2025)๊ณผ ๊ฐ์ ์ต๊ทผ ๋ชจ๋ธ๋ค์ด ์ด ์ ๋ต์ ์ฑํํ์ง๋ง, ์ด๊ฒ์ gpt-j (Wang & Komatsuzaki, 2021)์ ๊ฐ์ ๋ ์ค๋๋ ๋ชจ๋ธ์๋ ์กด์ฌํ๋ค. ํฉ๋ฆฌ์ ์ธ ์ถ๋ก ๋น์ฉ์ ๊ฐ๊ธฐ ์ํด ํ์์ ์ด๊ธฐ ๋๋ฌธ์ MLA๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ ๋ชจ๋ธ์์ ์ด๊ฒ์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
๐ง๊ธฐ์ ์ ์ค๋ช : Partial RoPE๊ฐ MLA์ ํ์์ ์ธ ์ด์
MLA๋ ํฌ์ ํก์(projection absorption)๋ก ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ๋ง๋ ๋ค: ํค๋๋ณ ํค ๋ฅผ ์ ์ฅํ๋ ๋์ , ์์ ๊ณต์ latent ๋ฅผ ์บ์ํ๊ณ ํค๋์ ์ฟผ๋ฆฌ/ํค ๋งต์ ๋ณํฉํ์ฌ ๊ฐ ์ ์๊ฐ ์ ๋ ดํด์ง๋๋ก ํ๋ค. ๋ฐ ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฅผ ์ ์ํ๋ฉด ๋ค์์ ์ป๋๋ค:
๋ฐ๋ผ์ ์์ ์บ์ ์ ๋ํด ๋ก ๊ณ์ฐํ ์ ์๋ค (ํค๋๋ณ k ๋ ์ ์ฅ๋์ง ์์). ํ์ง๋ง RoPE๋ ๋ ๋งต ์ฌ์ด์ ์ ์์กด์ ํ์ ์ ์ฝ์ ํ๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ ๊นจ๋จ๋ฆฐ๋ค: ์ ์ฒด ์ฐจ์ RoPE๋ฅผ ์ฌ์ฉํ๋ฉด,
์ธ๋ฐ, ๊ฐ t-i ์ ์์กดํ๋ค. ๋ฐ๋ผ์ ์ ๋ฅผ ๊ณ ์ ๋ ๋ก ๋ฏธ๋ฆฌ ๋ณํฉํ ์ ์๋ค. ํด๊ฒฐ์ฑ ์ด Partial RoPE์ด๋ค. ํค๋ ์ฐจ์ ๋ฅผ ๋ถํ ํ๊ณ , ํฐ ๋ธ๋ก์๋ ํ์ ์ ์ ์ฉํ์ง ์๊ณ (์ด์ ๊ณผ ๊ฐ์ด ํก์: ) ์์ ๋ธ๋ก์๋ง RoPE๋ฅผ ์ ์ฉํ๋ค.
๊ธด ์ปจํ ์คํธ์ ๋ํ ์ดํ ์ ๋ฒ์ ์ ํ
์ง๊ธ๊น์ง ์ฐ๋ฆฌ๋ ๊ธด ์ปจํ ์คํธ์ ๋ํ ์์น ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ: RoPE ํ์ฑํ, ๋นํ์ฑํ (NoPE), ์ผ๋ถ ๋ ์ด์ด์ ๋ถ๋ถ์ ์ผ๋ก ์ ์ฉ (RNoPE) ๋๋ ์ผ๋ถ ์๋ ์ฐจ์์ ์ ์ฉ (Partial RoPE), ๋๋ ๊ทธ ์ฃผํ์ ์กฐ์ (ABF, YaRN)์ ํ์ํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์๋ค์ ๋ชจ๋ธ์ด ํ์ต ์ค์ ๋ณธ ๊ฒ๋ณด๋ค ๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์์น๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐฉ์์ ์์ ํ๋ค. ๊ทธ๋ฌ๋ ๋ณด์์ ์ธ ์ ๋ต์ด ์๋ค: ์์น ์ธ์ฝ๋ฉ์ ์กฐ์ ํ๋ ๋์ , ์๋ก์๊ฒ ์ดํ ์ ํ๋ ํ ํฐ์ ์ ํํ ์ ์๋ค.
์ด๊ฒ์ด ์ ์ค์ํ์ง ๋ณด๊ธฐ ์ํด, 8๊ฐ์ ํ ํฐ ์ํ์ค๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ณ ๋ คํด๋ณด์. ์ถ๋ก ์, ์ฐ๋ฆฌ๋ 16๊ฐ์ ํ ํฐ์ ์ฒ๋ฆฌํ๊ณ ์ ํ๋ค (ํ์ต ๊ธธ์ด๋ณด๋ค ๊ธธ๋ค). ์์น 8-15๋ ๋ชจ๋ธ์ ์์น ์ธ์ฝ๋ฉ์ ๋ํด ๋ถํฌ๋ฅผ ๋ฒ์ด๋๋ค. RoPE ABF์ ๊ฐ์ ๊ธฐ์ ์ด ์์น ์ฃผํ์๋ฅผ ์กฐ์ ํ์ฌ ์ด๋ฅผ ํด๊ฒฐํ๋ ๋ฐ๋ฉด, ์ดํ ์ ๋ฒ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค: ๊ทธ๋ค์ ์ ๋ต์ ์ผ๋ก ์๋ก์๊ฒ ์ดํ ์ ํ ์ ์๋ ํ ํฐ์ ์ ํํ์ฌ, ์ ์ฒด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ฉด์๋ ์ดํ ์ ํจํด์ ์ต์ํ ๋ฒ์ ๋ด๋ก ์ ์งํ๋ค. ์ด๊ฒ์ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ์ ๋ชจ๋ ์ค์ธ๋ค. ์๋ ๋ค์ด์ด๊ทธ๋จ์ 8์ ์ฌ์ ํ์ต ์ฐฝ์ ๊ฐ์ง ์ฐ๋ฆฌ์ 16 ํ ํฐ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ค์ฏ ๊ฐ์ง ์ ๋ต์ ๋น๊ตํ๋ค:


**์ฒญํฌํ ์ดํ ์ (Chunked Attention)**์ ์ํ์ค๋ฅผ ๊ณ ์ ํฌ๊ธฐ ์ฒญํฌ๋ก ๋๋๋ฉฐ, ํ ํฐ์ ๊ทธ๋ค์ ์ฒญํฌ ๋ด์์๋ง ์ดํ ์ ํ ์ ์๋ค. ์ฐ๋ฆฌ ์์์์, 16๊ฐ์ ํ ํฐ์ ๋ ๊ฐ์ 8 ํ ํฐ ์ฒญํฌ (0์์ 7, 8์์ 15)๋ก ๋ถํ ๋๋ฉฐ, ๊ฐ ํ ํฐ์ ์์ ์ ์ฒญํฌ ๋ด์ ๋ค๋ฅธ ํ ํฐ๋ง ๋ณผ ์ ์๋ค. ํ ํฐ 8์์ 15๊ฐ ์ด์ ์ฒญํฌ์ ์ ํ ์ดํ ์ ํ ์ ์์์ ์ฃผ๋ชฉํ๋ค. ์ด๊ฒ์ ์ฒญํฌ ๊ฒฝ๊ณ์์ ์ฌ์ค์ ๋๋ ๊ณ ๋ฆฝ๋ ์ดํ ์ ์ฐฝ์ ๋ง๋ ๋ค. Llama 4 (Meta AI, 2025)๋ RoPE ๋ ์ด์ด (4๊ฐ์ ๋์ฝ๋ ๋ ์ด์ด ์ค 3๊ฐ)์์ 8192 ํ ํฐ ์ฒญํฌ๋ก ์ฒญํฌํ ์ดํ ์ ์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด, NoPE ๋ ์ด์ด๋ ์ ์ฒด ์ปจํ ์คํธ ์ ๊ทผ์ ์ ์งํ๋ค. ์ด๊ฒ์ ๋ ์ด์ด๋น KV ์บ์ ํฌ๊ธฐ๋ฅผ ์ ํํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ์ ์ค์ด์ง๋ง, ํ ํฐ์ด ์ด์ ์ฒญํฌ์ ์ดํ ์ ํ ์ ์์์ ์๋ฏธํ๋ฉฐ, ์ด๋ ์ผ๋ถ ๊ธด ์ปจํ ์คํธ ์์ ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.

**์ฌ๋ผ์ด๋ฉ ์ฐฝ ์ดํ ์ (Sliding Window Attention, SWA)**์ Mistral 7B (Child et al., 2019; Jiang et al., 2023)์ ์ํด ๋์คํ๋์์ผ๋ฉฐ, ๊ฐ์ฅ ์ต๊ทผ ํ ํฐ์ด ๊ฐ์ฅ ๊ด๋ จ์ฑ์ด ๋๋ค๋ ์ง๊ด์ ๊ธฐ๋ฐ์ผ๋ก ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค. ํ๋ ์ฒญํฌ ๊ฒฝ๊ณ ๋์ , ๊ฐ ํ ํฐ์ ๊ฐ์ฅ ์ต๊ทผ N๊ฐ์ ํ ํฐ์๋ง ์ดํ ์ ํ๋ค. ๋ค์ด์ด๊ทธ๋จ์์, ๋ชจ๋ ํ ํฐ์ 8๊ฐ ์์น ๋ค๊น์ง ๋ณผ ์ ์์ผ๋ฉฐ, ์ํ์ค ์ ์ฒด์ ๊ฑธ์ณ ์ฐ์์ ์ผ๋ก ์ด๋ํ๋ ์ฌ๋ผ์ด๋ฉ ์ฐฝ์ ๋ง๋ ๋ค. ํ ํฐ 15๋ ์์น 8์์ 15๊น์ง ์ดํ ์ ํ ์ ์๋ ๋ฐ๋ฉด, ํ ํฐ 10์ ์์น 3์์ 10๊น์ง ์ดํ ์ ํ๋ค. ์ฐฝ์ ์์ผ๋ก ๋ฏธ๋๋ฌ์ง๋ฉฐ, ์ฒญํน์ ์ธ๊ณต์ ์ธ ์ฅ๋ฒฝ ์์ด ์ ์ฒด ์ํ์ค์ ๊ฑธ์ณ ๋ก์ปฌ ์ปจํ ์คํธ๋ฅผ ์ ์งํ๋ค. Gemma 3์ ํ์ด๋ธ๋ฆฌ๋ ์์น ์ธ์ฝ๋ฉ ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฅธ ์ ๋ต์ ํผํฉํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ, SWA๋ฅผ ์ ์ฒด ์ดํ ์ ๊ณผ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ์ฌ์ฉํ๋ค.

๋์ผ ์ฒญํฌ ์ดํ ์ (Dual Chunk Attention, DCA)ย (An et al., 2024)์ ์ฒญํฌ ๊ฐ ์ ๋ณด ํ๋ฆ์ ์ ์งํ๋ฉด์ ์ฒญํฌํ ์ดํ ์ ์ ํ์ฅํ๋ ํ์ต ์๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐ๋ฆฌ ์์์์, ์ฐ๋ฆฌ๋ ์ฒญํฌ ํฌ๊ธฐ s=4 ๋ฅผ ์ฌ์ฉํ๋ฉฐ, 16๊ฐ์ ํ ํฐ์ 4๊ฐ์ ์ฒญํฌ๋ก ๋๋๋ค (๋๊ฐ์ ์ ๋ฐ๋ผ 4x4 ์ฌ๊ฐํ์ ์๊ฐํํ๋ค). DCA๋ ์ธ ๊ฐ์ง ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํ๋ค: (1) ํ ํฐ์ด ๊ทธ๋ค์ ์ฒญํฌ ๋ด์์ ์ ์์ ์ผ๋ก ์ดํ ์ ํ๋ ์ฒญํฌ ๋ด ์ดํ ์ (๋๊ฐ์ ํจํด). (2) ์ฟผ๋ฆฌ๊ฐ ์ด์ ์ฒญํฌ์ ์ดํ ์ ํ๊ธฐ ์ํด ์์น ์ธ๋ฑ์ค cโ1=7 ์ ์ฌ์ฉ, ์๋ ์์น๋ 7๋ก ์ ํ๋๋ ์ฒญํฌ ๊ฐ ์ดํ ์ (3) ์ด์ ์ฒญํฌ ๊ฐ์ ์ง์ญ์ฑ์ ๋ณด์กดํ๋ ๋ก์ปฌ ์ฐฝ w=3 ์ ๊ฐ์ง ์ฐ์ ์ฒญํฌ ์ดํ ์ . ์ด๊ฒ์ ๋ชจ๋ ์๋ ์์น๋ฅผ ํ์ต ๋ถํฌ (0์์ 7) ๋ด๋ก ์ ์งํ๋ฉด์ ์ฒญํฌ ๊ฒฝ๊ณ ์ ๋ฐ์ ๊ฑธ์ณ ๋ถ๋๋ฌ์ด ์ ํ์ ์ ์งํ๋ค. DCA๋ Qwen2.5์ ๊ฐ์ ๋ชจ๋ธ์ด ๋ฐฑ๋ง ํ ํฐ ์ํ์ค์ ๋ํ ์ง์์ ์ธ ํ์ต์ ์๊ตฌํ์ง ์๊ณ ๋ ์ถ๋ก ์ ์ต๋ 100๋ง ํ ํฐ์ ์ด์ฅ๊ธฐ ์ปจํ ์คํธ ์ฐฝ์ ์ง์ํ ์ ์๋๋ก ๋ง๋ค์๋ค.
๐์ดํ ์ ์ฑํฌ
ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ๊ธด ์ปจํ ์คํธ๋ก ํฅ๋ฏธ๋ก์ด ํ์์ด ๋ํ๋๋ค: ๋ชจ๋ธ์ ์๋ฏธ๋ก ์ ์ผ๋ก ์ค์ํ์ง ์์ ๊ฒฝ์ฐ์๋ ์ํ์ค์ ์ด๊ธฐ ํ ํฐ์ ๋น์ ์์ ์ผ๋ก ๋์ ์ดํ ์ ์ ์๋ฅผ ํ ๋นํ๋ค. ์ด ๋์์ **์ดํ ์ ์ฑํฌ(attention sinks)**๋ผ๊ณ ๋ถ๋ฅธ๋ค (Xiao et al.). ์ด ์ด๊ธฐ ํ ํฐ์ ์ดํ ์ ๋ถํฌ์ ๋ํ ์์ ํ ๋ฉ์ปค๋์ฆ ์ญํ ์ ํ๋ฉฐ, ์ดํ ์ ์ด ์ถ์ ๋ ์ ์๋ โ์ฑํฌโ ์ญํ ์ ํ๋ค.
์ด๋ก๋ถํฐ์ ์ค์ฉ ์ธก๋ฉด์์์ ํต์ฐฐ์ ์ปจํ ์คํธ๊ฐ ์บ์ ํฌ๊ธฐ๋ฅผ ์ด๊ณผํ ๋, ๊ฐ์ฅ ์ต๊ทผ ํ ํฐ์ ์ฌ๋ผ์ด๋ฉ ์ฐฝ๊ณผ ํจ๊ป ๋จ์ง ์ด๊ธฐ ๋ช ๊ฐ์ ํ ํฐ์ KV ์บ์๋ฅผ ์ ์งํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํ๋ณตํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด ๊ฐ๋จํ ์์ ์ ๋ชจ๋ธ์ด ํ์ธ ํ๋์ด๋ ์ฑ๋ฅ ์ ํ ์์ด ํจ์ฌ ๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ๋ค.
ํ๋์ ์ธ ๊ตฌํ์ ์ดํ ์ ์ฑํฌ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํ์ฉํ๋ค. ์๋ ์ฐ๊ตฌ๋ ๋ช ์์ ์ธ ์ดํ ์ ์ฑํฌ ์ญํ ์ ํ๋ ์ ์ฉ ํ๋ ์ด์คํ๋ ํ ํฐ์ ์ฌ์ ํ์ต ์ค์ ์ถ๊ฐํ ๊ฒ์ ์ ์ํ๋ค. ๋ ์ต๊ทผ์, gpt-oss์ ๊ฐ์ ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ค์ ์ค์ ํ ํฐ ๋์ ์ดํ ์ ์ ์์ ์ถ๊ฐ๋๋ ํ์ต๋ ํค๋๋ณ ํธํฅ ๋ก์ง์ผ๋ก ์ดํ ์ ์ฑํฌ๋ฅผ ๊ตฌํํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํ ํฐํ๋ ์ ๋ ฅ์ ์์ ํ์ง ์๊ณ ๋ ๋์ผํ ์์ ํ ํจ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋, gpt-oss๋ ๋ํ ์ดํ ์ ๋ ์ด์ด ์์ฒด์ ํธํฅ ์ ๋์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ GPT-2 ์ดํ ๊ฑฐ์ ๋ณผ ์ ์๋ ์ค๊ณ ์ ํ์ด๋ค. ์ด๋ฌํ ํธํฅ ์ ๋์ ์ผ๋ฐ์ ์ผ๋ก ํ์ค ์ดํ ์ ์์ ์ ๋ํด ๋ถํ์ํ๋ค๊ณ ๊ฐ์ฃผ๋์ง๋ง (Dehghani et al.์ ๊ฒฝํ์ ๊ฒฐ๊ณผ๋ ํ ์คํธ ์์ค์ ๋ฏธ๋ฏธํ ์ํฅ์ ๋ณด์ฌ์ค๋ค), ์ดํ ์ ์ฑํฌ๋ฅผ ๊ตฌํํ๋ ์ ๋ฌธํ๋ ๊ธฐ๋ฅ์ ์ํํ ์ ์๋ค. ์ฌ๊ธฐ์์ ํต์ฌ ํต์ฐฐ์: ํน์ ํ ํฐ, ํ์ต๋ ํธํฅ, ๋๋ ํค๋๋ณ ๋ก์ง์ผ๋ก ๊ตฌํ๋๋ , ์ดํ ์ ์ฑํฌ๋ ๊ธด ์ปจํ ์คํธ ์๋๋ฆฌ์ค์์ ์ดํ ์ ๋ถํฌ๋ฅผ ์ํ ์์ ์ ์ธ โ์ต์ปคโ๋ฅผ ์ ๊ณตํ์ฌ, ์ปจํ ์คํธ๊ฐ ์์๋ก ๊ธธ์ด์ง๋๋ผ๋ ๋ชจ๋ธ์ด ์ ์ฒด ์ํ์ค์ ๋ํ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์๋๋ก ํ๋ค๋ ๊ฒ์ด๋ค.
์ด์ ์ฐ๋ฆฌ๋ ์ดํ ์ ์ ํต์ฌ ๊ตฌ์ฑ ์์๋ค์ ๋ค๋ฃจ์๋ค: ๋ฉ๋ชจ๋ฆฌ์ ์ปดํจํ ์ ๊ท ํ์ ๋ง์ถ๋ ๋ค๋ฅธ ํค๋ ๊ตฌ์ฑ (MHA, GQA, MLA), ๋ชจ๋ธ์ด ํ ํฐ ์์๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ ์์น ์ธ์ฝ๋ฉ ์ ๋ต (RoPE, NoPE, ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ค์ ๋ณํ), ๊ทธ๋ฆฌ๊ณ ๊ธด ์ปจํ ์คํธ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ฝ๊ฒ ๋ง๋๋ ์ดํ ์ ๋ฒ์ ๊ธฐ์ (์ฌ๋ผ์ด๋ฉ ์ฐฝ, ์ฒญํน, ๊ทธ๋ฆฌ๊ณ ์ดํ ์ ์ฑํฌ)์ด๋ค. ์ฐ๋ฆฌ๋ ๋ํ ์๋ฒ ๋ฉ ๋ ์ด์ด๊ฐ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋๊ณ ์ด๊ธฐํ๋์ด์ผ ํ๋์ง ๊ฒํ ํ๋ค. ์ด๋ฌํ ์ํคํ ์ฒ ์ ํ์ ๋ชจ๋ธ์ด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ ํํํ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
๊ทธ๋ฌ๋ ์ฌ๋ฐ๋ฅธ ์ํคํ ์ฒ๋ฅผ ๊ฐ๋ ๊ฒ์ ์ ์์ ์ ๋ฐ์ ๋ถ๊ณผํ๋ค. ์ ์ค๊ณ๋ ๋ชจ๋ธ์กฐ์ฐจ๋ ํนํ ๋๊ท๋ชจ์์ ํ์ต ๋ถ์์ ์ฑ์ผ๋ก ๊ณ ํต๋ฐ์ ์ ์๋ค. ํ์ต์ ์์ ์ ์ผ๋ก ์ ์งํ๋ ๋ฐ ๋์์ด ๋๋ ๊ธฐ์ ๋ค์ ์ดํด๋ณด์.
์์ ์ฑ ๊ฐ์
์ด์ LLM ์ฌ์ ํ์ต์์ ๊ฐ์ฅ ํฐ ๋์ ๊ณผ์ ์ค ํ๋์ธย ๋ถ์์ ์ฑ์ผ๋ก ๋์ด๊ฐ์. ์ข ์ข ์์ค ๊ธ๋ฑ(loss spikes)์ด๋ ํ์ต ์์ค์ ๊ธ๊ฒฉํ ์ ํ๋ก ๋ํ๋๋ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ๋๊ท๋ชจ์์ ํนํ ํํด์ง๋ค.
์ฐ๋ฆฌ๋ย ํ์ต ๋ง๋ผํคย ์น์ ์์ ๋ค์ํ ์ ํ์ ๊ธ๋ฑ๊ณผ ๊ทธ๊ฒ๋ค์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ๊น์ด ๋ค๋ฃฐ ๊ฒ์ด์ง๋ง (๋ถ๋ ์์์ ์ ๋ฐ๋, ์ตํฐ๋ง์ด์ , ํ์ต๋ฅ ์ ๋ํด ์์ธํ ๋ค๋ฃฌ๋ค), ํน์ ์ํคํ ์ฒ ๋ฐ ํ์ต ๊ธฐ์ ๋ ๋ถ์์ ์ฑ์ ์ค์ด๋ ๋ฐ ๋์์ด ๋ ์ ์์ผ๋ฏ๋ก ์ฌ๊ธฐ์ ์ ์ ๊ทธ๊ฒ๋ค์ ์ดํด๋ณธ๋ค. ์ฐ๋ฆฌ๋ ์์ ์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ต๊ทผ ๋๊ท๋ชจ ํ์ต ์คํ์์ ์ฌ์ฉ๋ ๋ช ๊ฐ์ง ๊ฐ๋จํ ๊ธฐ์ (์: Olmo2 (OLMo et al., 2025) ๋ฐ Qwen3 (A. Yang, Li, et al., 2025))์ ๋ค๋ฃฐ ๊ฒ์ด๋ค:ย Z-์์ค, ์๋ฒ ๋ฉ์์ ๊ฐ์ค์น ๊ฐ์ ์ ๊ฑฐ, ๋ฐ QK-์ ๊ทํ์ด๋ค.
Z-์์ค (Z-loss)
Z-์์ค (Chowdhery et al., 2022)์ ์์ค ํจ์์ ํ๋ํฐ ํญ์ ์ถ๊ฐํ์ฌ ์ต์ข ์ถ๋ ฅ ๋ก์ง์ด ๋๋ฌด ์ปค์ง๋ ๊ฒ์ ๋ฐฉ์งํ๋ ์ ๊ทํ ๊ธฐ์ ์ด๋ค. ์ด ์ ๊ทํ๋ ๋ก์ง์ ๋ํ ์ํํธ๋งฅ์ค์ ๋ถ๋ชจ๊ฐ ํฉ๋ฆฌ์ ์ธ ๋ฒ์ ๋ด์ ๋จธ๋ฌด๋ฅด๋๋ก ์ฅ๋ คํ๋ฉฐ, ์ด๋ ํ์ต ์ค ์์น์ ์์ ์ฑ์ ์ ์งํ๋ ๋ฐ ๋์์ด ๋๋ค.


์ฐ๋ฆฌ์ 1B ๋ชจ๋ธ์ ๋ํ ์๋ ์ ๊ฑฐ ์คํ ๊ฒฐ๊ณผ๋ Z-์์ค์ ์ถ๊ฐํ๋ ๊ฒ์ด ํ์ต ์์ค์ด๋ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. SmolLM3์ ๊ฒฝ์ฐ, Z-์์ค ๊ตฌํ์ด ๋์ ์ด ์ฐ๋ฆฌ๊ฐ ํ์ต์ ์์ํ ๋๊น์ง ์ต์ ํํ์ง ๋ชปํ ํ์ต ์ค๋ฒํค๋๋ฅผ ๋ฐ์์์ผฐ๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ตญ ๊ทธ๊ฒ์ ์ฌ์ฉํ์ง ์์๋ค.
์๋ฒ ๋ฉ์์ ๊ฐ์ค์น ๊ฐ์ ์ ๊ฑฐ
๊ฐ์ค์น ๊ฐ์ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ ๊ทํ ๊ธฐ์ ๋ก ๋ชจ๋ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์ ์ฉ๋์ง๋ง, OLMo et al. (2025)์ ์๋ฒ ๋ฉ์ ๊ฐ์ค์น ๊ฐ์ ์์ ์ ์ธํ๋ ๊ฒ์ด ํ์ต ์์ ์ฑ์ ๊ฐ์ ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ ์ด์ ๋ ๊ฐ์ค์น ๊ฐ์ ๊ฐ ํ์ต ์ค์ ์๋ฒ ๋ฉ ๋ ธ๋ฆ์ ์ ์ง์ ์ผ๋ก ๊ฐ์์ํค๋๋ฐ, ์ด๋ ๋ ์ด์ด ์ ๊ทํ์ ์ผ์ฝ๋น ํ๋ ฌ์ด ์ ๋ ฅ ๋ ธ๋ฆ์ ๋ฐ๋น๋กํ๋ฏ๋ก ์ด๊ธฐ ๋ ์ด์ด์์ ๋ ํฐ ๊ธฐ์ธ๊ธฐ(gradients)๋ก ์ด์ด์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค (Takase et al., 2025).
์ฐ๋ฆฌ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ์ ํ์ต์์ผ ์ด ์ ๊ทผ ๋ฐฉ์์ ํ ์คํธํ๋ค: ํ์ค ๊ฐ์ค์น ๊ฐ์ ๋ฅผ ๊ฐ์ง ์ฐ๋ฆฌ์ ๊ธฐ์ค์ , ์๋ฒ ๋ฉ์ ๊ฐ์ค์น ๊ฐ์ ๊ฐ ์๋ ๋ณํ, ๊ทธ๋ฆฌ๊ณ ๊ธฐ์ ๊ฐ์ ๋ถ์ ์ ์ธ ์ํธ ์์ฉ์ด ์๋์ง ํ์ธํ๊ธฐ ์ํด ์ฑํ๋ ๋ชจ๋ ๋ณ๊ฒฝ ์ฌํญ (์๋ฒ ๋ฉ์ ๊ฐ์ค์น ๊ฐ์ ์์ + NoPE + ๋ฌธ์ ๋ง์คํน)์ ๊ฒฐํฉํ ์ธ ๋ฒ์งธ ๊ตฌ์ฑ์ด๋ค. ์์ค ๊ณก์ ๊ณผ ํ๊ฐ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ๋ชจ๋์์ ๊ฑฐ์ ๋์ผํ๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ SmolLM3 ํ์ต์์ 3๊ฐ์ง ๋ณ๊ฒฝ ์ฌํญ ๋ชจ๋๋ฅผ ์ฑํํ๋ค.


QK-์ ๊ทํ (QK-norm)
QK-์ ๊ทํ (Dehghani et al., 2023)๋ ์ดํ ์ ์ ๊ณ์ฐํ๊ธฐ ์ ์ ์ฟผ๋ฆฌ ๋ฐ ํค ๋ฒกํฐ ๋ชจ๋์ ๋ ์ด์ด ์ ๊ทํ๋ฅผ ์ ์ฉํ๋ค. ์ด ๊ธฐ์ ์ ์ดํ ์ ๋ก์ง์ด ๋๋ฌด ์ปค์ง๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๋ฐ ๋์์ด ๋๋ฉฐ, ์์ ์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ง์ ์ต์ ๋ชจ๋ธ์์ ์ฌ์ฉ๋์๋ค.
๊ทธ๋ฌ๋ B. Yang et al. (2025)์ QK-์ ๊ทํ๊ฐ ๊ธด ์ปจํ ์คํธ ์์ ์ ํด์น๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ๋ค์ ๋ถ์์ QK-์ ๊ทํ๊ฐ ๊ด๋ จ ํ ํฐ (๋ฐ๋, needles)์ ๋ํ ๋ ๋ฎ์ ์ดํ ์ ์ง๋๊ณผ ๊ด๋ จ ์๋ ์ปจํ ์คํธ์ ๋ํ ๋ ๋์ ์ดํ ์ ์ง๋์ ์ด๋ํ๋ค๋ ๊ฒ์ ๋ฐํ๋๋ค. ๊ทธ๋ค์ ์ ๊ทํ ์์ ์ด ์ฟผ๋ฆฌ-ํค ๋ด์ ์์ ํฌ๊ธฐ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ์ฌ ์ดํ ์ ๋ก์ง์ ํฌ๊ธฐ์ ์ธก๋ฉด์์ ๋ ๊ฐ๊น์์ง๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ํ์์ด ๋ฐ์ํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด๋ฌํ ์ด์ ๋ก, ์ฐ๋ฆฌ๋ SmolLM3์์ QK-์ ๊ทํ๋ฅผ ์ฌ์ฉํ์ง ์์๋ค. ์ถ๊ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๊ฐ ํ์ตํ ๋ชจ๋ธ์ 3B ๋งค๊ฐ๋ณ์์ ์์ ๋ชจ๋ธ๋ก์, QK-์ ๊ทํ๊ฐ ๊ฐ์ฅ ์ ์ตํ๋ค๋ ๊ฒ์ด ์ ์ฆ๋ ๋ ํฐ ๋ชจ๋ธ๋ค์ ๋นํด ํ์ต ๋ถ์์ ์ฑ์ ์ํ์ด ์ ์๋ค.
๋ค๋ฅธ ํต์ฌ ๊ตฌ์ฑ ์์
์ฐ๋ฆฌ๊ฐ ๋ค๋ฃฌ ๊ตฌ์ฑ ์์๋ค ์ธ์๋, ์๋ฒฝํจ์ ์ํด ์ฃผ๋ชฉํ ๊ฐ์น๊ฐ ์๋ ๋ช ๊ฐ์ง ๋ค๋ฅธ ์ํคํ ์ฒ ๊ฒฐ์ ๋ค์ด ์๋ค.
๋งค๊ฐ๋ณ์๋ฅผ ์ด๊ธฐํํ ๋, ํ๋ ๋ชจ๋ธ๋ค์ ์ผ๋ฐ์ ์ผ๋กย ์ ๋จ ์ ๊ท ์ด๊ธฐํ(truncated normal initialization)ย (ํ๊ท =0, std=0.02 ๋๋ std=0.006) ๋๋ muP ์ ๊ฐ์ ์ด๊ธฐํ ๋ฐฉ์(G. Yang & Hu, 2022)์ ์ฌ์ฉํ๋ค. ์๋ฅผ ๋ค์ด, Cohere์ Command A (Cohere et al., 2025)๊ฐ ๊ทธ๋ ๋ค. ์ด๊ฒ์ ์ ๊ฑฐ ์คํ์ ๋ ๋ค๋ฅธ ์ฃผ์ ๊ฐ ๋ ์ ์๋ค.
ํ์ฑํ ํจ์ย ์ธก๋ฉด์์,ย SwiGLU๋ ํ๋ LLM์์ ์ฌ์ค์์ ํ์ค์ด ๋์๋ค (GeGLU๋ฅผ ์ฌ์ฉํ๋ Gemma2, relu^2 ๋ฅผ ์ฌ์ฉํ๋ Nvidia๋ฅผ ์ ์ธํ๊ณ (Nvidia et al., 2024; NVIDIA et al., 2025)). ์ด๋ ReLU ๋๋ GELU์ ๊ฐ์ ์ด์ ์ ํ์ ๋์ฒดํ๋ค.
๋ ๋์ ๊ท๋ชจ์์,ย ์ํคํ ์ฒ ๋ ์ด์์ ์ ํย ๋ํ ๋ชจ๋ธ ๋์์ ํ์ฑํ๋ ๋ฐ ์ญํ ์ ํ๋ค. ์ด ๋งค๊ฐ๋ณ์ ์๊ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฒฐ์ ํ์ง๋ง, ๊ทธ ๋งค๊ฐ๋ณ์๋ค์ด ๊น์ด์ ๋๋น์ ๊ฑธ์ณ ์ด๋ป๊ฒ ๋ถํฌ๋๋์ง๋ ์ค์ํ๋ค. Petty et al. (2024)์ ์ด์ ์ด ํฌํ๋ ๋๊น์ง ๋ ๊น์ ๋ชจ๋ธ์ด ์ธ์ด ๋ชจ๋ธ๋ง ๋ฐ ํฉ์ฑ ์์ ์์ ๋์ผํ ํฌ๊ธฐ์ ๋ ๋์ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด โ๊น๊ณ ์์(deep-and-thin)โ ์ ๋ต์ MobileLLM ์ ๊ฑฐ ์คํ์์ ์์ญ์ต ๋งค๊ฐ๋ณ์ ๋ฏธ๋ง์ LLM์ ๋ํด ์ ์๋ํ๋ ๋ฐ๋ฉด (Z. Liu et al., 2024), ๋ ๋์ ๋ชจ๋ธ์ ๋ ํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋๋ถ์ ๋ ๋น ๋ฅธ ์ถ๋ก ์ ์ ๊ณตํ๋ ๊ฒฝํฅ์ด ์๋ค. ํ๋ ์ํคํ ์ฒ๋ค์ ์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ (https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html) ์ ์ธ๊ธ๋ ๋๋ก ์ด ํธ๋ ์ด๋์คํ๋ฅผ ๋ค๋ฅด๊ฒ ๋ฐ์ํ๊ณ ์๋ค.
์ฐ๋ฆฌ๋ ์ด์ ๋น์ ์ ํ์ต ์คํ์ ์ํด ์ต์ ํํ ๊ฐ์น๊ฐ ์๋ Dense ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๊ฐ์ฅ ์ค์ํ ์ธก๋ฉด๋ค์ ๋ค๋ฃจ์๋ค. ๊ทธ๋ฌ๋ ์ต๊ทผ์๋ ๋ชจ๋ธ ์ ์ฒด์ ๊ด๋ จ๋ ๋ค๋ฅธ ์ํคํ ์ฒ ๊ฐ์ , ์ฆ MoE ๋ฐ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ด ๋ฑ์ฅํ๋ค. MoE๋ถํฐ ์์ํ์ฌ, ๊ทธ๊ฒ๋ค์ด ๋ฌด์์ ์ ๊ณตํ๋์ง ์ดํด๋ณด์.
ํฌ์ํ๋ก ๊ฐ๊ธฐ: MoE (Mixture-of-Experts)
์ ๋ฌธ๊ฐ ํผํฉ(Mixture-of-Experts, MoE) ์ ์ง๊ด์ ์ฐ๋ฆฌ์ ๋๊ฐ ๋น๋ฉดํ ์์ ์ ๋ฐ๋ผ ๋ค๋ฅธ ์์ญ (์: ์๊ฐ ๋๋ ์ด๋ ํผ์ง)์ ํ์ฑํํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ, ๋ชจ๋ ํ ํฐ ์์ธก์ ์ ์ฒด ๋ชจ๋ธ์ด ํ์ํ์ง ์๋ค๋ ๊ฒ์ด๋ค. LLM์ ๊ฒฝ์ฐ ์ด๋ ๋ชจ๋ธ์ด ๋ฒ์ญ ์์ ์ ์ํํ ๋ ์ฝ๋ฉ ๊ตฌ๋ฌธ์ ๋ํด ํ์ตํ ๋ถ๋ถ์ด ์ฌ์ฉ๋ ํ์๊ฐ ์์์ ์๋ฏธํ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ด๊ฒ์ ์ ํ ์ ์๋ค๋ฉด, ์ถ๋ก ์ ์ ์ฒด ๋ชจ๋ธ์ ์ผ๋ถ๋ง ์คํํ๋ฉด ๋๋ฏ๋ก ๋ง์ ์ปดํจํ ์์์ ์ ์ฝํ ์ ์์์ ์๋ฏธํ๋ค.
๊ธฐ์ ์ ์ธ ์์ค์์ MoE๋ ๊ฐ๋จํ ๋ชฉํ๋ฅผ ๊ฐ์ง๋ค: ๊ฐ ํ ํฐ์ ๋ํ โํ์ฑโ ๋งค๊ฐ๋ณ์ ์๋ฅผ ๋๋ฆฌ์ง ์์ผ๋ฉด์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ๋๋ฆฐ๋ค. ๋ค์ ๋จ์ํํ๋ฉด ์ด ๋งค๊ฐ๋ณ์๋ ๋ชจ๋ธ์ ์ ์ฒด ํ์ต ๋ฅ๋ ฅ์ ์ํฅ์ ๋ฏธ์น๋ ๋ฐ๋ฉด, ํ์ฑ ๋งค๊ฐ๋ณ์๋ ํ์ต ๋น์ฉ ๋ฐ ์ถ๋ก ์๋๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด๊ฒ์ด ์ค๋๋ ๋ง์ ์ ๋์ ์ธ ์์คํ (์: DeepSeek V3, K2, ๊ทธ๋ฆฌ๊ณ Gemini, Grok์ ๊ฐ์ ํ์ํ ๋ชจ๋ธโฆ)์ด MoE ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ์ด๋ค. Ling 1.5 ๋ ผ๋ฌธ (L. Team et al., 2025)์ ์ด ํ๋กฏ์ MoE์ Dense ๋ชจ๋ธ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋น๊ตํ๋ค:

๋ง์ฝ ๋น์ ์ด MoE๋ฅผ ์ฒ์ ์ ํ๋ ๊ฒฝ์ฐ์๋, ๋ฉ์ปค๋์ฆ์ ๋ณต์กํ์ง ์์ผ๋ ๊ฑฑ์ ํ์ง ์์๋ ์ข๋ค. ํ์ค Dense ์ํคํ ์ฒ๋ถํฐ ์์ํ์ฌ MoE์ ํ์ํ ๋ณ๊ฒฝ ์ฌํญ์ ์ดํด๋ณด์ (Sebastian Raschka์ ๊ทธ๋ฆผ):

MoE๋ฅผ ์ฌ์ฉํ๋ฉด, ๋จ์ผ MLP๋ฅผ ์ฌ๋ฌ MLP(โ์ ๋ฌธ๊ฐโ)๋ก ๋์ฒดํ๊ณ MLP ์์ ํ์ต ๊ฐ๋ฅํ ๋ผ์ฐํฐ(router)๋ฅผ ์ถ๊ฐํ๋ค. ๊ฐ ํ ํฐ์ ๋ํด ๋ผ์ฐํฐ๋ ์คํํ ์ ๋ฌธ๊ฐ์ ์์ ๋ถ๋ถ์งํฉ์ ์ ํํ๋ค. ์ด ๋งค๊ฐ๋ณ์์ ํ์ฑ ๋งค๊ฐ๋ณ์ ๊ฐ์ ๊ตฌ๋ถ์ด ์ฌ๊ธฐ์ ๋น๋กฏ๋๋ค: ๋ชจ๋ธ์ ๋ง์ ์ ๋ฌธ๊ฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ์ฃผ์ด์ง ํ ํฐ์ ์ผ๋ถ๋ง ์ฌ์ฉํ๋ค.
MoE ๋ ์ด์ด ์ค๊ณ๋ ๋ช ๊ฐ์ง ํต์ฌ ์ง๋ฌธ์ ์ ๊ธฐํ๋ค:
- ์ ๋ฌธ๊ฐ ํํ ๋ฐ ํฌ์์ฑ:ย ๋ง์ ์์ ์์ ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ ์๋๋ฉด ๋ ์ ์ ์์ ํฐ ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ? ํ ํฐ๋น ๋ช ๋ช ์ ์ ๋ฌธ๊ฐ๊ฐ ํ์ฑ๋์ด์ผ ํ๋๊ฐ, ์ด ๋ช ๋ช ์ ์ ๋ฌธ๊ฐ๊ฐ ํ์ํ๊ฐ (์ฆ, ํฌ์์ฑ ๋๋ โtop-kโ)? ์ผ๋ถ ์ ๋ฌธ๊ฐ๋ ๋ณดํธ์ (universal)์ด์ด์ผ ํ๋ฏ๋ก ํญ์ ํ์ฑ๋์ด์ผ ํ๋๊ฐ?
- ํ์ฉ ๋ฐ ์ ๋ฌธํ:ย ๋ผ์ฐํ ๋ ์ ๋ฌธ๊ฐ๋ฅผ ์ด๋ป๊ฒ ์ ํํ๊ณ , ๊ทธ๋ค์ด ์ ๋ฌธํ๋๋๋ก ์ฅ๋ คํ๋ฉด์๋ ์ ์ฌ์ฉ๋๋๋ก (์ ํด ์ฉ๋ ๋ฐฉ์ง) ์ ์งํ๋๊ฐ? ์ค์ ์์ ์ด๊ฒ์ย ๋ก๋ ๋ฐธ๋ฐ์ฑย ๋ฌธ์ ์ด๋ฉฐ ํ์ต ๋ฐ ์ถ๋ก ํจ์จ์ฑ์ ์๋นํ ์ํฅ์ ๋ฏธ์น๋ค.
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ํ๋์ ๋ชฉํ์ ์ด์ ์ ๋ง์ถ๋ค: ๊ณ ์ ๋ ์ปดํจํ ์์ฐ์ด ์ฃผ์ด์ก์ ๋, ์์ค์ ์ต์ํํ๋ MoE ๊ตฌ์ฑ์ ์ด๋ป๊ฒ ์ ํํ ๊น? ์ด๊ฒ์ ์์ํ ์์คํ ํจ์จ์ฑ (์ฒ๋ฆฌ๋/์ง์ฐ ์๊ฐ)๊ณผ๋ ๋ค๋ฅธ ์ง๋ฌธ์ด๋ฉฐ, ์ฐ๋ฆฌ๋ ๋์ค์ ๊ทธ๊ฒ์ผ๋ก ๋์์ฌ ๊ฒ์ด๋ค. ์ด ์น์ ์ ๋๋ถ๋ถ์ Ant Group์ MoE ์ค์ผ์ผ๋ง ๋ฒ์น ๋ ผ๋ฌธ (Tian et al., 2025)์ ๋ถ์์ ๋ฐ๋ฅธ๋ค.
์ฐ๋ฆฌ๋ ๊ทธ๋ค์ย ํจ์จ์ฑ ๋ ๋ฒ๋ฆฌ์ง(Efficiency Leverage, EL)ย ๊ฐ๋ ์ ์ฌ์ฉํ ๊ฒ์ด๋ค. ๊ฐ๋จํ ๋งํด, EL์ FLOPs๋ฅผ ์ธก์ ๋จ์๋ก ํ์ฌ MoE ์ค๊ณ๋ก ๋ฌ์ฑ๋ ์์ค๊ณผ ์ผ์นํ๋ ๋ฐ ํ์ํ dense ์ปดํจํ ์ ์์ ์ธก์ ํ๋ค. ๋ ๋์ EL์ MoE ๊ตฌ์ฑ์ด Dense ํ์ต์ ๋นํด ์ปดํจํ ๋จ์๋น ๋ ๋ง์ ์์ค ๊ฐ์ ์ ์ ๊ณตํจ์ ์๋ฏธํ๋ค.

MoE์ ํฌ์์ฑ์ ์ค์ ํ์ฌ ํจ์จ์ฑ ๋ ๋ฒ๋ฆฌ์ง๋ฅผ ์ด๋ป๊ฒ ๊ฐ์ ํ ์ ์๋์ง ๋ ์์ธํ ์ดํด๋ณด์.
ํฌ์์ฑ / ํ์ฑํ ๋น์จ
์์ฝ:ย ํฌ์์ฑ์ด ๋์์๋ก โ FLOPs ํจ์จ์ฑ์ด ์ข์์ง๋ค โ ๋งค์ฐ ๋์ ํฌ์์ฑ์์๋ ์ ์ง์ ์ด๋ ๊ฐ์ โ ์ต์ ์ ์ ์ปดํจํ ์์ฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
์ด ์น์ ์์ ์ฐ๋ฆฌ๋ ์ด๋ค MoE ์ค์ ์ด ์ต๊ณ ์ธ์ง ์์๋ด๊ณ ์ ํ๋ค. ์ ๊ทผ์ ์ผ๋ก ๋ ๊ทน๋จ์ ์ด์์ ์ธ ์ค์ ์ด ์๋๋ผ๋ ๊ฒ์ ์ฝ๊ฒ ์ ์ ์๋ค. ํ์ชฝ ๊ทน๋จ์ ๊ฒฝ์ฐ๋, ํญ์ ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ฅผ ํ์ฑํํ๋ ๊ฒ์ธ๋ฐ ์ด๋ ๋ชจ๋ ๋งค๊ฐ๋ณ์๊ฐ ํญ์ ์ฌ์ฉ๋๋ Dense ์ค์ ์ผ๋ก ์ฐ๋ฆฌ๋ฅผ ๋๋๋ฆฐ๋ค. ๋ค๋ฅธ ๋ฐฉํฅ์ ๊ทน๋จ์, ํ์ฑ ๋งค๊ฐ๋ณ์๊ฐ ๋งค์ฐ ๋ฎ๋ค๋ฉด (๊ทน๋จ์ ์ผ๋ก ํ์ฑ ๋งค๊ฐ๋ณ์๊ฐ 1๊ฐ๋ฟ์ด๋ผ๊ณ ์๊ฐํ๋ค) ์ข์ ๋๋ฉ์ธ์์๋ ์์ ์ ํด๊ฒฐํ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ ๊ฒ์ด ๋ถ๋ช ํ๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๋ช ํํ ์ค๊ฐ ์ง์ ์ ์ฐพ์์ผ ํ๋ค. ์ต์ ์ ์ค์ ์ ์ฐพ๋ ๋ฐ ๋ ๊น์ด ๋ค์ด๊ฐ๊ธฐ ์ ์ ๋ ๊ฐ์ง ์์ ์ ์ํ๋ ๊ฒ์ด ์ ์ฉํ๋ค:ย **ํ์ฑํ ๋น์จ(activation ratio)**๊ณผ ๊ทธ ์ญ์์ธย **ํฌ์์ฑ(sparsity)**์ด๋ค:
์ปดํจํ ๊ด์ ์์ ๋น์ฉ์ ํ์ฑ ๋งค๊ฐ๋ณ์๋ง์ผ๋ก ๊ฒฐ์ ๋๋ค. ํ์ฑ ์ ๋ฌธ๊ฐ์ ์(๋ฐ ํฌ๊ธฐ)๋ฅผ ๊ณ ์ ํ๊ณ ์ด ์ ๋ฌธ๊ฐ ์๋ฅผ ๋๋ฆฌ๋ฉด, ์ถ๋ก /ํ์ต FLOPs ์์ฐ์ ๋ค์ ๋์ผํ๊ฒ ์ ์ง๋์ง๋ง, ๋ชจ๋ธ ๋ฅ๋ ฅ์ ์ถ๊ฐํ๋ ๊ฒ์ด๋ฏ๋ก ์ถฉ๋ถํ ์ค๋ ํ์ตํ๋ค๋ฉด ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ ์ข์์ ธ์ผ ํ๋ค.
์ต๊ทผ MoE ๋ ผ๋ฌธ์ ์กฐ์ฌํ๋ฉด ๋ช ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ๊ฒฝํ์ ์์ฌ์ ์ด ์๋ค: ํ์ฑ ์ ๋ฌธ๊ฐ์ ์์ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ ์ฑ, ์ด ์ ๋ฌธ๊ฐ ์๋ฅผ ๋๋ฆฌ๋ฉด (์ฆ, ํ์ฑํ ๋น์จ์ ๋ฎ์ถ๊ณ / ํฌ์์ฑ์ ๋์ด๋ฉด) ์์ค์ด ๊ฐ์ ๋์ง๋ง, ํฌ์์ฑ์ด ๋งค์ฐ ๋์์ง๋ฉด ์ ์ง์ ์ผ๋ก ์ด๋์ด ๊ฐ์ํ๋ค.
๋ ๊ฐ์ง ์์๊ฐ ์๋ค:
- Kimi K2 ํ๋กฏ (K. Team et al., 2025): ๋ ๊ฐ์ง ํจ๊ณผ๋ฅผ ๋ชจ๋ ๋ณด์ฌ์ค๋ค: ํฌ์์ฑ์ด ๋์์๋ก ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, ํฌ์์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ด๋์ด ์ค์ด๋ ๋ค.
- Ant Group ํ๋กฏ (Tian et al., 2025): K2์ ๋์ผํ ๊ฒฐ๋ก ์ด๋ฉฐ, ๋ ๋์ ํฌ์์ฑ MoE๊ฐ ์ปดํจํ ์ฆ๊ฐ๋ก๋ถํฐ ๋ ๋ง์ ์ด์ ์ ์ป๋๋ค๋ ์ถ๊ฐ ๊ฒฐ๊ณผ๊ฐ ์๋ค.


๋ค์์ ์ผ๋ถ MoE ๋ชจ๋ธ์ ํฌ์์ฑ์ ๋ํ๋ด๋ ํ์ด๋ค:
| ๋ชจ๋ธ | ์ด ์ ๋ฌธ๊ฐ ์ | ํ ํฐ๋น ํ์ฑ ์ ๋ฌธ๊ฐ ์ (๊ณต์ ์ ๋ฌธ๊ฐ ํฌํจ) | ํฌ์์ฑ |
|---|---|---|---|
| Mixtral-8ร7B | 8 | 2 | 4.0 |
| Grok-1 | 8 | 2 | 4.0 |
| Grok-2 | 8 | 2 | 4.0 |
| OLMoE-1B-7B-0924 | 64 | 8 | 8.0 |
| gpt-oss 20b | 32 | 4 | 8 |
| Step-3 | ๋ผ์ฐํ ๋ 48 + ๊ณต์ 1 = 49 | ๋ผ์ฐํ ๋ 3 + ๊ณต์ 1 = 4 | 12.25 |
| GLM-4.5-Air | ๋ผ์ฐํ ๋ 128 + ๊ณต์ 1 = 129 | ๋ผ์ฐํ ๋ 8 + ๊ณต์ 1 = 9 | 14.3 |
| Qwen3-30B-A3B | 128 | 8 | 16.0 |
| Qwen3-235B-A22B | 128 | 8 | 16.0 |
| GLM-4.5 | ๋ผ์ฐํ ๋ 160 + ๊ณต์ 1 = 161 | ๋ผ์ฐํ ๋ 8 + ๊ณต์ 1 = 9 | 17.8 |
| DeepSeek-V2 | ๋ผ์ฐํ ๋ 160 + ๊ณต์ 2 = 162 | ๋ผ์ฐํ ๋ 6 + ๊ณต์ 2 = 8 | 20.25 |
| DeepSeek-V3 | ๋ผ์ฐํ ๋ 256 + ๊ณต์ 1 = 257 | ๋ผ์ฐํ ๋ 8 + ๊ณต์ 1 = 9 | 28.6 |
| gpt-oss 120b | 128 | 4 | 32 |
| Kimi K2 | ๋ผ์ฐํ ๋ 384 + ๊ณต์ 1 = 385 | ๋ผ์ฐํ ๋ 8 + ๊ณต์ 1 = 9 | 42.8 |
| Qwen3-Next-80B-A3B-Instruct | ๋ผ์ฐํ ๋ 512 + ๊ณต์ 1 = 513 | ์ด ํ์ฑ 10 + ๊ณต์ 1 = 11 | 46.6 |
์ต๊ทผ ์ถ์ธ๋ ๋ช ํํ๋ค: MoE ๋ชจ๋ธ์ ๋ ํฌ์ํด์ง๊ณ ์๋ค. ๊ทธ๋ ๊ธด ํ์ง๋ง, ์ต์ ์ ํฌ์์ฑ์ ์ฌ์ ํ ํ๋์จ์ด์ ์ข ๋จ ๊ฐ ํจ์จ์ฑ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ์๋ฅผ ๋ค์ด, Step-3์ ์ต๊ณ ํจ์จ์ฑ์ ๋ชฉํ๋ก ํ๋ฉฐ, ํน์ ํ๋์จ์ด ๋ฐ ๋์ญํญ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์ถ๊ธฐ ์ํด ์๋์ ์ผ๋ก ํฌ์์ฑ์ ์ต๋ํํ์ง ์๋ ๋ฐ๋ฉด, gpt-oss-20b๋ ์จ๋๋ฐ์ด์ค ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ์ธํด ๋ฎ์ ํฌ์์ฑ์ ๊ฐ์ง๋ค (์๋ ์ ๋ฌธ๊ฐ๋ ์ฌ์ ํ ์ผ๋ถ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฐจ์งํ๋ค).
์ธ๋ถ์ฑ (Granularity)
ํฌ์์ฑ์ ๋์ด, ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ผ๋ง๋ ์ปค์ผ ํ๋์ง ๊ฒฐ์ ํด์ผ ํ๋ค. ์ด๊ฒ์ Ant Group์ด ๋์ ํ ์ธก์ ๊ธฐ์ค์ธย ์ธ๋ถ์ฑ(Granularity) ์ผ๋ก ํํ๋๋ค. ์ด ์ฉ์ด๋ก ์ฐ๋ฆฌ๊ฐ ์๋ฏธํ๋ ๋ฐ๋ฅผ ์ ํํ ์ง์ด๋ณด์. ์ฉ์ด๋ ๋ ผ๋ฌธ๋ง๋ค ๋ค๋ฅด๋ฉฐ, ์ผ๋ถ๋ ์ฝ๊ฐ ๋ค๋ฅธ ๊ณต์์ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ์๋ ์ฐ๋ฆฌ๊ฐ ์ฐธ์กฐํ๋ ํ๋กฏ๊ณผ ์ผ์นํ๋ ์ ์๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค:
๋ ๋์ ์ธ๋ถ์ฑ ๊ฐ์ ๋ ์์ ์ฐจ์์ ๊ฐ์ง ๋ ๋ง์ ์ ๋ฌธ๊ฐ๋ฅผ ๊ฐ๋ ๊ฒ์ ํด๋นํ๋ค (๊ณ ์ ๋ ๋งค๊ฐ๋ณ์ ์๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ). ์ด ์ธก์ ๊ธฐ์ค์ ์ ๋ฌธ๊ฐ ์ฐจ์ (d_expert)๊ณผ ๋ชจ๋ธ ์ฐจ์ (d_model) ๊ฐ์ ๋น์จ์ด๋ค.
๋ฐ์งํ ๋ชจ๋ธ์์ ์ผ๋ฐ์ ์ธ ๊ฒฝํ ๋ฒ์น์ MLP์ ์ฐจ์์ ๋ก ์ค์ ํ๋ ๊ฒ์ด๋ค.
ฮฑ=4 ์ธ ๊ฒฝ์ฐ (Krajewski et al. (2024)์ ๊ฐ์ด). ๋น์ ์์ ์ธ๋ถ์ฑ์ ๋ฐ์งํ MLP ๋๋น์ ์ผ์นํ๋ ๋ฐ ํ์ํ ์ ๋ฌธ๊ฐ ์๋ก ๋์จํ๊ฒ ๋ณผ ์ ์๋ค ( ).
์ด ํด์์ ๋๋ต์ ์ธ ๋ฐ๊ฒฌ์ ๋ฐฉ๋ฒ์ผ ๋ฟ์ด๋ค: ํ๋ MoE ์ค๊ณ๋ ๋จ์ผ ๋ฐ์งํ MLP๋ณด๋ค ํจ์ฌ ๋ ํฐ ์ด ๋ฅ๋ ฅ์ ํ ๋นํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฏ๋ก, ์ผ๋์ผ ์ผ์น๋ ์ค์ ์ํฉ์์ ๋ฌด๋์ง๋ค. Ant ํ ์ค์ ์ ฮฑ=2 ๋ฅผ ์ ํํ๋๋ฐ, ์ด๋ ๋จ์ํ ๋ค๋ฅธ ์ ๊ทํ ์ ํ์ด๋ค. ์ผ๊ด์ฑ์ ์ํด ์ฐ๋ฆฌ๋ ์ด ๊ด๋ก๋ฅผ ๋ฐ๋ฅผ ๊ฒ์ด๋ค.
๋ค์์ ์ผ๋ถ MoE ๋ฆด๋ฆฌ์ค์ ๋ํ ๋ค๋ฅธ ๊ฐ์ ๊ฐ์ง ํ์ด๋ค:
| ๋ชจ๋ธ | d_model | d_expert | G=2d_model/d_expert | ์ฐ๋ |
|---|---|---|---|---|
| Mixtral-8ร7B | 4,096 | 14,336 | 0.571 | 2023 |
| gpt-oss-120b | 2,880 | 2,880 | 2.0 | 2025 |
| gpt-oss-20b | 2,880 | 2,880 | 2.0 | 2025 |
| Grok 2 | 8,192 | 16,384 | 1.0 | 2024 |
| StepFun Step-3 | 7,168 | 5,120 | 2.8 | 2025 |
| OLMoE-1B-7B | 2,048 | 1,024 | 4.0 | 2025 |
| Qwen3-30B-A3B | 2,048 | 768 | 5.3 | 2025 |
| Qwen3-235B-A22B | 4,096 | 1,536 | 5.3 | 2025 |
| GLM-4.5-Air | 4,096 | 1,408 | 5.8 | 2025 |
| DeepSeek V2 | 5,120 | 1,536 | 6.6 | 2024 |
| GLM-4.5 | 5,120 | 1,536 | 6.6 | 2025 |
| Kimi K2 | 7,168 | 2,048 | 7.0 | 2025 |
| DeepSeek V3 | 7,168 | 2,048 | 7.0 | 2024 |
| Qwen3-Next-80B-A3B | 2,048 | 512 | 8.0 | 2025 |
์ธ๋ถ์ฑ์ด ๋์์ ์ด๋ป๊ฒ ํ์ฑํ๋์ง์ ๋ํด ์ด์ผ๊ธฐํด๋ณด์ (Ant Group์ ๋ ผ๋ฌธ์์):

์ธ๋ถ์ฑ์ EL์ ์ฃผ๋ ๋์ธ์ฒ๋ผ ๋ณด์ด์ง ์๋๋ค. ํนํ 2๋ฅผ ๋์ด์๋ ๋ฐ ๋์์ด ๋์ง๋ง, ์์ค์ ๊ฒฐ์ ํ๋ ์ง๋ฐฐ์ ์ธ ์์ธ์ ์๋๋ค. ํ์ง๋ง ์ต์ ์ ์ง์ ์ด ์๋ค: ์ธ๋ถ์ฑ์ ๋ ๋์ด๋ ๊ฒ์ ์ด๋ ์ง์ ๊น์ง๋ ๋์์ด ๋๋ค๊ฐ ์ด๋์ด ํํํด์ง๋ค. ๋ฐ๋ผ์ ์ธ๋ถ์ฑ์ ์ต๊ทผ ๋ฆด๋ฆฌ์ค์์ ๋ ๋์ ๊ฐ์ผ๋ก ๊ฐ๋ ๋ช ํํ ์ถ์ธ๊ฐ ์๋ ์ ์ฉํ ํ๋ ๋ ธ๋ธ์ด์ง๋ง, ๊ณ ๋ฆฝ๋์ด ์ต์ ํ๋์ด์๋ ์ ๋๋ค.
MoE๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๊ณต์ ์ ๋ฌธ๊ฐ(shared experts)์ ๊ฐ๋ ์ด๋ค. ์ดํด๋ณด์!
๊ณต์ ์ ๋ฌธ๊ฐ
๊ณต์ ์ ๋ฌธ๊ฐ ์ค์ ์ ๋ชจ๋ ํ ํฐ์ ์์ ํ์ฑํ๋๋ ์์์ ์ ๋ฌธ๊ฐ ์ธํธ๋ก ๋ผ์ฐํ ํ๋ค. ์ด ๊ณต์ ์ ๋ฌธ๊ฐ๋ ๋ฐ์ดํฐ์ ๊ธฐ๋ณธ์ ์ด๊ณ ๋ฐ๋ณต๋๋ ํจํด์ ํก์ํ์ฌ ๋๋จธ์ง ์ ๋ฌธ๊ฐ๋ค์ด ๋ ๊ณต๊ฒฉ์ ์ผ๋ก ์ ๋ฌธํ๋ ์ ์๋๋ก ํ๋ค. ์ค์ ์์๋, ๋ง์ ์๊ฐ ํ์ํ์ง ์๋ค. ๋ชจ๋ธ ์ค๊ณ์๋ค์ ์ผ๋ฐ์ ์ผ๋ก ํ๋, ๋ง์์ผ ๋ ๊ฐ๋ฅผ ์ ํํ๋ค. ์ธ๋ถ์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ (์: Qwen3 ์คํ์ผ ์ค์ ์์ Qwen3-Next์ ๋ ๊ฐ๊น์ด ๊ฒ์ผ๋ก ์ด๋), ๊ณต์ ์ ๋ฌธ๊ฐ๋ ๋ ์ ์ฉํด์ง๋ ๊ฒฝํฅ์ด ์๋ค. ๋ค์ ํ๋กฏ์ ๋ณด๋ฉด, ์ ๋ฐ์ ์ธ ์ํฅ์ ๋ฏธ๋ฏธํ๋ฉฐ, EL์ ๊ทน์ ์ผ๋ก ๋ณํ์ํค์ง๋ ์๋๋ค. ๊ฐ๋จํ ๊ฒฝํ ๋ฒ์น์ด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ ์๋ํ๋ค: DeepSeek V3, K2, Qwen3-Next์ ๊ฐ์ ๋ชจ๋ธ์ ์ ํ๊ณผ ์ผ์นํ๋ ํ๋์ ๊ณต์ ์ ๋ฌธ๊ฐ๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ๋ถํ์ํ ๋ณต์ก์ฑ์ ์ถ๊ฐํ์ง ์์ผ๋ฉด์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๊ฒฝํฅ์ด ์๋ค. (Tian et al. (2025)์ ๊ทธ๋ฆผ)

๊ณต์ ์ ๋ฌธ๊ฐ๋ ์ผ๋ถ ํ ํฐ์ด ํญ์ ๋ผ์ฐํ ๋๋ ์ ๋ฌธ๊ฐ์ด๋ค. ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๋ค์ ์ด๋ ํ๊ฐ? ๊ฐ ์ ๋ฌธ๊ฐ์๊ฒ ์ธ์ ๋ผ์ฐํ ํ ์ง ์ด๋ป๊ฒ ํ์ตํ๊ณ , ์์์ ์ ๋ฌธ๊ฐ๋ง ์ฌ์ฉํ์ง ์๋๋ก ์ด๋ป๊ฒ ๋ณด์ฅํ๋๊ฐ? ๋ค์์ผ๋ก ์ฐ๋ฆฌ๋ ์ ํํ ๊ทธ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ย ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ๋ํด ๋ ผ์ํ ๊ฒ์ด๋ค.
๋ถํ ๋ถ์ฐ (๋ก๋ ๋ฐธ๋ฐ์ฑ)
๋ก๋ ๋ฐธ๋ฐ์ฑ์ MoE์์ ์ค์ํ ๋ถ๋ถ์ด๋ค. ์ ๋๋ก ์ค์ ๋์ง ์์ผ๋ฉด, ๋ค๋ฅธ ๋ชจ๋ ์ค๊ณ ์ ํ์ ์ฝํ์ํฌ ์ ์๋ค. ๋ก๋ ๋ฐธ๋ฐ์ฑ์ด ์ ๋๋ก ๋์ง ์์ผ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์๋ฅผ ๊ณ ๋ คํด๋ณด๋ฉด ์ ๋ง์ ๊ณ ํต์ ๊ฒช๊ฒ ๋๋์ง ์ ์ ์๋ค. ๋ชจ๋ธ์ 4๋ช ์ ์ ๋ฌธ๊ฐ๋ฅผ GPU์ ๊ณ ๋ฅด๊ฒ ๋ถ์ฐํ๋ 4๊ฐ์ GPU๊ฐ ์๋ ๋งค์ฐ ๊ฐ๋จํ ๋ถ์ฐ ํ์ต ์ค์ ์ ๊ณ ๋ คํด๋ณด์. ๋ผ์ฐํ ์ด ๋ถ๊ดด๋์ด ๋ชจ๋ ํ ํฐ์ด ์ ๋ฌธ๊ฐ 1๋ก ๋ผ์ฐํ ๋๋ฉด, ์ด๋ GPU์ 1/4๋ง ํ์ฉ๋จ์ ์๋ฏธํ๋ฉฐ, ์ด๋ ํ์ต ๋ฐ ์ถ๋ก ํจ์จ์ฑ์ ๋งค์ฐ ๋์ ์ํฅ์ ์ฃผ๊ฒ ๋๋ค. ๊ทธ ์ธ์๋, ๋ชจ๋ ์ ๋ฌธ๊ฐ๊ฐ ํ์ฑํ๋์ง ์์ผ๋ฏ๋ก ์ฐ๋ฆฌ ๋ชจ๋ธ์ ์ ํจ ํ์ต ๋ฅ๋ ฅ์ด ๊ฐ์ํ์์ ์๋ฏธํ๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ผ์ฐํฐ์ ์ถ๊ฐ ์์ค ํญ์ ์ถ๊ฐํ ์ ์๋ค. ์๋๋ ํ์ค ๋ณด์กฐ ์์ค ๊ธฐ๋ฐ ๋ก๋ ๋ฐธ๋ฐ์ฑ(LBL)์ด๋ค:
์ด ๊ฐ๋จํ ๊ณต์์ ์ธ ๊ฐ์ง ์์๋ง ์ฌ์ฉํ๋ค: ๊ณ์ ฮฑ ๋ ์์ค์ ๊ฐ๋๋ฅผ ๊ฒฐ์ ํ๊ณ , f_i
๋ ์ ๋ฌธ๊ฐ i ๋ฅผ ํต๊ณผํ๋ ํ ํฐ์ ๋น์จ์ธ ํธ๋ํฝ ๋น์จ์ด๋ฉฐ, ๋ง์ง๋ง์ผ๋ก P_i ๋ ํ๋ฅ ์ง๋(probability mass)์ด๋ฉฐ ์ ๋ฌธ๊ฐ๋ฅผ ํต๊ณผํ๋ ํ ํฐ์ ํ๋ฅ ์ ๋จ์ํ ํฉ์ฐํ๋ค. f_i ๋ ์ค์ ๊ท ํ์ ํด๋นํ๊ณ , P_i ๋ ๋ถ๋๋ฝ๊ณ ๋ฏธ๋ถ ๊ฐ๋ฅํ์ฌ ๊ธฐ์ธ๊ธฐ๊ฐ ํ๋ฅผ ์ ์๋๋ก ํ๊ธฐ ๋๋ฌธ์, ๋ ๋ค ํ์ํ๋ค. ์๋ฒฝํ ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ๋ฌ์ฑํ๋ฉด ์ ์ป์ง๋ง, ฮฑ ๋ฅผ ๋๋ฌด ์๊ฒ ์กฐ์ ํ๋ฉด ๋ผ์ฐํ ์ ์ถฉ๋ถํ ์๋ดํ์ง ๋ชปํ๊ณ , ๋๋ฌด ํฌ๋ฉด ๋ผ์ฐํ ๊ท ์ผ์ฑ์ด ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ ์์ค๋ณด๋ค ๋ ์ค์ํด์ง๋ฏ๋ก ์ ์คํด์ผ ํ๋ค.
๐ก์์ค ์๋ ๋ก๋ ๋ฐธ๋ฐ์ฑ
๋ช ์์ ์ธ ์์ค ํญ ์์ด๋ ๊ท ํ์ ๋ฌ์ฑํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค. DeepSeek v3 (DeepSeek-AI et al., 2025)๋ ๋ผ์ฐํ ์ํํธ๋งฅ์ค์ ๋ค์ด๊ฐ๋ ์ดํผ๋ํฐ ์ ์(affinity scores)์ ์ถ๊ฐ๋๋ ๊ฐ๋จํ ํธํฅ ํญ์ ๋์ ํ๋ค. ๋ผ์ฐํฐ๊ฐ ๊ณผ๋ถํ๋๋ฉด ์ ์๋ฅผ ์ฝ๊ฐ ์ค์ฌ์ (์์ ๊ณ์ ฮณ) ์ ํ๋ ๊ฐ๋ฅ์ฑ์ ๋ฎ์ถ๊ณ , ์ ๋ฌธ๊ฐ๊ฐ ํ์ฉ๋์ง ์์ผ๋ฉด ฮณ ๋งํผ ์ฆ๊ฐ์ํจ๋ค. ์ด ๊ฐ๋จํ ์ ์ ๊ท์น์ผ๋ก ๊ทธ๋ค์ ๋ก๋ ๋ฐธ๋ฐ์ฑ๋ ๋ฌ์ฑํ๋ค.
ํต์ฌ ์ธ๋ถ ์ฌํญ์ ๋ผ์ฐํ ํต๊ณ๋ฅผ ๊ณ์ฐํ๋ ๋ฒ์์ด๋ค: f_i ์ P_i๊ฐ ๋ก์ปฌ ๋ฐฐ์น(๊ฐ ์์ ์์ ๋ฏธ๋ ๋ฐฐ์น)๋ณ๋ก ๊ณ์ฐ๋๋๊ฐ ์๋๋ฉด ์ ์ญ์ ์ผ๋ก(์์ ์/์ฅ์น ์ ๋ฐ์ ๊ฑธ์ณ ์ง๊ณ) ๊ณ์ฐ๋๋๊ฐ? Qwen ํ์ ๋ถ์ (Qiu et al., 2025)์ ๊ฐ ๋ก์ปฌ ๋ฐฐ์น์ ์ถฉ๋ถํ ํ ํฐ ๋ค์์ฑ์ด ์์ ๋ ๋ก์ปฌ ๊ณ์ฐ์ด ์ ๋ฌธ๊ฐ ์ ๋ฌธํ (expert specialization, ๋ผ์ฐํ ๊ฑด์ ์ฑ์ ๋ํ ์ข์ ๋๋ฆฌ ์งํ)์ ์ ๋ฐ์ ์ธ ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋๋ฅผ ํด์น ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ ๋ฌธ๊ฐ ์ ๋ฌธํ๋ ํน์ ๋๋ฉ์ธ์ ๋ํด ํ๋ ์ด์์ ์ ๋ฌธ๊ฐ๊ฐ ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๋ณด๋ค ๋ ์์ฃผ ํ์ฑํ๋๋ ํ์์ด๋ค. ์ฆ, ๋ก์ปฌ ๋ฐฐ์น๊ฐ ์ข์ผ๋ฉด ๋ผ์ฐํ ํต๊ณ๊ฐ ๋ ธ์ด์ฆ/ํธํฅ๋์ด ์ข์ ๊ท ํ์ผ๋ก ์ด์ด์ง์ง ์๋๋ค. ์ด๋ ๊ฐ๋ฅํ ๋๋ง๋ค ์ ์ญ ํต๊ณ (๋๋ ์ ์ด๋ ์ฅ์น ๊ฐ ์ง๊ณ)๋ฅผ ์ฌ์ฉํด์ผ ํจ์ ์๋ฏธํ๋ค. ํนํ, ํด๋น ๋ ผ๋ฌธ ๋น์ Megatron์ ํฌํจํ ๋ง์ ํ๋ ์์ํฌ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ด๋ฌํ ํต๊ณ๋ฅผ ๋ก์ปฌ๋ก ๊ณ์ฐํ์๋ค.
Qwen ๋ ผ๋ฌธ์ ๋ค์ ํ๋กฏ์ ๋ง์ดํฌ๋ก ๋ฐฐ์น ๋ ์ ์ญ ๋ฐฐ์น ์ง๊ณ์ ์ฐจ์ด์ ๊ทธ๊ฒ์ด ์ฑ๋ฅ ๋ฐ ์ ๋ฌธํ์ ๋ฏธ์น๋ ์ํฅ์ ๋ณด์ฌ์ค๋ค:

์ผ๋ฐ์ ์ผ๋ก, MoE ์ฃผ๋ณ์ ์ํคํ ์ฒ ์ ํ์ ์ ๊ฑฐ ์คํํ๋ ๊ฒ์ ๋ง์ ์ธก๋ฉด๊ณผ์ ์ํธ ์์ฉ์ด ์๊ธฐ ๋๋ฌธ์ ๊น๋ค๋กญ๋ค. ์๋ฅผ ๋ค์ด ๊ณต์ ์ ๋ฌธ๊ฐ์ ์ ์ฉ์ฑ์ ๋ชจ๋ธ์ ์ธ๋ถ์ฑ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์๋ค. ๋ฐ๋ผ์ ์ฌ๋ฌ๋ถ์ด ์ฐพ๊ณ ์๋ ํต์ฐฐ๋ ฅ์ ์ค์ ๋ก ์ป๊ธฐ ์ํด ์ข์ ์คํ ์ธํธ๋ฅผ ํ๋ณดํ๋ ๋ฐ ์๊ฐ์ ํฌ์ํ ๊ฐ์น๊ฐ ์๋ค!
์ฐ๋ฆฌ๋ ์ด์ MoE์ ๊ธฐ๋ณธ ์ฌํญ์ ๋ค๋ฃจ์์ง๋ง, ์ฌ์ ํ ๋ ๋ฐ๊ฒฌํ ๊ฒ์ด ์๋ค. ๋ ์ฐ๊ตฌํ ํญ๋ชฉ์ ์ ์ฒด๋ ์๋์ง๋ง ์ผ๋ถ ๋ชฉ๋ก์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ ๋ก ์ปดํจํ ์ด์ ์ ๋ฌธ๊ฐ, MoE ๋ ์ด์ด ์ฌ์กฐ์ ๋ฐ ํ์ต ๋ชจ๋ํฐ๋ง (LongCat-Flash ๋ ผ๋ฌธ).
- ์ง๊ต ์์ค ๋ก๋ ๋ฐธ๋ฐ์ฑ (ERNIE 4.5์์์ ๊ฐ์ด).
- ํ์ต ์ ๋ฐ์ ๊ฑธ์ณ ๋ก๋ ๋ฐธ๋ฐ์ฑ ๊ณ์๋ฅผ ์ค์ผ์ค๋งํ๋ ๊ฒ.
- MoE์์ ์ํคํ
์ฒ/์ต์ ํ ์ํธ ์์ฉ, ์:
- ์ตํฐ๋ง์ด์ ์์๊ฐ MoE์ ๋ํด ๋ณ๊ฒฝ๋๋์ง ์ฌ๋ถ.
- MuP๋ฅผ MoE์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ.
- MoE์ ๋ํ ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ (๋ฐฐ์น๋น ๋์ผํ ์์ ํ ํฐ์ ๋ณด์ง ์๊ธฐ ๋๋ฌธ์).
- ์์ ๋ถ๋ถ์ ๋ฐ์งํ ๋ ์ด์ด ์.
- ๋ ๋ง์ ๊ฒ๋คโฆ
์ฐ๋ฆฌ๋ ์ด์ ๋ง์ง๋ง ์ฃผ์ ์ํคํ ์ฒ ์ ํ์ธย ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ๋ก ๋์ด๊ฐ๋ฏ๋ก, ๋ ๊น์ ๊ณณ์ผ๋ก ํ ๋ผ๊ตด์ ๋ฐ๋ผ๊ฐ๋ ๊ฒ์ ์ด๋ ฌํ ๋ ์์๊ฒ ๋งก๊ธด๋ค!
ํ๊ตฌ: ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ
์ต๊ทผ ์ถ์ธ๋ ํ์ค ๋ฐ์งํ ๋๋ MoE ์ํคํ ์ฒ๋ฅผย ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(State Space Models, SSM)ย ๋๋ย ์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ณด๊ฐํ๋ ๊ฒ์ด๋ค (MiniMax et al., 2025; Zuo et al., 2025). ์ด๋ฌํ ์๋ก์ด ์ข ๋ฅ์ ๋ชจ๋ธ๋ค์ ํธ๋์คํฌ๋จธ์ ๊ทผ๋ณธ์ ์ธ ์ฝ์ ์ค ์ผ๋ถ๋ฅผ ํด๊ฒฐํ๋ ค๊ณ ์๋ํ๋ค:ย ๋งค์ฐ ๊ธด ์ปจํ ์คํธ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ค์ ์์์ ๊ธธ์ด ์ปจํ ์คํธ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ ํ์ ์ผ๋ก ํ์ฅํ ์ ์์ง๋ง, ์ปจํ ์คํธ ๋ด ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ ์ํ ๋ชจ๋ธ๊ณผ, ๊ธด ์ปจํ ์คํธ์์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค์ง๋ง ์ปจํ ์คํธ ๋ด ํจํด์ ๋งค์ฐ ์ ํ์ฉํ ์ ์๋ ํธ๋์คํฌ๋จธ ์ฌ์ด์ ์ค๊ฐ ์ง์ ์ ์ทจํ๊ณ ์ ํ๋ค.
SSM์ ํ ํํ์ธ Mamba ๋ชจ๋ธ (A. Gu & Dao, 2024)์ ์ฝ์ ์ ์ดํดํ๊ธฐ ์ํ ์ผ๋ถ ์ฐ๊ตฌ๊ฐ ์์์ผ๋ฉฐ (Waleffe et al., 2024), ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด ๋ง์ ๋ฒค์น๋งํฌ์์ ์ ์ํํ์ง๋ง, ์๋ฅผ ๋ค์ด MMLU์์๋ ์ฑ๋ฅ์ด ์ ํ๋๋ฉฐ, ์ปจํ ์คํธ ๋ด ํ์ต(in-context learning)์ ๋ถ์กฑ์ด ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์ ๋ฐํ๋ค๊ณ ๊ฐ์ค์ ์ธ์ ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ๊ทธ๋ค์ด Dense ๋๋ MoE ๋ชจ๋ธ์ ๋ธ๋ก๊ณผ ๊ฒฐํฉํด ๋ ์ธ๊ณ์ ์ฅ์ ์ ๋ชจ๋ ์ป์ผ๋ ค๋ ์ด์ ์ด๋ฉฐ, ๋ฐ๋ผ์ย ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ๊ฒ ๋์๋ค.
์ด๋ฌํ ์ ํ ์ดํ ์ ๋ฐฉ๋ฒ๋ค์ ํต์ฌ ์์ด๋์ด๋ ์ดํ ์ ์ด ๋ ์ด์ ๊ธด ์ปจํ ์คํธ์์ ๋ค๋ฃจ๊ธฐ ํ๋ค์ด์ง๋, ์ ๋น์ฉ์ด ๋ค์ง ์๋๋ก ๊ณ์ฐ ์์๋ฅผ ์ฌ์ ๋ ฌํ๋ ๊ฒ์ด๋ค. ์ด๋ป๊ฒ ๊ทธ๊ฒ ๋ ๊น? ๋จผ์ , ์ถ๋ก ์ ์ดํ ์ ๊ณต์์ ๊ธฐ์ตํด๋ณด์. ํ ํฐ t ์ ๋ํ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
์ด์ ์ํํธ๋งฅ์ค๋ฅผ ์ ๊ฑฐํ๋ค:
์ฌ์ ๋ ฌํ๋ฉด ๋ค์์ ์ป๋๋ค:
์คํ ์ํ(running state)๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค:
๊ฐ๋จํ ์ ๋ฐ์ดํธ๋ฅผ ํตํด:
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค:
์ฌ์ ๋ ฌ์ด ์ ์ค์ํ๊ฐ? ์ผ์ชฝ ํํ ๋ โ๊ฐ ๊ณผ๊ฑฐ ํ ํฐ ์ ๋ํด, ๋ด์ (์ค์นผ๋ผ)๋ฅผ ์ทจํ๊ณ , ๊ทธ๊ฒ์ ๋ฅผ ์ค์ผ์ผ๋งํ๋ ๋ฐ ์ฌ์ฉํ๋ฉฐ, ์ด ๊ฐ์ ๋ฒกํฐ๋ค์ ๋ชจ๋ ๋ํ๋คโ ๋ฅผ ์๋ฏธํ๋ค โ์ด๋ ์คํ ์์ ์ฝ ์์ ์ด๋ค. ์ค๋ฅธ์ชฝ ํํ๋ ์ด๊ฒ์ ๋ก ๋ค์ ์์ฑํ๋ค: ๋น์ ์ ์ด๋ฏธ ๋ชจ๋ ๊ณผ๊ฑฐ ๋ฅผ ์์ฝํ๋ ๋จ์ผ ์คํ ์ํ ํ๋ ฌ ๋ฅผ ์ ์งํ๋ค. ๊ฐ ์ ํ ํฐ์ ํ๋์ ์ธ์ ( ๋น์ฉ)์ผ๋ก ๊ทธ๊ฒ์ ์ ๋ฐ์ดํธํ ๋ค์, ์ถ๋ ฅ์ ๋จ์ง ํ๋์ ํ๋ ฌ-๋ฒกํฐ ๊ณฑ์ (๋ ๋ค๋ฅธ )์ด๋ค. ๋ฐ๋ผ์ ์ผ์ชฝ ํํ๋ก ๊ฐ์ ํ ํฐ์ ์ฒ์๋ถํฐ ์์ฑํ๋ ๊ฒ์ ์ธ ๋ฐ๋ฉด, ๋ฅผ ์ ์งํ๊ณ ์ค๋ฅธ์ชฝ ํํ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ด๋ค. ์ง๊ด์ ์ผ๋ก: ์ผ์ชฝ = โ๊ฐ ์คํ ๋ง๋ค ๋ง์ ์์ ๋ด์ -์ค์ผ์ผ-๋ง์ โ; ์ค๋ฅธ์ชฝ = โ๋จ์ผํ ์ฌ์ ์ ์์ฝ๋ ํ๋ ฌ์ ์ฟผ๋ฆฌ๋ฅผ ๊ณฑํจโ์ด๋ฉฐ, ์ํ์ค ๊ธธ์ด์ ๋ํ ์์กด์ฑ์ ์ฐจ์์ ๋ํ ์์กด์ฑ์ผ๋ก ๊ตํํ๋ค. ์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ ์ถ๋ก ๋ฐ ์ํ ํํ์ ์ด์ ์ ๋ง์ถ์ง๋ง, ์ฌ์ ๋ ฌ์ด ๋ค์ ๋ฐฉ์ ์๋งํผ ๊ฐ๋จํ ํ์ต์์๋ ๋ ํจ์จ์ ์ด๋ค:
๋ฐ๋ผ์ ์ด๊ฒ์ด RNN๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ๋งค์ฐ ์ ์ฌํ๊ฒ ๋ณด์ธ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๊ฒ์ด ์ฐ๋ฆฌ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๊ฒ์ธ๊ฐ? ๊ฑฐ์ ๊ทธ๋ ๋ค. ์ค์ ์ํฉ์์, ์ํํธ๋งฅ์ค๋ ์ค์ํ ์์ ํ ์ญํ ์ ํ๋ฉฐ, ์์งํ ์ ํ ํํ๋ ์ผ๋ถ ์ ๊ทํ ์์ด๋ ๋ถ์์ ํ ์ ์๋ค. ์ด๊ฒ์ ๋ผ์ดํธ๋(lightning) ์ดํ ์ ๋๋ ๋ ธ๋ฆ(norm) ์ดํ ์ ์ด๋ผ๋ ์ค์ฉ์ ์ธ ๋ณํ์ ์ด๋ฐํ๋ค!
๋ผ์ดํธ๋ ๋ฐ ๋ ธ๋ฆ ์ดํ ์
์ด ๊ณ์ด์ Minimax01 (MiniMax et al., 2025)๊ณผ, ๋ ์ต๊ทผ์๋ Ring-linear (L. Team, Han, et al., 2025)์์ ๋ํ๋๋ค. ์ด๋ ๋ ธ๋ฆ ์ดํ ์ ์์ด๋์ด (Qin et al., 2022)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง๋ค. ํต์ฌ ๋จ๊ณ๋ ๊ฐ๋จํ๋ค: ์ถ๋ ฅ์ ์ ๊ทํํ๋ ๊ฒ์ด๋ค. โ๋ผ์ดํธ๋โ ๋ณํ์ ๊ตฌํ์ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ๋ฐ ์ด์ ์ ๋ง์ถ๋ฉฐ ๊ณต์์ ์ฝ๊ฐ ๋ค๋ฅด๊ฒ ๋ง๋ ๋ค. ๋ ๋ค์ ๋ํ ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค:
NormAttention:
LightningAttention:
๊ฒฝํ์ ์ผ๋ก, Norm attention์ ๊ฐ์ง ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ Minimax01์ ๋ฐ๋ฅด๋ฉด ๋๋ถ๋ถ์ ์์ ์์ ์ํํธ๋งฅ์ค์ ์ผ์นํ๋ค.

์ฌ๊ธฐ์ ํฅ๋ฏธ๋ก์ด ์ ์ Needle in a Haystack (NIAH)๊ณผ ๊ฐ์ ๊ฒ์ ์์ ์์ ์ ์ฒด ์ํํธ๋งฅ์ค ์ดํ ์ ๋ณด๋ค ํจ์ฌ ๋ ์ ์ํํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋๋๊ฒ ๋ณด์ผ ์ ์์ง๋ง, ์ํํธ๋งฅ์ค์ ์ ํ ๋ ์ด์ด๊ฐ ํจ๊ป ์๋ํ ๋ ์ด๋ค ์๋์ง๊ฐ ์์์ ์์ฌํ ์ ์๋ค!
MiniMax M2
๋๋๊ฒ๋, ์ต๊ทผ ์ถ์๋ MiniMax M2๋ ํ์ด๋ธ๋ฆฌ๋ ๋๋ ์ ํ ์ดํ ์ ์ ์ฌ์ฉํ์ง ์๋๋ค. ๊ทธ๋ค์ ์ฌ์ ํ์ต ๋ฆฌ๋์ ๋ฐ๋ฅด๋ฉด, ๋ผ์ดํธ๋ ์ดํ ์ ์ ์ฌ์ฉํ ์ด๊ธฐ MiniMax M1 ์คํ์ด ๋น์ ์ธ๊ธฐ ์๋ ๋ฒค์น๋งํฌ (MMLU, BBH, MATH)์์ ๋ ์์ ๊ท๋ชจ์์ ์ ๋งํด ๋ณด์์ง๋ง, ๊ทธ๋ค์ ๋ ํฐ ๊ท๋ชจ์์ โ๋ณต์กํ, ๋ฉํฐ-ํ ์ถ๋ก ์์ ์์ ๋ช ํํ ๊ฒฐํจโ์ด ์์์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ๋ค์ ๋ํ RL ํ์ต ์ค ์์น ์ ๋ฐ๋ ๋ฌธ์ ๋ฐ ์ธํ๋ผ ์ฑ์๋๋ฅผ ํต์ฌ ์ฅ์ ๋ฌผ๋ก ์ธ๊ธํ๋ค. ๊ทธ๋ค์ ์ํคํ ์ฒ๋ฅผ ๋๊ท๋ชจ์์ ๋ง๋๋ ๊ฒ์ด ๋ฐ์ดํฐ ๋ถํฌ, ์ตํฐ๋ง์ด์ ์ ๊ฐ์ ๋ค๋ฅธ ๋งค๊ฐ๋ณ์์ ๋ํ ๋ฏผ๊ฐ๋๋ก ์ธํด ์ด๋ ต๊ณ ์ปดํจํ ์ง์ฝ์ ์ธ ๋ค๋ณ์ ๋ฌธ์ ๋ผ๊ณ ๊ฒฐ๋ก ์ง๋๋ค.
๊ทธ๋ฌ๋ ๊ทธ๋ค์ โGPU ์ปดํจํ ์ฑ์ฅ์ด ๋ํ๋๋ ๋์์ ๋ฐ์ดํฐ ๊ธธ์ด๋ ๊ณ์ ์ฆ๊ฐํจ์ ๋ฐ๋ผ, ์ ํ ๋ฐ ํฌ์ ์ดํ ์ ์ ์ด์ ์ด ์ ์ง์ ์ผ๋ก ๋ํ๋ ๊ฒโ์์ ์ธ์ ํ๋ค. ์ด๊ฒ์ ์ํคํ ์ฒ ์ ๊ฑฐ ์คํ์ ๋ณต์ก์ฑ๊ณผ ์ฐ๊ตฌ์ ์์ฐ ํ์ค ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ๋ชจ๋ ๊ฐ์กฐํ๋ค.
์ด์ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค ์ค ์ผ๋ถ๋ฅผ ๋ ์ดํด๋ณด๊ณ ๊ทธ๊ฒ๋ค์ด ํตํฉ๋ ํ๋ ์์ํฌ๋ก ์ด๋ป๊ฒ ์ดํด๋ ์ ์๋์ง ๋ณธ๋ค.
๊ณ ๊ธ ์ ํ ์ดํ ์
์ํ ๋ชจ๋ธ๋ก๋ถํฐ์ ์ ์ฉํ ๊ตํ์ ์ํ๊ฐ ๋๋๋ก ๊ณผ๊ฑฐ๋ฅผ ๋์์ฃผ๋๋ก ํ์ฉํ๋ ๊ฒ์ด๋ค. ์ค์ ์์, ์ด๋ ์ด์ ์ํ์ ๋ํ ๊ฒ์ดํธย Gt ๋ฅผ ๋์ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค:
๊ฑฐ์ ๋ชจ๋ ์ต์ ์ ํ ์ดํ
์
๋ฐฉ๋ฒ์ Gt์ ๋ค๋ฅธ ๊ตฌํ๋ง์ ๊ฐ์ง ์ด ๊ฒ์ดํ
(gating) ๊ตฌ์ฑ ์์๋ฅผ ๊ฐ์ง๋ค. ๋ค์์ ์ด ๋
ผ๋ฌธ์์ ๊ฐ์ ธ์จ ๊ฒ์ดํธ ๋ฐ ํด๋น ์ํคํ
์ฒ์ ๋ํ ๋ค๋ฅธ ๋ณํ ๋ชฉ๋ก์ด๋ค:

์ต์ ๋ชจ๋ธ์ ๊ฒ์ดํธํ ์ ํ ์ดํ
์
๊ณต์์ Gt์ ๋งค๊ฐ๋ณ์ํ์์ ๋ค์ํ๋ค. ํธํฅ ํญ์ ์๋ต๋์๋ค.
๋ชฉ๋ก์์ ์ฃผ๋ชฉํ ๋งํ ํ ๋ณํ์ย Mamba-2ย (Dao & Gu, 2024)์ด๋ค. ์ด๋ Nemotron-H (NVIDIA, :, Blakeman, et al., 2025), Falcon H1 (Zuo et al., 2025), ๊ทธ๋ฆฌ๊ณ Granite-4.0-h (IBM Research, 2025)์ ๊ฐ์ ๋ง์ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์์ ์ฌ์ฉ๋๋ค.
๊ทธ๋ฌ๋ ์์ง ์ด๊ธฐ ๋จ๊ณ์ด๋ฉฐ ๋๊ท๋ชจ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ๋ก ํ์ฅํ ๋ ๊ณ ๋ คํด์ผ ํ ์ค์ํ ๋ฏธ๋ฌํ ์ฐจ์ด๊ฐ ์๋ค. ์ด๋ค์ ์ ๋งํจ์ ๋ณด์ด์ง๋ง, MiniMax๊ฐ M2์์ ๊ฒฝํํ ๊ฒ์ ์์ ๊ท๋ชจ์์์ ์ด์ ์ด ํญ์ ๋ณต์กํ ์ถ๋ก ์์ , RL ํ์ต ์์ ์ฑ ๋ฐ ์ธํ๋ผ ์ฑ์๋์ ๊ฐ์ ๋๊ท๋ชจ ํ๋ก๋์ ์์คํ ์ผ๋ก ์ด์ ๋๋ ๊ฒ์ ์๋์ ๊ฐ์กฐํ๋ค. ํ์ง๋ง, ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ์์ง์ด๊ณ ์์ผ๋ฉฐ ์ ๋์ ์ธ ํ์ต์ ์ํ ๊ฒฌ๊ณ ํ ์ ํ์ผ๋ก ๋จ์์๋ค. Qwen3-Next (๊ฒ์ดํธํ DeltaNet ์ ๋ฐ์ดํธ ํฌํจ) (Qwen Team, 2025)๋ ๊ธด ์ปจํ ์คํธ์์ ์ถ๋ก ์ด ๋ ๋น ๋ฅด๊ณ , ํ์ต์ด ๋ ๋น ๋ฅด๋ฉฐ, ์ผ๋ฐ์ ์ธ ๋ฒค์น๋งํฌ์์ ๋ ๊ฐํ๋ค๊ณ ๋ณด๊ณ ํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ Kimi์ ๋ค์ ๋ชจ๋ธ์ด ๊ทธ๋ค์ ์๋ก์ด โKimi Delta Attentionโ์ ์ฌ์ฉํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ ๊ธฐ๋ํ๊ณ ์๋ค. ๋ธ๋ก ๋๋ ์ฟผ๋ฆฌ๋ฅผ ์ ํํ์ฌ ์ดํ ์ ์ ๊ณ์ฐํจ์ผ๋ก์จ ์ ํ ์ดํ ์ ๊ณผ ๋์ผํ ๊ธด ์ปจํ ์คํธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํฌ์ ์ดํ ์ (Sparse Attention)๋ ์ธ๊ธํด์ผ ํ๋ค. ๋ช ๊ฐ์ง ์์๋ Native Sparse Attention (Yuan et al., 2025), DeepSeek Sparse Attention (DeepSeek-AI, 2025) ๋ฐ InfLLM v2 (M. Team, Xiao, et al., 2025)์ด๋ค.
์ด์ ๋ฐ์งํ, MoE ๋๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ ์ค ๋ฌด์์ ํ์ตํ ์ง ๊ฒฐ์ ํ๋ ์์ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ๊ตฌ์ถํจ์ผ๋ก์จ, ํ ํฌ๋์ด์ ๋ก ๋์ด๊ฐ๊ธฐ ์ ์ ์ํคํ ์ฒ ์ ํ์ ๋ง๋ฌด๋ฆฌํด๋ณด์.
MoE๋ก ๊ฐ ๊ฒ์ธ๊ฐ, ๊ฐ์ง ์์ ๊ฒ์ธ๊ฐ: ๊ธฐ๋ณธ ์ํคํ ์ฒ ์ ํ
์ฐ๋ฆฌ๋ ์ด์ Dense, MoE, ๊ทธ๋ฆฌ๊ณ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๋ณด์์ผ๋ฏ๋ก, ์ด๋ค ๊ฒ์ ์ฌ์ฉํด์ผ ํ ์ง ์์ฐ์ค๋ฝ๊ฒ ์๋ฌธ์ค๋ฌ์์ก์ ๊ฒ์ด๋ค. ๋น์ ์ ์ํคํ ์ฒ ์ ํ์ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ๋ฐฐํฌํ ์์น, ํ์ ์ ๋ฌธ ์ง์, ๊ทธ๋ฆฌ๊ณ ํ์๋ผ์ธ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ์ฐ๋ฆฌ๋ ๊ฐ ์ํคํ ์ฒ์ ์ฅ๋จ์ ์ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด๊ณ ์ฌ๋ฌ๋ถ์๊ฒ ์ ํฉํ ์ํคํ ์ฒ๋ฅผ ์ฐพ๊ธฐ ์ํ ๊ฐ๋จํ ์๋ด ํ๋ก์ธ์ค๋ฅผ ๊ณ ์ํ๋ค.
**๋ฐ์งํ ํธ๋์คํฌ๋จธ(Dense transformers)**๋ ๋ชจ๋ ๋งค๊ฐ๋ณ์๊ฐ ๋ชจ๋ ํ ํฐ์ ๋ํด ํ์ฑํ๋๋ ๊ธฐ๋ณธ ํ์ค ๋์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ์ด๋ค. ์ํ์ ๋ํด์๋ย The Annotated Transformers๋ฅผ, ์ง๊ด์ ๊ตฌ์ถํ๋ ๋ฐ๋ย The Illustrated Transformers๋ฅผ ์ฐธ๊ณ ํด๋ผ.
- ์ฅ์ :ย ๊ด๋ฒ์ํ๊ฒ ์ง์๋จ, ์ ์ดํด๋จ, ์์ ์ ์ธ ํ์ต, ๋งค๊ฐ๋ณ์๋น ์ข์ ์ฑ๋ฅ.
- ๋จ์ :ย ์ปดํจํ ์ด ํฌ๊ธฐ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ํ์ฅ๋จ, 70B ๋ชจ๋ธ์ 3B๋ณด๋ค ์ฝ 23๋ฐฐ ๋ ๋ง์ ๋น์ฉ์ด ๋ ๋ค.
์ด๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๋ ์ฌ์ฉ ์ฌ๋ก๋ ์๋ก์ด LLM ํ์ต์์๊ฒ ๊ธฐ๋ณธ ์ ํ์ด๋ค.
**์ ๋ฌธ๊ฐ ํผํฉ(Mixture of Experts, MoE)**์ ํธ๋์คํฌ๋จธ์ ํผ๋ํฌ์๋ ๋ ์ด์ด๋ฅผ ์ฌ๋ฌ โ์ ๋ฌธ๊ฐโ๋ก ๋์ฒดํ๋ค. ๊ฐ ํ ํฐ์ ๋ํด ๊ฒ์ดํ ๋คํธ์ํฌ๊ฐ ๊ทธ๊ฒ์ ์์์ ์ ๋ฌธ๊ฐ์๊ฒ๋ง ๋ผ์ฐํ ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ์ ์ ์ปดํจํ ์ผ๋ก ํฐ ๋คํธ์ํฌ์ ๋ฅ๋ ฅ์ ์ป๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด Kimi K2๋ ์ด 1์กฐ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง์ง๋ง ํ ํฐ๋น 32B๋ง ํ์ฑ๋๋ค. ๋ฌธ์ ๋ ๋ชจ๋ ์ ๋ฌธ๊ฐ๊ฐ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋๋์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ์๊ฐ์ ๊ฐ์ด๋ ๋ฐ ์๊ธฐ๋ฅผ ์ํด ์ด ๋ธ๋ก๊ทธ(https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts) ๋ฅผ ํ์ธํ๋ผ.
- ์ฅ์ :ย ํ์ต ๋ฐ ์ถ๋ก ์ ์ํ ์ปดํจํ ๋น ๋ ๋์ ์ฑ๋ฅ.
- ๋จ์ :ย ๋์ ๋ฉ๋ชจ๋ฆฌ (๋ชจ๋ ์ ๋ฌธ๊ฐ๊ฐ ๋ก๋๋์ด์ผ ํจ). ๋ฐ์งํ ํธ๋์คํฌ๋จธ๋ณด๋ค ๋ ๋ณต์กํ ํ์ต. ํ๋ ์์ํฌ ์ง์์ด ๊ฐ์ ๋๊ณ ์์ง๋ง ๋ฐ์งํ ๋ชจ๋ธ๋ณด๋ค ์ฑ์๋๊ฐ ๋ฎ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ถ์ฐ ํ์ต์ ์ ๋ฌธ๊ฐ ๋ฐฐ์น, ๋ถํ ๋ถ์ฐ, ๊ทธ๋ฆฌ๊ณ All-to-All ํต์ ๋ฌธ์ ๋ก ์ ๋ชฝ๊ณผ ๊ฐ๋ค.
๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๊ณ ์ปดํจํ ๋น ์ต๋ ์ฑ๋ฅ์ ์ํ ๋ ์ฌ์ฉํ๋ค.
ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ํธ๋์คํฌ๋จธ๋ฅผ Mamba์ ๊ฐ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM)๊ณผ ๊ฒฐํฉํ์ฌ, ์ดํ ์ ์ 2์ฐจ ํ์ฅ๊ณผ ๋น๊ตํ์ฌ ์ผ๋ถ ์์ ์ ๋ํด ์ ํ ๋ณต์ก์ฑ์ ์ ๊ณตํ๋ค. (์ํ์ ๋ธ๋ก๊ทธ https://srush.github.io/annotated-mamba/hard.htmlย |ย ์๊ฐ์ ๊ฐ์ด๋ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state)
- ์ฅ์ :ย ์ ์ฌ์ ์ผ๋ก ๋ ๋์ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ. ๋งค์ฐ ๊ธด ์ํ์ค์ ๋ ํจ์จ์ ์ด๋ค.
- ๋จ์ :ย ๊ฒ์ฆ๋ ํ์ต ๋ ์ํผ๊ฐ ์ ์ด ๋ฐ์งํ ๋ฐ MoE๋ณด๋ค ๋ ์ฑ์ํ๋ค. ์ ํ๋ ํ๋ ์์ํฌ ์ง์.
ํ์ค ํธ๋์คํฌ๋จธ์ ์ถ๋ก ์ค๋ฒํค๋๋ฅผ ์ค์ด๋ฉด์ ๋งค์ฐ ๊ธด ์ปจํ ์คํธ๋ก ํ์ฅํ๊ณ ์ ํ ๋ ์ฌ์ฉํ๋ค.
์์ฝํ์๋ฉด, ๋ชจ๋ธ์ด ์ด๋์ ๋ฐฐํฌ๋ ์ง ๋ฌป๋ ๊ฒ๋ถํฐ ์์ํด์ผ ํ๋ค. ๊ทธ๋ฐ ๋ค์ ํ์ ์ ๋ฌธ ์ง์๊ณผ ํ์ต ํ์๋ผ์ธ์ ๊ณ ๋ คํ์ฌ ๊ฐ๋นํ ์ ์๋ ํ์์ ์ ๋๋ฅผ ํ๊ฐํด์ผ ํ๋ค:

SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์จ๋๋ฐ์ด์ค ๋ฐฐํฌ๋ฅผ ์ํ ๊ฐ๋ ฅํ ์ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ์ ํ๊ณ , ๋๋ต 3๊ฐ์์ ํ์๋ผ์ธ์ ๊ฐ์ก์ผ๋ฉฐ, ๊ณผ๊ฑฐ์ ์ฃผ๋ก ๋ฐ์งํ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด๊ฒ์ MoE (๋ฉ๋ชจ๋ฆฌ ์ ์ฝ)์ ํ์ด๋ธ๋ฆฌ๋ (์๋ก์ด ์ํคํ ์ฒ๋ฅผ ํ์ํ๊ธฐ์๋ ์งง์ ํ์๋ผ์ธ, ๊ทธ๋ฆฌ๊ณ ๋ฐ์งํ ๋ชจ๋ธ์ด ์ฐ๋ฆฌ๊ฐ ๋ชฉํ๋ก ํ๋ ์ต๋ 128k ํ ํฐ์ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ป์ ์ ์์์)๋ฅผ ๋ฐฐ์ ํ์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ย Llama ์คํ์ผ์ ๋ฐ์งํ ๋ชจ๋ธ์ ์ ํํ๋ค.
์ด์ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ด๋ถ๋ฅผ ์ฐ๊ตฌํ์ผ๋ฏ๋ก, ๋ฐ์ดํฐ์ ์ฐ๋ฆฌ ๋ชจ๋ธ ์ฌ์ด์ ๋ค๋ฆฌ๋ฅผ ํ์ฑํ๋ย ํ ํฌ๋์ด์ ๋ฅผ ์ดํด๋ณด์.
ํ ํฌ๋์ด์
ํ ํฐํ ๋ฐฉ์์ ์ํคํ ์ฒ ํ์ ์ผ๋ก๋ถํฐ ์ฃผ๋ชฉ์ ๋ฐ๋ ์ผ์ ๊ฑฐ์ ์์ง๋ง, ์๋ง๋ ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ์์ ๊ฐ์ฅ ์ ํ๊ฐ๋ ๊ตฌ์ฑ ์์ ์ค ํ๋์ผ ๊ฒ์ด๋ค. ํ ํฌ๋์ด์ ๋ ์ธ๊ฐ ์ธ์ด์ ๋ชจ๋ธ์ด ์กด์ฌํ๋ ์ํ์ ์ธ๊ณ ์ฌ์ด์ ๋ฒ์ญ๊ฐ๋ก ์๊ฐํ ์ ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ฒ์ญ๊ฐ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฒ์ญ์ ํ์ง์ ๋งค์ฐ ์ค์ํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ์ ํ์์ ๋ง๋ ์ฌ๋ฐ๋ฅธ ํ ํฌ๋์ด์ ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ถํ๊ฑฐ๋ ์ ํํ ์ ์์๊น?
ํ ํฌ๋์ด์ ์ ๊ธฐ๋ณธ
ํต์ฌ์ ์ผ๋ก, ํ ํฌ๋์ด์ ๋ ์คํ ์ค์ธ ํ ์คํธ๋ฅผ ํ ํฐ์ด๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅํ ๋จ์๋ก ๋ถํ ํ์ฌ, ์์ ํ ์คํธ๋ฅผ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ์ซ์์ ์ํ์ค๋ก ๋ณํํ๋ค. ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ์ฐ๋ฆฌ์ ํ ํฌ๋์ด์ ์ค๊ณ๋ฅผ ์๋ดํ ๋ช ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ๋จผ์ ๋ตํด์ผ ํ๋ค:
- ์ด๋ค ์ธ์ด๋ฅผ ์ง์ํ๊ณ ์ ํ๋๊ฐ?ย ๋ค๊ตญ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ์์ง๋ง ์ฐ๋ฆฌ์ ํ ํฌ๋์ด์ ๊ฐ ์์ด๋ง ๋ณด์๋ค๋ฉด, ๋ชจ๋ธ์ ๋ถํ์ํ๊ฒ ํจ์ฌ ๋ ๋ง์ ํ ํฐ์ผ๋ก ๋ถํ ๋๋ ๋น์์ด ํ ์คํธ์ ์ง๋ฉดํ ๋ ๋นํจ์จ์ ์ผ ๊ฒ์ด๋ค. ์ด๊ฒ์ ์ฑ๋ฅ, ํ์ต ๋น์ฉ ๋ฐ ์ถ๋ก ์๋์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค.
- ์ด๋ค ๋๋ฉ์ธ์ด ์ฐ๋ฆฌ์๊ฒ ์ค์ํ๊ฐ?ย ์ธ์ด๋ฅผ ๋์ด, ์ํ ๋ฐ ์ฝ๋์ ๊ฐ์ ๋๋ฉ์ธ์ ์ซ์์ ์ ์คํ ํํ์ ์๊ตฌํ๋ค.
- ์ฐ๋ฆฌ์ ๋ชฉํ ๋ฐ์ดํฐ ํผํฉ์ ์๊ณ ์๋๊ฐ?ย ์ฒ์๋ถํฐ ํ ํฌ๋์ด์ ๋ฅผ ํ์ต์ํฌ ๊ณํ์ด๋ผ๋ฉด, ์ด์์ ์ผ๋ก๋ ์ต์ข ํ์ต ํผํฉ์ ๋ฐ์ํ๋ ์ํ๋ก ํ์ต์์ผ์ผ ํ๋ค.
์ด๋ฌํ ์ง๋ฌธ์ ๋ตํ๋ค๋ฉด, ์ฃผ์ ์ค๊ณ ๊ฒฐ์ ์ ๊ฒํ ํ ์ ์๋ค:
(ํ ํฐํ ๊ธฐ๋ณธ ์ฌํญ์ ๋ํ ๊น์ ํ๊ตฌ๋ฅผ ์ํด, Andrej Karpathy์ โLetโs build the GPT Tokenizerโ๋ ํ๋ฅญํ ์ค์ต ํํ ๋ฆฌ์ผ์ด๋ค. ํ ํฌ๋์ด์ ์๊ฐ ๋ฐ ๋ค์์ ์ธ๋ถ ์๋ฃ๋ฅผ ์ ๊ณตํ๋ ์ด ์๋ฃ https://github.com/huggingface/evaluation-guidebook/blob/main/contents/general-knowledge/tokenization.md ๋ฅผ ํ์ธํ ์๋ ์๋ค.)
์ดํ ํฌ๊ธฐ (Vocabulary size)
์ดํ Vocabulary ****๋ ๋ณธ์ง์ ์ผ๋ก ๋ชจ๋ธ์ด ์ธ์ํ๋ ๋ชจ๋ ํ ํฐ (๋จ์ด, ํ์ ๋จ์ด, ๋๋ ๊ธฐํธ์ ๊ฐ์ ์ต์ ํ ์คํธ ๋จ์)์ ๋์ดํ๋ ์ฌ์ ์ด๋ค.
์ดํ๊ฐ ํด์๋ก ๋ฌธ์ฅ๋น ๋ ์ ์ ํ ํฐ์ ์์ฑํ๋ฏ๋ก ํ ์คํธ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์์ถํ์ง๋ง, ๊ณ์ฐ์์ ํธ๋ ์ด๋์คํ๊ฐ ์๋ค. ์ดํ ํฌ๊ธฐ๋ ์ฐ๋ฆฌ์ ์๋ฒ ๋ฉ ํ๋ ฌ์ ํฌ๊ธฐ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค. ์ดํ ํฌ๊ธฐ๊ฐ V ์ด๊ณ ์๋ ์ฐจ์์ด h
๋ผ๋ฉด, ์ ๋ ฅ ์๋ฒ ๋ฉ์ Vรh ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง๋ฉฐ, ์ถ๋ ฅ ๋ ์ด์ด๋ ๋ ๋ค๋ฅธ Vรh ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง๋ค. โ์๋ฒ ๋ฉ ๊ณต์ โ ์น์ ์์ ๋ณด์๋ฏ์ด, ์ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ด๊ฒ์ด ์ ์ฒด ๋งค๊ฐ๋ณ์์ ์๋นํ ๋ถ๋ถ์ ์ฐจ์งํ์ง๋ง, ๋ชจ๋ธ์ด ํ์ฅ๋จ์ ๋ฐ๋ผ ์๋์ ๋น์ฉ์ ์ค์ด๋ ๋ค.
์ต์ ์ ์ ์ฐ๋ฆฌ์ ๋ชฉํ ๋ฒ์ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ์์ด ์ ์ฉ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์ฝ 50k ํ ํฐ์ด ์ผ๋ฐ์ ์ผ๋ก ์ถฉ๋ถํ์ง๋ง, ๋ค๊ตญ์ด ๋ชจ๋ธ์ ๋ค์ํ ๋ฌธ์ ์ฒด๊ณ ๋ฐ ์ธ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ข ์ข 100k+๊ฐ ํ์ํ๋ค. Llama3์ ๊ฐ์ ํ๋์ SOTA ๋ชจ๋ธ๋ค์ ๋ค์ํ ์ธ์ด์ ๊ฑธ์ณ ํ ํฐ ํจ์จ์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด 128k+ ๋ฒ์์ ์ดํ๋ฅผ ์ฑํํ๋ค. ๋์ผํ ํจ๋ฐ๋ฆฌ์ ์ํ ๋ชจ๋ธ๋ค์ ๋ ํฐ ์ดํ์ ์ด์ ์ ์ฌ์ ํ ์ป์ผ๋ฉด์ ์๋ฒ ๋ฉ ๋งค๊ฐ๋ณ์์ ๋น์จ์ ์ค์ด๊ธฐ ์ํด ์๋ฒ ๋ฉ ๊ณต์ ๋ฅผ ์ ์ฉํ๋ค. Dagan et al. (2024)์ ์ดํ ํฌ๊ธฐ๊ฐ ์์ถ, ์ถ๋ก ๋ฐ ๋ฉ๋ชจ๋ฆฌ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๋ค. ๊ทธ๋ค์ ๋ ํฐ ์ดํ๋ก๋ถํฐ์ ์์ถ ์ด๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๊ฐ์ํ์ฌ ์ต์ ์ ํฌ๊ธฐ๊ฐ ์กด์ฌํจ์ ์์ฌํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๋ค. ์ถ๋ก ์ ๊ฒฝ์ฐ, ์์ถ์ด ์ํํธ๋งฅ์ค์์ ์ถ๊ฐ ์๋ฒ ๋ฉ ํ ํฐ ๋น์ฉ๋ณด๋ค ์๋ฐฉํฅ ์ ๋ฌ์์ ๋ ๋ง์ด ์ ์ฝ๋๋ฏ๋ก ๋ ํฐ ์ดํ๊ฐ ๋ ํฐ ๋ชจ๋ธ์ ์ด์ ์ ์ค๋ค. ๋ฉ๋ชจ๋ฆฌ์ ๊ฒฝ์ฐ, ์ต์ ์ ํฌ๊ธฐ๋ ์ํ์ค ๊ธธ์ด์ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค: ๋ ๊ธด ์ปจํ ์คํธ์ ํฐ ๋ฐฐ์น๋ ๋ ์ ์ ํ ํฐ์ ๊ฐ์ง์ผ๋ก์จ KV ์บ์ ์ ์ฝ ๋๋ฌธ์ ๋ ํฐ ์ดํ๋ก๋ถํฐ ์ด์ ์ ์ป๋๋ค.
ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ
BPE (Byte-Pair Encoding)ย (Sennrich et al., 2016)๋ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ์ ํ์ผ๋ก ๋จ์ ์์ผ๋ฉฐ, WordPiece ๋๋ SentencePiece์ ๊ฐ์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด ์กด์ฌํ์ง๋ง ๋ ์ฑํ๋๋ค. ๋ํ ๋ฐ์ดํธ ๋๋ ๋ฌธ์์ ์ง์ ์๋ํ๋ ํ ํฌ๋์ด์ ์๋ ์ ๊ทผ ๋ฐฉ์์ ๋ํ ์ฐ๊ตฌ ๊ด์ฌ์ด ์ฆ๊ฐํ๊ณ ์์ผ๋ฉฐ, ๊ทธ๋ฌํ ์ฐ๊ตฌ๋ค์ ์ ์ฌ์ ์ผ๋ก ํ ํฐํ๋ฅผ ์์ ํ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์๋ค.
์ด์ ํ ํฌ๋์ด์ ๋ฅผ ์ ์ํ๋ ์ฃผ์ ๋งค๊ฐ๋ณ์๋ฅผ ๋ณด์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์ค์ฉ์ ์ธ ๊ฒฐ์ ์ ๋ด๋ ค์ผ ํ๋ค: ๊ธฐ์กด ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ ์๋๋ฉด ์ฒ์๋ถํฐ ํ์ตํด์ผ ํ๋๊ฐ? ๋ต์ ๋ฒ์(coverage)์ ๋ฌ๋ ค์๋ค: ๋ชฉํ ์ดํ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ๊ธฐ์กด ํ ํฌ๋์ด์ ๊ฐ ์ฐ๋ฆฌ์ ์ธ์ด์ ๋๋ฉ์ธ์ ์ ์ฒ๋ฆฌํ๋์ง ์ฌ๋ถ์ด๋ค.
์๋ ๊ทธ๋ฆผ์ GPT-2์ ์์ด ์ ์ฉ ํ ํฌ๋์ด์ (Radford et al., 2019)์ Gemma 3์ ๋ค๊ตญ์ด ํ ํฌ๋์ด์ (G. Team, Kamath, et al., 2025)๊ฐ ๋์ผํ ์์ด ๋ฐ ์๋์ด ๋ฌธ์ฅ์ ์ด๋ป๊ฒ ๋ถํ ํ๋์ง ๋น๊ตํ๋ค.

๋ ํ ํฌ๋์ด์ ๋ ์์ด์์๋ ์ ์ฌํ๊ฒ ๋ถํ ์ ์ํํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์๋์ด์ ๊ฒฝ์ฐ ๊ทธ ์ฐจ์ด๊ฐ ๋๋๋ฌ์ง๋ค: GPT2๋ ํ ์คํธ๋ฅผ 100๊ฐ ์ด์์ ์กฐ๊ฐ์ผ๋ก ๋๋๋ ๋ฐ๋ฉด, Gemma3๋ ๋ค๊ตญ์ด ํ์ต ๋ฐ์ดํฐ์ ๋ ํฌ๊ณ ํฌ๊ด์ ์ธ ์ดํ ๋๋ถ์ ํจ์ฌ ๋ ์ ์ ํ ํฐ์ ์์ฑํ๋ค.
๊ทธ๋ฌ๋ ํ ํฌ๋์ด์ ์ ํ์ง์ ์ธก์ ํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ํ ํฐํ ์์๋ฅผ ๋์ผ๋ก ํ์ด๋ณด๊ณ ์ข๋ค๊ณ ํ ์๋ ์๋ค. ์ด๋ ์ ๊ฑฐ ์คํ์ ์คํํ์ง ์๊ณ ์ง๊ด์ ๊ธฐ๋ฐํ์ฌ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ํ ์ ์๋ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง์ด๋ค. ํ ํฌ๋์ด์ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํ ๊ตฌ์ฒด์ ์ธ ์ธก์ ๊ธฐ์ค์ด ํ์ํ๋ค.
ํ ํฌ๋์ด์ ํ์ง ์ธก์
ํ ํฌ๋์ด์ ๊ฐ ์ผ๋ง๋ ์ ์ํํ๋์ง ํ๊ฐํ๊ธฐ ์ํด, FineWeb2์์ ์ฌ์ฉ๋ ๋ ๊ฐ์ง ์ฃผ์ ์ธก์ ๊ธฐ์ค์ ์ฌ์ฉํ ์ ์๋ค (Penedo et al., 2025).
์์ฐ์ฑ (Fertility):
์ด๊ฒ์ ๋จ์ด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐ ํ์ํ ํ๊ท ํ ํฐ ์๋ฅผ ์ธก์ ํ๋ค.ย ์์ฐ์ฑ์ด ๋ฎ์์๋กย ๋ ๋์ ์์ถ์ ์๋ฏธํ๋ฉฐ, ์ด๋ ๋ ๋น ๋ฅธ ํ์ต ๋ฐ ์ถ๋ก ์ผ๋ก ์ด์ด์ง๋ค. ์ด๋ ๊ฒ ์๊ฐํ๋ค: ํ ํ ํฌ๋์ด์ ๊ฐ ๋๋ถ๋ถ์ ๋จ์ด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐ ํ๋ ๊ฐ์ ํ ํฐ์ด ๋ ํ์ํ ๋ฐ๋ฉด ๋ค๋ฅธ ํ ํฌ๋์ด์ ๋ ๋ ์ ์ ํ ํฐ์ผ๋ก ์ํํ๋ค๋ฉด, ํ์๊ฐ ๋ถ๋ช ํ ๋ ํจ์จ์ ์ด๋ค.
์์ฐ์ฑ์ ์ธก์ ํ๋ ํ์ค ์ ๊ทผ ๋ฐฉ์์ **๋จ์ด ๋ ํ ํฐ ๋น์จ (word fertility)**์ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ์ด๋ ํ๊ท ์ ์ผ๋ก ๋จ์ด๋น ๋ช ๊ฐ์ ํ ํฐ์ด ํ์ํ์ง ์ธก์ ํ๋ค. ์ด ์ธก์ ๊ธฐ์ค์ ์ ์ ํ ๋จ์ด ํ ํฌ๋์ด์ ๊ฐ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ (์: Spacy ๋ฐ Stanza์์) ์๋ฏธ ์๋ ๊ต์ฐจ ์ธ์ด ๋น๊ต๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ย ๋จ์ดย ๊ฐ๋ ์ ์ค์ฌ์ผ๋ก ์ ์๋๋ค (Penedo et al., 2025).
๋จ์ผ ์ธ์ด์ ๋ํ ํ ํฌ๋์ด์ ๋ฅผ ๋น๊ตํ ๋, ๋จ์ด ๋์ ๋ฌธ์ ๋๋ ๋ฐ์ดํธ ์๋ฅผ ์ฌ์ฉํ์ฌย ๋ฌธ์ ๋ ํ ํฐ ๋น์จย ๋๋ย ๋ฐ์ดํธ ๋ ํ ํฐ ๋น์จ์ ์ป์ ์๋ ์๋ค (Dagan et al., 2024). ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ธก์ ๊ธฐ์ค์ ๊ต์ฐจ ์ธ์ด ๋น๊ต์ ํ๊ณ๊ฐ ์๋ค. ๋ค๋ฅธ ์คํฌ๋ฆฝํธ์ ๋ฌธ์๊ฐ ๋ค๋ฅธ ๋ฐ์ดํธ ํํ์ ์๊ตฌํ๋ฏ๋ก (์: ์ค๊ตญ์ด ๋ฌธ์๋ UTF-8์์ 3๋ฐ์ดํธ๋ฅผ ์ฌ์ฉํ๋ ๋ฐ๋ฉด ๋ผํด์ด ๋ฌธ์๋ 1~2๋ฐ์ดํธ๋ฅผ ์ฌ์ฉ), ๋ฐ์ดํธ๋ ์๊ณก๋ ์ ์๋ค. ์ ์ฌํ๊ฒ, ๋ฌธ์ ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ธ์ด๋ง๋ค ๋จ์ด ๊ธธ์ด๊ฐ ๊ทน์ ์ผ๋ก ๋ค๋ฅด๋ค๋ ์ฌ์ค์ ์ค๋ช ํ์ง ๋ชปํ๋ค. ์๋ฅผ ๋ค์ด, ์ค๊ตญ์ด ๋จ์ด๋ ๋ ์ผ์ด ๋ณตํฉ์ด๋ณด๋ค ํจ์ฌ ์งง์ ๊ฒฝํฅ์ด ์๋ค.
๋ถํ ๋ ๋จ์ด์ ๋น์จ (Proportion of continued words, PCW):
์ด ์ธก์ ๊ธฐ์ค์ ๋จ์ด์ ๋ช ํผ์ผํธ๊ฐ ์ฌ๋ฌ ์กฐ๊ฐ์ผ๋ก ๋ถํ ๋๋์ง ์๋ ค์ค๋ค. ๋ ๋ฎ์ ๋น์จ์ด ๋ ์ข๋ค. ์ด๋ ๋ ์ ์ ๋จ์ด๊ฐ ์กฐ๊ฐํ๋์ด ๋ ํจ์จ์ ์ธ ํ ํฐํ๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ์๋ฏธํ๊ธฐ ๋๋ฌธ์ด๋ค.
์๋๋ ์ด๋ฌํ ์ธก์ ๊ธฐ์ค์ ๊ตฌํ์ด๋ค:
import numpy as np
def compute_tokenizer_metrics(tokenizer, word_tokenizer, text):
"""
์์ฐ์ฑ(fertility)๊ณผ ๋ถํ ๋ ๋จ์ด์ ๋น์จ(proportion of continued words)์ ๊ณ์ฐํ๋ค.
๋ฐํ๊ฐ:
tuple: (fertility, proportion_continued_words)
- fertility: ๋จ์ด๋น ํ๊ท ํ ํฐ (๋ฎ์์๋ก ์ข์)
- proportion_continued_words: 2๊ฐ ์ด์์ ํ ํฐ์ผ๋ก ๋ถํ ๋ ๋จ์ด์ ๋ฐฑ๋ถ์จ (๋ฎ์์๋ก ์ข์)
"""
words = word_tokenizer.word_tokenize(text)
tokens = tokenizer.batch_encode_plus(words, add_special_tokens=False)
tokens_per_word = np.array(list(map(len, tokens["input_ids"])))
fertility = np.mean(tokens_per_word).item()
proportion_continued_words = (tokens_per_word >= 2).sum() / len(tokens_per_word)
return fertility, proportion_continued_wordsํ์ง๋ง ์ฝ๋ ๋ฐ ์ํ๊ณผ ๊ฐ์ ์ ๋ฌธํ๋ ๋๋ฉ์ธ์ ๊ฒฝ์ฐ, ์์ฐ์ฑ ์ธ์๋ ๋๋ฉ์ธ๋ณ ํจํด์ ํ ํฌ๋์ด์ ๊ฐ ์ผ๋ง๋ ์ ์ฒ๋ฆฌํ๋์ง ๋ ๊น์ด ํ๊ณ ๋ค์ด์ผ ํ๋ค. ๋๋ถ๋ถ์ ํ๋ ํ ํฌ๋์ด์ ๋ ๋จ์ผ ์ซ์ ๋ถํ ์ ์ํํ๋ค (๋ฐ๋ผ์ โ123โ์ [โ1โ, โ2โ, โ3โ]์ด ๋๋ค) (Chowdhery et al., 2022; DeepSeek-AI et al., 2024). ์ซ์๋ฅผ ๋ถ๋ฆฌํ๋ ๊ฒ์ด ์ง๊ด์ ๋ฐํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ์ค์ ๋ก๋ ๋ชจ๋ธ์ด ์ฐ์ ํจํด์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ ๋ฐ ๋์์ด ๋๋ค. โ342792โ๊ฐ ํ๋์ ๋ถ๋ฆฌ ๋ถ๊ฐ๋ฅํ ํ ํฐ์ผ๋ก ์ธ์ฝ๋ฉ๋๋ฉด, ๋ชจ๋ธ์ ๊ทธ ํน์ ํ ํฐ์ ๋ค๋ฅธ ๋ชจ๋ ์ซ์ ํ ํฐ๊ณผ ๋ํ๊ฑฐ๋, ๋นผ๊ฑฐ๋, ๊ณฑํ ๋ ๋ฌด์จ ์ผ์ด ์ผ์ด๋๋์ง ์๊ธฐํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ ๊ทธ๊ฒ์ด ๋ถํ ๋ ๋, ๋ชจ๋ธ์ ์ซ์ ์์ค ์ฐ์ฐ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ํ์ตํ๋ค. Llama3 (Grattafiori et al., 2024)์ ๊ฐ์ ์ผ๋ถ ํ ํฌ๋์ด์ ๋ 1๋ถํฐ 999๊น์ง์ ์ซ์๋ฅผ ๊ณ ์ ํ ํ ํฐ์ผ๋ก ์ธ์ฝ๋ฉํ๊ณ ๋๋จธ์ง๋ ์ด๋ฌํ ํ ํฐ๋ค๋ก ๊ตฌ์ฑ๋๋ค.
(ํ ํฐํ๊ฐ ์ฐ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ ๊น์ ํ๊ตฌ๋ฅผ ์ํด, From Digits to Decisions: How Tokenization Impacts Arithmetic in LLMs๋ ์ํ ์์ ์ ๋ํ ๋ค๋ฅธ ํ ํฐํ ๋ฐฉ์์ ๋น๊ตํ๋ค.)
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ํ ํฌ๋์ด์ ์ ์ฝ์ ๊ณผ ๊ฐ์ ์ ํ๊ฐํ๊ธฐ ์ํด ๋ชฉํ ๋๋ฉ์ธ์์ ์์ฐ์ฑ์ ์ธก์ ํ ์ ์๋ค. ์๋ ํ๋ ๋ค๋ฅธ ์ธ์ด ๋ฐ ๋๋ฉ์ธ์ ๋ํ ์ธ๊ธฐ ์๋ ํ ํฌ๋์ด์ ์ ์์ฐ์ฑ์ ๋น๊ตํ๋ค.
ํ ํฌ๋์ด์ ํ๊ฐ
๋ค๋ฅธ ์ธ์ด์ ๊ฑธ์ณ ํ ํฌ๋์ด์ ๋ฅผ ๋น๊ตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ํคํผ๋์ ๊ธฐ์ฌ๋ฅผ ํ๊ฐ ์ฝํผ์ค๋ก ์ฌ์ฉํ์ฌ FineWeb2 ํ ํฌ๋์ด์ ๋ถ์์ ์ค์ ์ ์ฌ์ฉํ ๊ฒ์ด๋ค. ๊ฐ ์ธ์ด์ ๋ํด, ๊ณ์ฐ์ ๊ด๋ฆฌ ๊ฐ๋ฅํ ์์ค์ผ๋ก ์ ์งํ๋ฉด์ ์๋ฏธ ์๋ ์ํ์ ์ป๊ธฐ ์ํด 100๊ฐ์ ๊ธฐ์ฌ๋ฅผ ์ํ๋งํ ๊ฒ์ด๋ค.
๋จผ์ , ์ข ์์ฑ์ ์ค์นํ๊ณ ๋น๊ตํ๊ณ ์ ํ๋ ํ ํฌ๋์ด์ ์ ์ธ์ด๋ฅผ ์ ์ํ๋ค:
pip install transformers datasets sentencepiece 'datatrove[multilingual]'
## ๋จ์ด ํ ํฌ๋์ด์ ๋ฅผ ๋ก๋ํ๊ธฐ ์ํด datatrove๊ฐ ํ์ํ๋คtokenizers = [
("Llama3", "meta-llama/Llama-3.2-1B"),
("Gemma3", "google/gemma-3-1b-pt"),
("Mistral (S)", "mistralai/Mistral-Small-24B-Instruct-2501"),
("Qwen3", "Qwen/Qwen3-4B")
]
languages = [
("English", "eng_Latn", "en"),
("Chinese", "cmn_Hani", "zh"),
("French", "fra_Latn", "fr"),
("Arabic", "arb_Arab", "ar"),
]์ด์ ์ฐ๋ฆฌ์ ์ํคํผ๋์ ์ํ์ ๋ก๋ํ๋ค. ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ค์ด๋ก๋ํ๋ ๊ฒ์ ํผํ๊ธฐ ์ํด ์คํธ๋ฆฌ๋ฐ์ ์ฌ์ฉํ์:
from datasets import load_dataset
wikis = {}
for lang_name, lang_code, short_lang_code in languages:
wiki_ds = load_dataset("wikimedia/wikipedia", f"20231101.{short_lang_code}", streaming=True, split="train")
wiki_ds = wiki_ds.shuffle(seed=42, buffer_size=10_000)
# ์ธ์ด๋น 100๊ฐ ๊ธฐ์ฌ ์ํ๋ง
ds_iter = iter(wiki_ds)
wikis[lang_code] = "\n".join([next(ds_iter)["text"] for _ in range(100)])๋ฐ์ดํฐ๊ฐ ์ค๋น๋์์ผ๋ฏ๋ก, ์ด์ ๊ฐ ์ธ์ด์ ๋ํด ๊ฐ ํ ํฌ๋์ด์ ๋ฅผ ํ๊ฐํ ์ ์๋ค. ๊ฐ ์กฐํฉ์ ๋ํด, ์ฐ๋ฆฌ๋ datatrove์์ ์ ์ ํ ๋จ์ด ํ ํฌ๋์ด์ ๋ฅผ ๋ก๋ํ๊ณ ๋ ์ธก์ ๊ธฐ์ค์ ๋ชจ๋ ๊ณ์ฐํ๋ค:
from transformers import AutoTokenizer
from datatrove.utils.word_tokenizers import load_word_tokenizer
import pandas as pd
results = []
for tokenizer_name, tokenizer_path in tokenizers:
tokenizer = AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True)
for lang_name, lang_code, short_lang_code in languages:
word_tokenizer = load_word_tokenizer(lang_code)
# ์ํคํผ๋์์์ ์ธก์ ๊ธฐ์ค ๊ณ์ฐ
fertility, pcw = compute_tokenizer_metrics(tokenizer, word_tokenizer, wikis[lang_code])
results.append({
"tokenizer": tokenizer_name,
"language": lang_name,
"fertility": fertility,
"pcw": pcw
})
df = pd.DataFrame(results)
print(df) tokenizer language fertility pcw
0 Llama3 English 1.481715 0.322058
1 Llama3 Chinese 1.601615 0.425918
2 Llama3 French 1.728040 0.482036
3 Llama3 Spanish 1.721480 0.463431
4 Llama3 Portuguese 1.865398 0.491938
5 Llama3 Italian 1.811955 0.541326
6 Llama3 Arabic 2.349994 0.718284
7 Gemma3 English 1.412533 0.260423
8 Gemma3 Chinese 1.470705 0.330617
9 Gemma3 French 1.562824 0.399101
10 Gemma3 Spanish 1.586070 0.407092
11 Gemma3 Portuguese 1.905458 0.460791
12 Gemma3 Italian 1.696459 0.484186
13 Gemma3 Arabic 2.253702 0.700607
14 Mistral (S) English 1.590875 0.367867
15 Mistral (S) Chinese 1.782379 0.471219
16 Mistral (S) French 1.686307 0.465154
17 Mistral (S) Spanish 1.702656 0.456864
18 Mistral (S) Portuguese 2.013821 0.496445
19 Mistral (S) Italian 1.816314 0.534061
20 Mistral (S) Arabic 2.148934 0.659853
21 Qwen3 English 1.543511 0.328073
22 Qwen3 Chinese 1.454369 0.307489
23 Qwen3 French 1.749418 0.477866
24 Qwen3 Spanish 1.757938 0.468954
25 Qwen3 Portuguese 2.064296 0.500651
26 Qwen3 Italian 1.883456 0.549402
27 Qwen3 Arabic 2.255253 0.660318๊ฒฐ๊ณผ๋ ์ฐ์ ์์์ ๋ฐ๋ผ ์น์์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ณด์ฌ์ค๋ค:

Gemma3 ํ ํฌ๋์ด์ ๋ ๋ค๊ตญ์ด ํ์ต ๋ฐ์ดํฐ์ Llama3์ 128k๋ณด๋ค ์ฝ 2๋ฐฐ ๋ ํฐ 262k์ ๋งค์ฐ ํฐ ์ดํ ํฌ๊ธฐ๋ก ์ค๋ช ๋ ์ ์๋ ์์ด, ํ๋์ค์ด, ์คํ์ธ์ด๋ฅผ ํฌํจํ ์ฌ๋ฌ ์ธ์ด์ ๊ฑธ์ณ ๋ฎ์ ์์ฐ์ฑ๊ณผ ๋จ์ด ๋ถํ ๋น์จ์ ๋ฌ์ฑํ๋ค. Qwen3 ํ ํฌ๋์ด์ ๋ ์ค๊ตญ์ด์์ ํ์ํ์ง๋ง, ์์ด, ํ๋์ค์ด, ์คํ์ธ์ด์์๋ Llama3 ํ ํฌ๋์ด์ ์ ๋ค์ฒ์ง๋ค. Mistral Small์ ํ ํฌ๋์ด์ (Mistral AI, 2025)๋ ์๋์ด์์ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์์ด์ ์ค๊ตญ์ด์์๋ ๋ค๋ฅธ ํ ํฌ๋์ด์ ์ ๋ฏธ์น์ง ๋ชปํ๋ค.
๊ธฐ์กด ํ ํฌ๋์ด์ ์ ๋ง์ถคํ ํ ํฌ๋์ด์ ์ฌ์ด์ ์ ํ
ํ์ฌ, ๊ฐ๋ ฅํ ํ ํฌ๋์ด์ ์ ์ข์ ์ ํ์ด ๊ฐ๋ฅํ๋ค. ๋ง์ ์ต์ ๋ชจ๋ธ์ GPT4์ ํ ํฌ๋์ด์ (OpenAI et al., 2024)์ ๊ฐ์ ๊ฒ์ผ๋ก ์์ํ์ฌ ์ถ๊ฐ ๋ค๊ตญ์ด ํ ํฐ์ผ๋ก ๋ณด๊ฐํ๋ค. ์ ํ์์ ๋ณผ ์ ์๋ฏ์ด, Llama 3์ ํ ํฌ๋์ด์ ๋ ๋ค๊ตญ์ด ํ ์คํธ ๋ฐ ์ฝ๋ ์ ๋ฐ์ ๊ฑธ์ณ ํ๊ท ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฐ๋ฉด, Qwen 2.5๋ ํนํ ์ค๊ตญ์ด ๋ฐ ์ผ๋ถ ์ ์์ ์ธ์ด์์ ํ์ํ๋ค.
- ๊ธฐ์กด ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํด์ผ ํ ๋:ย ์ฐ๋ฆฌ์ ๋ชฉํ ์ฌ์ฉ ์ฌ๋ก๊ฐ ์์ ์ต๊ณ ์ ํ ํฌ๋์ด์ ๋ค (Llama, Qwen, Gemma)์ ์ธ์ด ๋๋ ๋๋ฉ์ธ ๋ฒ์์ ์ผ์นํ๋ค๋ฉด, ๊ทธ๋ค์ ์ค์ ๊ฒ์ฆ๋ ๊ฒฌ๊ณ ํ ์ ํ์ด๋ค. SmolLM3 ํ์ต์ ์ํด ์ฐ๋ฆฌ๋ Llama3์ ํ ํฌ๋์ด์ ๋ฅผ ์ ํํ๋ค: ๊ทธ๊ฒ์ ์ฐ๋ฆฌ์ ์ํ ๋ชจ๋ธ ํฌ๊ธฐ์ ํฉ๋ฆฌ์ ์ธ ์ ๋นํ ์ดํ ํฌ๊ธฐ๋ก ์ฐ๋ฆฌ์ ๋ชฉํ ์ธ์ด๋ค (์์ด, ํ๋์ค์ด, ์คํ์ธ์ด, ํฌ๋ฅดํฌ๊ฐ์ด, ์ดํ๋ฆฌ์์ด)์ ๋ํด ๊ฒฝ์๋ ฅ ์๋ ํ ํฐํ ํ์ง์ ์ ๊ณตํ๋ค. ์๋ฒ ๋ฉ์ด ์ ์ฒด ๋งค๊ฐ๋ณ์์ ๋ ์์ ๋ถ๋ถ์ ์ฐจ์งํ๋ ๋ ํฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, Gemma3์ ํจ์จ์ฑ ์ด์ ์ด ๋ ๋งค๋ ฅ์ ์ด ๋๋ค.
- ์์ฒด ํ ํฌ๋์ด์ ๋ฅผ ํ์ตํด์ผ ํ ๋:ย ์ ์์ ์ธ์ด๋ฅผ ์ํด ํ์ตํ๊ฑฐ๋ ๋งค์ฐ ๋ค๋ฅธ ๋ฐ์ดํฐ ํผํฉ์ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์ข์ ๋ฒ์๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ์์ฒด ํ ํฌ๋์ด์ ๋ฅผ ํ์ต์์ผ์ผ ํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ์ด ๊ฒฝ์ฐ, ์ต์ข ํ์ต ํผํฉ์ด ์ด๋ป๊ฒ ๋ณด์ผ ๊ฒ์ด๋ผ๊ณ ์ฐ๋ฆฌ๊ฐ ๋ฏฟ๋ ๊ฒ๊ณผ ๊ฐ๊น์ด ๋ฐ์ดํฐ์ ์ผ๋ก ํ ํฌ๋์ด์ ๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด๊ฒ์ ๋ฐ์ดํฐ ์ ๊ฑฐ ์คํ์ ์คํํ๊ณ ํผํฉ์ ์ฐพ๊ธฐ ์ํด ํ ํฌ๋์ด์ ๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ ์ผ์ข ์ ๋ญ์ด ๋จผ์ ๋ ๋ฌ๊ฑ์ด ๋จผ์ ๋ ํ๋ ๋ฌธ์ ๋ฅผ ๋ง๋ ๋ค. ๊ทธ๋ฌ๋ ์ต์ข ์คํ์ ์์ํ๊ธฐ ์ ์ ํ ํฌ๋์ด์ ๋ฅผ ์ฌํ์ต์ํค๊ณ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ด ๊ฐ์ ๋๊ณ ์์ฐ์ฑ์ด ์ฌ์ ํ ์ข์์ง ํ์ธํ ์ ์๋ค.
์ฌ๋ฌ๋ถ์ ํ ํฌ๋์ด์ ์ ํ์ ๊ธฐ์ ์ ์ธ ์ธ๋ถ ์ฌํญ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ชจ๋ ์ธก๋ฉด์ ์ํฅ์ ๋ฏธ์น๋ค. ๋ฐ๋ผ์ ๊ทธ๊ฒ์ ์ฌ๋ฐ๋ฅด๊ฒ ํ๋ ๋ฐ ์๊ฐ์ ํฌ์ํ๋ ๊ฒ์ ๋๋ ค์ํ์ง ์์์ผ ํ๋ค.
SmolLM3
์ด์ ์ํคํ ์ฒ ํ๊ฒฝ์ ํ์ํ๊ณ ์ฒด๊ณ์ ์ธ ์ ๊ฑฐ ์คํ์ ์คํํ์ผ๋ฏ๋ก, SmolLM3์ ๊ฐ์ ๋ชจ๋ธ์ ๋ํด ์ด ๋ชจ๋ ๊ฒ์ด ์ค์ ๋ก ์ด๋ป๊ฒ ํ๋๋ก ํฉ์ณ์ง๋์ง ์ดํด๋ณด์.
SmolLM ํจ๋ฐ๋ฆฌ๋ ์ํ ๋ชจ๋ธ๋ก ๊ฐ๋ฅํ ๊ฒ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๋ ๊ฒ์ ๊ดํ ์๋์๋ค. SmolLM2๋ ๋ชจ๋ ์จ๋๋ฐ์ด์ค์์ ํจ์จ์ ์ผ๋ก ์คํ๋๋๋ก ์ค๊ณ๋ 1์ต 3500๋ง, 3์ต 6์ฒ๋ง, ๊ทธ๋ฆฌ๊ณ 17์ต ๋งค๊ฐ๋ณ์์ ์ธ ๊ฐ์ง ์ ๋ฅํ ๋ชจ๋ธ์ ์ ๊ณตํ๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ํด๋ํฐ์ ์ถฉ๋ถํ ์๊ฒ ์ ์งํ๋ฉด์ ์ฑ๋ฅ์ ํ์ฅํ๊ณ SmolLM2์ ์ฝ์ ์ธย ๋ค๊ตญ์ด์ฑ, ๋งค์ฐ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ํด๊ฒฐํ๊ณ ์ ํ๋ค. ์ฐ๋ฆฌ๋ ์ด ๊ท ํ์ ์ํ ์ต์ ์ ์ผ๋กย 3B ๋งค๊ฐ๋ณ์๋ฅผ ์ ํํ๋ค.
์ฐ๋ฆฌ๋ ๊ฒ์ฆ๋ ๋ ์ํผ๋ฅผ ํ์ฅํ๊ณ ์์๊ธฐ ๋๋ฌธ์, ์์ฐ์ค๋ฝ๊ฒย ํ๋จ์ ๋ฐ์งํ ํธ๋์คํฌ๋จธ๋ก ๊ธฐ์ธ์ด์ก๋ค. MoE๋ nanotron์ ์์ง ๊ตฌํ๋์ง ์์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๋ฏธ ๊ฐ๋ ฅํ ์ํ ๋ฐ์งํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ์ ๋ฌธ ์ง์๊ณผ ์ธํ๋ผ๋ฅผ ๊ฐ์ง๊ณ ์์๋ค. ๋ ์ค์ํ๊ฒ๋, ์ฃ์ง ๋๋ฐ์ด์ค ๋ฐฐํฌ์ ๊ฒฝ์ฐ ์ฐ๋ฆฌ๋ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๋๋ฐ, ๋น๋ก ์ผ๋ถ ๋งค๊ฐ๋ณ์๋ง ํ์ฑ๋๋๋ผ๋ ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง MoE๋ ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํด์ผ ํ๋ฏ๋ก ์ ํ์ ์ด๋ฉฐ, ์ด๋ ๋ฐ์งํ ๋ชจ๋ธ์ ์ฐ๋ฆฌ์ ์ฃ์ง ๋ฐฐํฌ ๋ชฉํ์ ๋ ์ค์ฉ์ ์ผ๋ก ๋ง๋ค์๋ค.
์ ๊ฑฐ ์คํ:ย ์ฐ๋ฆฌ๋ SmolLM2 17์ต์ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ํ ๋ค์, Qwen2.5-3B ๋ ์ด์์์ ์ฌ์ฉํ์ฌ 100B ํ ํฐ์ผ๋ก 3B ์ ๊ฑฐ ์คํ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด๊ฒ์ ๊ฐ ์์ ์ฌํญ์ ๊ฐ๋ณ์ ์ผ๋ก ํ ์คํธํ๊ธฐ ์ํ ๊ฒฌ๊ณ ํ ๊ธฐ์ค์ ์ ์ ๊ณตํ๋ค. ๊ฐ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ์์ด ๋ฒค์น๋งํฌ์์ ์์ค ๋ฐ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ฑฐ๋ ํ์ง ์ ํ ์์ด ์ถ๋ก ์๋์ ๊ฐ์ ์ธก์ ๊ฐ๋ฅํ ์ด์ ์ ์ ๊ณตํด์ผ ํ๋ค.
๋ค์์ ์ฐ๋ฆฌ๊ฐ ์คํ์ ์์ํ๊ธฐ ์ ์ ํ ์คํธํ์ฌ ์ฑํ๋ ์ฌํญ์ด๋ค:
ํ ํฌ๋์ด์ :ย ์ํคํ ์ฒ ์์ ์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ์ฐ๋ฆฌ๋ ํ ํฌ๋์ด์ ๋ฅผ ์ ํํด์ผ ํ๋ค. ์ฐ๋ฆฌ๋ ๋ชฉํ ์ธ์ด์ ๋๋ฉ์ธ์ ํฌ๊ดํ๋ ์ข์ ํ ํฌ๋์ด์ ๋ค์ ๋ฐ๊ฒฌํ๋ค. ์ฐ๋ฆฌ์ ์์ฐ์ฑ ๋ถ์์ ๊ธฐ๋ฐ์ผ๋ก, Llama3.2์ ํ ํฌ๋์ด์ ๋ ์ฐ๋ฆฌ์ 6๊ฐ ๋ชฉํ ์ธ์ด ์ฌ์ด์์ ์ต์ ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํ๋ ๋์์, ๋ค๊ตญ์ด ํจ์จ์ฑ์ ์ํด ์ถฉ๋ถํ ํฌ์ง๋ง ์๋ฒ ๋ฉ ๊ฐ์ค์น๋ก 3B ๋งค๊ฐ๋ณ์ ์๋ฅผ ๋ถํ๋ฆฌ์ง ์์ ๋งํผ ์ ๋นํ 128k์ ์ดํ๋ฅผ ์ ์งํ๋ค.
๊ทธ๋ฃน ์ฟผ๋ฆฌ ์ดํ ์ (GQA):ย ์ฐ๋ฆฌ๋ 4๊ฐ ๊ทธ๋ฃน์ ๊ฐ์ง GQA๊ฐ Multi-Head Attention ์ฑ๋ฅ๊ณผ ์ผ์นํ๋ค๋ ์ฐ๋ฆฌ์ ์ด๊ธฐ ๋ฐ๊ฒฌ์ ์ฌํ์ธํ์ง๋ง, ์ด๋ฒ์๋ 100B ํ ํฐ์ ๊ฐ์ง 3B ๊ท๋ชจ์์์๋ค. KV ์บ์ ํจ์จ์ฑ ์ด์ ์ ํฌ๊ธฐํ๊ธฐ์๋ ๋๋ฌด ์ข์์ผ๋ฉฐ, ํนํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์์คํ ์จ๋๋ฐ์ด์ค ๋ฐฐํฌ์ ์ค์ํ๋ค.
๊ธด ์ปจํ ์คํธ๋ฅผ ์ํ NoPE:ย ์ฐ๋ฆฌ๋ 4๋ฒ์งธ ๋ ์ด์ด๋ง๋ค RoPE๋ฅผ ์ ๊ฑฐํ์ฌ NoPE๋ฅผ ๊ตฌํํ๋ค. ์ฐ๋ฆฌ์ 3B ์ ๊ฑฐ ์คํ์ ์ ์น์ ์ ๋ฐ๊ฒฌ์ ํ์ธํ๋ค. NoPE๋ ์งง์ ์ปจํ ์คํธ ์ฑ๋ฅ์ ํฌ์ํ์ง ์๊ณ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ๋ฅผ ๊ฐ์ ํ๋ค.
๋ฌธ์ ๋ด ์ดํ ์ ๋ง์คํน:ย ์ฐ๋ฆฌ๋ ๋งค์ฐ ํฐ ์ํ์ค๋ก ํ์ตํ ๋ ํ์ต ์๋์ ์์ ์ฑ์ ๋๊ธฐ ์ํด ํ์ต ์ค ๋ฌธ์ ๊ฐ ์ดํ ์ ์ ๋ฐฉ์งํ๋ค. ๋ค์ ํ๋ฒ ์ฐ๋ฆฌ๋ ์ด๊ฒ์ด ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
๋ชจ๋ธ ๋ ์ด์์ ์ต์ ํ:ย ์ฐ๋ฆฌ๋ ๋ฌธํ์ ์ต๊ทผ 3B ๋ชจ๋ธ๋ค์ ๋ ์ด์์์ ๋น๊ตํ๋ค. ์ผ๋ถ๋ ๊น์ด๋ฅผ ์ฐ์ ์ํ๊ณ , ๋ค๋ฅธ ์ผ๋ถ๋ ๋๋น๋ฅผ ์ฐ์ ์ํ๋ค. ์ฐ๋ฆฌ๋ Qwen2.5-3B (31์ต), Llama3.2-3B (32์ต), ๊ทธ๋ฆฌ๊ณ Falcon3-H1-3B (31์ต) ๋ ์ด์์์ ์ฐ๋ฆฌ์ ํ์ต ์ค์ ์์ ํ ์คํธํ๋๋ฐ, ์ฌ๊ธฐ์ ๊น์ด์ ๋๋น๊ฐ ๋ค์ํ๋ค. ๊ฒฐ๊ณผ๋ ํฅ๋ฏธ๋ก์ ๋ค: Qwen2.5-3B๊ฐ ์ค์ ๋ก๋ ๋ ์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ก์์๋ ๋ถ๊ตฌํ๊ณ ๋ชจ๋ ๋ ์ด์์์ด ๊ฑฐ์ ๋์ผํ ์์ค๊ณผ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๊ทธ๋ฌ๋ Qwen2.5-3B์ ๋ ๊น์ ์ํคํ ์ฒ๋ ๋คํธ์ํฌ ๊น์ด๊ฐ ์ผ๋ฐํ์ ๋์์ด ๋๋ค๋ ์ฐ๊ตฌ์ ์ผ์นํ๋ค (Petty et al., 2024). ๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๋์์ด ๋ ๊ฒ์ด๋ผ๊ณ ์์ํ๋ฉฐ, ๋ ๊น์ ๋ ์ด์์์ ์ ํํ๋ค.
์์ ์ฑ ๊ฐ์ :ย ์ฐ๋ฆฌ๋ SmolLM2์์ ๋ฌถ์ธ ์๋ฒ ๋ฉ์ ์ ์งํ์ง๋ง, OLMo2์์ ์๊ฐ์ ๋ฐ์ ์๋ก์ด ํธ๋ฆญ์ธ ์๋ฒ ๋ฉ์์ ๊ฐ์ค์น ๊ฐ์ ์ ๊ฑฐ๋ฅผ ์ถ๊ฐํ๋ค. ์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ์ ์ด๊ฒ์ด ์ฑ๋ฅ์ ํด์น์ง ์์ผ๋ฉด์ ์๋ฒ ๋ฉ ๋ ธ๋ฆ์ ๋ฎ์ถ์ด, ํ์ต ๋ฐ์ฐ์ ๋ฐฉ์งํ๋ ๋ฐ ๋์์ด ๋ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
์ด๋ฌํ ์ฒด๊ณ์ ์ธ ์ ๊ฑฐ ์คํ ์ ๊ทผ ๋ฐฉ์์ ์๋ฆ๋ค์์ ๊ฐ๊ฐ์ด ๊ฒ์ฆ๋์์์ ์๊ณ ๋ชจ๋ ์ด๋ฌํ ์์ ์ฌํญ์ ์์ ์๊ฒ ๊ฒฐํฉํ ์ ์์๋ค๋ ๊ฒ์ด๋ค.
๐ก์ ๊ฑฐ ์คํ์์ ๋ณ๊ฒฝ ์ฌํญ ๊ฒฐํฉ
์ค์ ์์๋ ๋ณ๊ฒฝ ์ฌํญ์ ์ ์ง์ ์ผ๋ก ํ ์คํธํ๋ค: ์ผ๋จ ๊ธฐ๋ฅ์ด ๊ฒ์ฆ๋๋ฉด, ๊ทธ๊ฒ์ ๋ค์ ๊ธฐ๋ฅ์ ํ ์คํธํ๊ธฐ ์ํ ๊ธฐ์ค์ ์ ์ผ๋ถ๊ฐ ๋์๋ค. ํ ์คํธ ์์๊ฐ ์ค์ํ๋ค: ์ค์ ๊ฒ์ฆ๋ ๊ธฐ๋ฅ๋ถํฐ ์์ํ๋ค. (์๋ฒ ๋ฉ ๋ฌถ๊ธฐ โ GQA โ ๋ฌธ์ ๋ง์คํน โ NoPE โ ๊ฐ์ค์น ๊ฐ์ ์ ๊ฑฐ).
์ฐธ์ฌ ๊ท์น
์์ฝ:ย ์ฌ๋ฌ๋ถ์ use case๊ฐ ์ ํ์ ์ฃผ๋ํ๊ฒ ํด๋ผ.
๋ฐฐํฌ ๋์์ ์ํคํ ์ฒ ๊ฒฐ์ ์ ์ง์นจ์ผ๋ก ์ผ์์ผ ํ๋ค.ย ์๋ก์ด ์ํคํ ์ฒ ํ์ ์ ํ๊ฐํ ๋ ๋ชจ๋ธ์ด ์ค์ ๋ก ์ด๋ป๊ฒ, ์ด๋์ ์คํ๋ ์ง ๊ณ ๋ คํ๋ผ.
ํ์ ๊ณผ ์ค์ฉ์ฃผ์ ์ฌ์ด์ ์ฌ๋ฐ๋ฅธ ๊ท ํ์ ๋ง์ถ๋ค.ย ์ฃผ์ ์ํคํ ์ฒ ๋ฐ์ ์ ๋ฌด์ํ ์๋ ์๋ค. GQA ๋ฐ ๋ ๋์ ๋์์ด ์กด์ฌํ๋ ์ค๋๋ Multi-Head Attention์ ์ฌ์ฉํ๋ ๊ฒ์ ์ข์ง ์์ ๊ธฐ์ ์ ์ ํ์ผ ๊ฒ์ด๋ค. ์ต์ ์ฐ๊ตฌ์ ๋ํ ์ ๋ณด๋ฅผ ์ป๊ณ , ๋๊ท๋ชจ์์ ๋ช ํํ๊ณ ๊ฒ์ฆ๋ ์ด์ ์ ์ ๊ณตํ๋ ๊ธฐ์ ์ ์ฑํํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ ์ฌ์ํ ์ด๋์ ์ฝ์ํ๋ ๋ชจ๋ ์๋ก์ด ๋ ผ๋ฌธ์ ์ซ์ผ๋ ค๋ ์ ํน์ ์ ํญํด์ผ ํ๋ค (๊ทธ๋ ๊ฒ ํ ์์์ด ์๊ฑฐ๋ ๋ชฉํ๊ฐ ์ํคํ ์ฒ ์ฐ๊ตฌ์ธ ๊ฒฝ์ฐ๊ฐ ์๋๋ผ๋ฉด).
์ฒด๊ณ์ ์ธ ๊ฒ์ด ์ง๊ด์ ์ธ ๊ฒ์ ์ด๊ธด๋ค.ย ์๋ฌด๋ฆฌ ์ ๋งํด ๋ณด์ด๋๋ผ๋ ๋ชจ๋ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ ๊ฒ์ฆํ๋ผ. ๊ทธ๋ฐ ๋ค์ ์ํฅ๋ ฅ์ ์ดํดํ๊ธฐ ์ํด ๊ฒฐํฉํ๊ธฐ ์ ์ ์์ ์ฌํญ์ ๊ฐ๋ณ์ ์ผ๋ก ํ ์คํธํด๋ผ.
๊ท๋ชจ ํจ๊ณผ๋ ์ค์ฌํ๋ค - ๊ฐ๋ฅํ๋ฉด ๋ชฉํ ํฌ๊ธฐ์์ ๋ค์ ์ ๊ฑฐ ์คํ์ ์งํํ๋ผ.ย ์๊ท๋ชจ ์ ๊ฑฐ ์คํ์ด ๋ชฉํ ๋ชจ๋ธ ํฌ๊ธฐ์์ ์๋ฒฝํ๊ฒ ์ ์ง๋ ๊ฒ์ด๋ผ๊ณ ๊ฐ์ ํ์ง ์์์ผ ํ๋ค. ์ปดํจํ ์์์ด ์๋ค๋ฉด, ๊ทธ๊ฒ๋ค์ ์ฌํ์ธํ๋ ค๊ณ ์๋ํด๋ผ.
์ค์ ๋๋ฉ์ธ์์ ํ ํฌ๋์ด์ ํจ์จ์ฑ์ ๊ฒ์ฆํ๋ผ.ย ๋ชฉํ ์ธ์ด ๋ฐ ๋๋ฉ์ธ ์ ๋ฐ์ ์์ฐ์ฑ ์ธก์ ๊ธฐ์ค์ ์ต์ ๋ชจ๋ธ์ด ์ฌ์ฉํ ๊ฒ์ ๋ฐ๋ฅด๋ ๊ฒ๋ณด๋ค ๋ ์ค์ํ๋ค. ์ง์งํ ๋ค๊ตญ์ด ์์ ์ ์ํด 50k ์์ด ํ ํฌ๋์ด์ ๋ง์ผ๋ก๋ ๋ถ์กฑํ์ง๋ง, ๊ทธ๋ ๊ฒ ๋ง์ ์ธ์ด๋ฅผ ๋ค๋ฃจ์ง ์๋๋ค๋ฉด 256k ์ดํ๋ ํ์ํ์ง ์๋ค.
์ด์ ๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ๊ฒฐ์ ๋์์ผ๋ฏ๋ก, ํ์ต ํ๋ก์ธ์ค๋ฅผ ์ฃผ๋ํ ์ตํฐ๋ง์ด์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ค๋ฃฐ ์ฐจ๋ก์ด๋ค.
์ตํฐ๋ง์ด์ ๋ฐ ํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ
์กฐ๊ฐ๋ค์ด ์ ์๋ฆฌ๋ฅผ ์ฐพ๊ณ ์๋ค. ์ฐ๋ฆฌ๋ ์ ๊ฑฐ ์คํ์ ์คํํ๊ณ , ์ํคํ ์ฒ๋ฅผ ๊ฒฐ์ ํ์ผ๋ฉฐ, ํ ํฌ๋์ด์ ๋ฅผ ์ ํํ๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ก ํ์ต์ ์์ํ๊ธฐ ์ ์, ์ฌ์ ํ ๋ช ๊ฐ์ง ์ค์ํ ๋๋ฝ๋ ์กฐ๊ฐ๋ค์ด ์๋ค: ์ด๋ค ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ? ์ด๋ค ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ? ํ์ต ์ ๋ฐ์ ๊ฑธ์ณ ํ์ต๋ฅ ์ ์ด๋ป๊ฒ ์ค์ผ์ค๋งํด์ผ ํ ๊น?
์ฌ๊ธฐ์ ์๋ํ๊ณ ์ถ์ ์ ๊ทผ ๋ฐฉ์์ ๋ฌธํ์ ๋ค๋ฅธ ๊ฐ๋ ฅํ ๋ชจ๋ธ์์ ๊ฐ์ ๋น๋ ค์ค๋ ๊ฒ์ผ ์ ์๋ค. ๊ฒฐ๊ตญ, ๊ทธ๊ฒ์ด ํฐ ์ฐ๊ตฌ์์์ ์๋ํ๋ค๋ฉด, ์ฐ๋ฆฌ์๊ฒ๋ ์๋ํด์ผ ํ์ง ์์๊น? ๊ทธ๋ฆฌ๊ณ ์ ์ฌํ ์ํคํ ์ฒ์ ๋ชจ๋ธ ํฌ๊ธฐ์์ ๊ฐ์ ๊ฐ์ ธ์ค๋ ๊ฒฝ์ฐ ๋ง์ ๊ฒฝ์ฐ์ ์ ์๋ํ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ ์ฐ๋ฆฌ์ ํน์ ์ค์ ์ ๋ํด ์ด๋ฌํ ๊ฐ๋ค์ ํ๋ํ์ง ์์์ผ๋ก์จ ์ฑ๋ฅ์ ํ ์ด๋ธ ์์ ๋จ๊ฒจ๋ ์ํ์ด ์๋ค. ๋ฌธํ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ํน์ ๋ฐ์ดํฐ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ํด ์ต์ ํ๋์์ผ๋ฉฐ, ๋๋ก๋ ๊ทธ๋ฌํ ์ ์ฝ ์กฐ๊ฑด์ด ์ฑ๋ฅ์ ๊ดํ ๊ฒ๋ ์๋ ์๋ ์๋ค. ์๋ง๋ ๊ทธ ํ์ต๋ฅ ์ ๊ฐ๋ฐ ์ด๊ธฐ์ ์ ํ๋์๊ณ ๋ค์ ๊ฒํ ๋์ง ์์์ ์ ์๋ค. ๋ชจ๋ธ ์ ์๋ค์ด ์ฒ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์์ ์ํํ๋๋ผ๋, ๊ทธ ์ต์ ๊ฐ์ ์ฐ๋ฆฌ์ ๊ฒ์ด ์๋, ๊ทธ๋ค์ ์ ํํ ์ํคํ ์ฒ, ๋ฐ์ดํฐ ๋ฐ ํ์ต ์ฒด์ ์ ์กฐํฉ์ ๋ํด ๋ฐ๊ฒฌ๋ ๊ฒ์ด๋ค. ๋ฌธํ ๊ฐ์ ํญ์ ์ข์ ์ถ๋ฐ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ฃผ๋ณ์์ ๋ ๋์ ๊ฐ์ ์ฐพ์ ์ ์๋์ง ํ์ํ๋ ๊ฒ์ด ์ข์ ์๊ฐ์ด๋ค.
์ด ์ฑํฐ์์๋ ์ต์ ์ตํฐ๋ง์ด์ ๋ฅผ ํ์ํ๊ณ (์ ๋ขฐํ ์ ์๋ ์ค๋๋ AdamW (Kingma, 2014)๊ฐ ์ฌ์ ํ ์๊ฐ์ ์ํ์ ๊ฒฌ๋๋์ง ๋ณธ๋ค ๐), ํ์ค ์ฝ์ฌ์ธ ๊ฐ์ ๋ฅผ ๋์ด์ ํ์ต๋ฅ ์ค์ผ์ค์ ๊น์ด ๋ฐ์ด๋ค๊ณ , ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ์ฃผ์ด์ก์ ๋ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์์๋ผ ๊ฒ์ด๋ค.
์ตํฐ๋ง์ด์ ์ ์๋ถํฐ ์์ํ์.
์ตํฐ๋ง์ด์ : AdamW ๋ฐ ๊ทธ ์ด์
์ตํฐ๋ง์ด์ ๋ ์ ์ฒด LLM ํ์ต ์์ ์ ํต์ฌ์ ์๋ค. ๊ทธ๊ฒ์ ๊ณผ๊ฑฐ ์ ๋ฐ์ดํธ, ํ์ฌ ๊ฐ์ค์น ๋ฐ ์์ค์์ ํ์๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ ๋งค๊ฐ๋ณ์์ ๋ํด ์ค์ ์ ๋ฐ์ดํธ ๋จ๊ณ๊ฐ ๋ฌด์์ด ๋ ์ง ๊ฒฐ์ ํ๋ค. ๋์์ ๊ทธ๊ฒ์ ๋ํ ๋ฉ๋ชจ๋ฆฌ์ ์ปดํจํ ์ ๋ง์ด ์ก์๋จน๋ ๊ดด๋ฌผ์ด๋ฏ๋ก, ํ์ํ GPU ์์ ํ์ต ์๋์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.
(์ตํฐ๋ง์ด์ ๊ฐ ๋ฌด์์ด๋ฉฐ ๋ฌด์์ ์ ์ฉํ์ง ํ์คํ์ง ์๋ค๋ฉด, ์ฃผ๋ชฉํ ๋งํ๊ฒ ๋ฉ์ง ์ตํฐ๋ง์ด์ ๋ฅผ ๋น๊ตํ๋ Ruder์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๋ฐ ์ตํฐ๋ง์ด์ ์ ๋ํ ๋ธ๋ก๊ทธ https://www.ruder.io/optimizing-gradient-descent/๋ฅผ ํ์ธํด๋ผ.)
์ฐ๋ฆฌ๋ LLM ์ฌ์ ํ์ต์ ์ฌ์ฉ๋๋ ์ตํฐ๋ง์ด์ ์ ํ์ฌ ์ํฉ์ ์์ฝํ๋ ๋ฐ ๋ ธ๋ ฅ์ ์๋ผ์ง ์์๋ค:
| ๋ชจ๋ธ | ์ตํฐ๋ง์ด์ |
|---|---|
| Kimi K2, GLM 4.5 | Muon |
| ๋ค๋ฅธ ๋ชจ๋ ๋ชจ๋ธ | AdamW |
๊ทธ๋์, ์ฌ๋ฌ๋ถ์ ์ ๋ชจ๋ ์ฌ๋์ด AdamW๋ฅผ ์ฌ์ฉํ๋์ง ๊ถ๊ธํ ๊ฒ์ด๋ค.
์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ์ด ๋ถ๋ถ์ ์์ฑํ๋ ์ฌ๋์ โ์ฌ๋๋ค์ด ๊ฒ์ผ๋ฅด๊ธฐ ๋๋ฌธ์โ๋ผ๊ณ ์๊ฐํ์ง๋ง , ๋ค๋ฅธ ์ฌ๋๋ค์ AdamW๊ฐ ์ค๋ซ๋์ ๋ค์ํ ๊ท๋ชจ์์ ์/๋ ์ ์๋ํด ์์ผ๋ฉฐ, ํนํ ๋งค์ฐ ๊ธด ํ์ต์์ ์ผ๋ง๋ ์ ์๋ํ๋์ง ํ ์คํธํ๊ธฐ ์ด๋ ต๊ฑฐ๋ (์ฆ, ๋น์ธ๊ฑฐ๋) ๋น์ฉ์ด ๋ง์ด ๋ ๋ค๋ฉด ๊ทธ๋ฌํ ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ๋ณ๊ฒฝํ๋ ๊ฒ์ด ํญ์ ์กฐ๊ธ ๋ฌด์ญ๋ค๊ณ ๋ ํ์ค์ ์ผ๋ก ๋งํ ์ ์๋ค.
๊ฒ๋ค๊ฐ, ์ตํฐ๋ง์ด์ ๋ฅผ ๊ณต์ ํ๊ฒ ๋น๊ตํ๋ ๊ฒ์ ๋ณด์ด๋ ๊ฒ๋ณด๋ค ๋ ์ด๋ ต๋ค. ๊ท๋ชจ๋ ์์ ์ ๊ฑฐ ์คํ์์ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ ๋ฐฉ์์ผ๋ก ์ญํ์ ๋ณํ์ํค๋ฏ๋ก, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ๋ณต์กํ๋ค. ์ฌ๋ฌ๋ถ์ โ๊ด์ฐฎ๋ค, ๋๋ AdamW๋ฅผ ๋ช ์ฃผ ๋์ ํ๋ํ๊ณ , ๋น๊ต๋ฅผ ์ํด ๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฌ์ฉํ ์ ์๋ค!โ๋ผ๊ณ ๋งํ ์ ์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๊ฒ์ด ์ฌ์ค์ด๊ธฐ๋ฅผ ์ ๋ง๋ก ๋ฐ๋๋ค. ๊ทธ๋ฌ๋ ๋ถํํ๋, ๊ฐ ์ตํฐ๋ง์ด์ ์ ๋ํด ์ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ์ (1D? 2D? 3D?)์ ์ํํด์ผ ํ๋ฉฐ, ์ด๋ ์ตํฐ๋ง์ด์ ์ฐ๊ตฌ๋ฅผ ์ด๋ ต๊ณ ๋น์ฉ์ด ๋ง์ด ๋ค๊ฒ ๋ง๋ ๋ค.
(์ข ์ข , ๊ธฐ์ค์ ์ด ์ ํ๋๋์ง ์์, ์๋ก์ด ์ตํฐ๋ง์ด์ ๊ฐ ์ฝํ AdamW ์ค์ ๊ณผ ๋น๊ต๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ (Wen et al., 2025)๋ ๊ทธ๊ฒ๋ง์ผ๋ก ๋ณด๊ณ ๋ ์ด๋์ด ์ผ๋ง๋ ์๊ณก๋๋์ง ๋ณด์ฌ์ค๋ค.)
๊ทธ๋ฌ๋ฏ๋ก Durk Kingma์ ๋ฌด์์ด Google ์ค์นผ๋ผ ์ง๋ฐฐ๋ ฅ์ ๊ธฐ๋ฐ์ธ ๊ณ ์ , AdamW๋ถํฐ ์์ํ๋ค.
AdamW
Adam (Adaptive Momentum Estimation)์ 1์ฐจ ์ต์ ํ ๊ธฐ์ ์ด๋ค. ์ด๋ ๊ธฐ์ธ๊ธฐ๋ง ๋ณด๋ ๊ฒ ์ธ์๋, ์ด์ ๋จ๊ณ์์ ๊ฐ์ค์น๊ฐ ์ผ๋ง๋ ๋ณํ๋์ง๋ ๊ณ ๋ คํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๊ฒ์ ๊ฐ ๋งค๊ฐ๋ณ์์ ๋ํ ํ์ต๋ฅ ์ด ๋ชจ๋ฉํ ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ํ๋๋ก ๋ง๋ ๋ค.
์กฐ์ฌ์ค๋ฌ์ด ๋ ์๋ ๊ถ๊ธํดํ ์ ์๋ค: ์ด๋ด, W๊ฐ ๋น ์ก์์? ๋ฌผ๋ก ์ด๋ค! ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก W (=๊ฐ์ค์น ๊ฐ์ )๋ฅผ ์ถ๊ฐํ๋ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค. ํ์ค SGD์์ ์ฐ๋ฆฌ๋ L2 ์ ๊ทํ๋ฅผ ์ ์ฉํ๊ธฐ ์ํด ์์ค ํจ์์ (ฮธ๋ ๊ฐ์ค์น)๋ฅผ ๊ฐ๋จํ ์ถ๊ฐํ ์ ์๋ค. ๊ทธ๋ฌ๋ Adam์์ ๋๊ฐ์ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด, ์ ์ํ ํ์ต๋ฅ ์ด L2 ์ ๊ทํ์๋ ์ํฅ์ ๋ฏธ์น๊ฒ ๋๋๋ฐ, ์ด๋ ์ ๊ทํ ๊ฐ๋๊ฐ ๊ธฐ์ธ๊ธฐ ํฌ๊ธฐ์ ์์กดํ๋๋ก ๋ง๋ค์ด ๊ทธ ํจ๊ณผ๋ฅผ ์ฝํ์ํจ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒฐ๊ณผ๊ฐ ์๋๊ธฐ ๋๋ฌธ์, AdamW๋ ์ด๊ฒ์ ํด๊ฒฐํ๊ณ ์ ๊ฐ์ค์น ๊ฐ์ ๋ฅผ ์ฃผ ์ต์ ํ ๋ฃจํ์ ๋ถ๋ฆฌํ์ฌ ์ ์ฉํ๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋, ์ง๋ ๋ช ๋ ๋์ AdamW ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๊ฑฐ์ ์์ง์ด์ง ์์๋ค:
- ฮฒ1=0.9, ฮฒ2=0.95
- ๊ธฐ์ธ๊ธฐ ๋ ธ๋ฆ ํด๋ฆฌํ (grad norm clipping) = 1.0
- ๊ฐ์ค์น ๊ฐ์ (weight decay) = 0.1 (Llama-3-405B๋ ์ด๊ฒ์ 0.01๋ก ๋ฎ์ถ๋ค)
๋์ผํ ์ธ ์ค์ ์ด Llama 1, 2, 3์์ DeepSeek-V1, 2, 3 671B๊น์ง ๊ฑฐ์ ์ฌ์ฌ์ฉ๋๋ฉฐ, ๋ณ๊ฒฝ์ด ์๋ค. Durk Kingma๊ฐ ์ฒ์๋ถํฐ ์ณ์๋ ๊ฑธ๊น, ์๋๋ฉด ์ฐ๋ฆฌ๊ฐ ๋ ์ํ ๋ฐฉ๋ฒ์ด ์์๊น?
Muon ํ ์ค ์์ฝ
Adam์ ๊ธฐ์ธ๊ธฐ๋ง์ ์ฌ์ฉํ๋ฏ๋ก 1์ฐจ ๋ฐฉ๋ฒ์ด๋ค. Muon์ ๋งค๊ฐ๋ณ์ ํ ์์ ํ๋ ฌ ๋ทฐ์ ์์ฉํ๋ 2์ฐจ ์ตํฐ๋ง์ด์ ์ด๋ค.
์ด๋ฌํ ๋ฐฉ์ ์๋ค์ ๋ณด๋ฉด, ๊ธฐ์ธ๊ธฐ๋ง ๋ณด์ด๊ณ ๋ ๋์ ์ฐจ์์ ํญ์ ๋ณด์ด์ง ์๊ธฐ ๋๋ฌธ์, ์ด๊ฒ์ด ์ 2์ฐจ ๋ฐฉ๋ฒ์ธ์ง ๊ถ๊ธํ ์ ์๋ค. 2์ฐจ ์ต์ ํ๋ ์ค์ ๋ก๋ Newton Schulz ๋จ๊ณ ๋ด์์ ๋ฐ์ํ์ง๋ง, ์ฌ๊ธฐ์๋ ๋ ์ด์ ์์ธํ ์ค๋ช ํ์ง ์์ ๊ฒ์ด๋ค. Muon์ ๊น์ด ์๊ฒ ์ค๋ช ํ๋ ๊ณ ํ์ง ๋ธ๋ก๊ทธ๊ฐ ์ด๋ฏธ ์์ผ๋ฏ๋ก, ์ฌ๊ธฐ์๋ Muon์ ์ธ ๊ฐ์ง ํต์ฌ ์์ด๋์ด๋ง ๋์ดํ๋ค:
- ๋งค๊ฐ๋ณ์๋ณ ์
๋ฐ์ดํธ ๋ ํ๋ ฌ๋ณ ๊ธฐํํ: AdamW๋ ๋งค๊ฐ๋ณ์๋ณ๋ก ์ฌ์ ์กฐ๊ฑด์ ๋ถ์ฌํ๋ค (๋๊ฐ 2์ฐจ ๋ชจ๋ฉํธ). Muon์ ๊ฐ ๊ฐ์ค์น ํ๋ ฌ์ ๋จ์ผ ๊ฐ์ฒด๋ก ์ทจ๊ธํ๊ณ
G=UVโค์ ๋ฐ๋ผ ์ ๋ฐ์ดํธํ๋ฉฐ, ์ด๋ ํ/์ด ๋ถ๋ถ ๊ณต๊ฐ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋ค. - ์ง๊ตํ๋ฅผ ํตํ ๋ฑ๋ฐฉ์ฑ ๋จ๊ณ: ํน์ด๊ฐ ๋ถํด(SVD)๋ฅผ ์ฌ์ฉํ์ฌ
G=UฮฃVโค๋ฅผ ๋ถํดํ๋ ๊ฒ์ ํฌ๊ธฐ (ฮฃ)์ ๋ฐฉํฅ (์ผ์ชฝ/์ค๋ฅธ์ชฝ ๋ถ๋ถ ๊ณต๊ฐU,V)์ด ๋ถ๋ฆฌ๋๋ค.G๋ฅผUVโค๋ก ๋์ฒดํ๋ ๊ฒ์ ํน์ด๊ฐ์ ๋ฒ๋ฆฌ๋ ๊ฒ์ผ๋ก, ์ด๋ ํ์ฑ ๋ถ๋ถ ๊ณต๊ฐ์์ ์ ๋ฐ์ดํธ ๋จ๊ณ๋ฅผ **๋ฑ๋ฐฉ์ฑ(isotropic)**์ผ๋ก ๋ง๋ ๋ค. ์ด๋ ์ ๋ณด๋ฅผ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์ด๋ฏ๋ก ์ฒ์์๋ ๋ค์ ์ง๊ด์ ๋ฐํ ์ ์์ง๋ง, ์ด๋ ์ถ ์ ๋ ฌ ํธํฅ์ ์ค์ด๊ณ , ์ด๋ฅผ ํ์ง ์์์ ๊ฒฝ์ฐ์๋ ๋งค์ฐ ์์ ํน์ด๊ฐ์ ์ํด ์ต์ ๋์์ ๋ฐฉํฅ๋ค์ ๋ํ ํ์์ ์ฅ๋ คํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ํ์์ ๋จ์ํ ์์ค๊ฐ๋ง ๋ด์๋ ๋ช ํํ์ง ์์ ๋ค๋ฅธ ๋ฅ๋ ฅ๋ค์ ๋ชจ๋ธ์๊ฒ ๋ถ์ฌํ๋์ง์ ๋ํด์๋ ์ฌ์ ํ ์ด๋ฆฐ ์ง๋ฌธ์ผ๋ก ๋จ์์๋ค. - ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ํ ๊ฒฝํ์ ํ์ฉ ์ค์ฐจ: ์ค์ ํ๊ฒฝ์์์์, Muon์ ์ข ์ข ๋ ๋์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ๊ฒฌ๋๋ธ๋ค. ์ฐ๋ฆฌ๋ ๋ฐฐ์น ํฌ๊ธฐ ์น์ ์์ ์ด๊ฒ์ ๋ํด ๋ ๊น์ด ์ด์ผ๊ธฐํ ๊ฒ์ด์ง๋ง, ์ด๊ฒ์ด Muon ์ฑํ์ ํต์ฌ ํฌ์ธํธ์ผ ์ ์๋ค!
์๋ ๋์ ์ปค๋ฎค๋ํฐ๋ ์ฃผ๋ก AdamW์ ์ ์ฐฉํ์ผ๋ฉฐ ์ ๋์ ์ธ ์ฐ๊ตฌ์์ ์ตํฐ๋ง์ด์ ๋ ์ํผ๋ ์ข ์ข ๋น๋ฐ๋ก ์ ์ง๋์ง๋ง (์๋ฅผ ๋ค์ด Qwen์ ๊ทธ๋ค์ ๊ฒ์ ๋ํด ์ด์ผ๊ธฐํ์ง ์๋๋ค), ์ต๊ทผ Muon์ ๋์ ๊ด์ฌ์ ์ถ์์์ ์ฑํ๋์๋ค (์: Kimi K2, GLM-4.5). ๋ ๊ฐ๋ฐฉ์ ์ด๊ณ ๊ฒฌ๊ณ ํ ๋ ์ํผ๊ฐ ๋์ค๊ธฐ๋ฅผ ๋ฐ๋๋ค.
์ตํฐ๋ง์ด์ ์ ์ผ์ ๋๋ฌผ์์ ์กด์ฌํ๋๋ฐ, ์ฐ๊ตฌ์๋ค์ด ๊ฐ๋ฅํ ๋ชจ๋ ๋ชจ๋ฉํ ๊ณผ ๋ํจ์๋ฅผ ๊ฒฐํฉํ๋ ๊ฒ๋ณด๋ค ๋ ์ฐฝ์์ ์ธ ์ ์ผํ ๊ฒ์ ๊ทธ๊ฒ๋ค์ ๋ํ ์ด๋ฆ์ ์๊ฐํด๋ด๋ ๊ฒ์ด๋ค: Shampoo, SOAP, PSGD, CASPR, DION, Sophia, Lionโฆ ์ฌ์ง์ด AdamW๋ NAdamW, StableAdamW ๋ฑ๊ณผ ๊ฐ์ ์์ฒด ๋ณํ์ ๊ฐ์ง๊ณ ์๋ค. ์ด ๋ชจ๋ ์ตํฐ๋ง์ด์ ์ ๊น์ด ๋ฐ์ด๋๋ ๊ฒ์ ๊ทธ ์์ฒด๋ก ๋ธ๋ก๊ทธ ๊ธ๋ก ์์ฑ๋ ๊ฐ์น๊ฐ ์์ง๋ง, ์ฐ๋ฆฌ๋ ๊ทธ๊ฒ์ ๋ค์ ๊ธฐํ๋ก ๋ฏธ๋ฃฌ๋ค. ๋์ , ์ตํฐ๋ง์ด์ ๊ฐ ๋น๊ต๋ฅผ ํ ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ์ผ๋ง๋ ์ค์ํ์ง ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ๋ง์ ๋ค์ํ ์ตํฐ๋ง์ด์ ๋ฅผ ๋ฒค์น๋งํนํ stanford/marin ํ์ ์ด ๋๋ผ์ด ๋ ผ๋ฌธ (Wen et al., 2025)์ ์ถ์ฒํ๋ค.
๊ฑฐ์ ๋ชจ๋ ์ตํฐ๋ง์ด์ ์ ๋ผ๋ ค์ผ ๋ ์ ์๋ ์ง๋ฌธ์ ๋ฐ๋ก ๊ฐ์ค์น๋ฅผ ์ผ๋ง๋ ๊ฐํ๊ฒ ์ ๋ฐ์ดํธํ ๊ฒ์ธ๊ฐ์ด๋ค. ์ด๋ ํต์ ์ตํฐ๋ง์ด์ ๋ฐฉ์ ์์์ ๋จ์ํ ์ค์นผ๋ผ ๊ฐ์ผ๋ก ๋ฑ์ฅํ๋ ํ์ต๋ฅ (learning rate) ์ ์ํด ๊ฒฐ์ ๋๋ค. ๊ฒ๋ณด๊ธฐ์๋ ๋จ์ํด ๋ณด์ด๋ ์ด ์ฃผ์ ๊ฐ ์ค์ ๋ก๋ ์ผ๋ง๋ ๋ค์ํ ์ธก๋ฉด์ ์ง๋๊ณ ์๋์ง ์ดํด๋ณด์.
ํ์ต๋ฅ
ํ์ต๋ฅ ์ ์ฐ๋ฆฌ๊ฐ ์ค์ ํด์ผ ํ ๊ฐ์ฅ ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค ํ๋์ด๋ค. ๊ฐ ํ์ต ๋จ๊ณ์์, ๊ทธ๊ฒ์ ๊ณ์ฐ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ผ๋ง๋ ์กฐ์ ํ ์ง ์ ์ดํ๋ค. ํ์ต๋ฅ ์ ๋๋ฌด ๋ฎ๊ฒ ์ ํํ๋ฉด ํ์ต์ด ๊ณ ํต์ค๋ฝ๊ฒ ๋๋ ค์ง๊ณ ๋์ ์ง์ญ ์ต์๊ฐ(local minima)์ ๊ฐํ ์ ์๋ค. ์์ค ๊ณก์ ์ ํํํ๊ฒ ๋ณด์ผ ๊ฒ์ด๊ณ , ์ฐ๋ฆฌ๋ ์๋ฏธ ์๋ ์ง์ ์ ์ด๋ฃจ์ง ๋ชปํ ์ฑ ์ปดํจํ ์์ฐ์ ์์งํ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ ํ์ต๋ฅ ์ ๋๋ฌด ๋๊ฒ ์ค์ ํ๋ฉด ์ตํฐ๋ง์ด์ ๊ฐ ์ต์ ์ ์๋ฃจ์ ์ ์ง๋์น๋ ๊ฑฐ๋ํ ๋จ๊ณ๋ฅผ ๋ฐ์ ์ ๋ ์๋ ดํ์ง ์๊ฑฐ๋, ์์ํ ์ ์๋ ์ผ์ด ๋ฐ์ํ์ฌ ์์ค์ด ๋ฐ์ฐํ๊ณ ๋ฌ๊น์ง ์น์์ ์ ์๋ค.
๊ทธ๋ฌ๋ ํ์ต ์ญํ์ด ํ์ต์ ํ๋ ๊ณผ์ ์์ ๋ณํ๊ธฐ ๋๋ฌธ์ ์ต๊ณ ์ ํ์ต๋ฅ ์กฐ์ฐจ๋ ์ผ์ ํ์ง ์๋ค. ๋์ ํ์ต๋ฅ ์ ์ฐ๋ฆฌ๊ฐ ์ข์ ์๋ฃจ์ ์์ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ ์ด๊ธฐ์ ํจ๊ณผ๊ฐ ์์ง๋ง, ์๋ ด ๊ทผ์ฒ์์๋ ๋ถ์์ ์ฑ์ ์ ๋ฐํ๋ค. ์ฌ๊ธฐ์ ํ์ต๋ฅ ์ค์ผ์ค์ด ๋ฑ์ฅํ๋ค: ์ด๊ธฐ ํผ๋์ ํผํ๊ธฐ ์ํด 0์์ ์์ ํ ๋ค์, ์ข์ ์ต์๊ฐ์ ์ ์ฐฉํ๊ธฐ ์ํด ๊ฐ์ ํ๋ค. ์ด๋ฌํ ํจํด (์: ์์ + ์ฝ์ฌ์ธ ๊ฐ์ )์ ์ ๊ฒฝ๋ง ํ์ต์ ์ํด ์๋ ๋์ ๊ฒ์ฆ๋์๋ค.
๐ก์์ ๋จ๊ณ
๋๋ถ๋ถ์ ํ๋ LLM์ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ํ์ต ๊ธธ์ด์ ๊ด๊ณ์์ด ๊ณ ์ ๋ ์์ ์์ ๋จ๊ณ (์: 2000)๋ฅผ ์ฌ์ฉํ๋ค (ํ 1 ์ฐธ์กฐ). ์ฐ๋ฆฌ๋ ๊ธด ํ์ต์ ๊ฒฝ์ฐ ์์ ๋จ๊ณ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์์ง๋ง, ๋งค์ฐ ์งง์ ํ์ต์ ๊ฒฝ์ฐ ์ฌ๋๋ค์ ์ผ๋ฐ์ ์ผ๋ก ํ์ต ๋จ๊ณ์ 1%์์ 5%๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค
์ผ๋ฐ์ ์ธ ์ค์ผ์ค์ ์ดํด๋ณธ ๋ค์, ํผํฌ ๊ฐ์ ์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ ผ์ํด๋ณด์.
ํ์ต๋ฅ ์ค์ผ์ค: ์ฝ์ฌ์ธ ๊ฐ์ ๋ฅผ ๋์ด์
ํ์ต๋ฅ ์ ๋ณ๊ฒฝํ๋ ๊ฒ์ด ์๋ ด์ ๋์์ด ๋๋ค๋ ๊ฒ์ ์๋ ๋์ ์๋ ค์ ธ ์์ผ๋ฉฐ (Smith & Topin, 2018), ์ฝ์ฌ์ธ ๊ฐ์ (Loshchilov & Hutter, 2017)๋ LLM ํ์ต์ ์ํ ๊ธฐ๋ณธ ์ค์ผ์ค์ด์๋ค: ์์ ํ ํผํฌ ํ์ต๋ฅ ์์ ์์ํ ๋ค์, ์ฝ์ฌ์ธ ๊ณก์ ์ ๋ฐ๋ผ ๋ถ๋๋ฝ๊ฒ ๊ฐ์ํ๋ค. ๊ฐ๋จํ๊ณ ์ ์๋ํ๋ค. ๊ทธ๋ฌ๋ ์ฃผ์ ๋จ์ ์ ์ ์ฐ์ฑ ๋ถ์กฑ์ด๋ค; ์ฝ์ฌ์ธ ์ฃผ๊ธฐ ๊ธธ์ด๋ ์ด ํ์ต ๊ธฐ๊ฐ๊ณผ ์ผ์นํด์ผ ํ๋ฏ๋ก ์ด ํ์ต ๋จ๊ณ๋ฅผ ๋ฏธ๋ฆฌ ์์์ผ ํ๋ค. ์ด๊ฒ์ ์ผ๋ฐ์ ์ธ ์๋๋ฆฌ์ค์์ ๋ฌธ์ ๊ฐ ๋๋ค: ๋ชจ๋ธ์ด ์์ง ์ ์ฒด๊ธฐ์ ๋๋ฌํ์ง ์์๊ฑฐ๋, ๋ ๋ง์ ์ปดํจํ ์ ์ ๊ทผํ ์ ์์ด ๋ ์ค๋ ํ์ตํ๊ณ ์ถ๊ฑฐ๋, ์ค์ผ์ผ๋ง ๋ฒ์น์ ์คํํ๊ณ ์์ด ๋์ผํ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ ํฐ ์๋ก ํ์ตํด์ผ ํ๋ ๊ฒฝ์ฐ์ด๋ค. ์ฝ์ฌ์ธ ๊ฐ์ ๋ ์ฒ์๋ถํฐ ๋ค์ ์์ํ๋๋ก ๊ฐ์ํ๋ค.
๋ง์ ํ๋ค์ด ์ด์ ์์ ์งํ์ ๊ฐ์ ๋ฅผ ์์ํ ํ์๊ฐ ์๋ ์ค์ผ์ค์ ์ฌ์ฉํ๋ค. ์๋ ํ๋กฏ์ ํ์๋ย Warmup-Stable-Decay (WSD)ย (Hu et al., 2024) ๋ฐย Multi-Stepย (DeepSeek-AI, :, et al., 2024) ๋ณํ์ด ๊ทธ๋ ๋ค. ํ์ต์ ๋๋ถ๋ถ ๋์ ์ผ์ ํ ๋์ ํ์ต๋ฅ ์ ์ ์งํ๊ณ , WSD์ ๊ฒฝ์ฐ ์ต์ข ๋จ๊ณ (์ผ๋ฐ์ ์ผ๋ก ํ ํฐ์ ๋ง์ง๋ง 10-20%)์์ ๊ธ๊ฒฉํ ๊ฐ์ ํ๊ฑฐ๋, DeepSeek LLM์ Multi-Step ์ค์ผ์ค์์ ์ํ๋ ๊ฒ์ฒ๋ผ ์๋ฅผ ๋ค์ด ํ์ต์ 80% ํ, ๊ทธ๋ฆฌ๊ณ 90% ํ์ ํ์ต๋ฅ ์ ๋ฎ์ถ๊ธฐ ์ํด ์ด์ฐ์ ์ธ ํ๋ฝ (๋จ๊ณ)์ ์ํํ๋ค.

์ด๋ฌํ ์ค์ผ์ค์ ์ฝ์ฌ์ธ ๊ฐ์ ๋ณด๋ค ์ค์ง์ ์ธ ์ด์ ์ ์ ๊ณตํ๋ค. ์ฐ๋ฆฌ๋ ์ฒ์์ ๊ณํํ๋ ๊ฒ๋ณด๋ค ๋ ์ค๋ ํ์ตํ๊ณ ์ถ๊ฑฐ๋, ํ์ต ์งํ ์ํฉ์ ๋ ์ ์ธก์ ํ๊ธฐ ์ํด ์ผ์ฐ ๊ฐ์ ํ๊ฑฐ๋, ํ๋์ ์ฃผ์ ํ์ต ์คํ์ผ๋ก ๋ค์ํ ํ ํฐ ์์ ๊ฑธ์ณ ์ค์ผ์ผ๋ง ๋ฒ์น ์คํ์ ์คํํ ์ ์๋ ๋ฑ ์ฌ์์ ์์ด ์คํ ์ค๊ฐ์ ํ์ต์ ํ์ฅํ ์ ์๋ค. ๊ฒ๋ค๊ฐ, ์ฐ๊ตฌ๋ค์ WSD์ Multi-Step ๋ชจ๋ ์ค์ ํ์ต ์๋๋ฆฌ์ค์ ๋ ์ค์ฉ์ ์ด๋ฉด์ ์ฝ์ฌ์ธ ๊ฐ์ ์ ์ผ์นํจ์ ๋ณด์ฌ์ค๋ค (DeepSeek-AI, :, et al., 2024; Hรคgele et al., 2024).
(์ต๊ทผ GLM 4.5๋ WSD๊ฐ ์ผ๋ฐ ๋ฒค์น๋งํฌ (SimpleQA, MMLU)์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ์ธ๊ธํ์ง๋ง, ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ์ง๋ ์๋๋ค.)
๊ทธ๋ฌ๋ ์ฌ๋ฌ๋ถ์ ์๋ง๋ ์ด๋ฌํ ์ค์ผ์ค์ด ์ฝ์ฌ์ธ์ ๋นํด ์๋ก์ด ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋์ ํ๋ค๋ ๊ฒ์ ์์์ฐจ๋ ธ์ ๊ฒ์ด๋ค: WSD์์ ๊ฐ์ ๋จ๊ณ๋ ์ผ๋ง๋ ์ง์๋์ด์ผ ํ๋๊ฐ? ๊ทธ๋ฆฌ๊ณ Multi-Step ๋ณํ์์ ๊ฐ ๋จ๊ณ๋ ์ผ๋ง๋ ๊ธธ์ด์ผ ํ๋๊ฐ?
- WSD์ ๊ฒฝ์ฐ:ย ์ฝ์ฌ์ธ ์ฑ๋ฅ๊ณผ ์ผ์น์ํค๊ธฐ ์ํด ํ์ํ ์ฟจ๋ค์ด ๊ธฐ๊ฐ์ ํ์ต ์คํ์ด ๊ธธ์ด์ง์๋ก ๊ฐ์ํ๋ฉฐ, ์ด ํ ํฐ์ 10-20%๋ฅผ ๊ฐ์ ๋จ๊ณ์ ํ ๋นํ๋ ๊ฒ์ด ๊ถ์ฅ๋๋ค (Hรคgele et al., 2024). ์ฐ๋ฆฌ๋ ์๋์ ์ ๊ฑฐ ์คํ์์ ์ด ์ค์ ์ด ์ฝ์ฌ์ธ๊ณผ ์ผ์นํจ์ ํ์ธํ ๊ฒ์ด๋ค.
- Multi-Step์ ๊ฒฝ์ฐ:ย DeepSeek LLM์ ์ ๊ฑฐ ์คํ์ ๊ทธ๋ค์ ๊ธฐ๋ณธ 80/10/10 ๋ถํ (80%๊น์ง ์์ , 80-90%์์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ, 90-100%์์ ๋ ๋ฒ์งธ ๋จ๊ณ)์ด ์ฝ์ฌ์ธ๊ณผ ์ผ์นํ๋ ๋ฐ๋ฉด, ์ด๋ฌํ ๋น์จ์ ์กฐ์ ํ๋ฉด ์๋ฅผ ๋ค์ด 70/15/15 ๋ฐ 60/20/20 ๋ถํ ์ ์ฌ์ฉํ ๋ ์ฌ์ง์ด ๊ทธ๊ฒ์ ๋ฅ๊ฐํ ์๋ ์์์ ๋ฐ๊ฒฌํ๋ค.
ํ์ง๋ง ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์ค์ผ์ค๋ก ๋์ฑ ์ฐฝ์์ ์ผ ์ ์๋ค. DeepSeek ๋ชจ๋ธ์ ๊ฐ ํจ๋ฐ๋ฆฌ์์ ์ฌ์ฉ๋ ์ค์ผ์ค์ ์ดํด๋ณธ๋ค:

DeepSeek LLM์ ๊ธฐ๋ณธ Multi-Step ์ค์ผ์ค (80/10/10)์ ์ฌ์ฉํ๋ค. DeepSeek V2๋ ๋น์จ์ 60/30/10์ผ๋ก ์กฐ์ ํ์ฌ ์ฒซ ๋ฒ์งธ ๊ฐ์ ๋จ๊ณ์ ๋ ๋ง์ ์๊ฐ์ ์ฃผ์๋ค. DeepSeek V3๋ ๊ฐ์ฅ ์ฐฝ์์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค: ์ผ์ ํ ํ์ต๋ฅ ์ ์ ์งํ ๋ค์ ๋ ๋ฒ์ ๊ธ๊ฒฉํ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ ๋์ , ์ฝ์ฌ์ธ ๊ฐ์ (ํ์ต์ 67%์์ 97%๊น์ง)๋ฅผ ํตํด ์ผ์ ํ ๋จ๊ณ์์ ์ ํํ ๋ค์, ์ต์ข ๊ธ๊ฒฉํ ๋จ๊ณ ์ ์ ์งง์ ์ผ์ ํ ๋จ๊ณ๋ฅผ ์ ์ฉํ๋ค.
DeepSeek ์ค์ผ์ค ๋ณ๊ฒฝ
DeepSeek-V2 ๋ฐ V3์ ๊ธฐ์ ๋ณด๊ณ ์๋ ์ด๋ฌํ ์ค์ผ์ค ๋ณ๊ฒฝ์ ๋ํ ์ ๊ฑฐ ์คํ์ ํฌํจํ์ง ์๋๋ค. ์ฌ๋ฌ๋ถ์ ์ค์ ์ ์ํด, ๊ฐ๋จํ WSD ๋๋ Multi-Step ์ค์ผ์ค๋ก ์์ํ ๋ค์, ์ ๊ฑฐ ์คํ์ ํตํด ๋งค๊ฐ๋ณ์๋ฅผ ํ๋ํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ค.
์ด๊ตญ์ ์ธ ํ์ต๋ฅ ์ค์ผ์ค์ ๋ํ ์กฐ์ฌ๋ฅผ ์ฌ๊ธฐ์ ๋ฉ์ถ๊ณ ์ค์ ๋ก ๋ฌด์์ด ์๋ํ๋์ง ํ์ธํ๊ธฐ ์ํด GPU ์๊ฐ์ ์ข ํ์๋ณด์!
์ ๊ฑฐ ์คํ - WSD๋ ์ฝ์ฌ์ธ๊ณผ ์ผ์นํ๋ค
์ด์ ์ ๊ฑฐ ์คํ์ ํ ์๊ฐ์ด๋ค! WSD๊ฐ ์ค์ ๋ก ์ค์ ์์ ์ฝ์ฌ์ธ์ ์ฑ๋ฅ๊ณผ ์ผ์นํ๋์ง ํ ์คํธํด๋ณด์. ์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ Multi-Step ์ ๊ฑฐ ์คํ์ ๋ณด์ฌ์ฃผ์ง ์์ง๋ง, Multi-Step์ด ๋ค๋ฅธ ๋จ๊ณ ๋ถํ ๋ก ์ฝ์ฌ์ธ๊ณผ ์ผ์นํจ์ ๋ณด์ฌ์ค DeepSeek LLM์ ์ ๊ฑฐ ์คํ์ ์ฐธ๊ณ ํ๊ธธ ์ถ์ฒํ๋ค. ์ด ์น์ ์์๋ ์ฝ์ฌ์ธ ๊ฐ์ ๋ฅผ ๋ ๊ฐ์ง ๊ฐ์ ์ฐฝ (10% ๋ฐ 20%)์ ๊ฐ์ง WSD์ ๋น๊ตํ ๊ฒ์ด๋ค.


ํ๊ฐ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ๋ชจ๋์์ ์ ์ฌํ ์ต์ข ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์์ค ๋ฐ ํ๊ฐ ๊ณก์ (ํนํ HellaSwag)์ ๋ณด๋ฉด ํฅ๋ฏธ๋ก์ด ํจํด์ด ๋ณด์ธ๋ค: ์ฝ์ฌ์ธ์ ์์ ๋จ๊ณ (WSD์ ๊ฐ์ ๊ฐ ์์๋๊ธฐ ์ ) ๋์ ๋ ๋์ ์์ค ๋ฐ ํ๊ฐ ์ ์๋ฅผ ๋ฌ์ฑํ๋ค. ๊ทธ๋ฌ๋ WSD๊ฐ ๊ฐ์ ๋จ๊ณ์ ์ง์ ํ๋ฉด, ์์ค ๋ฐ ๋ค์ด์คํธ๋ฆผ ์งํ ๋ชจ๋์์ ๊ฑฐ์ ์ ํ์ ์ธ ๊ฐ์ ์ด ์์ด WSD๊ฐ ํ์ต์ด ๋๋ ๋์ฏค ์ฝ์ฌ์ธ์ ๋ฐ๋ผ์ก์ ์ ์๋ค.
์ด๊ฒ์ WSD์ 10-20% ๊ฐ์ ์ฐฝ์ด ์คํ ์ค๊ฐ์ ํ์ต์ ํ์ฅํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ์งํ๋ฉด์ ์ฝ์ฌ์ธ์ ์ต์ข ์ฑ๋ฅ๊ณผ ์ผ์น์ํค๊ธฐ์ ์ถฉ๋ถํจ์ ํ์ธ์์ผ ์ค๋ค. ์ฐ๋ฆฌ๋ SmolLM3๋ฅผ ์ํด 10% ๊ฐ์ ๋ฅผ ๊ฐ์ง WSD๋ฅผ ์ ํํ๋ค.
โ ๏ธย ์คํ ์ค๊ฐ์ ๋ค๋ฅธ ์ค์ผ์ค๋ฌ๋ก ํ์ต๋ ๋ชจ๋ธ ๋น๊ต
์์ ๋จ๊ณ ๋์ ์ฝ์ฌ์ธ๊ณผ WSD ์ฌ์ด์ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋น๊ตํ๋ ๊ฒฝ์ฐ, ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด WSD ์ฒดํฌํฌ์ธํธ์ ๊ฐ์ ๋ฅผ ์ ์ฉํด์ผ ํ๋ค.
์ด์ ์ธ๊ธฐ ์๋ ํ์ต๋ฅ ์ค์ผ์ค์ ๋ํ ์ข์ ๊ฐ์๋ฅผ ์ป์์ผ๋ฏ๋ก, ๋ค์ ์ง๋ฌธ์: ํผํฌ ํ์ต๋ฅ ์ ์ค์ ๋ก ๋ฌด์์ด์ด์ผ ํ๋๊ฐ?
์ต์ ์ ํ์ต๋ฅ ์ฐพ๊ธฐ
์ฐ๋ฆฌ์ ํน์ ํ์ต๋ฅ ์ค์ผ์ค๋ฌ ๋ฐ ํ์ต ์ค์ ์ ์ ํฉํ ํ์ต๋ฅ ์ ์ด๋ป๊ฒ ์ ํํด์ผ ํ ๊น?
์ฐ๋ฆฌ๋ ์ํคํ ์ฒ ์ ํ์ ์ํด ํ๋ ๊ฒ์ฒ๋ผ ์งง์ ์ ๊ฑฐ ์คํ์์ ํ์ต๋ฅ ์ค์์ ์คํํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ต์ ์ ํ์ต๋ฅ ์ ํ์ต ๊ธฐ๊ฐ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค: ์งง์ ์ ๊ฑฐ ์คํ์์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ ํ์ต๋ฅ ์ด ์ ์ฒด ์คํ์ ๊ฐ์ฅ ์ข์ ๊ฒ์ ์๋ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๋ ๋จ์ง ๋ค๋ฅธ ํ์ต๋ฅ ์ ํ ์คํธํ๊ธฐ ์ํด ๋น์ผ ๋ค์ฃผ๊ฐ์ ํ์ต์ ์ฌ๋ฌ ๋ฒ ์คํํ ์ฌ์ ๊ฐ ์๋ค.
๋จผ์ ๋๋ฌด ๋๊ฑฐ๋ ๋ฎ์ ํ์ต๋ฅ ์ ๋ฐฐ์ ํ๋ ๋ฐ ๋์์ด ๋๋ ๋น ๋ฅด๊ฒ ์คํํ ์ ์๋ ๊ฐ๋จํ ์ค์์ ์ดํด๋ณธ ๋ค์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ ผ์ํ ๊ฒ์ด๋ค.
์ ๊ฑฐ ์คํ - LR ์ค์
๋ค๋ฅธ ํ์ต๋ฅ ์ ์ํฅ์ ์ค๋ช ํ๊ธฐ ์ํด, 45B ํ ํฐ์ผ๋ก ํ์ต๋ 1B ์ ๊ฑฐ ์คํ ๋ชจ๋ธ์ ๋ํ ์ค์์ ์ดํด๋ณธ๋ค. ์ฐ๋ฆฌ๋ ๋์ผํ ๋ชจ๋ธ์ ๋์ผํ ์ค์ ์์ 4๊ฐ์ง ๋ค๋ฅธ ํ์ต๋ฅ ๋ก ํ์ต์ํจ๋ค: 1e-4, 5e-4, 5e-3, 5e-2. ๊ฒฐ๊ณผ๋ ๋ ๊ทน๋จ์์์ ์ํ์ ๋ช ํํ๊ฒ ๋ณด์ฌ์ค๋ค:


LR 5e-2๋ ๊ฑฐ์ ์ฆ์ ๋ฐ์ฐํ๋ฉฐ, ์์ค์ ์ด๊ธฐ์ ๊ธ๋ฑํ๊ณ ์ ๋ ํ๋ณต๋์ง ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๊ฒ ๋ง๋ ๋ค. LR 1e-4๋ ๋๋ฌด ๋ณด์์ ์ด๋ฉฐ, ์์ ์ ์ผ๋ก ํ์ต๋์ง๋ง ๋ค๋ฅธ ํ์ต๋ฅ ๋ณด๋ค ํจ์ฌ ๋๋ฆฌ๊ฒ ์๋ ดํ๋ค. 5e-4์ 5e-3์ ์ค๊ฐ ์ง์ ์ ๋ ๋์ ์๋ ด๊ณผ ๋น๊ตํ ๋งํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํด ์ค์์ ์คํํ๋ ๊ฒ์ ๋น ๋ฅด๊ฒ ๋น์ธ์ง๊ณ , ๋ ์ค์ํ๊ฒ๋ ์์ ์ธ๊ธํ๋ฏ์ด ๊ณํ๋ ํ์ต ํ ํฐ ์๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค. ์ฌ๊ธฐ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ๋งค์ฐ ๊ท์คํด์ง๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ WSD ์ค์ผ์ค์ ์ฌ์ฉํ๋ AdamW๋ก 100B ํ ํฐ์ ๋ํด 3B ๋ชจ๋ธ์ ํ์ต์์ผฐ๊ณ , ์ฌ๋ฌ ํ์ต๋ฅ ์ ๋น๊ตํ๋ค. ์ฐ๋ฆฌ๋ 2e-4๊ฐ ์์ค ๋ฐ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ ๋ชจ๋์์ 1e-4๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, 3e-4๋ 2e-4๋ณด๋ค ์ฝ๊ฐ ๋ ๋์ ๋ฟ์ด์๋ค. 3e-4์ ํ๊ณ ์ด์ต์ ๊ธด ํ์ต ์คํ ์ค ๋ถ์์ ์ฑ์ ์ํ ์ฆ๊ฐ๋ฅผ ๋๋ฐํ์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ 2e-4๋ฅผ ์ฐ๋ฆฌ์ ์ต์ ์ ์ผ๋ก ์ ํํ๋ค.
์ด๋ฌํ ์ค์์ ๋ช ๋ฐฑํ ๋๋ฌด ๋๊ฑฐ๋ (๋ฐ์ฐ) ๋๋ฌด ๋ฎ์ (๋๋ฆฐ ์๋ ด) ํ์ต๋ฅ ์ ๋ฐฐ์ ํ๋ ๋ฐ ๋์์ด ๋์ง๋ง, ๋ชจ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ํด ์ค์์ ์คํํ๋ ๊ฒ์ ๋น ๋ฅด๊ฒ ๋น์ธ์ง๊ณ , ๋ ์ค์ํ๊ฒ๋ ์์ ์ธ๊ธํ๋ฏ์ด ๊ณํ๋ ํ์ต ํ ํฐ ์๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค. ์ฌ๊ธฐ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ๋งค์ฐ ๊ท์คํด์ง๋ค.
๊ทธ๋ฌ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ํ์ต๋ฅ ๊ณผ ์ํธ ์์ฉํ๋ ๋ ๋ค๋ฅธ ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ธ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋ ผ์ํด๋ณด์.
๋ฐฐ์น ํฌ๊ธฐ (Batch size)
๋ฐฐ์น ํฌ๊ธฐ๋ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๊ธฐ ์ ์ ์ฒ๋ฆฌ๋๋ ์ํ์ ์์ด๋ค. ์ด๊ฒ์ ํ์ต ํจ์จ์ฑ๊ณผ ์ต์ข ๋ชจ๋ธ ์ฑ๋ฅ ๋ชจ๋์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ฉด ํ๋์จ์ด ๋ฐ ํ์ต ์คํ์ด ์ฅ์น ๊ฐ์ ์ ํ์ฅ๋๋ ๊ฒฝ์ฐ ์ฒ๋ฆฌ๋(throughput)์ ํฅ์์ํจ๋ค. ๊ทธ๋ฌ๋ ํน์ ์ง์ ์ ๋์ด์๋ฉด, ๋ ํฐ ๋ฐฐ์น๋ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํด์น๊ธฐ ์์ํ๋ค: ๋ชจ๋ธ์ ๋์ผํ ์์ค์ ๋๋ฌํ๊ธฐ ์ํด ๋ ๋ง์ ์ด ํ ํฐ์ ํ์๋ก ํ๊ฒ ๋๋ค. ์ด๊ฒ์ด ๋ฐ์ํ๋ ๋ถ๊ธฐ์ ์ **์๊ณ ๋ฐฐ์น ํฌ๊ธฐ(critical batch size)**๋ก ์๋ ค์ ธ ์๋ค (McCandlish et al., 2018).
(์ฒ๋ฆฌ๋(Throughput)์ ํ์ต ์ค ์ด๋น ์ฒ๋ฆฌ๋๋ ํ ํฐ์ ์์ด๋ค.)
- ์๊ณ๊ฐ ๋ฏธ๋ง์์ ๋ฐฐ์น ํฌ๊ธฐ ์ฆ๊ฐ:ย ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๊ณ ํ์ต๋ฅ ์ ์ฌ์กฐ์ ํ ํ, ๋ ์์ ๋ฐฐ์น ํฌ๊ธฐ ์คํ๊ณผ ๋์ผํ ์์ ํ ํฐ์ผ๋ก ๋์ผํ ์์ค์ ๋๋ฌํ๋ฉฐ, ๋ญ๋น๋๋ ๋ฐ์ดํฐ๊ฐ ์๋ค.
- ์๊ณ๊ฐ ์ด๊ณผ์์ ๋ฐฐ์น ํฌ๊ธฐ ์ฆ๊ฐ:ย ๋ ํฐ ๋ฐฐ์น๋ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฌ์ํ๊ธฐ ์์ํ๋ค; ๋ ๋ง์ ์นฉ์ด ๋ฐ์๊ธฐ ๋๋ฌธ์ ์ค์ ์๊ฐ(wall-clock time)์ด ์ค์ด๋ค๋๋ผ๋, ๋์ผํ ์์ค์ ๋๋ฌํ๋ ค๋ฉด ์ด์ ๋ ๋ง์ ์ด ํ ํฐ (๋ฐ๋ผ์ ๋ ๋ง์ ๋)์ด ํ์ํ๋ค.
์ ํ์ต๋ฅ ์ ์ฌ์กฐ์ ํด์ผ ํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ๋ฌด์์ด์ด์ผ ํ๋์ง ์ถ์ ์น๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ฝ๊ฐ์ ์ง๊ด์ ์ ๊ณตํด๋ณด๊ฒ ๋ค.
๋ฐฐ์น ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด, ๊ฐ ๋ฏธ๋ ๋ฐฐ์น ๊ธฐ์ธ๊ธฐ๋ ์ค์ ๊ธฐ์ธ๊ธฐ์ ๋ํ ๋ ๋์ ์ถ์ ์น๊ฐ ๋๋ฏ๋ก, ๋ ํฐ ๋จ๊ณ (์ฆ, ํ์ต๋ฅ ์ฆ๊ฐ)๋ฅผ ์์ ํ๊ฒ ๋ฐ์ ๋ ์ ์ ์ ๋ฐ์ดํธ๋ก ๋ชฉํ ์์ค์ ๋๋ฌํ ์ ์๋ค. ๋ฌธ์ ๋ ๊ทธ๊ฒ์ ์ด๋ป๊ฒ ํ์ฅํ๋๋์ด๋ค.
B๊ฐ์ ์ํ์ ๋ํ ํ๊ท ํ ๊ณผ์
- ๋ฐฐ์น ๊ธฐ์ธ๊ธฐ๋ ์ด๋ค.
- ํ๊ท ์ ๋์ผํ๊ฒ ์ ์ง๋๋ค:
- ๊ทธ๋ฌ๋ ๊ณต๋ถ์ฐ์ ์ค์ด๋ ๋ค:
SGD ๋งค๊ฐ๋ณ์ ์ ๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ด ์ ๋ฐ์ดํธ์ ๋ถ์ฐ์ ๋ค์์ ๋น๋กํ๋ค:
๋ฐ๋ผ์ ์ ๋ฐ์ดํธ ๋ถ์ฐ์ ๋๋ต ์ผ์ ํ๊ฒ ์ ์งํ๋ ค๋ฉด, ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ k ๋ฐฐ ํ์ฅํ ๊ฒฝ์ฐ, ํ์ต๋ฅ ์ ๋ฐฐ ํ์ฅํด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด ์ต์ ์ ๋ฐฐ์น ํฌ๊ธฐ์ ํ์ต๋ฅ ์ ๊ณ์ฐํ๊ณ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๊น์ง ๋๋ฆฌ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ฉฐ ์ฒ๋ฆฌ๋์ ์ฆ๊ฐ์ํจ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค๋ฉด, ์ต์ ์ ํ์ต๋ฅ ๋ํ ์กฐ์ ํด์ผ ํ๋ค.
*(์ด์ ๋ํ ๋ ๋ง์ ์ํ์ ๋ด์ฉ์ (๋๋ผ์ด) Jianlin Su์ ์๋ฆฌ์ฆ๋ฅผ ์ฐธ๊ณ ํด๋ผ: **https://kexue.fm/archives/11260)***
AdamW ๋๋ Muon๊ณผ ๊ฐ์ ์ตํฐ๋ง์ด์ ์ ๋ํ ์ ์ฉํ ๊ฒฝํ ๋ฒ์น์ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผย ์ ๊ณฑ๊ทผ LR ์ค์ผ์ผ๋ง์ ํ๋ ๊ฒ์ด์ง๋ง, ์ด๊ฒ์ ๋ํ ์ตํฐ๋ง์ด์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ์๋ฅผ ๋ค์ด AdamW๋ฅผ ์ฌ์ฉํ๋ฉด ๋งค์ฐ ๋ค๋ฅธ ๋์์ ์ ๋ฐํ ์ ์๋ beta1 / beta2์์ ์ํธ ์์ฉ์ด ์๋ค. ์ค์ฉ์ ์ธ ๋์์ย ํ์ต์ ์งง์ ๊ธฐ๊ฐ ๋์ ๋ถ๊ธฐํ๋ ๊ฒ์ด๋ค: ํ๋์ ์คํ์ ์๋ ๋ฐฐ์น๋ก ์ ์งํ๊ณ , ๋ ๋ฒ์งธ๋ ๋ ํฐ ๋ฐฐ์น์ ์ฌ์กฐ์ ๋ LR๋ก ์์ํ๋ฉฐ, ์ฌ์กฐ์ ํ ๋ ์์ค ๊ณก์ ์ด ์ผ์นํ๋ ๊ฒฝ์ฐ์๋ง ๋ ํฐ ๋ฐฐ์น๋ฅผ ์ฑํํ๋ค (Merrill et al., 2025). ๋ ผ๋ฌธ์์, ๊ทธ๋ค์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ํํ ๋ ํ์ต๋ฅ ์ ๋ค์ ์์ ํ๊ณ ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ์ฌ์ค์ ํ๋ค. ๊ทธ๋ค์ ๋ํ ์์ค์ด โ์ผ์นโํ๋์ง ๊ฒฐ์ ํ๊ธฐ ์ํด ํ์ฉ ์ค์ฐจ์ ์๊ฐ ์ฐฝ์ ์ค์ ํ๋ฉฐ, ๋ ๋ ธ๋ธ(knob)๋ ๊ฒฝํ์ ์ผ๋ก ์ ํ๋๋ค. ๊ทธ๋ค์ ์ถ์ ์น (์ด ๋ํ ๋ ธ์ด์ฆ๊ฐ ๋ง์)๊ฐ โ์ค์ โ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๊ณผ์ํ๊ฐํ๊ณ ์์์ ๋ฐ๊ฒฌํ๋ค. ์ด๊ฒ์ ์๋ก์ด ๋ฐฐ์น/LR ์์ด ํ์ต ์ญํ์ ๋ณด์กดํ๋์ง ๋น ๋ฅด๊ณ ์ํ ๋ถ๋ด์ด ์ ์ ํ์ธ์ ์ ๊ณตํ๋ค.
์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๋ ๊ณ ์ ๋์ด ์์ง ์์ผ๋ฉฐ, ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ์ปค์ง๋ค. ํ์ต ์ด๊ธฐ์๋ ๋ชจ๋ธ์ด ํฐ ๊ธฐ์ธ๊ธฐ ๋จ๊ณ๋ฅผ ๋ฐ์ผ๋ฏ๋ก ๊ฐ ํฌ๋ฉฐ ์ด๋ ์ด ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฏ๋ก, ๋ชจ๋ธ์ ๋ ์์ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ค. ๋์ค์ ๋ชจ๋ธ ์ ๋ฐ์ดํธ๊ฐ ์์ ํ๋จ์ ๋ฐ๋ผ ๋ ํฐ ๋ฐฐ์น๊ฐ ๋ ํจ๊ณผ์ ์ด๊ฒ ๋๋ค. ์ด๊ฒ์ด ์ผ๋ถ ๋๊ท๋ชจ ํ์ต์์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ์ง ์๊ณ ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์น ํฌ๊ธฐ ์์ ์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ์ฌ์ฉํ๋ ์ด์ ์ด๋ค. ์๋ฅผ ๋ค์ด, DeepSeek-V3๋ ์ฒ์ ~469B ํ ํฐ์ ๋ํด 1260๋ง ๋ฐฐ์น๋ก ์์ํ ๋ค์, ๋๋จธ์ง ํ์ต ๋์ 6290๋ง์ผ๋ก ์ฆ๊ฐ์์ผฐ๋ค. ์ด์ ๊ฐ์ ๋ฐฐ์น ํฌ๊ธฐ ์์ ์ค์ผ์ค์ ํ์ต๋ฅ ์์ ๊ณผ ๋์ผํ ๋ชฉ์ ์ ์ํํ๋ค: ๊ธฐ์ธ๊ธฐ ๋ ธ์ด์ฆ ๊ท๋ชจ๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๋ชจ๋ธ์ ํจ์จ์ ์ธ ๊ฒฝ๊ณ(efficient frontier)์ ์ ์งํ์ฌ ์ ์ฒด์ ์ผ๋ก ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ต์ ํ๋ฅผ ์ ์งํ๋ ๊ฒ์ด๋ค.
๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์์ค์ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ํ ๋๋ฆฌ ์งํ๋ก ์ทจ๊ธํ๋ ๊ฒ์ด๋ค. Minimax01์ด ์ด๊ฒ์ ์ฌ์ฉํ์ผ๋ฉฐ ๋ง์ง๋ง ๋จ๊ณ์์ ๊ทธ๋ค์ 1์ต 2800๋ง ๋ฐฐ์น ํฌ๊ธฐ๋ก ํ์ต์์ผฐ๋ค! ์ด๊ฒ์ ๊ทธ๋ค์ด ํ์ต๋ฅ ์ ์ฆ๊ฐ์ํค์ง ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฐ ๋ค๋ฅธ๋ฐ, ๋ฐ๋ผ์ ๊ทธ๋ค์ ๋ฐฐ์น ํฌ๊ธฐ ์ค์ผ์ค์ ํ์ต๋ฅ ๊ฐ์ ์ค์ผ์ค์ฒ๋ผ ์๋ํ๋ค.
๋ฐฐ์น ํฌ๊ธฐ ๋ฐ ํ์ต๋ฅ ํ๋
์ค์ ์ํฉ์์๋, ๋ฐฐ์น ํฌ๊ธฐ์ ํ์ต๋ฅ ์ ์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ค์ผ์ผ๋ง ๋ฒ์น (๋์ค์ ์ค๋ช !) ๋๋ ๋ฌธํ์์ ์ต์ ์ด๋ผ๊ณ ์๊ฐํ๋ ๋ฐฐ์น ํฌ๊ธฐ์ ํ์ต๋ฅ ์ ๋จผ์ ์ ํํ๋ค.
- ๊ทธ๋ฐ ๋ค์, ํ์ต ์ฒ๋ฆฌ๋์ ํฅ์์ํฌ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํ๋ํ ์ ์๋ค.
ํต์ฌ ํต์ฐฐ์ ์์ ๋ฐฐ์น ํฌ๊ธฐ์ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ ์ฌ์ด์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฌ์ํ์ง ์์ผ๋ฉด์ ํ๋์จ์ด ํ์ฉ๋๋ฅผ ๋์ด๊ธฐ ์ํด ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆด ์ ์๋ ๋ฒ์๊ฐ ์ข ์ข ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ด์ ๋ฐ๋ผ ํ์ต๋ฅ ์ ์ฌ์กฐ์ ๋์ด์ผ ํ๋ค. ์ฒ๋ฆฌ๋ ์ด๋์ด ํฌ์ง ์๊ฑฐ๋, (์ฌ์กฐ์ ๋ ํ์ต๋ฅ ๋ก) ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํ ์คํธํ์ ๋ ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ธ๋ค๋ฉด, ์ด๊ธฐ ๊ฐ์ ๊ณ ์ํด๋ผ.
์์ ์ฐธ๊ณ ์ฌํญ์์ ์ธ๊ธํ๋ฏ์ด, ๋ฐฐ์น ํฌ๊ธฐ์ ํ์ต๋ฅ ์ ๋ํ ์์์ ์ ์ ํํ๋ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ํตํ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์ด๋ป๊ฒ ์๋ํ๊ณ ์ปดํจํ ์์ฐ์ ํจ์๋ก์ ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ป๊ฒ ์์ธกํ๋์ง ์ดํด๋ณด์.
ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ์ค์ผ์ผ๋ง ๋ฒ์น
์ต์ ์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ ๋จ์ง ๋ชจ๋ธ ์ํคํ ์ฒ์ ํฌ๊ธฐ์๋ง ๊ด๋ จ๋ ๊ฒ์ด ์๋๋ผ, ๋ชจ๋ธ ๋งค๊ฐ๋ณ์ ์์ ํ์ต ํ ํฐ ์๋ฅผ ๋ชจ๋ ๊ฒฐํฉํย ์ปดํจํ ์์ฐ์๋ ์์กดํ๋ค. ์ค์ ์์, ์ด ๋ ๊ฐ์ง ์์๋ ์ํธ ์์ฉํ์ฌ ์ ๋ฐ์ดํธ๊ฐ ์ผ๋ง๋ ๊ณต๊ฒฉ์ ์ด๊ฑฐ๋ ๋ณด์์ ์ด์ด์ผ ํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ฌ๊ธฐ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ๋ฑ์ฅํ๋ค.
์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ ํฐ ๋ชจ๋ธ์ด๋ ๋ ๋ง์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ์งํํ๋์ง ์ค๋ช ํ๋ ๊ฒฝํ์ ๊ด๊ณ๋ฅผ ํ๋ฆฝํ๋ค (์ ์ฒด ์ญ์ฌ๋ ์ด ์ฅ ๋์ โ์ค์ผ์ผ๋ง ๋ฒ์นโ ์น์ ์ฐธ์กฐ). ๊ทธ๋ฌ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ํ DeepSeek ๋ฐ Qwen2.5์ ์ต๊ทผ ์์ ์์ ์ํ๋ ๊ฒ์ฒ๋ผ, ํ์ต์ ํ์ฅํจ์ ๋ฐ๋ผ ํ์ต๋ฅ ๋ฐ ๋ฐฐ์น ํฌ๊ธฐ์ ๊ฐ์ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์์ธกํ๋ ๋ฐ ๋์์ ์ค ์ ์๋ค. ์ด๊ฒ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์์ ์ ์ ์ผ๋ก ์์กดํ๋ ๋์ ์์น์ ์ ๊ฐํ ๊ธฐ๋ณธ๊ฐ์ ์ ๊ณตํด์ค๋ค.
์ด ๋งฅ๋ฝ์์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ ์ฉํ๋ ค๋ฉด, ํ์ต ๊ท๋ชจ๋ฅผ ์ ๋ํํ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค. ํ์ค ์ธก์ ๊ธฐ์ค์ C ๋ก ํ์๋๊ณ FLOPs๋ก ์ธก์ ๋๋ ์ปดํจํ ์์ฐ์ด๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ด ๊ทผ์ฌํ ์ ์๋ค:
N ์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์์ด๊ณ (์: 1B = 1e9), D ๋ ํ์ต ํ ํฐ์ ์์ด๋ค. ์ด๊ฒ์ ์ข ์ข ์ค์ ๊ณ์ฐ์ด ์ผ๋ง๋ ์ํ๋๊ณ ์๋์ง๋ฅผ ์ ๋ํํ๋ ํ๋์จ์ด-agnostic ํ ๋ฐฉ๋ฒ์ธ FLOPs (๋ถ๋ ์์์ ์ฐ์ฐ)๋ก ์ธก์ ๋๋ค. ๊ทธ๋ฌ๋ FLOPs๊ฐ ๋๋ฌด ์ถ์์ ์ผ๋ก ๋๊ปด์ง๋ค๋ฉด, ์ด๋ ๊ฒ ์๊ฐํด๋ผ: 100B ํ ํฐ์ ๋ํด 1B ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ 100B ํ ํฐ์ ๋ํด 2B ๋ชจ๋ธ์ ํ์ต์ํค๊ฑฐ๋, 200B ํ ํฐ์ ๋ํด 1B ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ๋ณด๋ค ์ฝ 2๋ฐฐ ์ ์ FLOPs๋ฅผ ์๋นํ๋ค.
์์ 6์ ํธ๋์คํฌ๋จธ๋ฅผ ํ์ต์ํค๋ ๋ฐ ํ์ํ ๋ถ๋ ์์์ ์ฐ์ฐ ์์ ๋ํ ๊ฒฝํ์ ์ถ์ ์น์์ ๋น๋กฏ๋๋ฉฐ, ๋๋ต ํ ํฐ๋น ๋งค๊ฐ๋ณ์๋น 6 FLOPs์ด๋ค.
(MoE ๋ ์ด์ด ๋ฐ ํ์ด๋ธ๋ฆฌ๋ ๋ ์ด์ด๋ฅผ ๊ณ ๋ คํ ๋ ์ ํํ ์ธก์ ์ ์ํ๋ค๋ฉด Megatron-LM์ย num_floating_point_operationsย ํจ์๋ฅผ ํ์ธํ ์ ์๋ค.)
์ด์ , ์ด๊ฒ์ด ํ์ต๋ฅ ๊ณผ ์ด๋ป๊ฒ ๊ด๋ จ๋์ด ์์๊น? ์ฐ๋ฆฌ๋ ์ด ์ปดํจํ ์์ฐ (C)์ ํจ์๋ก์ ์ต์ ์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์์ธกํ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋์ถํ ์ ์๋ค. ๊ทธ๋ค์ ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ์ ๋ตํ๋ ๋ฐ ๋์์ด ๋๋ค:
- 1B์์ 7B ๋งค๊ฐ๋ณ์๋ก ํ์ฅํ ๋ ํ์ต๋ฅ ์ ์ด๋ป๊ฒ ๋ณํด์ผ ํ๋๊ฐ?
- ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ฆฌ๋ฉด ํ์ต๋ฅ ์ ์กฐ์ ํด์ผ ํ๋๊ฐ?
DeepSeek๊ฐ ์ฌ์ฉํ ์ ๊ทผ ๋ฐฉ์์ ๋ฐ๋ผ ์ด๊ฒ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ์ดํด๋ณด์: ๋จผ์ , ์ ์ฐ์ฑ์ ์ํด ์ด์์ ์ผ๋ก๋ WSD์ธ ํ์ต๋ฅ ์ค์ผ์ค์ ์ ํํ๋ค. ๊ทธ๋ฐ ๋ค์, ๋ค์ํ ๋ฐฐ์น ํฌ๊ธฐ์ ํ์ต๋ฅ ์กฐํฉ์ผ๋ก ๋ค์ํ ์ปดํจํ ์์ฐ (์: 1e17, 5e17, 1e18, 5e18, 1e19, 2e19 FLOPs)์ ๊ฑธ์ณ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค. ๋ ๊ฐ๋จํ ์ฉ์ด๋ก: ์ฐ๋ฆฌ๋ ๋ค๋ฅธ ํ ํฐ ์์ ๋ํด ๋ค๋ฅธ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ์ต์ํค๋ฉฐ, ๋ค๋ฅธ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ํ ์คํธํ๋ค. ์ด๊ฒ์ด WSD ์ค์ผ์ค์ด ๋น๋๋ ๋ถ๋ถ์ธ๋ฐ, ์ฐ๋ฆฌ๋ ์ฌ์์ ์์ด ๋์ผํ ํ์ต ์คํ์ ๋ค๋ฅธ ํ ํฐ ์๋ก ํ์ฅํ ์ ์๋ค.
๊ฐ ์ค์ ์ ๋ํด, ์ฐ๋ฆฌ๋ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ํ ์ค์์ ์ํํ๊ณ ์ต์ ์ ๊ฐ๊น์ด ์ฑ๋ฅ (์ผ๋ฐ์ ์ผ๋ก ํ์ต ์ธํธ์ ์ ์ฌํ ๋ถํฌ๋ฅผ ๊ฐ์ง ๋ ๋ฆฝ์ ์ธ ๊ฒ์ฆ ์ธํธ์์ ๊ณ์ฐ๋ ์ต๊ณ ์ ๊ฒ์ฆ ์์ค์ ์์ ๋ง์ง (์: 0.25%) ๋ด์ ์๋ ๊ฒ์ผ๋ก ์ ์๋จ)์ ๋ง๋ค์ด๋ด๋ ๊ตฌ์ฑ์ ์๋ณํ๋ค. ๊ฐ ์ต์ ์ ๊ฐ๊น์ด ๊ตฌ์ฑ์ ์ฐ๋ฆฌ์๊ฒ ๋ฐ์ดํฐ ํฌ์ธํธ โ (์ปดํจํ ์์ฐ C, ์ต์ ํ์ต๋ฅ ฮท) ๋๋ (C , ์ต์ ๋ฐฐ์น ํฌ๊ธฐ B)์ ํํ์ ์ ๊ณตํ๊ฒ ๋๋ค. ์ด๋ฅผ ๋ก๊ทธ-๋ก๊ทธ ์ค์ผ์ผ๋ก ๊ทธ๋ ค๋ณด๋ฉด, ์ด๋ฌํ ๊ด๊ณ๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น์ ๋ชจ์ต์ ๋ณด์ด๋ฉฐ, ๋๋ต ์ง์ ์ผ๋ก ๋ํ๋๋ค (์ ๊ทธ๋ฆผ ์ฐธ์กฐ). ์ด๋ฌํ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํผํ ํจ์ผ๋ก์จ, ์ฐ๋ฆฌ๋ ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์ปดํจํ ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ์งํํ๋์ง ์ค๋ช ํ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ถ์ถํ ์ ์๋ค.
์ด ๊ณผ์ ์์ ์ค์ํ ๋ฐ๊ฒฌ์ ๊ณ ์ ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ปดํจํ ์์ฐ์ ๋ํด, ๊ด๋ฒ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ฑธ์ณ ์ฑ๋ฅ์ด ์์ ์ ์ผ๋ก ์ ์ง๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ์ข์ ์ต์ ์ ์ด ์๋๋ผ ๋์ ์ค์ํธ ์คํฟ(sweet spot)์ด ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ฐ๋ฆฌ๋ ์๋ฒฝํ ๊ฐ์ ์ฐพ์ ํ์๊ฐ ์์ผ๋ฉฐ, ์ถฉ๋ถํ ๊ฐ๊น์ด ๊ฐ๋ง ์ฐพ์ผ๋ฉด ๋๋ฏ๋ก ์ ์ฒด ํ๋ก์ธ์ค๊ฐ ํจ์ฌ ๋ ์ค์ฉ์ ์ด๋ค.
์ฌ๊ธฐ์ ๊ฐ ์ ์ด ์ต์ ์ ๊ฐ๊น์ด ์ค์ ์ ๋ํ๋ด๋ DeepSeek๊ฐ ๋์ถํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค:

์ด๋ฌํ ๊ฒฐ๊ณผ ๋ค์ ์จ๊ฒจ์ง ํต์ฌ ์ง๊ด์ ํ์ต์ด ๋ ์ปค์ง๊ณ ๊ธธ์ด์ง์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ๋ ์์ ์ ์ธ ์ ๋ฐ์ดํธ (๋ฐ๋ผ์ ๋ ์์ ํ์ต๋ฅ )์ ๋ ํจ์จ์ ์ธ ๊ธฐ์ธ๊ธฐ ์ถ์ (๋ฐ๋ผ์ ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ)์ ์ํ๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ฐ๋ฆฌ์๊ฒ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ํ ์์์ ์ ์ ๊ณตํ๋ค. ๊ทธ๋ฌ๋ ๋ชฉํ๋ โ๊ธฐ์ธ๊ธฐ๋น ์ต์ ์ ์ํโ์ด ์๋๋ผ โ์๊ฐ ๋ฐ GPU ์ ์ฝ ๋ด์์ ๋๋ฌ ๊ฐ๋ฅํ ๋ ๋ฎ์ ์์คโ์ด๋ฉด์ ์ฌ์ ํ ๋ชจ๋ ํ ํฐ์์ ์ ์ฒด ์ ํธ๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด๋ค.
์ค์ ์ํฉ์์, ๋น์ ์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์๋ฏธ ์๊ฒ ํด์น์ง ์์ผ๋ฉด์ ์ฒ๋ฆฌ๋์ ํฌ๊ฒ ํฅ์์ํค๊ธฐ ์ํด, ์์ ๋ ผ์ํ ์๊ณ ๋ฐฐ์น ํฌ๊ธฐ๊น์ง ์์ธก๋ ์ต์ ๋ฐฐ์น ํฌ๊ธฐ ์ด์์ผ๋ก ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆด ์ ์์์ง๋ ๋ชจ๋ฅธ๋ค.
SmolLM3
๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ๋ SmolLM3์ ๋ฌด์์ ์ฌ์ฉํ๋๊ฐ? SmolLM3๋ฅผ ์์ํ๊ธฐ ์ ์ ๊ฑฐ ์คํ ๋น์, ์ฐ๋ฆฌ๋ 100B ํ ํฐ์ผ๋ก ํ์ต๋ 1B ๋ชจ๋ธ์์ AdamW, AdEMAMix, ๊ทธ๋ฆฌ๊ณ Muon์ ๋น๊ตํ๋ค. Muon์ ์ ์ ํ ํ๋๋ ๋ AdamW๋ฅผ ๋ฅ๊ฐํ ์ ์์์ง๋ง ํ์ต๋ฅ ์ ๋ฏผ๊ฐํ๊ณ ๋ฐ์ฐํ๊ธฐ ์ฌ์ ๋ค. AdeMaMix๋ ๋ ๋ฏผ๊ฐํ๊ณ Muon๊ณผ ์ ์ฌํ ์์ค์ ๋ฌ์ฑํ๋ค. AdamW๋ ๊ฐ์ฅ ์์ ์ ์ด์์ง๋ง ํ๋๋ ๋์๋ค๋ณด๋ค ๋ ๋์ ์ต์ข ์์ค์ ๋๋ฌํ๋ค.
๊ทธ๋ฌ๋ 3B์ผ๋ก ํ์ฅํ์ ๋, ์ฐ๋ฆฌ๋ Muon๊ณผ AdeMaMix์์ ๋ ๋น๋ฒํ ๋ฐ์ฐ์ ๊ฒช์๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ ์ ๊ฑฐ ์คํ์ ๋ง์น ํ ๋ฐ๊ฒฌํ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฒ๊ทธ ๋๋ฌธ์ผ ์ ์์ง๋ง (ํ์ต ๋ง๋ผํคย ์ฑํฐ ์ฐธ์กฐ), ์ฐ๋ฆฌ๋ ์ด๊ฒ์ ํ์ ํ์ง ๋ชปํ๋ค. ์ฐ๋ฆฌ๋ ๊ฐ์ค์น ๊ฐ์ 0.1 ๋ฐ ๊ธฐ์ธ๊ธฐ ํด๋ฆฌํ 1์ ์ฌ์ฉํ๋ AdamW (beta1: 0.9, beta2: 0.95)๋ฅผ ์ฌ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค. ๊ฒฐ๊ตญ ๋งค์ฐ ํ๋ฒํ(vanilla) ์ค์ ์ด๋ค.
ํ์ต๋ฅ ์ค์ผ์ค์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ย WSD๋ฅผ ์ ํํ๋ค. ์ฐ๋ฆฌ๋ SmolLM2์์ ๊ทธ๊ฒ์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉํ์์ผ๋ฉฐ, ์ฌ์ฉ ์ฉ์ด์ฑ๊ณผ ์ด ํ์ต ๊ธฐ๊ฐ์ ๋ํ ์ ์ฐ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ค๊ฐ ํ์ต ๊ฐ์ ์คํ์ ์คํํ ์ ์๋ ๋ฅ๋ ฅ ์ธก๋ฉด์์ ์ต๊ณ ์ ๊ฒฐ์ ์ค ํ๋์์ด ์ ์ฆ๋์๋ค. ์ฐ๋ฆฌ๋ ํ์ต๋ฅ ์ค์์ ์คํํ๊ณ 2e-4์ ์ ์ฐฉํ๋ค. ์ ์ญ ๋ฐฐ์น ํฌ๊ธฐ์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 2M์์ 4M ํ ํฐ์ ๊ฐ์ ํ ์คํธํ์ง๋ง ์์ค์ด๋ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฏธ๋ฏธํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ฌ, ์ต๊ณ ์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ๋ ํฌ๊ธฐ์ธ 2.36M ํ ํฐ์ ์ ํํ๋ค.
์ฐธ์ฌ ๊ท์น
์์ฝ:ย ํ์๊ณผ ์คํ์ ๊ท ํ์ ๋ง์ถ๋ค. ์๋ฃ๋ ๊ฒ์ด ์๋ฒฝํ ๊ฒ๋ณด๋ค ๋ซ๋ค.
์ฐ๋ฆฌ๋ โ๋ฌด์โ (์ตํฐ๋ง์ด์ , ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ)์ ๋ํด ๋ง์ด ์ด์ผ๊ธฐํ์ง๋ง โ์ด๋ป๊ฒโ๋ ๊ทธ๋งํผ ์ค์ํ๋ค. ์คํํ ๊ฐ์น๊ฐ ์๋ ๊ฒ์ ์ด๋ป๊ฒ ๊ฒฐ์ ํ ๊น? ์๊ฐ์ ์ด๋ป๊ฒ ๊ตฌ์กฐํํ ๊น? ์ธ์ ํ์์ ๋ฉ์ถ๊ณ ํ์ต์ ์์ํ ๊น?
ํ์๊ณผ ์คํ ์ฌ์ด์ ์๊ฐ์ ํ๋ช ํ๊ฒ ํ ๋นํ๋ผ.ย ์๋ก์ด ๋ฐฉ๋ฒ์ ์ฌ์ํ ๊ฐ์ ์ ์๋ฒฝํ๊ฒ ํ๋ ๋ฐ ๋ช ์ฃผ๋ฅผ ๋ณด๋ด๋ ๊ฒ์ ๋ ๋์ ๋ฐ์ดํฐ ํ๋ ์ด์ ์ด๋ ๋ ์ฒ ์ ํ ์ํคํ ์ฒ ์ ๊ฑฐ ์คํ์ ๊ฐ์ ์ปดํจํ ์ ํฌ์ํ๋ ๊ฒ๋ณด๋ค ๊ฐ์น๊ฐ ์ ๋ค. ์ฐ๋ฆฌ์ ๊ฒฝํ์, ๊ทธ๋ฆฌ๊ณ ์ํคํ ์ฒ ์ ํธ๊ฐ๋ค์ ์ค๋ง์ํฌ ์๋ ์์ง๋ง, ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ์ผ๋ฐ์ ์ผ๋กย ๋ฐ์ดํฐ ํ๋ ์ด์ ์์ ๋์จ๋ค.
์์ฌ์ค๋ฌ์ธ ๋๋ ์ต๊ณ ์ฑ๋ฅ๋ณด๋ค ์ ์ฐ์ฑ๊ณผ ์์ ์ฑ์ ์ ํํด๋ผ.ย ๋ ๋ฐฉ๋ฒ์ด ๋๊ฐ์ด ์ ์ํ๋๋ค๋ฉด, ๋ ๋ง์ ์ ์ฐ์ฑ์ ์ ๊ณตํ๊ฑฐ๋ ๊ตฌํ ์ฑ์๋์ ์์ ์ฑ์ด ๋ ๋์ ๊ฒ์ ์ ํํ๋ค. ํ์ต์ ํ์ฅํ๊ฑฐ๋ ์ค๊ฐ ํ์ต ์คํ์ ์คํํ ์ ์๊ฒ ํด์ฃผ๋ WSD์ ๊ฐ์ ํ์ต๋ฅ ์ค์ผ์ค์ ์ฝ๊ฐ ๋ ์ ์๋ ดํ ์ ์๋ ์๊ฒฉํ ์ค์ผ์ค๋ณด๋ค ๋ ๊ฐ์น๊ฐ ์๋ค.
์ธ์ ์ต์ ํ๋ฅผ ๋ฉ์ถ๊ณ ํ์ต์ ์์ํ ์ง ์์๋ผ.ย ํ๋ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ํญ์ ํ๋ ๋ ์๊ฑฐ๋ ์๋ํ ์ตํฐ๋ง์ด์ ๋ ํ๋ ๋ ์๋ค. ํ์์ ์ํ ๋ง๊ฐ์ผ์ ์ค์ ํ๊ณ ๊ทธ๊ฒ์ ๊ณ ์ํ๋ค - ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ํ์ต์ ์๋ฃํ ๋ชจ๋ธ์ ์ฐ๋ฆฌ๊ฐ ๊ฒฐ์ฝ ์์ํ์ง ์์ ์๋ฒฝํ ๋ชจ๋ธ์ ํญ์ ์ด๊ธธ ๊ฒ์ด๋ค.

์ ๊ฑฐ ์คํ ํ๋๋ง ๋ ํ๋ค๊ณ ํด๋ฅผ ๋ผ์น์ง ์๊ฒ ์ง (์คํฌ์ผ๋ฌ: ํด๋ฅผ ๋ผ์ณค๋ค)
์๋ฒฝํจ์ ์ข์์ ์ ์ด๋ค, ํนํ ์ฐ๋ฆฌ๊ฐ ์ ํํ ์ปดํจํ ์์ฐ๊ณผ ๋ง๊ฐ์ผ๋ก ์์ ํ ๋๋ ๋์ฑ ๊ทธ๋ ๋ค.
์ค์ผ์ผ๋ง ๋ฒ์น: ๋งค๊ฐ๋ณ์๋ ์ผ๋ง๋ ๋ง์ด, ๋ฐ์ดํฐ๋ ์ผ๋ง๋ ๋ง์ด ํ์ํ๊ฐ?
๋ฅ๋ฌ๋ ์ด๊ธฐ ์์ , ์ธ์ด ๋ชจ๋ธ(๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ๋ค์ด ํ์ต๋ ํด๋ฌ์คํฐ)์ด โ๊ฑฐ๋โํ๊ธฐ ์ ์๋, ํ์ต ์คํ์ ์ข ์ข ์ปดํจํ ์์์ ์ํด ์ฌํ๊ฒ ์ ์ฝ๋ฐ์ง ์์๋ค. ๋ชจ๋ธ์ ํ์ต์ํฌ ๋, ์ฌ๋ฌ๋ถ์ ํ๋์จ์ด์ ๋ง๋ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ํํ๊ณ ๋ชจ๋ธ์ด ๊ณผ์ ํฉ๋๊ธฐ ์์ํ๊ฑฐ๋ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋ฅ๋ ๋๊น์ง ํ์ต์์ผฐ์ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด ์ด๊ธฐ ์์ ์๋ ๊ท๋ชจ๊ฐ ๋์์ด ๋๋ค๋ ๊ฐ๊ฐ์ด ์์๋ค โ ์๋ฅผ ๋ค์ด, Hestness et al.์ 2017๋ ์ ๋ ํฐ ๋ชจ๋ธ์ ๋ ์ค๋ ํ์ต์ํค๋ ๊ฒ์ด ์์ธก ๊ฐ๋ฅํ ์ด๋์ ๋ณ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ ํฌ๊ด์ ์ธ ๊ฒฐ๊ณผ ์ธํธ๋ฅผ ์ ๊ณตํ๋ค.
๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์๋์, ์ฐ๋ฆฌ๋ ํญ์ ์ปดํจํ ์ ์ฝ์ ๋ฐ๋๋ค. ์์ผ๊น? ์ด๋ฌํ ์ด๊ธฐ์ ํ์ฅ์ฑ ๊ฐ๋ ์ ์ ๊ฒฝ ์ธ์ด ๋ชจ๋ธ์ ์ํย ์ค์ผ์ผ๋ง ๋ฒ์น์ ๊ดํ Kaplan et al.์ ์ฐ๊ตฌ์ ์ํด ๊ณต์ํ๋์๋๋ฐ, ์ฌ๊ธฐ์ ์ธ์ด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ฌ๋ฌ ๊ท๋ชจ์ ์๋ฆฟ์์ ๊ฑธ์ณ ๋๋๋๋ก ์์ธก ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ด๊ฒ์ ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ธฐ์ ํ์ต ๊ธฐ๊ฐ์ ํญ๋ฐ์ ์ธ ์ฆ๊ฐ๋ฅผ ์ด๋ฐํ๋๋ฐ, ๊ท๋ชจ๋ฅผ ๋๋ฆผ์ผ๋ก์จ ์ฑ๋ฅ์ด ์ผ๋ง๋ ํฅ์๋ ์ง ์ ํํ๊ฒ ์์ธกํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ ๋์ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ค๋ ๊ฒฝ์์ ๋์์์ด ์ฆ๊ฐํ๋ ์ปดํจํ ์์ฐ์ผ๋ก ๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๋ํด ๋ ํฐ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒฝ์์ด ๋์๊ณ , ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ฐ์ ๋น ๋ฅด๊ฒ ์ปดํจํ ์ ์ฝ์ ๋ฐ๊ฒ ๋์๋ค.
์ปดํจํ ์ ์ฝ์ ์ง๋ฉดํ์ ๋, ๊ฐ์ฅ ์ค์ํ ์ง๋ฌธ์ ๋ ํฐ ๋ชจ๋ธ์ ํ์ต์ํฌ์ง ์๋๋ฉด ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ต์ํฌ์ง ์ฌ๋ถ์ด๋ค. ๋๋๊ฒ๋, Kaplan et al.์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ด์ ์ ๋ชจ๋ฒ ์ฌ๋ก๋ณด๋ค ๋ชจ๋ธ ๊ท๋ชจ์ ํจ์ฌ ๋ ๋ง์ ์ปดํจํ ์ ํ ๋นํ๋ ๊ฒ์ด ์ ๋ฆฌํ๋ค๋ ๊ฒ์ ์์ฌํ๋ค โ ์๋ฅผ ๋ค์ด, ๊ฑฐ๋ํ (175B ๋งค๊ฐ๋ณ์) GPT-3 ๋ชจ๋ธ์ ๋น๊ต์ ์ ์ ํ ํฐ ์์ฐ (300B ํ ํฐ)์ผ๋ก ํ์ต์ํค๋๋ก ๋๊ธฐ๋ฅผ ๋ถ์ฌํ๋ค. ์ฌ๊ฒํ ๊ฒฐ๊ณผ, Hoffman et al.์ Kaplan et al.์ ์ ๊ทผ ๋ฐฉ์์์ ๋ฐฉ๋ฒ๋ก ์ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ๊ณ , ๊ถ๊ทน์ ์ผ๋ก ํ์ต ๊ธฐ๊ฐ์ ํจ์ฌ ๋ ๋ง์ ์ปดํจํ ์ ํ ๋นํ ๊ฒ์ ์ ์ํ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ฌ๋์ถํ๋ค. ์ด๋ ์๋ฅผ ๋ค์ด 175B ๋งค๊ฐ๋ณ์ GPT-3์ ์ปดํจํ ์ต์ ํ์ต์ดย 3.7T ํ ํฐ์ ์๋นํ์ด์ผ ํจ์ ๋ณด์ฌ์ฃผ์๋ค!
์ด๊ฒ์ ์ด ๋ถ์ผ๋ฅผ โ๋ชจ๋ธ์ ๋ ํฌ๊ฒ ๋ง๋ค๊ธฐโ์์ โ๋ ๊ธธ๊ณ ๋ ์ ํ์ต์ํค๊ธฐโ๋ก ์ ํ์์ผฐ๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ํ๋ ํ์ต์ ์ฌ์ ํ ์น์น ๋ผ ๋ฒ์น๋ค์ ์๊ฒฉํ๊ฒ ๋ฐ๋ฅด์ง๋ ์๋๋ฐ, ์๋ํ๋ฉด ๊ทธ๊ฒ๋ค์ ๋จ์ ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค: ๊ทธ๋ค์ ํน์ ์ปดํจํ ์์ฐ์ด ์ฃผ์ด์ก์ ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๊ธฐ๊ฐ์ ์์ธกํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ง๋ง, ๋ ํฐ ๋ชจ๋ธ์ ํ์ต ํ(์ถ๋ก ์)์ ๋ ๋น์ธ๋ค๋ ์ฌ์ค์ ๊ณ ๋ คํ์ง ์์๋ค. ๋ฌ๋ฆฌ ๋งํ๋ฉด, ์ฐ๋ฆฌ๋ ์ฃผ์ด์ง ์ปดํจํ ์์ฐ์ ์ฌ์ฉํ์ฌ ๋ ์์ ๋ชจ๋ธ์ ๋ ์ค๋ ํ์ต์ํค๋ ๊ฒ์ ์ ํธํ ์ ์๋ค โ ๋น๋ก ์ด๊ฒ์ด โ์ปดํจํ ์ต์ โ์ด ์๋์ง๋ผ๋ โ ์๋ํ๋ฉด ์ด๊ฒ์ด ์ถ๋ก ๋น์ฉ์ ๋ ์ ๋ ดํ๊ฒ ๋ง๋ค ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค (Sardana et al., de Vries). ์ด๋ ๋ชจ๋ธ์ด ๋ง์ ์ถ๋ก ์ฌ์ฉ๋์ ๋ณด์ผ ๊ฒ์ผ๋ก ์์๋๋ ๊ฒฝ์ฐ (์๋ฅผ ๋ค์ด, ์คํ์์ค๋ก ๊ณต๊ฐ๋๊ธฐ ๋๋ฌธ์ ๐ค)์ ํด๋นํ ์ ์๋ค. ์ต๊ทผ, ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์ ์ํ ํ์ต ๊ธฐ๊ฐ์ ๋์ด ๋ชจ๋ธ์ โ๊ณผ์ ํ์ต(overtraining)โ์ํค๋ ์ด๋ฌํ ๊ดํ์ ํ์ค์ด ๋์์ผ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ SmolLM3๋ฅผ ๊ฐ๋ฐํ ๋ ์ทจํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
์ค์ผ์ผ๋ง ๋ฒ์น์ด ํน์ ์ปดํจํ ์์ฐ์ด ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๊ธฐ๊ฐ์ ๋ํ ์ ์์ ์ ๊ณตํด์ฃผ๊ธฐ๋ ํ์ง๋ง, ๊ณผ์ ํ์ต์ ์ ํํ๋ค๋ ๊ฒ์ ์ฌ๋ฌ๋ถ์ด ์ด๋ฌํ ์์๋ค์ ์ง์ ๊ฒฐ์ ํด์ผ ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 3B ๋งค๊ฐ๋ณ์์ ๋ชฉํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๊ฒ์ผ๋ก ์์ํ๋ค. Qwen3 4B, Gemma 3 4B, Llama 3.2 3B์ ๊ฐ์ ์ ์ฌํ ๊ท๋ชจ์ ์ต๊ทผ ๋ชจ๋ธ๋ค์ ๊ธฐ๋ฐ์ผ๋ก, ์ฐ๋ฆฌ๋ 3B๊ฐ ์๋ฏธ ์๋ ๋ฅ๋ ฅ (์ถ๋ก ๋ฐ ๋๊ตฌ ํธ์ถ๊ณผ ๊ฐ์)์ ๊ฐ๊ธฐ์ ์ถฉ๋ถํ ํฌ์ง๋ง, ์ด๊ณ ์ ์ถ๋ก ๊ณผ ํจ์จ์ ์ธ ๋ก์ปฌ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ ๋งํผ ์ถฉ๋ถํ ์๋ค๊ณ ํ๋จํ๋ค. ํ์ต ๊ธฐ๊ฐ์ ์ ํํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋จผ์ ์ต๊ทผ ๋ชจ๋ธ๋ค์ด ๊ทน๋๋ก ๊ณผ์ ํ์ต๋์๋ค๋ ์ ์ ์ฃผ๋ชฉํ๋ค โ ์๋ฅผ ๋ค์ด, ์์ ์ธ๊ธํ Qwen3 ์๋ฆฌ์ฆ๋ 36T ํ ํฐ ๋์ ํ์ต๋์๋ค๊ณ ์ฃผ์ฅ๋๋ค! ๊ฒฐ๊ณผ์ ์ผ๋ก, ํ์ต ๊ธฐ๊ฐ์ ์ข ์ข ์ฌ์ฉ ๊ฐ๋ฅํ ์ปดํจํ ์ ์์ ์ํด ์ข์ฐ๋๋ค. ์ฐ๋ฆฌ๋ ์ฝ ํ ๋ฌ ๋์ 384๊ฐ์ H100์ ํ๋ณดํ์ผ๋ฉฐ, ์ด๋ 11์กฐ ํ ํฐ์ ๋ํ ํ์ต ์์ฐ์ ์ ๊ณตํ๋ค (MFU๋ฅผ ์ฝ ~30%๋ก ๊ฐ์ ).
์ค์ผ์ผ๋ง ๋ฒ์น
์ด๋ฌํ ๊ฐ๊ทน์๋ ๋ถ๊ตฌํ๊ณ , ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ฌ์ ํ ์ค์ง์ ์ผ๋ก ๊ฐ์น๊ฐ ์๋ค. ๊ทธ๊ฒ๋ค์ ์คํ ์ค๊ณ๋ฅผ ์ํ ๊ธฐ์ค์ ์ ์ ๊ณตํ๊ณ , ์ฌ๋๋ค์ ์ข ์ข ์ ๊ฑฐ ์คํ์์ ์ ํธ๋ฅผ ์ป๊ธฐ ์ํด ์น์น ๋ผ ์ต์ ์ค์ ์ ์ฌ์ฉํ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๋ชฉํ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์๋์ง ์์ธกํ๋ ๋ฐ ๋์์ ์ค๋ค. de Vries๊ฐ ์ด ๋ธ๋ก๊ทธ์์ ์ธ๊ธํ๋ฏ์ด, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์์ผ๋ก์จ ์๊ณ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋๋ฌํ ์ ์๋ค: ์ด๋ ์ฃผ์ด์ง ์์ค์ ๋๋ฌํ๊ธฐ ์ํด ํ์ํ ์ต์ํ์ ์ฉ๋์ด๋ฉฐ, ๊ทธ ์ดํ์์๋ ์ํ ์ฒด๊ฐ์ด ๋ฐ์ํ๊ธฐ ์์ํ๋ค.
์ด์ ๋ชจ๋ธ ์ํคํ ์ฒ, ํ์ต ์ค์ , ๋ชจ๋ธ ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ํ์ต ๊ธฐ๊ฐ์ ํ์ ํ์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ง ์ค์ํ ๊ตฌ์ฑ ์์๋ฅผ ์ค๋นํด์ผ ํ๋ค: ๋ชจ๋ธ์ ๊ฐ๋ฅด์น ย ๋ฐ์ดํฐ ํผํฉ(Data Mixture)๊ณผ ๊ทธ๊ฒ์ ์์ ์ ์ผ๋ก ํ์ต์ํฌย ์ธํ๋ผ์ด๋ค. SmolLM3์ ์ํคํ ์ฒ๊ฐ 3B ๋งค๊ฐ๋ณ์๋ก ์ค์ ๋จ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ๊ฐ๋ ฅํ ๋ค๊ตญ์ด, ์ํ ๋ฐ ์ฝ๋ ์ฑ๋ฅ์ ์ ๊ณตํ ๋ฐ์ดํฐ ํผํฉ์ ํ๋ ์ด์ ํ๊ณ 11T ํ ํฐ์ ํ์ต์ ๊ฒฌ๋ ๋งํผ ๊ฒฌ๊ณ ํ ์ธํ๋ผ๋ฅผ ์ค์ ํด์ผ ํ๋ค. ์ด๋ฌํ ๊ธฐ๋ณธ ์ฌํญ์ ์ฌ๋ฐ๋ฅด๊ฒ ํ์ ํ๋ ๊ฒ์ด ํ์์ ์ด๋ฉฐ, ์ต๊ณ ์ ์ํคํ ์ฒ ์ ํ์กฐ์ฐจ๋ ์ด์ ํ ๋ฐ์ดํฐ ํ๋ ์ด์ ์ด๋ ๋ถ์์ ํ ํ์ต ์์คํ ์ผ๋ก๋ถํฐ ์ฐ๋ฆฌ๋ฅผ ๊ตฌํด์ฃผ์ง๋ ๋ชปํ ๊ฒ์ด๋ค.
The art of data curation
์์ํด ๋ณด๋ผ: ์ฌ๋ฌ๋ถ์ ์ํคํ ์ฒ๋ฅผ ์๋ฒฝํ๊ฒ ๋ง๋ค๊ณ , ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํ๊ณ , ๊ฐ์ฅ ๊ฒฌ๊ณ ํ ํ์ต ์ธํ๋ผ๋ฅผ ์ค์ ํ๋ ๋ฐ ๋ช ์ฃผ๋ฅผ ๋ณด๋๋ค. ๋ชจ๋ธ์ ์๋ฆ๋ต๊ฒ ์๋ ดํ์ง๋ง, ๋ง์โฆ ์ผ๊ด์ฑ ์๋ ์ฝ๋๋ฅผ ์์ฑํ์ง ๋ชปํ๊ณ , ๊ธฐ์ด ์ํ์ ์ด๋ ค์์ ๊ฒช์ผ๋ฉฐ, ์ฌ์ง์ด ๋ฌธ์ฅ ์ค๊ฐ์ ์ธ์ด๋ฅผ ๋ฐ๊พธ๊ธฐ๋ ํ๋ค. ๋ฌด์์ด ์๋ชป๋์์๊น? ๋ต์ ๋๊ฐ ๋ฐ์ดํฐ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ํ๋ คํ ์ํคํ ์ฒ ํ์ ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์์ ์ง์ฐฉํ๋ ๋์, ๋ฐ์ดํฐ ํ๋ ์ด์ ์ ์ข ์ข ์ฐ๋ฆฌ ๋ชจ๋ธ์ด ์ง์ ์ผ๋ก ์ ์ฉํด์ง์ง ์๋๋ฉด ๊ทธ์ ๋ ํ๋์ ๋น์ผ ์คํ์ด ๋ ์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ๊ทธ๊ฒ์ ๋ฌด์์ ์น ํฌ๋กค๋ง ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ๊ณผ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ์ด ๋ฐฐ์ฐ๊ธฐ๋ฅผ ์ํ๋ ๊ธฐ์ ์ ์ค์ ๋ก ๊ฐ๋ฅด์น๋ ์ ์คํ๊ฒ ํ๋ ์ด์ ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ๋ ๊ฒ์ ์ฐจ์ด์ด๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ๋ชจ๋ธ์ดย ์ด๋ป๊ฒย ํ์ตํ๋์ง๋ฅผ ์ ์ํ๋ค๋ฉด, ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ดย ๋ฌด์์ย ํ์ตํ๋์ง๋ฅผ ์ ์ํ๋ฉฐ, ์๋ฌด๋ฆฌ ๋ง์ ์ปดํจํ ์ด๋ ์ตํฐ๋ง์ด์ ํ๋๋ ์๋ชป๋ ์ฝํ ์ธ ๋ก ํ์ตํ๋ ๊ฒ์ผ๋ก๋ถํฐ ์ฑ๋ฅ์ ๋ณด์ ํด์ค ์ ์๋ค. ๊ฒ๋ค๊ฐ, ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ป๋ ๊ฒ์ ๋จ์ง ์ข์ ๋ฐ์ดํฐ์ ์ ๊ฐ๋ ๊ฒ๋ง์ด ์๋๋ค. ๊ทธ๊ฒ์ ์ฌ๋ฐ๋ฅธ **ํผํฉ(mixture)**์ ์กฐ๋ฆฝํ๋ ๊ฒ์ ๊ดํ ๊ฒ์ด๋ค: ์์ถฉ๋๋ ๋ชฉํ๋ค (์: ๊ฐ๋ ฅํ ์์ด ๋ ๊ฒฌ๊ณ ํ ๋ค๊ตญ์ด์ฑ)์ ๊ท ํ์ ๋ง์ถ๊ณ ์ฐ๋ฆฌ์ ์ฑ๋ฅ ๋ชฉํ์ ๋ง๊ฒ ๋ฐ์ดํฐ ๋น์จ์ ์กฐ์ ํ๋ ๊ฒ์ด๋ค. ์ด ๊ณผ์ ์ ๋ณดํธ์ ์ธ ์ต๊ณ ์ ํผํฉ์ ์ฐพ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฐ๋ฅธ ์ง๋ฌธ์ ๋์ง๊ณ ๊ทธ์ ๋ตํ๊ธฐ ์ํ ๊ตฌ์ฒด์ ์ธ ๊ณํ์ ๊ณ ์ํ๋ ๊ฒ์ ๊ฐ๊น๋ค:
- ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ๋ฌด์์ ์ํ๊ธฐ๋ฅผ ์ํ๊ฐ?
- ๊ฐ ๋๋ฉ์ธ์ ๊ฐ์ฅ ์ ํฉํ ๋ฐ์ดํฐ์ ์ ๋ฌด์์ด๋ฉฐ ์ด๋ป๊ฒ ํผํฉํด์ผ ํ๋๊ฐ?
- ์ฐ๋ฆฌ์ ๋ชฉํ ํ์ต ๊ท๋ชจ์ ๋ง๋ ์ถฉ๋ถํ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋๊ฐ?
์ด ์น์ ์ ํ๋ฅญํ ๋ฐ์ดํฐ์ ๋๋ฏธ๋ฅผ ํ๋ฅญํ ํ์ต ํผํฉ(training mixture)์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ํด ์์น์ ์ ๊ฐํ ๋ฐฉ๋ฒ, ์ ๊ฑฐ ์คํ, ๊ทธ๋ฆฌ๊ณ ์ฝ๊ฐ์ ์ฐ๊ธ์ ์ ํผํฉํ์ฌ ์ด๋ฌํ ์ง๋ฌธ๋ค์ ํค์ณ๋๊ฐ๋ ๊ฒ์ ๊ดํด ๋ค๋ฃฐ ๊ฒ์ด๋ค.
์ข์ ๋ฐ์ดํฐ ํผํฉ์ด๋ ๋ฌด์์ด๋ฉฐ ์ ๊ฐ์ฅ ์ค์ํ๊ฐ
์ฐ๋ฆฌ๋ ์ธ์ด ๋ชจ๋ธ์ ๋ง์ ๊ฒ์ ๊ธฐ๋ํ๋ค. ๊ทธ๋ค์ ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋๊ณ , ์กฐ์ธ์ ์ฃผ๊ณ , ๊ฑฐ์ ๋ชจ๋ ๊ฒ์ ๋ํ ์ง๋ฌธ์ ๋ตํ๊ณ , ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์ ์๋ฃํ๋ ๋ฑ์ ์ผ์ ํ ์ ์์ด์ผ ํ๋ค. ์น๊ณผ ๊ฐ์ ํ๋ถํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ์์ค๋ ์ด๋ฌํ ์์ ์ ํ์ํ ์ง์๊ณผ ๊ธฐ๋ฅ์ ์ ์ฒด ๋ฒ์๋ฅผ ํฌ๊ดํ์ง ์๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ต๊ทผ ๋ชจ๋ธ๋ค์ ์ํ ๋ฐ ์ฝ๋ฉ๊ณผ ๊ฐ์ ํน์ ๋๋ฉ์ธ์ ๋ชฉํ๋ก ํ๋ ๋ ์ ๋ฌธํ๋ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ๋ก ์์กดํ๊ณ ์๋ค. ์ฐ๋ฆฌ๋ ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ์ ํ๋ ์ด์ ์ ๋ํด ๋ง์ ์์ ์ ํด์์ง๋ง, SmolLM3์ ๊ฒฝ์ฐ ์ฃผ๋ก ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ํ์ฉํ๋ค.ย ๋ฐ์ดํฐ์ ํ๋ ์ด์ ์ ๋ํด ๋ ์์ธํ ์์๋ณด๋ ค๋ฉด FineWeb ๋ฐ FineWeb-Edu, FineWeb2, Stack-Edu, ๊ทธ๋ฆฌ๊ณ FineMath ๊ตฌ์ถ์ ๋ํ ์ฐ๋ฆฌ์ ๋ณด๊ณ ์๋ฅผ ํ์ธํ๋ค.
๋ฐ์ดํฐ ํผํฉ์ ์ง๊ด์ ๋ฐํ๋ ๋ณธ์ง
์ธ์ด ๋ชจ๋ธ ํ์ต์ด ์ฒ์์ด๋ผ๋ฉด, ์ข์ ๋ฐ์ดํฐ ํผํฉ์ ์ฐพ๋ ๊ฒ์ด ๊ฐ๋จํด ๋ณด์ผ ์ ์๋ค: ๋ชฉํ ๊ธฐ๋ฅ์ ์๋ณํ๊ณ , ๊ฐ ๋๋ฉ์ธ์ ๋ํ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ์์งํ๊ณ , ๊ฒฐํฉํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค. ํ์ค์ ๋ ๋ณต์กํ๋ฐ, ์ผ๋ถ ๋๋ฉ์ธ์ ํ์ต ์์ฐ์ ๋๊ณ ์๋ก ๊ฒฝ์ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฝ๋ฉ๊ณผ ๊ฐ์ ํน์ ๊ธฐ๋ฅ์ ์ง์คํ ๋, ์์ค ์ฝ๋์ ๊ฐ์ ์์ ๊ด๋ จ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋์ด๊ณ ์ถ์ ์ ํน์ด ์์ ์ ์๋ค. ๊ทธ๋ฌ๋ ํ ์์ค์ ๊ฐ์ค์น๋ฅผ ๋์ด๋ ๊ฒ์ ์์์ ์ผ๋ก ๋ค๋ฅธ ๋ชจ๋ ์์ค์ ๊ฐ์ค์น๋ฅผ ๋ฎ์ถ๋ ๊ฒ์ด๋ฉฐ, ์ด๋ ๋ค๋ฅธ ์ค์ ์์ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ ํด์น ์ ์๋ค. ๋ฐ๋ผ์ ๋ค์ํ ์์ค์ ๋ชจ์์ผ๋ก ํ์ตํ๋ ๊ฒ์ ๋ค์ด์คํธ๋ฆผ ๊ธฐ๋ฅ๋ค ์ฌ์ด์์ ์ผ์ข ์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์ ํฌํจํ๋ค.
๋ํ, ์ด๋ฌํ ๋ชจ๋ ์์ค์ ๋๋ฉ์ธ ์ ๋ฐ์ ๊ฑธ์ณ, ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐ ํนํ ๋์์ด ๋๋ โ๊ณ ํ์งโ ๋ฐ์ดํฐ์ ํ์ ์งํฉ์ด ์ข ์ข ์๋ค. ์ ๊ทธ๋ฅ ๋ชจ๋ ๋ฎ์ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ฒ๋ฆฌ๊ณ ์ต๊ณ ํ์ง์ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ์ง ์๋๊ฐ? SmolLM3์ 11์กฐ ํ ํฐ์ด๋ผ๋ ๋๊ท๋ชจ ํ์ต ์์ฐ์ ๊ฒฝ์ฐ, ๊ทธ๋ฌํ ๊ทน๋จ์ ์ธ ํํฐ๋ง์ ํ๋ฉด ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณต๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ ๊ฒ์ด๋ค. ์ด์ ์ฐ๊ตฌ๋ ์ด๋ฐ ์ข ๋ฅ์ ๋ฐ๋ณต์ด ํด๋ก์ธ ์ ์์์ ๋ณด์ฌ์ฃผ์์ผ๋ฏ๋ก (Muennighoff et al., 2025), ์ฐ๋ฆฌ๋ ์ด์์ ์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ์ฌ์ ํ ์ต๋ํํ๋ฉด์ ๋ ๋์ ํ์ง๊ณผ ๋ ๋ฎ์ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํ์ฉํ ์ ์์ด์ผ ํ๋ค.
์์ค ๊ฐ ๋ฐ์ดํฐ ๊ท ํ์ ๋ง์ถ๊ณ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ **ํผํฉ(mixture)**์ ์ ์คํ๊ฒ ์ค๊ณํด์ผ ํ๋ค: ๊ฐ ์์ค์์ ๊ฐ์ ธ์จ ํ์ต ๋ฌธ์์ ์๋์ ๋น์จ์ด๋ค. ํน์ ์์ ์ด๋ ๋๋ฉ์ธ์ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํด๋น ์์ ๊ณผ ๊ด๋ จ๋ ๋ฐ์ดํฐ์ ์์ ํฌ๊ฒ ์์กดํ๋ฏ๋ก, ํผํฉ ๊ฐ์ค์น๋ฅผ ํ๋ํ๋ ๊ฒ์ ๋๋ฉ์ธ ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๊ธฐ๋ฅ์ ๊ท ํ์ ๋ง์ถ๋ ์ง์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ค. ์ด๋ฌํ ํธ๋ ์ด๋์คํ๋ ๋ชจ๋ธ์ ๋ฐ๋ผ ๋ค๋ฅด๊ณ ์์ธกํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ์ ๊ฑฐ ์คํ์ ํ์์ ์ด๋ค.
๊ทธ๋ฌ๋ ํผํฉ์ด ํ์ต ๋ด๋ด ๊ณ ์ ๋์ด ์์ ํ์๋ ์๋ค. ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ํผํฉ์ ์กฐ์ ํจ์ผ๋ก์จ (์ฐ๋ฆฌ๊ฐย ๋ค๋จ๊ณ ํ์ต(multi-stage training)ย ๋๋ ์ปค๋ฆฌํ๋ผ(curriculum)์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ), ์ฐ๋ฆฌ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ํ์ง ๋ฐ์ดํฐ ๋ชจ๋๋ฅผ ๋ ์ ํ์ฉํ ์ ์๋ค.
ํ์ต ์ปค๋ฆฌํ๋ผ์ ์งํ
๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ด๊ธฐ์๋ ์ ์ฒด ํ์ต ์คํ์ ๋ํด ๋จ์ผ ๋ฐ์ดํฐ ํผํฉ์ ๊ณ ์ ํ๋ ๊ฒ์ด ํ์ค ์ ๊ทผ ๋ฐฉ์์ด์๋ค. GPT3 ๋ฐ Llama์ ์ด๊ธฐ ๋ฒ์ ๊ณผ ๊ฐ์ ๋ชจ๋ธ๋ค์ ์์๋ถํฐ ๋๊น์ง ์ ์ ํผํฉ์ผ๋ก ํ์ตํ๋ค. ๋ ์ต๊ทผ์, ์ด ๋ถ์ผ๋ ํ์ต ๊ณผ์ ์ ๊ฑธ์ณ ๋ฐ์ดํฐ ํผํฉ์ด ๋ณํ๋ ๋ค๋จ๊ณ ํ์ต (Allal et al., 2025)์ผ๋ก ์ด๋ํ๋ค. ์ฃผ์ ๋๊ธฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์ต์ข ํ๋์ด ํ์ต ๋ ๋ฌด๋ ต์ ๋ณธ ๋ฐ์ดํฐ์ ์ํด ๊ฐํ๊ฒ ์ํฅ์ ๋ฐ๋๋ค๋ ๊ฒ์ด๋ค (Y. Chen et al., 2025b). ์ด ํต์ฐฐ๋ ฅ์ ์ค์ฉ์ ์ธ ์ ๋ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค: ํ์ต ์ด๊ธฐ์๋ ๋ ํ๋ถํ ์์ค์ ๊ฐ์ค์น๋ฅผ ๋์ด๊ณ ๋์ผ๋ก ๊ฐ์๋ก ๋ ์ ๊ณ ๋ ๋์ ํ์ง์ ์์ค๋ฅผ ํผํฉํ๋ ๊ฒ์ด๋ค.
ํํ ์ง๋ฌธ์: ํผํฉ์ ๋ณ๊ฒฝํ ์์ ์ ์ด๋ป๊ฒ ๊ฒฐ์ ํ๋๊ฐ? ๋ณดํธ์ ์ธ ๊ท์น์ ์์ง๋ง, ์ฐ๋ฆฌ๋ ์ผ๋ฐ์ ์ผ๋ก ๋ค์ ์์น์ ๋ฐ๋ฅธ๋ค:
- ์ฑ๋ฅ ์ฃผ๋ ๊ฐ์ :ย ์ฃผ์ ๋ฒค์น๋งํฌ์์ ํ๊ฐ ์งํ๋ฅผ ๋ชจ๋ํฐ๋งํ๊ณ ํน์ ๊ธฐ๋ฅ์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ํผํฉ์ ์กฐ์ ํ๋ค. ์๋ฅผ ๋ค์ด, ๋ค๋ฅธ ๊ธฐ๋ฅ๋ค์ ๊ณ์ ๊ฐ์ ๋๋๋ฐ ์ํ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ค๋ฉด, ๊ทธ๊ฒ์ ๋ ๋์ ํ์ง์ ์ํ ๋ฐ์ดํฐ๋ฅผ ๋์ ํ๋ผ๋ ์ ํธ์ด๋ค.
- ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํ๋ฐ ๋จ๊ณ๋ฅผ ์ํด ์๋ผ๊ธฐ:ย ์๊ณ ๊ณ ํ์ง์ธ ์ํ ๋ฐ ์ฝ๋ ๋ฐ์ดํฐ์ ์ ์ด๋๋ง ๋จ๊ณ (ํ์ต๋ฅ ๊ฐ์ ๊ฐ ์๋ ์ต์ข ๋จ๊ณ) ๋์ ๋์ ๋ ๋ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ค.
์ด์ ํผํฉ์ด ์ ์ค์ํ์ง, ๊ทธ๋ฆฌ๊ณ ์ปค๋ฆฌํ๋ผ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ํ๋ฆฝํ์ผ๋ฏ๋ก, ๋ ๊ฐ์ง๋ฅผ ํ๋ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํ์.
์ ๊ฑฐ ์คํ ์ค์ : ๋ฐ์ดํฐ ๋ ์ํผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ ์คํธํ๋ ๋ฐฉ๋ฒ
๋ฐ์ดํฐ ํผํฉ์ ํ ์คํธํ ๋, ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ์ํคํ ์ฒ ์ ๊ฑฐ ์คํ์ ์คํํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ์ง๋ง ํ ๊ฐ์ง ์ฐจ์ด์ ์ด ์๋ค: ์ฐ๋ฆฌ๋ย ๋ชฉํ ๋ชจ๋ธ ๊ท๋ชจ์์ ์คํํ๋ ค๊ณ ๋ ธ๋ ฅํด์ผ ํ๋ค. ์์ ๋ชจ๋ธ๊ณผ ํฐ ๋ชจ๋ธ์ ๋ค๋ฅธ ์ฉ๋์ ๊ฐ์ง๊ณ ์๋ค. ์๋ฅผ ๋ค์ด, ๋งค์ฐ ์์ ๋ชจ๋ธ์ ๋ง์ ์ธ์ด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ ๋ฐ๋ฉด, ๋ ํฐ ๋ชจ๋ธ์ ๋ค๋ฅธ ๊ณณ์์ ์ฑ๋ฅ์ ํฌ์ํ์ง ์๊ณ ๊ทธ๊ฒ๋ค์ ํก์ํ ์ ์๋ค. ๋ฐ๋ผ์ ๋๋ฌด ์์ ๊ท๋ชจ์์ ๋ฐ์ดํฐ ์ ๊ฑฐ ์คํ์ ์คํํ๋ฉด ์ต์ ์ ํผํฉ์ ๋ํด ์๋ชป๋ ๊ฒฐ๋ก ์ ๋์ถํ ์ํ์ด ์๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 50B ๋ฐ 100B ํ ํฐ์ ๋ ์งง์ ํ์ต ์คํ์ ์ฌ์ฉํ์ฌ 30B๋ชจ๋ธ์์ ์ง์ ์ฃผ์ ๋ฐ์ดํฐ ์ ๊ฑฐ ์คํ์ ์คํํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ ๋ค๋ฅธ ์ ํ์ ์ ๊ฑฐ ์คํ ์ค์ ์ ์ฌ์ฉํ๋ค:ย ์ด๋๋ง(annealing) ์คํ์ด๋ค. ๋ค๋ฅธ ํผํฉ์ผ๋ก ์ฒ์๋ถํฐ ํ์ตํ๋ ๋์ , ์ฐ๋ฆฌ๋ ์ฃผ ์คํ์์ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ (์๋ฅผ ๋ค์ด 7์กฐ ํ ํฐ์์)๋ฅผ ๊ฐ์ ธ์ ์์ ๋ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ผ๋ก ํ์ต์ ๊ณ์ํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋ค๋จ๊ณ ํ์ต (์ฆ, ํ์ต ์ค๊ฐ์ ํ์ต ํผํฉ ๋ณ๊ฒฝ)์ ์ํ ๋ฐ์ดํฐ ํผํฉ ๋ณ๊ฒฝ์ ํ ์คํธํ ์ ์๊ฒ ํด์ฃผ๋ฉฐ, SmolLM2, Llama3 ๋ฐ Olmo2์ ๊ฐ์ ์ต๊ทผ ์์ ์์ ์ฌ์ฉ๋์๋ค. ํ๊ฐ๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ ํ์ค ์์ด ํ๊ฐ์ ํจ๊ป ๋ค๊ตญ์ด ์์ ์ ํฌํจํ๋๋ก ๋ฒค์น๋งํฌ ์ค์ํธ๋ฅผ ํ์ฅํ์ฌ ๋ค๋ฅธ ์ธ์ด ๋น์จ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ ์ ํ๊ฒ ํ๊ฐํ ์ ์๋๋ก ๋ณด์ฅํ๋ค.

์ต๊ทผ ์ฐ๊ตฌ๋ ์ต์ ์ ๋ฐ์ดํฐ ๋น์จ์ ์ฐพ๊ธฐ ์ํ ์๋ํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค.:
- DoReMi (Xie et al., 2023):ย ์์ ํ๋ก์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ validation ์์ค์ ์ต์ํํ๋ ๋๋ฉ์ธ ๊ฐ์ค์น๋ฅผ ํ์ตํ๋ค.
- Rho Loss (Mindermann et al., 2022):ย ํ๋์์(holdout) ์์ค์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ณ ํ์ต ํฌ์ธํธ๋ฅผ ์ ํํ์ฌ, ํ์ต ๊ฐ๋ฅํ๊ณ , ์์ ๊ด๋ จ์ฑ์ด ์์ผ๋ฉฐ, ๋ชจ๋ธ์ ์ํด ์์ง ํ์ต๋์ง ์์ ์ํ์ ์ฐ์ ์ํ๋ค.
- RegMix (Q. Liu et al., 2025):ย ์ฌ๋ฌ ํ๊ฐ ๋ชฉํ ๋ฐ ๋ฐ์ดํฐ ๋๋ฉ์ธ ์ ๋ฐ์ ์ฑ๋ฅ ๊ท ํ์ ๋ง์ถ๋ ์ ๊ทํ ํ๊ท๋ฅผ ํตํด ์ต์ ์ ๋ฐ์ดํฐ ํผํฉ ๋น์จ์ ๊ฒฐ์ ํ๋ค.
์ฐ๋ฆฌ๋ ๊ณผ๊ฑฐ ํ๋ก์ ํธ์์ DoReMi์ Rho Loss๋ฅผ ์คํํ์ง๋ง, ๊ทธ๊ฒ๋ค์ด ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ์์ฐ์ค๋ฌ์ด ๋ถํฌ๋ฅผ ๋๋ต ๋ฐ์ํ๋ ๋ถํฌ๋ก ์๋ ดํ๋ ๊ฒฝํฅ์ด ์์์ ๋ฐ๊ฒฌํ๋ค. ๋ณธ์ง์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ๋ ๋ง์ด ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ๋ ๋ง์ด ์ฌ์ฉํ๋ผ๊ณ ์ ์ํ๋ ๊ฒ์ด๋ค. ์ด๋ก ์ ์ผ๋ก ๋งค๋ ฅ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ง์ ์ค์ ํ ์ ์คํ ์๋ ์ ๊ฑฐ ์คํ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ์ง ์์๋ค. ์ต๊ทผ SOTA ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ์ฒด๊ณ์ ์ธ ์ ๊ฑฐ ์คํ ๋ฐ ์ด๋๋ง ์คํ์ ํตํ ์๋ ํผํฉ ํ๋์ ์์กดํ๋ฉฐ, ์ด๋ ์ฐ๋ฆฌ๊ฐ SmolLM3์ ์ฑํํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
SmolLM3: ๋ฐ์ดํฐ ํผํฉ ํ๋ ์ด์ (์น, ๋ค๊ตญ์ด, ์ํ, ์ฝ๋)
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์์ด์ ์ฌ๋ฌ ๋ค๋ฅธ ์ธ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ณ ์ํ๊ณผ ์ฝ๋์์ ๋ฐ์ด๋ ๋ชจ๋ธ์ ์ํ๋ค. ์ด๋ฌํ ๋๋ฉ์ธ โ ์น ํ ์คํธ, ๋ค๊ตญ์ด ์ฝํ ์ธ , ์ฝ๋ ๋ฐ ์ํ โ ์ ๋๋ถ๋ถ์ LLM์์ ์ผ๋ฐ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ฌ๊ธฐ์ ์ค๋ช ํ ํ๋ก์ธ์ค๋ ์ ์์ ์ธ์ด๋ ๊ธ์ต ๋๋ ์๋ฃ์ ๊ฐ์ ํน์ ๋๋ฉ์ธ์ ์ํด ํ์ตํ๋ ๊ฒฝ์ฐ์๋ ๋์ผํ๊ฒ ์ ์ฉ๋๋ค. ๋ฐฉ๋ฒ์ ๋์ผํ๋ค: ์ข์ ํ๋ณด ๋ฐ์ดํฐ์ ์ ์๋ณํ๊ณ , ์ ๊ฑฐ ์คํ์ ์คํํ๊ณ , ๋ชจ๋ ๋ชฉํ ๋๋ฉ์ธ์ ๊ท ํ์ ๋ง์ถ๋ ํผํฉ์ ์ค๊ณํ๋ ๊ฒ์ด๋ค.
์ฐ๋ฆฌ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ์ฌ๊ธฐ์ ๋ค๋ฃจ์ง ์์ ๊ฒ์ด๋ค. ์ด์ ์์ (FineWeb, FineWeb2, FineMath ๋ฐ Stack-Edu)์์ ๊ด๋ฒ์ํ๊ฒ ์์ธํ ์ค๋ช ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋์ , ์ด ์น์ ์ ๊ทธ๋ฌํ ๋ฐ์ดํฐ์ ๋ค์ ํจ๊ณผ์ ์ธ ์ฌ์ ํ์ต ํผํฉ์ผ๋ก ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ์ค์ ์ ๋๋ค.
๊ฒ์ฆ๋ ๊ธฐ๋ฐ ์์ ๊ตฌ์ถํ๊ธฐ
์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ๋ํ ์ข์ ์์์ ์ฐ๋ฆฌ๊ฐ ๊ฑฐ์ ์ฒ์๋ถํฐ ์์ํ ํ์๋ ์๋ค๋ ๊ฒ์ด๋ค. ์คํ ์์ค ์ปค๋ฎค๋ํฐ๋ ์ด๋ฏธ ๋๋ถ๋ถ์ ์ผ๋ฐ์ ์ธ ๋๋ฉ์ธ์ ๋ํ ๊ฐ๋ ฅํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํด์๋ค. ๋๋ก๋ ์ฐ๋ฆฌ๊ฐ Fine ์๋ฆฌ์ฆ (FineWeb, FineMath ๋ฑ)์ ํจ๊ป ํ๋ ๊ฒ์ฒ๋ผ ์๋ก์ด ๊ฒ์ ๋ง๋ค์ด์ผ ํ ํ์๊ฐ ์์ ์๋ ์์ง๋ง, ๋์ ์ ๊ธฐ์กด ์์ค๋ฅผ ๋ค์ ๋ฐ๋ช ํ๋ ๊ฒ์ด ์๋๋ผ ์ ํํ๊ณ ๊ฒฐํฉํ๋ ๋ฐ์ ๋ ํํ๋ค.
๊ทธ๊ฒ์ด SmolLM3์์์ ์ฐ๋ฆฌ ์ํฉ์ด์๋ค. SmolLM2๋ ์ด๋ฏธ ์์ด ์น ๋ฐ์ดํฐ์ ๋ํด 1.7B ๋งค๊ฐ๋ณ์์์ ๊ฐ๋ ฅํ ๋ ์ํผ๋ฅผ ํ๋ฆฝํ๊ณ , ์ฐ๋ฆฌ๊ฐ ์ ๊ทผํ ์ ์๋ ์ต๊ณ ์ ์ํ ๋ฐ ์ฝ๋ ๋ฐ์ดํฐ์ ๋ก ํ์ธ๋์๋ค. ์ฐ๋ฆฌ์ ๋ชฉํ๋ ํน์ ๊ธฐ๋ฅ๋ค์ ์ถ๊ฐํ๋ฉด์ ๊ทธ ์ฑ๊ณต์ 3B์ผ๋ก ํ์ฅํ๋ ๊ฒ์ด์๋ค: ๊ฒฌ๊ณ ํ ๋ค๊ตญ์ด์ฑ, ๋ ๊ฐ๋ ฅํ ์ํ์ ์ถ๋ก , ๊ทธ๋ฆฌ๊ณ ๋ ๋์ ์ฝ๋ ์์ฑ์ด๋ค.
์์ด ์น ๋ฐ์ดํฐ: ๊ธฐ์ด ๋ ์ด์ด
์น ํ ์คํธ๋ ๋ชจ๋ ๋ฒ์ฉ LLM์ ์ค์ถ๋ฅผ ํ์ฑํ์ง๋ง, ํ์ง์ ์๋งํผ์ด๋ ์ค์ํ๋ค.
SmolLM3๋ก๋ถํฐ, ์ฐ๋ฆฌ๋ FineWeb-Edu์ DCLM์ด ํ์ต ๋น์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์คํ ์์ด ์น ๋ฐ์ดํฐ์ ์ด๋ผ๋ ๊ฒ์ ์๊ณ ์์๋ค. ํจ๊ป, ๊ทธ๋ค์ ์ฐ๋ฆฌ์๊ฒ 5.1์กฐ ํ ํฐ์ ๊ณ ํ์ง ์์ด ์น ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค. ์ด ๋ ์ง๋ฌธ์: ์ต์ ์ ํผํฉ ๋น์จ์ ๋ฌด์์ธ๊ฐ? ์ด๋ค. FineWeb-Edu๋ ๊ต์ก ๋ฐ STEM ๋ฒค์น๋งํฌ์ ๋์์ด ๋๋ ๋ฐ๋ฉด, DCLM์ ์์ ์ถ๋ก ์ ๊ฐ์ ํ๋ค.
SmolLM2 ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๋ฅด๋ฉฐ, ์ฐ๋ฆฌ๋ 3B ๋ชจ๋ธ์์ 100B ํ ํฐ์ ๋ํด ์ค์์ ์คํํ์ฌ 20/80, 40/60, 50/50, 60/40, ๋ฐ 80/20 (FineWeb-Edu/DCLM) ๋น์จ์ ํ ์คํธํ๋ค. ๊ทธ๊ฒ๋ค์ ํผํฉํ๋ ๊ฒ (์ฝ 60/40 ๋๋ 50/50์ผ๋ก)์ด ์ต๊ณ ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํ๋ค. ์ฐ๋ฆฌ๋ 100B ํ ํฐ์ผ๋ก ํ์ต๋ 3B ๋ชจ๋ธ์์ SmolLM2 ๋ ผ๋ฌธ๊ณผ ๋์ผํ ์ ๊ฑฐ ์คํ์ ๋ค์ ์คํํ๊ณ ๋์ผํ ๊ฒฐ๋ก ์ ์ป์๋ค.
60/40 ๋๋ 50/50์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฒค์น๋งํฌ ์ ๋ฐ์ ๊ฑธ์ณ ๊ฐ์ฅ ์ข์ ๊ท ํ์ ์ ๊ณตํ์ฌ, ์ฐ๋ฆฌ์ SmolLM2 ๋ฐ๊ฒฌ๊ณผ ์ผ์นํ๋ค. ์ฐ๋ฆฌ๋ 1๋จ๊ณ(Stage 1)์ย 50/50 ๋น์จ์ ์ฌ์ฉํ๋ค.
์ฐ๋ฆฌ๋ ๋ํ Pes2o, Wikipedia & Wikibooks ๋ฐ StackExchange์ ๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ถ๊ฐํ๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์์์ง๋ง ๋ค์์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด ํฌํจ์์ผฐ๋ค.
๋ค๊ตญ์ด ์น ๋ฐ์ดํฐ
๋ค๊ตญ์ด ๊ธฐ๋ฅ์ ์ํด, ์ฐ๋ฆฌ๋ 5๊ฐ์ ๋ค๋ฅธ ์ธ์ด๋ฅผ ๋ชฉํ๋ก ์ผ์๋ค: ํ๋์ค์ด, ์คํ์ธ์ด, ๋ ์ผ์ด, ์ดํ๋ฆฌ์์ด, ๊ทธ๋ฆฌ๊ณ ํฌ๋ฅดํฌ๊ฐ์ด์ด๋ค. ์ฐ๋ฆฌ๋ FineWeb2-HQ์์ ๊ทธ๊ฒ๋ค์ ์ ํํ๋๋ฐ, ์ด๋ ์ฐ๋ฆฌ์๊ฒ ์ด 628B ํ ํฐ์ ์ ๊ณตํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ ์ค๊ตญ์ด, ์๋์ด, ๋ฌ์์์ด์ ๊ฐ์ 10๊ฐ์ ๋ค๋ฅธ ์ธ์ด๋ฅผ ๋ ์์ ๋น์จ๋ก ํฌํจ์์ผฐ๋ค. ์ด๋ ๊ทธ๊ฒ๋ค์ ๋ํด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ชฉํ๋ก ํ๊ธฐ ์ํจ์ด ์๋๋ผ, ์ฌ๋๋ค์ด ๊ทธ๊ฒ๋ค์ ๋ํด SmolLM3์ ์ง์ ์ฌ์ ํ์ต(continual pretraining)์ ์ฝ๊ฒ ์ํํ ์ ์๋๋ก ํ๊ธฐ ์ํจ์ด์๋ค. ์ฐ๋ฆฌ๋ FineWeb2-HQ์์ ์ง์๋์ง ์๋ ์ธ์ด์๋ FineWeb2๋ฅผ ์ฌ์ฉํ๋ค.
ํต์ฌ ์ง๋ฌธ์ ์ด๊ฒ์ด๋ค: ์ฐ๋ฆฌ ์น ๋ฐ์ดํฐ์ ์ผ๋ง๋ ๋ง์ ๋ถ๋ถ์ด ๋น์์ด์ฌ์ผ ํ๋๊ฐ? ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ์ธ์ด๋ ๋๋ฉ์ธ์์ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ณผ์๋ก ํด๋น ์ธ์ด๋ ๋๋ฉ์ธ์์ ๋ ์ข์์ง๋ค๋ ๊ฒ์ ์๋ค. ํธ๋ ์ด๋์คํ๋ ์ฐ๋ฆฌ์ ๊ณ ์ ๋ ์ปดํจํ ์์ฐ์์ ๋น๋กฏ๋๋ค: ํ ์ธ์ด์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ์์ด๋ฅผ ํฌํจํ ๋ค๋ฅธ ์ธ์ด์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ค์ด๋ ๊ฒ์ ์๋ฏธํ๊ฒ ๋๋ค.
3B ๋ชจ๋ธ์ ๋ํ ์ ๊ฑฐ ์คํ์ ํตํด, ์ฐ๋ฆฌ๋ ์น ํผํฉ์์ย 12% ๋ค๊ตญ์ด ์ฝํ ์ธ ๊ฐ ์ฌ๋ฐ๋ฅธ ๊ท ํ์ ์ด๋ฃจ์ด ์์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ํ์ํค์ง ์์ผ๋ฉด์ ๋ค๊ตญ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด๊ฒ์ ์์ด๊ฐ ์ฃผ ์ธ์ด๋ก ๋จ์ SmolLM3์ ์์ ์ฌ์ฉ๋์ ๋ง์๋ค. ๋ํ 5.1T ์์ด ํ ํฐ์ ๋นํด ๋จ์ง 628B ํ ํฐ์ ๋น์์ด ๋ฐ์ดํฐ๋ง ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก, ํจ์ฌ ๋ ๋๊ฒ ๊ฐ๋ ๊ฒ์ ๋ค๊ตญ์ด ๋ฐ์ดํฐ์ ๋ ๋ง์ ๋ฐ๋ณต์ ์ํํด์ผ ํ๋ค๋ ์ ๋ ๊ณ ๋ คํ ๋งํ๋ค.
์ฝ๋ ๋ฐ์ดํฐ
1๋จ๊ณ๋ฅผ ์ํ ์ฐ๋ฆฌ์ ์ฝ๋ ์์ค๋ The Stack v2์ StarCoder2 ํ์ต ์ฝํผ์ค์์ ์ถ์ถ๋์๋ค:
- ์ฐ๋ฆฌ์ ๊ธฐ์ด๋ก์ The Stack v2 (16๊ฐ ์ธ์ด), StarCoder2Data๋ก ํํฐ๋ง๋จ.
- ์ค์ ์ฝ๋ ๋ฆฌ๋ทฐ ์ถ๋ก ์ ์ํ StarCoder2 GitHub ํ ๋ฆฌํ์คํธ.
- ์คํ ๊ฐ๋ฅํ ๋จ๊ณ๋ณ ์ํฌํ๋ก๋ฅผ ์ํ Jupyter ๋ฐ Kaggle ๋ ธํธ๋ถ.
- ์ฝ๋ ์ฃผ๋ณ์ ๋งฅ๋ฝ์ ํ ๋ก ์ ์ํ GitHub ์ด์ ๋ฐ StackExchange ์ค๋ ๋.
Aryabumi et al. (2024)์ ์ฝ๋๊ฐ ์ฝ๋ฉ์ ๋์ด ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ์ ์ ๊ฐ์กฐํ๋ค. ์๋ฅผ ๋ค์ด ์์ฐ์ด ์ถ๋ก ๋ฐ ์ธ๊ณ ์ง์์์ ๊ทธ๋ ๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ต ํผํฉ์ 25% ์ฝ๋๋ฅผ ์ฌ์ฉํ ๊ฒ์ ๊ถ์ฅํ๋ค. ์ด ๋ ผ๋ฌธ์ผ๋ก๋ถํฐ ๋๊ธฐ๋ฅผ ๋ถ์ฌ๋ฐ์, ์ฐ๋ฆฌ๋ ํผํฉ์ 25% ์ฝ๋๋ก ์ ๊ฑฐ ์คํ์ ์์ํ๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ์์ด ๋ฒค์น๋งํฌ (HellaSwag, ARC-C, MMLU)์์ ์๋นํ ์ ํ๋ฅผ ๊ด์ฐฐํ๋ค. ์ฝ๋๋ฅผ 10%๋ก ์ค์์ ๋, 0% ์ฝ๋์ ๋นํด ์์ด ๋ฒค์น๋งํฌ ์ค์ํธ์์ ๊ฐ์ ์ ๋ณด์ง ๋ชปํ์ง๋ง, ์ฝ๋๋ ๋ชจ๋ธ์ ์์ด์ผ ํ ๋งค์ฐ ์ค์ํ ๊ธฐ๋ฅ์ด์๊ธฐ ๋๋ฌธ์ ์ด์จ๋ ํฌํจ์์ผฐ๋ค.
์ฐ๋ฆฌ๋ Stack-Edu โ ๊ต์ก์ ์ผ๋ก ํํฐ๋ง๋ StarCoder2Data์ ํ์ ์งํฉ โ ์ถ๊ฐ๋ฅผ ๋์ค ๋จ๊ณ๊น์ง ๋ฏธ๋ฃจ์ด, ์ต๋ํ ํ๋ฐ ํ์ต ํจ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ๋์ ํ๋ค๋ ์์น์ ๋ฐ๋๋ค.
์ํ ๋ฐ์ดํฐ
์ํ์ ์ฝ๋์ ์ ์ฌํ ์ฒ ํ์ ๋ฐ๋๋ค. ์ด๊ธฐ์๋, ๋ ํฌ๊ณ ๋ ์ผ๋ฐ์ ์ธ ์ธํธ์ธ FineMath3+ ๋ฐ InfiWebMath3+๋ฅผ ์ฌ์ฉํ๊ณ , ๋์ค์ FineMath4+ ๋ฐ InfiWebMath4+๋ฅผ ์ ์ํ๋งํ์ผ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ์๋ก์ด ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๋์ ํ๋ค:
- MegaMath (Zhou et al., 2025)
- OpenMathInstruct (Toshniwal et al., 2024) ๋ฐ OpenMathReasoning (Moshkov et al., 2025)๊ณผ ๊ฐ์ ์ง์นจ ๋ฐ ์ถ๋ก ๋ฐ์ดํฐ์
์ฐ๋ฆฌ๋ 1๋จ๊ณ์์ ์ํ์ 3%๋ฅผ FineMath3+์ InfiWebMath3+ ์ฌ์ด์ ๊ท ๋ฑํ๊ฒ ๋๋์ด ์ฌ์ฉํ๋ค. ์ํ ๋ฐ์ดํฐ๋ ๋จ์ง 54B ํ ํฐ๋ง ์ฌ์ฉ ๊ฐ๋ฅํ๊ณ 1๋จ๊ณ๊ฐ 8T์์ 9T ํ ํฐ์ผ๋ก ์ถ์ ๋๋ ์ํฉ์์, 3% ์ด์์ ์ํ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋ฐ์ดํฐ์ ์ ๋ํด 5 ์ํฌํฌ ์ด์์ ์๊ตฌํ๊ฒ ๋์๊ธฐ ๋๋ฌธ์ด๋ค.
์๋ก์ด ๋จ๊ณ๋ฅผ ์ํ ์ฌ๋ฐ๋ฅธ ํผํฉ ์ฐพ๊ธฐ
์ฐ๋ฆฌ๋ 1๋จ๊ณ ํผํฉ์ ๊ฒฐ์ ํ๊ธฐ ์ํด ์ฒ์๋ถํฐ ์ ๊ฑฐ ์คํ์ ์คํํ์ง๋ง, ์๋ก์ด ๋จ๊ณ (์ฐ๋ฆฌ์ ๊ฒฝ์ฐ ๋ ๊ฐ์ ์๋ก์ด ๋จ๊ณ)๋ฅผ ์ํ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ํ ์คํธํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ย ์ด๋๋ง ์ ๊ฑฐ ์คํ์ ์ฌ์ฉํ๋ค: ์ฐ๋ฆฌ๋ ์ฝ 7์กฐ ํ ํฐ (1๋จ๊ณ ํ๋ฐ)์์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ฐ์ ธ์ ๋ค์ ์ค์ ์ผ๋ก 50B ํ ํฐ ์ด๋๋ง ์คํ์ ์คํํ๋ค:
- 40% ๊ธฐ์ค ํผํฉ:ย ์ฐ๋ฆฌ๊ฐ ํ์ตํด ์จ ์ ํํ 1๋จ๊ณ ํผํฉ
- 60% ์๋ก์ด ๋ฐ์ดํฐ์ :ย ์ฐ๋ฆฌ๊ฐ ํ๊ฐํ๊ณ ์ ํ๋ ํ๋ณด ๋ฐ์ดํฐ์
์๋ฅผ ๋ค์ด, MegaMath๊ฐ ์ฐ๋ฆฌ์ ์ํ ์ฑ๋ฅ์ ํฅ์์ํฌ์ง ํ ์คํธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ 40% 1๋จ๊ณ ํผํฉ (75/12/10/3 ๋๋ฉ์ธ ๋ถํ ์ ์ง)๊ณผ 60% MegaMath๋ฅผ ์คํํ๋ค.
๋ค์ ์น์ ์์ 3๋จ๊ณ์ ๊ตฌ์ฑ์ ์ฐพ์ ์ ์๋ค.
๋ฐ์ดํฐ๊ฐ ์ ์คํ๊ฒ ํ๋ ์ด์ ๋๊ณ ํผํฉ์ด ์ ๊ฑฐ ์คํ์ ํตํด ๊ฒ์ฆ๋์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์ค์ ํ์ต ์ฌ์ ์ ์์ํ ์ค๋น๊ฐ ๋์๋ค. ์ด์ด์ง๋ ์ฑํฐ๋ SmolLM3์ ํ ๋ฌ ๋์์ ํ์ต ์คํ์ ๋ํ ์ด์ผ๊ธฐ์ด๋ค: ์ค๋น, ์์์น ๋ชปํ ๋์ ๊ณผ์ , ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ณผ์ ์์ ๋ฐฐ์ด ๊ตํ๋ค์ด๋ค.
The training marathon
์ฌ๊ธฐ๊น์ง ์๋ค๋, ์ถํํ๋ค! ์ง์ง ์ฌ๋ฏธ๋ ์ด์ ์์๋๋ ค ํ๋ค.
์ด ์์ ์์, ์ฐ๋ฆฌ๋ ๋ชจ๋ ๊ฒ์ ์ ์๋ฆฌ์ ๊ฐ์ถ์๋ค: ๊ฒ์ฆ๋ ์ํคํ ์ฒ, ํ์ ๋ ๋ฐ์ดํฐ ํผํฉ, ๊ทธ๋ฆฌ๊ณ ํ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ. ๋จ์ ์ ์ผํ ์ผ์ ์ธํ๋ผ๋ฅผ ์ค์ ํ๊ณ โํ์ตโ ๋ฒํผ์ ๋๋ฅด๋ ๊ฒ์ด๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ๊ฑฐ์ ํ ๋ฌ ๋์ 384๊ฐ์ H100 GPU (48๊ฐ ๋ ธ๋)์์ ํ์ต์์ผ 11์กฐ ํ ํฐ์ ์ฒ๋ฆฌํ๋ค. ์ด ์น์ ์ ๊ธด ํ์ต ์คํ ์ค์ ์ค์ ๋ก ์ผ์ด๋๋ ์ผ์ ์๋ดํ๋ค: ๋นํ ์ ์ ๊ฒ, ๋ถ๊ฐํผํ ๋๋ผ์, ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ์ํฉ์ ์์ ์ ์ผ๋ก ์ ์งํ ๋ฐฉ๋ฒ์ด๋ค. ์ฌ๋ฌ๋ถ์ ์ ๊ฒฌ๊ณ ํ ์ ๊ฑฐ ์คํ ๊ดํ๊ณผ ์ ๋ขฐํ ์ ์๋ ์ธํ๋ผ๊ฐ ๋ชจ๋ ์ค์ํ์ง ์ง์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ GPU ํ๋์จ์ด, ์คํ ๋ฆฌ์ง ์์คํ , ๊ทธ๋ฆฌ๊ณ ์ฒ๋ฆฌ๋ ์ต์ ํ์ ๊ธฐ์ ์ ์ธ ์ธํ๋ผ ์ธ๋ถ ์ฌํญ์ ๋ง์ง๋ง ์ฑํฐ์์ ๋ค๋ฃฌ๋ค.
์ฐ๋ฆฌ ํ์ ์ด๊ฒ์ ์ฌ๋ฌ ๋ฒ ๊ฒช์ด์๋ค: StarCoder์ StarCoder2์์๋ถํฐ SmolLM, SmolLM2, ๊ทธ๋ฆฌ๊ณ ์ด์ SmolLM3์ ์ด๋ฅด๊ธฐ๊น์ง. ๋ชจ๋ ๋จ์ผ ์คํ์ ๋ค๋ฅด๋ค. ์ญ์ฌ ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋๋ผ๋, ๊ฐ ์๋ก์ด ์คํ์ ์ฌ๋ฌ๋ถ์ ๋๋ผ๊ฒ ํ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ฐพ๋๋ค. ์ด ์น์ ์ ์ฌ๋ฌ๋ถ์๊ฒ ์ ๋ฆฌํ๊ฒ ํ๋ฅ ์ ์์ ๊ทธ๋ฌํ ๋๋ผ์์ ๋๋นํ๋ ๊ฒ์ ๊ดํ ๊ฒ์ด๋ค.
๋นํ ์ ์ ๊ฒ ๋ชฉ๋ก: โํ์ตโ์ ๋๋ฅด๊ธฐ ์ ์ ํ์ธํด์ผ ํ ์ฌํญ
โํ์ตโ์ ๋๋ฅด๊ธฐ ์ ์, ์ฐ๋ฆฌ๋ ๋ชจ๋ ๊ฒ์ด ์ข ๋จ ๊ฐ(end-to-end)์ผ๋ก ์๋ํ๋์ง ํ์ธํ๊ธฐ ์ํด ์ ๊ฒ ๋ชฉ๋ก์ ๊ฑฐ์ณ์ผ ํ๋ค:
์ธํ๋ผ ์ค๋น ์ํ:
- ์ฌ๋ฌ๋ถ์ ํด๋ฌ์คํฐ๊ฐ Slurm ์์ฝ์ ์ง์ํ๋ค๋ฉด, ๊ทธ๊ฒ์ ์ฌ์ฉํ์. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ ์ฒด ์คํ์ ์ํด ๊ณ ์ ๋ 48๊ฐ ๋ ธ๋ ์์ฝ์ ๊ฐ์ก๋ค. ๊ทธ๊ฒ์ ๋๊ธฐ ์ง์ฐ ์์, ์ผ๊ด๋ ์ฒ๋ฆฌ๋, ๊ทธ๋ฆฌ๊ณ ์๊ฐ์ ๋ฐ๋ฅธ ๋ ธ๋ ์ํ ์ถ์ ๊ธฐ๋ฅ์ ์๋ฏธํ๋ค.
- ์์ ์ ์ GPU ์คํธ๋ ์ค ํ ์คํธ๋ฅผ ์ํํ์ฌ (์ฐ๋ฆฌ๋ GPU Fryer์ DCGM Diagnostics๋ฅผ ์ฌ์ฉํ๋ค) ์ค๋กํ๋ง์ด๋ ์ฑ๋ฅ ์ ํ๋ฅผ ์ก์๋ธ๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ GPU๊ฐ ์ค๋กํ๋ง๋๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ณ ์คํ์ ์์ํ๊ธฐ ์ ์ ๊ต์ฒดํ๋ค.
- ์คํ ๋ฆฌ์ง ๋น๋ํ๋ฅผ ํผํ๋ค: ์ฐ๋ฆฌ ์์คํ ์ ๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ S3์ ์ ๋ก๋ํ ๋ค์, ๋ค์ ๊ฒ์ ์ ์ฅํ ์งํ ๋ก์ปฌ ๋ณต์ฌ๋ณธ์ ์ญ์ ํ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋น ๋ฅธ ๋ก์ปฌ GPU SSD์ ํ๋ ์ด์์ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ์ฅํ์ง ์๋๋ก ํ๋ค.
ํ๊ฐ ์ค์ :ย ํ๊ฐ๋ ๋ฏฟ์ ์ ์์ ์ ๋๋ก ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฐ๋ค. ๋ชจ๋ ๊ฒ์ด ๊ตฌํ๋์ด ์๋๋ผ๋, ์๋์ผ๋ก ์คํํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ๊ณ , ํ๋กฏ์ ๋ง๋๋ ๊ฒ์ ๋งค๋ฒ ๋ช ์๊ฐ์ ์ก์๋จน์ ์ ์๋ค. ๋ฐ๋ผ์ ์์ ํ ์๋ํํ๊ณ , ์คํ์ด ์์๋๊ธฐ ์ ์ ์ฌ๋ฐ๋ฅด๊ฒ ์คํ๋๊ณ ๊ธฐ๋ก๋๋์ง ํ์ธํด๋ผ. SmolLM3์ ๊ฒฝ์ฐ, ์ ์ฅ๋ ๋ชจ๋ ์ฒดํฌํฌ์ธํธ๊ฐ ํด๋ฌ์คํฐ์์ ํ๊ฐ ์์ ์ ์๋์ผ๋ก ํธ๋ฆฌ๊ฑฐํ์ฌ Wandb์ Trackio์ ๊ธฐ๋ก๋๋๋ก ํ๋ค.
์ฒดํฌํฌ์ธํธ ๋ฐ ์๋ ์ฌ์์ ์์คํ :ย ์ฒดํฌํฌ์ธํธ๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ ์ฅ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ํ์ต ์์ ์ด ์๋ ๊ฐ์ ์์ด ์ต์ ์ฒดํฌํฌ์ธํธ์์ ์ฌ๊ฐ๋ ์ ์๋์ง ํ์ธํด๋ผ. Slurm์์๋ ์คํจํ ์์ ์ด ์๋์ผ๋ก ๋ค์ ์์๋์ด ๊ฐ์ฅ ์ต๊ทผ ์ฒดํฌํฌ์ธํธ์์ ์ฌ๊ฐ๋๋๋กย โrequeueย ์ต์ ์ ์ฌ์ฉํ๋ค.
์งํ ๋ก๊น :ย ์ฌ๋ฌ๋ถ์ด ์ ๊ฒฝ ์ฐ๋ ๋ชจ๋ ์งํ๋ฅผ ๋ก๊น ํ๊ณ ์๋์ง ํ์ธํด๋ผ: ํ๊ฐ ์ ์, ์ฒ๋ฆฌ๋ (ํ ํฐ/์ด), ํ์ต ์์ค, ๊ธฐ์ธ๊ธฐ ๋ ธ๋ฆ, ๋ ธ๋ ์ํ (GPU ํ์ฉ๋ฅ , ์จ๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋), ๊ทธ๋ฆฌ๊ณ ์คํ์ ํน์ ํ ๋ชจ๋ ์ฌ์ฉ์ ์ ์ ๋๋ฒ๊ทธ ์งํ์ด๋ค.
ํ์ต ๊ตฌ์ฑ ์จ์ ์ฑ (Sanity) ๊ฒ์ฌ:ย ํ์ต ์ค์ , ์์ ์คํฌ๋ฆฝํธ, ๊ทธ๋ฆฌ๊ณ Slurm ์ ์ถ ๋ช ๋ น์ ๋ค์ ํ์ธํ๋ค.
์ธํ๋ผ ์ฌ์ธต ๋ถ์
GPU ํ ์คํธ, ์คํ ๋ฆฌ์ง ๋ฒค์น๋งํน, ๋ชจ๋ํฐ๋ง ์ค์ , ๊ทธ๋ฆฌ๊ณ ํ๋ ฅ์ ์ธ ํ์ต ์์คํ ๊ตฌ์ถ์ ๋ํ ์์ธํ ์๋ด๋ ์ธํ๋ผ ์ฑํฐ๋ฅผ ํ์ธํ๋ผ.
์ค์ผ์ผ๋ง์ ๋๋ผ์
SmolLM3์ ๋ํ ๊ด๋ฒ์ํ ์ ๊ฑฐ ์คํ์ ์คํํ ํ, ์ฐ๋ฆฌ๋ ์ ์ฒด ๊ท๋ชจ ์คํ์ ์ํ ์ค๋น๊ฐ ๋์๋ค. 100B ํ ํฐ์ ๋ํ ์ฐ๋ฆฌ์ 3B ์ ๊ฑฐ ์คํ์ ์ ๋งํด ๋ณด์๋ค. SmolLM2์ ๋น๊ตํ ์ํคํ ์ฒ ๋ณ๊ฒฝ ์ฌํญ (์ํคํ ์ฒ ์ ํ ํํธ์์ ์์ธํ ์ค๋ช ๋จ: GQA, NoPE, ๋ฌธ์ ๋ง์คํน, ํ ํฌ๋์ด์ )์ ์ฑ๋ฅ์ ํฅ์์ํค๊ฑฐ๋ ์ ์งํ์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ์์ด, ๋ค๊ตญ์ด, ์ฝ๋, ๋ฐ ์ํ ์ฑ๋ฅ์ ๊ท ํ์ ๋ง์ถ๋ ์ข์ ๋ฐ์ดํฐ ํผํฉ์ ์ฐพ์๋ค (๋ฐ์ดํฐ ํ๋ ์ด์ ์ ๊ธฐ์ ํํธ ์ฐธ์กฐ). ์ฐ๋ฆฌ๋ 384๊ฐ GPU (48๊ฐ ๋ ธ๋)์์ ์ฝ 30% MFU๋ฅผ ์ํด ๊ตฌ์ฑ์ ์ต์ ํํ๋ค.
์ฐ๋ฆฌ๋ ํฐ ํ๋์ ํ์ต์ ์ํ ์ค๋น๊ฐ ๋์๋ค: 11์กฐ ํ ํฐ. ๊ทธ๋ ํ์ค์ด ์ปค๋ธ๋ณผ์ ๋์ง๊ธฐ ์์ํ๋ค.
๋ฏธ์คํฐ๋ฆฌ #1 โ ์ฌ๋ผ์ง ์ฒ๋ฆฌ๋
์์ ๋ช ์๊ฐ ๋ง์, ์ฒ๋ฆฌ๋์ด ๊ธ๊ฐํ๋ค. ๋ฐ๋ณต์ ์ธ ๊ธ๊ฒฉํ ํ๋ฝ๊ณผ ํจ๊ป ํฐ ์ ํ์๋ค.
๐์ฒ๋ฆฌ๋์ด ์ค์ํ ์ด์
์ฒ๋ฆฌ๋์ ํ์ต ์ค ์ฐ๋ฆฌ ์์คํ ์ด ์ด๋น ์ผ๋ง๋ ๋ง์ ํ ํฐ์ ์ฒ๋ฆฌํ๋์ง๋ฅผ ์ธก์ ํ๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์ ํ์ต ์๊ฐ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ฒ๋ฆฌ๋์ด 50% ๋จ์ด์ง๋ฉด ์ฐ๋ฆฌ์ ํ ๋ฌ ์คํ์ ๋ ๋ฌ ์คํ์ด ๋๋ค. ์ธํ๋ผ ์ฑํฐ์์, ์ฐ๋ฆฌ๋ ์คํ์ ์์ํ๊ธฐ ์ ์ SmolLM3๋ฅผ ์ํด ์ฒ๋ฆฌ๋์ ์ด๋ป๊ฒ ์ต์ ํํ๋์ง ๋ณด์ฌ์ค ๊ฒ์ด๋ค.

์ด๊ฒ์ ์ด๋ค ์ ๊ฑฐ ์คํ ์คํ์์๋ ์ผ์ด๋์ง ์์์๋ค. ๋ฌด์์ด ๋ฐ๋์๋๊ฐ? ์ธ ๊ฐ์ง๊ฐ ์๋ค:
- ํ๋์จ์ด ์ํ๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ณํ ์ ์๋ค. ์ ๊ฑฐ ์คํ์์ ์ ์๋ํ๋ GPU๊ฐ ์คํจํ ์ ์๊ณ ์ง์์ ์ธ ๋ถํ ํ์์ ๋คํธ์ํฌ ์ฐ๊ฒฐ์ด ์ ํ๋ ์ ์๋ค.
- ํ์ต ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ. ์ฐ๋ฆฌ๋ ์ด์ ์ ๊ฑฐ ์คํ์์ ์ฌ์ฉํ๋ ๋ ์์ ํ์ ์งํฉ ๋์ ์ ์ฒด ~24 TB ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ง๋ง, ๋ฐ์ดํฐ ์์ค ์์ฒด๋ ๋์ผํ๋ค.
- ํ์ต ๋จ๊ณ ์. ์ฐ๋ฆฌ๋ ์งง์ 100B ํ ํฐ ์ ๊ฑฐ ์คํ ๊ธฐ๊ฐ ๋์ 11์กฐ ํ ํฐ์ ๋ํ ์ค์ ๋จ๊ณ ์๋ฅผ ์ค์ ํ๋ค.
๋ค๋ฅธ ๋ชจ๋ ๊ฒ์ ์ฒ๋ฆฌ๋ ์ ๊ฑฐ ์คํ๊ณผ ์ ํํ ๋์ผํ๊ฒ ์ ์ง๋์๋ค: ๋ ธ๋ ์, ๋ฐ์ดํฐ๋ก๋ ๊ตฌ์ฑ, ๋ชจ๋ธ ๋ ์ด์์, ๊ทธ๋ฆฌ๊ณ ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ค์ โฆ
์ง๊ด์ ์ผ๋ก, ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ ๋จ๊ณ ์ ๋ชจ๋ ์ฒ๋ฆฌ๋ ์ ํ๋ฅผ ์ผ์ผํค์ง ์์์ผ ํ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์์ฐ์ค๋ฝ๊ฒ ํ๋์จ์ด ๋ฌธ์ ๋ฅผ ๋จผ์ ์์ฌํ๋ค. ์ฐ๋ฆฌ์ ๋ ธ๋ ๋ชจ๋ํฐ๋ง ์งํ๋ฅผ ํ์ธํ๋๋ฐ, ์ด๋ ํฐ ์ฒ๋ฆฌ๋ ์ ํ๊ฐ ๋์คํฌ ์ฝ๊ธฐ ์ง์ฐ ์๊ฐ์ ๊ธ๋ฑ๊ณผ ์๊ด๊ด๊ณ๊ฐ ์์์ ๋ณด์ฌ์ฃผ์๋ค. ๊ทธ๊ฒ์ ์ฐ๋ฆฌ๋ฅผ ๊ณง์ฅ ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ ์คํ ๋ฆฌ์ง๋ก ์๋ดํ๋ค.
๐์ฐ๋ฆฌ ํด๋ฌ์คํฐ์ ์คํ ๋ฆฌ์ง ์ต์
์ฐ๋ฆฌ ํด๋ฌ์คํฐ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ํ ์ธ ๊ฐ์ง ์คํ ๋ฆฌ์ง ๊ณ์ธต์ ๊ฐ์ง๊ณ ์๋ค:
- FSx:ย Weka๋ฅผ ์ฌ์ฉํ๋ ๋คํธ์ํฌ ์ฐ๊ฒฐ ์คํ ๋ฆฌ์ง๋ก, ์์ฃผ ์ก์ธ์ค๋๋ ํ์ผ์ ๋ก์ปฌ์ ์ ์ฅํ๊ณ ์ฉ๋์ด ์ฐจ๋ฉด ๋นํ์ฑ โ์ฝ๋โ ํ์ผ์ S3๋ก ์ถ์ถํ๋ โํคํ-ํซ(keep-hot)โ ์บ์ฑ ๋ชจ๋ธ์ด๋ค.
- ์คํฌ๋์น (๋ก์ปฌ NVMe RAID):ย ๊ฐ ๋ ธ๋์ ๋น ๋ฅธ ๋ก์ปฌ ์คํ ๋ฆฌ์ง (RAID๋ก ๊ตฌ์ฑ๋ 8ร3.5TB NVMe ๋๋ผ์ด๋ธ)๋ก, FSx๋ณด๋ค ๋น ๋ฅด์ง๋ง ๋ก์ปฌ ๋ ธ๋ ์ก์ธ์ค๋ก ์ ํ๋๋ค.
- S3:ย ์ฝ๋ ๋ฐ์ดํฐ ๋ฐ ๋ฐฑ์ ์ ์ํ ์๊ฒฉ ๊ฐ์ฒด ์คํ ๋ฆฌ์ง.
์์ธํ ๋ด์ฉ์ ์ธํ๋ผ ์ฑํฐ์์ ์ฐพ์ ์ ์๋ค.
SmolLM3์ 24TB ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ฒ์์ ๋ฐ์ดํฐ๋ฅผ FSx (Weka)์ ์ ์ฅํ๋ค. 24TB์ ํ์ต ๋ฐ์ดํฐ์ ๋ํด, ๋ค๋ฅธ ์ฌ๋ฌ ํ์ด ์ด๋ฏธ ์ฌ์ฉ ์ค์ธ ์คํ ๋ฆฌ์ง๊ฐ ๊ฒน์ณ์ ธ, ์ฐ๋ฆฌ๋ Weka์ ์คํ ๋ฆฌ์ง๋ฅผ ํ๊ณ๊น์ง ๋ฐ์ด๋ถ์ด๊ณ ์์๋ค. ๊ทธ๋์ ํ์ต ์ค๊ฐ์ ๋ฐ์ดํฐ์ ์ค๋๋ฅผ ์ ๊ฑฐ(evict)ํ๊ธฐ ์์ํ๊ณ , ์ด๋ ์ฐ๋ฆฌ๊ฐ ๊ทธ๊ฒ๋ค์ ๋ค์ ํ์นํด์์ผ ํ๋ค๋ ๊ฒ์ ์๋ฏธํ์ผ๋ฉฐ, ์ ์ฒด๋ฅผ ์ผ์ผ์ผฐ๊ณ , ์ด๋ ํฐ ์ฒ๋ฆฌ๋ ์ ํ์ ๋ฐ์์ ์ค๋ช ํด์ฃผ์๋ค. ๋ ๋์ ๊ฒ์: ์ ์ฒด ํ์ต ๋์ ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ์ ํด๋๋ฅผ ํซ(hot)์ผ๋ก ๊ณ ์ ํ ๋ฐฉ๋ฒ์ด ์์๋ค๋ ๊ฒ์ด๋ค.
์์ #1 โ ๋ฐ์ดํฐ ์คํ ๋ฆฌ์ง ๋ณ๊ฒฝ
์ฐ๋ฆฌ๋ Weka์์ ์ ์ฒด ํ์ต ๋์ ๋ฐ์ดํฐ์ ํด๋๋ฅผ ํซ์ผ๋ก ๊ณ ์ ํ ๋ฐฉ๋ฒ์ ์ฐพ์ง ๋ชปํ์ผ๋ฏ๋ก, ์คํ ๋ฆฌ์ง ๋ฐฉ๋ฒ์ ๋ณ๊ฒฝํ๋ ค๊ณ ์๋ํ๋ค. S3์์ ์ง์ ์คํธ๋ฆฌ๋ฐํ๋ ๊ฒ์ ๋๋ ธ์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ ๋ ธ๋์ ๋ก์ปฌ ์คํ ๋ฆฌ์งย /scratch์ ์ ์ฅํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค.
์ฌ๊ธฐ์๋ ํจ์ ์ด ์์๋ค: ๋ ธ๋๊ฐ ์ฃฝ๊ณ ๊ต์ฒด๋๋ฉด, ์๋ก์ด ๊ต์ฒด GPU์๋ ๋ฐ์ดํฐ๊ฐ ์์๋ค.ย s5cmd๋ก S3์์ 24TB๋ฅผ ๋ค์ด๋ก๋ํ๋ ๋ฐ 3์๊ฐ์ด ๊ฑธ๋ ธ๋ค. ์ฐ๋ฆฌ๋ S3๋ฅผ ๊ฑฐ์น๋ ๋์ ย fpsync๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ฅธ ๊ฑด๊ฐํ ๋ ธ๋์์ ๋ณต์ฌํจ์ผ๋ก์จ ๊ทธ๊ฒ์ 1์๊ฐ 30๋ถ์ผ๋ก ์ค์๋ค. ๋ชจ๋ ๋ ธ๋๊ฐ ๋์ผํ ๋ฐ์ดํฐ ์ผํฐ์ ์์๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ด ๋ ๋นจ๋๋ค.
์ฌ์ ํ, ๋ ธ๋ ์ฅ์ ๋น 1์๊ฐ 30๋ถ์ ๋ค์ดํ์๊ณผ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ธ๋๋ก ์ฆ์ ์๋์ผ๋ก ๋ณต์ฌํด์ผ ํ ํ์์ฑ์ ๊ณ ํต์ค๋ฌ์ ๋ค. ๋ง์นจ๋ด ๊ทธ๊ฒ์ ๊ฒฌ๋ ์ ์๊ฒ ๋ง๋ ํต: ๋ฐ์ดํฐ์ ์ด ๋ฏธ๋ฆฌ ๋ก๋๋ย ์๋น ๋ ธ๋๋ฅผ ์ฐ๋ฆฌ์ Slurm ์์ฝ์ ํ๋ณดํ๋ ๊ฒ์ด๋ค. ๋ ธ๋๊ฐ ์ฃฝ์ผ๋ฉด, ์ฐ๋ฆฌ๋ ๊ทธ๊ฒ์ ์๋น ๋ ธ๋์ ์ฆ์ ๊ตํํ์ฌ ๋ณต๊ตฌ ์ง์ฐ์ ์์ด๋ค. ์ ํด ์ํ์ธ ๋์ ์๋น ๋ ธ๋๋ ํ๊ฐ๋ ๊ฐ๋ฐ ์์ ์ ์คํํ์ผ๋ฏ๋ก ๋ญ๋น๋์ง ์์๋ค.
์ด๊ฒ์ด ๋ฏธ์คํฐ๋ฆฌ #1์ ํด๊ฒฐํ๋คโฆ ๊ณ ์ ์ด๋ ์ฐ๋ฆฌ๋ ๊ทธ๋ ๊ฒ ์๊ฐํ์๋ค.
๋ฏธ์คํฐ๋ฆฌ #2 โ ์ง์๋๋ ์ฒ๋ฆฌ๋ ์ ํ
์คํฌ๋์น๋ก ์ด๋ํ ํ์๋, ํ๋์จ์ด ๋ชจ๋ํฐ๋ง ์งํ์์ ์ด๋ค ์ด์ ์งํ๋ ๋ฐ๊ฒฌํ์ง ๋ชปํ์์๋ ๋ถ๊ตฌํ๊ณ ๊ฐ๋ณ ์ฒ๋ฆฌ๋ ์ ํ๋ ๊ณ์ ๋ฐ์ํ๋ค. ์๋ ์ฐจํธ๋ ์คํ ๋ฆฌ์ง ๋ฌธ์ ๋ฅผ ์์ ํ ํ ์ฐ๋ฆฌ๊ฐ ์ป์ ์ฒ๋ฆฌ๋(์ฃผํฉ์)์ ์ ๊ฑฐ ์คํ ๋์ ์ป์๋ ์ฒ๋ฆฌ๋(ํ๋์)๊ณผ ๋น๊ตํ๋ค. ๋ณด์๋ค์ํผ, ์ ํ๊ฐ ํจ์ฌ ๋ ๊ธ๊ฒฉํด์ก๋ค.

์ฌ์ ํ ํ๋์จ์ด๋ฅผ ์์ฌํ๋ฉฐ, ์ฐ๋ฆฌ๋ ๋ ์ ์ ๋ ธ๋์์ ํ ์คํธํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค. 384๊ฐ์ GPU๋ก๋ ๋ฌด์ธ๊ฐ๊ฐ ์คํจํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๋๋๊ฒ๋, ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ๊ฐ ์ด๋ค ํน์ ๋ ธ๋๋ฅผ ํ ์คํธํ๋ ์๊ด์์ด ๋จ์ผ ๋ ธ๋์์ ์ ํํ ๋์ผํ ์ฒ๋ฆฌ๋ ์ ํ๋ฅผ ์ฌํํ ์ ์์๋ค. ์ด๊ฒ์ ํ๋์จ์ด ๋ฌธ์ ๋ฅผ ๋ฐฐ์ ํ๋ค.
์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ์์ ๋ณ๊ฒฝ๋ ์ธ ๊ฐ์ง๋ฅผ ๊ธฐ์ตํ๋๊ฐ? ์ฐ๋ฆฌ๋ ์ด๋ฏธ ๋ก์ปฌ ๋ ธ๋ ์คํ ๋ฆฌ์ง๋ก ์ด๋ํ์ฌ ๋ฐ์ดํฐ ์คํ ๋ฆฌ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ํ๋์จ์ด๋ ์ด์ ์ ๊ฑฐ๋์๋ค. ๋จ์ ๊ฒ์ ๋จ ํ๋์ ๋ณ์์๋ค:ย ๋จ๊ณ ์. ์ฐ๋ฆฌ๋ ๋ ์์ ๋จ๊ณ ์๋ก ๋กค๋ฐฑํ์ฌ (300๋ง์์ 32k๋ก) ์ด๊ฒ์ ํ ์คํธํ๊ณ ์ฒ๋ฆฌ๋ ์ ํ๊ฐ ๋ ์์์ก๋ค! ๋ ํฐ ๋จ๊ณ ์๋ ๋ ๊ธ๊ฒฉํ๊ณ ๋น๋ฒํ ์ ํ๋ฅผ ์์ฑํ๋ค.
์ด๊ฒ์ ํ ์คํธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ 32k์์ 320๋ง์ผ๋ก ํ์ต ๋จ๊ณ๋ง ๋ณ๊ฒฝ๋ ๋์ผํ ๊ตฌ์ฑ์ ์คํํ๋ค. ์ฌ๊ธฐ์ (https://huggingface.co/datasets/HuggingFaceTB/ablations-training-configs/tree/main/throughput_debugging) ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ์ ํํ ๊ตฌ์ฑ์ ๋ณผ ์ ์๋ค:
## Short run (32k steps)
"lr_decay_starting_step": 2560000
"lr_decay_steps": 640000
"train_steps": 3200000
## Long run (3.2M steps)
"lr_decay_starting_step": 26000
"lr_decay_steps": 6000
"train_steps": 32000์๋ ์ฐจํธ์ ํ์๋ ๊ฒฐ๊ณผ๋ ๋ช ํํ๋ค: ์งง์ ์คํ์ ์์ ์ฒ๋ฆฌ๋ ์ ํ๋ฅผ ๋ณด์ธ ๋ฐ๋ฉด, ๋ ๊ธด ๋จ๊ณ ์๋ ๋ ๊ธ๊ฒฉํ๊ณ ๋น๋ฒํ ์ ํ๋ฅผ ์์ฑํ๋ค. ๋ฐ๋ผ์ ๋ฌธ์ ๋ ํ๋์จ์ด๊ฐ ์๋๋ผ ์ํํธ์จ์ด ๋ณ๋ชฉ ํ์์ด์์ผ๋ฉฐ, ์๋ง๋ย ๋ฐ์ดํฐ๋ก๋์ ์๋ ๊ฒ์ด์๋ค! ๋๋ถ๋ถ์ ๋ค๋ฅธ ํ์ต ๊ตฌ์ฑ ์์๋ ๋จ๊ณ ์์ ๊ด๊ณ์์ด ๊ฐ ๋ฐฐ์น๋ฅผ ๋์ผํ๊ฒ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ด๋ค.

๊ทธ๋ ์ฐ๋ฆฌ๋ nanotron์ ๋ฐ์ดํฐ๋ก๋๋ก ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ์ค์ ๋ก ํด๋ณธ ์ ์ด ์๋ค๋ ๊ฒ์ ๊นจ๋ฌ์๋ค. SmolLM2๋ ๋ด๋ถ ๋ํผ๋ฅผ ํตํด Megatron-LM ํ์ ๋ฐ์ดํฐ๋ก๋ (TokenizedBytes)๋ฅผ ์ฌ์ฉํ์ฌ ๊พธ์คํ ์ฒ๋ฆฌ๋์ผ๋ก ํ์ต๋์๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ nanotron์ ๋ด์ฅ ๋ฐ์ดํฐ๋ก๋ (nanosets)๋ก ์ ํํ๋ค.
๊ทธ ๊ตฌํ์ ๊น์ด ํ๊ณ ๋ ํ, ์ฐ๋ฆฌ๋ ๊ทธ๊ฒ์ด ๊ฐ ํ์ต ๋จ๊ณ๋ง๋ค ์ปค์ง๋ ํ๋์ ๊ฑฐ๋ํ ์ธ๋ฑ์ค๋ฅผ ์์งํ๊ฒ ๊ตฌ์ถํ๊ณ ์์์ ๋ฐ๊ฒฌํ๋ค. ๋งค์ฐ ํฐ ๋จ๊ณ์ ๊ฒฝ์ฐ, ์ด๊ฒ์ ๋ ๋์ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ๋ฐํ์ฌ ์ฒ๋ฆฌ๋ ์ ํ๋ฅผ ์ด๋ฐํ๋ค.
์์ #2 โ TokenizedBytes ๋ฐ์ดํฐ๋ก๋ ๊ฐ์ ธ์ค๊ธฐ
๋ฐ์ดํฐ๋ก๋๊ฐ ์ค์ ๋ก ๋ฒ์ธ์ธ์ง ํ์ธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ย TokenizedBytesย ๋ฐ์ดํฐ๋ก๋๋ฅผ ์ฌ์ฉํ๋ ๋ด๋ถ SmolLM2 ํ๋ ์์ํฌ๋ก ๋์ผํ ๊ตฌ์ฑ์ ์์ํ๋ค. ์ ํ๋ ์์๋ค. ๋์ผํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ 48๊ฐ ๋ ธ๋์์๋ ๋ง์ฐฌ๊ฐ์ง์๋ค.
๊ฐ์ฅ ๋น ๋ฅธ ์งํ ๊ฒฝ๋ก: ์ด ๋ฐ์ดํฐ๋ก๋๋ฅผ nanotron์ผ๋ก ๋ณต์ฌํ๋ค. ์ ํ๋ ์ฌ๋ผ์ก๊ณ ์ฒ๋ฆฌ๋์ ๋ชฉํ์น๋ก ๋์์๋ค.
์ฐ๋ฆฌ๋ ๋ค์ ์์ํ ์ค๋น๊ฐ ๋์๋คโฆ ๋ค์ ์ปค๋ธ๋ณผ์ด ๋ ์์ฌ ๋๊น์ง.
๋ฏธ์คํฐ๋ฆฌ #3 โ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์์ค
์๋ก์ด ๋ฐ์ดํฐ๋ก๋๋ก ์ฒ๋ฆฌ๋ ์ ํ๋ ์์์ง๋ง ์์ค ๊ณก์ ์ด ๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ณด์๋ค.
nanosets๋ ๋ ๋ถ๋๋ฌ์ด ์์ค์ ์์ฑํ์๊ณ , ๊ทธ ์ฐจ์ด๋ ์ค๋๋ ๋๋ฒ๊น ์ ์์ ๊ธฐ์ต์ ๋ ์ฌ๋ฆฌ๊ฒ ํ๋ค: ๋ช ๋ ์ , ์ฐ๋ฆฌ๋ ๋ฌธ์๋ค์ ์์์ง๋ง ๋ฐฐ์น ๋ด์ ์ํ์ค๋ค์ ์์ด์ง ์์ ์์ ๊ธ๋ฑ์ผ๋ก ์ด์ด์ง๋ ์ ํ๋ง ๋ฒ๊ทธ๋ฅผ ์ฌ์ ํ์ต ์ฝ๋์์ ๋ฐ๊ฒฌํ์๋ค.
์ฐ๋ฆฌ์ ์ ๋ฐ์ดํฐ๋ก๋๋ฅผ ํ์ธํด๋ณด๋ ๊ทธ๊ฒ์ด ํ์ธ๋์๋ค: ๊ทธ๊ฒ์ ๊ฐ ๋ฌธ์์์ ์ํ์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฝ๊ณ ์์๋ค. ์งง์ ํ์ผ์๋ ๊ด์ฐฎ์ง๋ง, ์ฝ๋์ ๊ฐ์ ๋๋ฉ์ธ์ ๊ฒฝ์ฐ, ํ๋์ ๊ธด ์ ํ์ง ํ์ผ์ด ์ ์ฒด ๋ฐฐ์น๋ฅผ ์ฑ์ฐ๊ณ ์์ค ๊ธ๋ฑ์ ์ผ์ผํฌ ์ ์๋ค.
์์ #3 โ ์ํ์ค ์์ค์์ ์ ํ
์ฐ๋ฆฌ๋ ๋ ๊ฐ์ง ์ต์ ์ด ์์๋ค:
- ๋๋ค ์ก์ธ์ค๋ฅผ ํ๋๋ก ๋ฐ์ดํฐ๋ก๋ ๋ณ๊ฒฝ (์ํ: ๋ ๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋).
- ํ ํฐํ๋ ์ํ์ค๋ฅผ ์คํ๋ผ์ธ์์ ๋ฏธ๋ฆฌ ์ ํ(pre-shuffle)ํ๋ค.
์คํ์ ์์ํด์ผ ํ๋ ์๊ฐ์ ๋ํ ์๋ฐ๊ณผ ์คํ ์ค์ธ ํด๋ฌ์คํฐ ์์ฝ์ผ๋ก ์ธํด, ์ฐ๋ฆฌ๋ ๋ ์์ ํ๊ณ ๋น ๋ฅธ ์์ ์ผ๋ก ์ต์ #2๋ฅผ ์ ํํ๋ค. ํ ํฐํ๋ ๋ฐ์ดํฐ๋ ์ด๋ฏธ ๊ฐ ๋ ธ๋์ ์์์ผ๋ฏ๋ก ๋ก์ปฌ์์ ๋ค์ ์ ํํ๋ ๊ฒ์ ์ ๋ ดํ๋ค (~1์๊ฐ). ์ฐ๋ฆฌ๋ ๋ํ ์ํฌํฌ ๊ฐ ์ ํ๋ง ํจํด์ด ๋ฐ๋ณต๋๋ ๊ฒ์ ํผํ๊ธฐ ์ํด ๋ค๋ฅธ ์๋๋ก ๊ฐ ์ํฌํฌ์ ๋ํ ์ ํ๋ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
ํจ์นํ ๋์ ์์ ํ ๋๋ฅผ ์๋ผ
๊ธด๊ธํ ๋ง๊ฐ์ผ์ด ๋ฅ์ณค์ ๋, ๊ณ ์ฅ ๋ ๊ตฌํ์ ๋๋ฒ๊น ํ๋ ๊ฒ๋ณด๋ค ๊ฒ์ฆ๋ ์๋ฃจ์ ์ด๋ ๋น ๋ฅธ ํด๊ฒฐ์ฑ ์ ์ฑํํ๋ ๊ฒ์ด ๋ ๋น ๋ฅผ ์ ์๋ค. ์์ ์ฐ๋ฆฌ๋ย nanosets์ ์ธ๋ฑ์ค ๊ตฌํ์ ์์ ํ๋ ๋์ ย TokenizedBytesย ๋ฐ์ดํฐ๋ก๋๋ฅผ ์ฐ๊ฒฐํ๋ค. ์ฌ๊ธฐ์, ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ๋ก๋ ๋ณ๊ฒฝ๋ณด๋ค ์คํ๋ผ์ธ ์ฌ์ ์ ํ๋ง์ ์ ํํ๋ค. ๊ทธ๋ฌ๋ ์ธ์ ์ง๋ฆ๊ธธ์ ํํด์ผ ํ ์ง ์์์ผ ํ๋ฉฐ, ๊ทธ๋ ์ง ์์ผ๋ฉด ์ ์ง ๋ณด์ํ๊ฑฐ๋ ์ต์ ํํ๊ธฐ ์ด๋ ค์ด ๋๋๊ธฐ ์์คํ ์ผ๋ก ๋๋๊ฒ ๋ ๊ฒ์ด๋ค.
์์, ํ ์ดํฌ 2
์ด์ ์ฐ๋ฆฌ๋ ๋ค์์ ๊ฐ์ถ์๋ค:
- ์์ ์ ์ธ ์ฒ๋ฆฌ๋ (์คํฌ๋์น ์คํ ๋ฆฌ์ง + ์๋น ๋ ธ๋ ์ ๋ต)
- ๋จ๊ณ ์ ์ ๋ฐ ์ ํ ์์ (TokenizedBytesย ๋ฐ์ดํฐ๋ก๋)
- ๊นจ๋ํ, ์ํ์ค ์์ค ์ ํ๋ง (์ํฌํฌ๋น ์คํ๋ผ์ธ ์ฌ์ ์ ํ)
์ฐ๋ฆฌ๋ ๋ค์ ์์ํ๋ค. ์ด๋ฒ์๋ ๋ชจ๋ ๊ฒ์ด ์ ์ง๋์๋ค. ์์ค ๊ณก์ ์ ๋ถ๋๋ฌ์ ๊ณ , ์ฒ๋ฆฌ๋์ ์ผ๊ด๋์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ๋ง์นจ๋ด ์๋ฐฉ ํ๋ ๋์ ํ์ต์ ์ง์คํ ์ ์์๋ค.
๋ฏธ์คํฐ๋ฆฌ #4 โ ๋ถ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ
์ฒ๋ฆฌ๋๊ณผ ๋ฐ์ดํฐ๋ก๋ ๋ฌธ์ ๋ฅผ ์์ ํ ํ, ์ฐ๋ฆฌ๋ ์คํ์ ๋ค์ ์์ํ๊ณ ์ฒ์ ์ดํ ๋์ ์์กฐ๋กญ๊ฒ ํ์ตํ๋ค. ์ฒ๋ฆฌ๋์ ์์ ์ ์ด์๊ณ , ์์ค ๊ณก์ ์ ์์๋๋ก ๋ณด์์ผ๋ฉฐ, ๋ก๊ทธ์ ์ด๋ค ๊ฒ๋ ๋ฌธ์ ๋ฅผ ์์ํ์ง ์์๋ค. ๊ทธ๋ฌ๋ ์ฝ 1์กฐ ํ ํฐ ์ง์ ์์, ํ๊ฐ๋ ์์์น ๋ชปํ ๊ฒ์ ๋๋ฌ๋๋ค.
๋ชจ๋ํฐ๋ง์ ์ผํ์ผ๋ก, ์ฐ๋ฆฌ๋ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ ํ๊ฐํ๊ณ ๊ทธ๊ฒ๋ค์ ๊ณผ๊ฑฐ ์คํ๊ณผ ๋น๊ตํ๋ค. ์๋ฅผ ๋ค์ด, ์ฐ๋ฆฌ๋ ์ ์ฌํ ๋ ์ํผ๋ก ํ์ต๋ SmolLM2 (1.7B)์ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ฐ์ง๊ณ ์์์ผ๋ฏ๋ก, ๋ ๋ชจ๋ธ์ด ๋์ผํ ํ์ต ๋จ๊ณ์์ ์ด๋ป๊ฒ ์งํ๋์๋์ง ์ถ์ ํ ์ ์์๋ค. ๊ฒฐ๊ณผ๋ ๋นํฉ์ค๋ฌ์ ๋ค: ๋ ๋ง์ ๋งค๊ฐ๋ณ์์ ๋ ๋์ ๋ฐ์ดํฐ ํผํฉ์ ๊ฐ์ก์์๋ ๋ถ๊ตฌํ๊ณ , 3B ๋ชจ๋ธ์ ๋์ผํ ํ์ต ์ง์ ์์ 1B๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์๋ค. ์์ค์ ์ฌ์ ํ ๊ฐ์ํ๊ณ ์์๊ณ ๋ฒค์น๋งํฌ ์ ์๋ ํฅ์๋๊ณ ์์์ง๋ง, ๊ฐ์ ์๋๋ ๋ช ๋ฐฑํ ๊ธฐ๋ ์ดํ์๋ค.
SmolLM2์ ๋นํด SmolLM3์ ๋์ ๋ ๋ชจ๋ ์ํคํ ์ฒ ๋ฐ ๋ฐ์ดํฐ ๋ณ๊ฒฝ ์ฌํญ์ ์ฒ ์ ํ ํ ์คํธํ์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ํ์ต ํ๋ ์์ํฌ๋ฅผ ๊ฒ์ฆํ๊ณ ๋ ํ์ต ์ค์ ๊ฐ์ ํ ์คํธ๋์ง ์์ ์ฐจ์ด์ ์ ๋ช ๊ฐ์ง ๋ฐ์ ๋จ์ง ์์๋ค. ๊ฐ์ฅ ๋ช ๋ฐฑํ ๊ฒ์ ํ ์ ๋ณ๋ ฌํ(Tensor Parallelism, TP)์๋ค. SmolLM2๋ ๋จ์ผ GPU์ ๋ง์ ์ ์์๊ณ TP ์์ด ํ์ต๋ ๋ฐ๋ฉด, SmolLM3๋ ๋ฉ๋ชจ๋ฆฌ์ ๋ง์ถ๊ธฐ ์ํด TP=2๊ฐ ํ์ํ๋ค. TP๋ 3B ์ ๊ฑฐ ์คํ์ ์ฌ์ฉ๋์๊ณ ๊ทธ ๊ฒฐ๊ณผ๊ฐ ํ๋นํ๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ์ด์ ์ ๊ทธ๊ฒ์ ์์ฌํ๊ฑฐ๋ ํ ์คํธํ ์๊ฐ์ ํ์ง ์์๋ค.
์์ #4 - ์ต์ข ์์
TP ๋ฒ๊ทธ ๊ฐ์ค์ ํ ์คํธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ SmolLM3์ ์ ํํ ๋์ผํ ์ค์ โ ๋์ผํ ์ํคํ ์ฒ ๋ณ๊ฒฝ (๋ฌธ์ ๋ง์คํน, NoPE), ๋์ผํ ๋ฐ์ดํฐ ํผํฉ, ๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ โ ์ผ๋ก 1.7B ๋ชจ๋ธ์ TP ์์ด ๊ทธ๋ฆฌ๊ณ ์์ด ๋ชจ๋ ํ์ต์์ผฐ๋ค. ์ฐจ์ด๋ ์ฆ๊ฐ์ ์ด์๋ค: TP ๋ฒ์ ์ ์ง์์ ์ผ๋ก ๋น-TP ๋ฒ์ ๋ณด๋ค ๋ ๋์ ์์ค๊ณผ ๋ ๋ฎ์ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๊ฐ์ก๋ค. ๊ทธ๊ฒ์ ์ฐ๋ฆฌ๊ฐ TP ๊ด๋ จ ๋ฒ๊ทธ๋ฅผ ๋ณด๊ณ ์์์ ํ์ธ์์ผ ์ฃผ์๋ค.
๊ทธ๋ฐ ๋ค์ ์ฐ๋ฆฌ๋ TP์ ๋น-TP ์คํ์ ๊ฐ์ค์น๋ฅผ ๋น๊ตํ๋ฉฐ TP ๊ตฌํ์ ์์ธํ ์กฐ์ฌํ๋ค. ๋ฌธ์ ๋ ๋ฏธ๋ฌํ์ง๋ง ์ฌ๊ฐํ ๊ฒ์ผ๋ก ๋ฐํ์ก๋ค: ์ฐ๋ฆฌ๋ ๋ชจ๋ TP ๋ญํฌ์ ๊ฑธ์ณ ๋์ผํ ๋๋ค ์๋๋ฅผ ์ฌ์ฉํ๊ณ ์์๋๋ฐ, ๊ฐ ๋ญํฌ๋ ๋ค๋ฅธ ์๋๋ก ์ด๊ธฐํ๋์์ด์ผ ํ๋ค. ์ด๊ฒ์ ์ค๋ ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ์๋ ๊ฐ์ค์น ์ด๊ธฐํ๋ฅผ ์ ๋ฐํ์ฌ ์๋ ด์ ์ํฅ์ ๋ฏธ์ณค๋ค. ํจ๊ณผ๋ ์น๋ช ์ ์ด์ง ์์๋ค โ ๋ชจ๋ธ์ ์ฌ์ ํ ํ์ต๋๊ณ ๊ฐ์ ๋์๋ค โ ๊ทธ๋ฌ๋ ๊ทธ๊ฒ์ ๋๊ท๋ชจ์์ ์ฐ๋ฆฌ๊ฐ ๊ด์ฐฐํ ๊ฒฉ์ฐจ๋ฅผ ์ค๋ช ํ๊ธฐ์ ์ถฉ๋ถํ ๋นํจ์จ์ฑ์ ๋์ ํ๋ค. ์๋๋ ๋ฒ๊ทธ ์์ ์ด๋ค:
diff --git a/src/nanotron/trainer.py b/src/nanotron/trainer.py
index 1234567..abcdefg 100644
-- a/src/nanotron/trainer.py
++ b/src/nanotron/trainer.py
@@ -185,7 +185,10 @@ class DistributedTrainer:
):
# ๋๋ค ์ํ ์ค์
- set_random_seed(self.config.general.seed)
+ # ๋ค์์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๊ฐ TP ๋ญํฌ์ ๋ํด ๋ค๋ฅธ ๋๋ค ์๋ ์ค์
+ tp_rank = dist.get_rank(self.parallel_context.tp_pg)
+ set_random_seed(self.config.general.seed + tp_rank)
๊ฐ TP ๋ญํฌ๊ฐ ๋ค๋ฅธ ์๋๋ฅผ ์ฌ์ฉํ๋๋ก ์๋๋ฅผ ์์ ํ ํ, ์ฐ๋ฆฌ๋ ์ ๊ฑฐ ์คํ์ ๋ฐ๋ณตํ๊ณ TP์ ๋น-TP ์คํ์ด ์ด์ ์์ค ๊ณก์ ๊ณผ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ ๋ชจ๋์์ ์ผ์นํจ์ ํ์ธํ๋ค. ๋ค๋ฅธ ์จ๊ฒจ์ง ๋ฌธ์ ๊ฐ ์๋์ง ํ์ธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ถ๊ฐ์ ์ธ ์จ์ ์ฑ ๊ฒ์ฌ๋ฅผ ์คํํ๋ค: 3B ๋งค๊ฐ๋ณ์์์์ SmolLM2 ์คํ์ผ (์ํคํ ์ฒ ๋ฐ ๋ฐ์ดํฐ ์ธก๋ฉด) ์คํ๊ณผ, ๋ณ๋์ 3B ๋งค๊ฐ๋ณ์์์์ SmolLM3 ์คํ์ ์ํํ๊ณ ๋ ๋ค SmolLM2์ ์ฒดํฌํฌ์ธํธ์ ๋น๊ตํ๋ค. ๊ฒฐ๊ณผ๋ ์ด์ ๊ธฐ๋์ ์ผ์นํ๋ค: 1.7B SmolLM2๋ 3B SmolLM2 ๋ณํ๋ณด๋ค ์ฑ๋ฅ์ด ๋๋นด์ผ๋ฉฐ, ์ด๋ ์ฐจ๋ก๋ก SmolLM3์ 3B ์ฑ๋ฅ๋ณด๋ค ์๋์๋ค.

์ด ๋๋ฒ๊น ํ๋ก์ธ์ค๋ ์ฐ๋ฆฌ๊ฐ ์ด ๋ธ๋ก๊ทธ์ ์๋ถ๋ถ์์ ์ค๋ช ํ ํต์ฌ ์์น ์ค ํ๋๋ฅผ ๊ฐํํ๋ค:
โ๊ฒฌ๊ณ ํ ์ ๊ฑฐ ์คํ ์ค์ ์ ์ง์ ํ ๊ฐ์น๋ ๋จ์ํ ์ข์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋์ด์ ๋ค. ์ฃผ ํ์ต ์คํ ์ค์ ํ์ฐ์ ์ผ๋ก ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๋ (๊ทธ๋ฆฌ๊ณ ์๋ฌด๋ฆฌ ์ค๋นํด๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ์ด๋ค), ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ๊ฐ ๋ด๋ฆฐ ๋ชจ๋ ๊ฒฐ์ ์ ๋ํด ํ์ ํ๊ณ , ์ ๋๋ก ํ ์คํธ๋์ง ์์๊ณ ๋ฌธ์ ๋ฅผ ์ผ์ผํฌ ์ ์๋ ๊ตฌ์ฑ ์์๋ฅผ ๋น ๋ฅด๊ฒ ์๋ณํ๊ณ ์ ํ๋ค. ์ด๋ฌํ ์ค๋น๋ ๋๋ฒ๊น ์๊ฐ์ ์ ์ฝํ๊ณ ์ฐ๋ฆฌ์ ์ ์ ๊ฑด๊ฐ์ ์จ์ ํ๊ฒ ์ ์งํ๋ค. ๋ฒ๊ทธ๊ฐ ์ด๋์ ์จ์ด ์์์ง ๋ชจ๋ฅธ ์ฑ ๋ฏธ์คํฐ๋ฆฌํ ํ์ต ์คํจ๋ฅผ ์ณ๋ค๋ณด๊ณ ์๋ ๊ฒ๋ณด๋ค ๋ ๋์ ๊ฒ์ ์๋ค.โ
์ฐ๋ฆฌ ํ์ต์ ๋ค๋ฅธ ๋ชจ๋ ๊ตฌ์ฑ ์์๊ฐ ๊ฒ์ฆ๋์๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ TP๋ฅผ ์ ์ผํ๊ฒ ํ๋นํ ์์ธ์ผ๋ก ์ ํํ ์ง์ ํ๊ณ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ์งํ ์ง ํ๋ฃจ ๋ง์ ๋ฒ๊ทธ๋ฅผ ์์ ํ ์ ์์๋ค.
๊ทธ๊ฒ์ผ๋ก, ์ฐ๋ฆฌ๋ ์์ ์ดํ ํ๋ฉดํ๋ ์ผ๋ จ์ ์์์น ๋ชปํ ๋ฌธ์ ์ค ๋ง์ง๋ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ผ์ธ๋ฒ์ ์ด์ผ๋ก, ๊ทธ ์์ ๋ถํฐ ๋จ์ ํ ๋ฌ์ ํ์ต์ ๋ ธ๋ ์ฅ์ ๋ก ์ธํ ๊ฐ๋์ ์ฌ์์์ผ๋ก ์ค๋จ๋๋ ๊ฒ์ ์ ์ธํ๊ณ ๋ ์์กฐ ๊ฐ์ ํ ํฐ์ ์์ฑ๋ ๋ชจ๋ธ๋ก ๋ฐ๊พธ๋ ๊พธ์คํ ์์ ์ผ๋ก ๋น๊ต์ ํ์จํ๋ค.
์ฝ์ค๋ฅผ ์ ์งํ๊ธฐ
์ด์ ์น์ ์์ ๋ณด์๋ฏ์ด, ์ ๊ฑฐ ์คํ์์ ์ ์ฒด ์ฌ์ ํ์ต์ผ๋ก ํ์ฅํ๋ ๊ฒ์ ๋จ์ํ โํ๋ฌ๊ทธ ์ค ํ๋ ์ดโ๊ฐ ์๋์๋ค. ์์์น ๋ชปํ ๋ฌธ์ ๋ค์ด ๋ฐ์ํ์ง๋ง, ์ฐ๋ฆฌ๋ ๊ฐ ๋ฌธ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์๋ณํ๊ณ ํด๊ฒฐํ๋ค. ์ด ์น์ ์์๋ ๋๊ท๋ชจ ํ์ต ์คํ์ ์ํ ํ์ ๋ชจ๋ํฐ๋ง ์ค์ ๋ฐ ๊ณ ๋ ค ์ฌํญ์ ๋ค๋ฃฌ๋ค. ์ฐ๋ฆฌ๋ ์ค์ํ ์ง๋ฌธ๋ค์ ๋ค๋ฃฐ ๊ฒ์ด๋ค: ๋ฌธ์ ์ ์ง๋ฉดํ ํ ์ธ์ ํ์ต์ ์ฌ์์ํด์ผ ํ๋๊ฐ? ์คํ ์ค๊ฐ์ ํ๋ฉดํ๋๋ ๋ฌธ์ ๋ค์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๊ฐ? ์ด๋ค ์งํ๊ฐ ์ง์ ์ผ๋ก ์ค์ํ๊ฐ? ํ์ต ์ ๋ฐ์ ๊ฑธ์ณ ๊ณ ์ ๋ ๋ฐ์ดํฐ ํผํฉ์ ์ ์งํด์ผ ํ๋๊ฐ?
ํ์ต ๋ชจ๋ํฐ๋ง: ์์ค ๊ณก์ ์ ๋์ด์
์ฐ๋ฆฌ๊ฐ ํ ์ ๋ณ๋ ฌํ(TP) ๋ฒ๊ทธ๋ฅผ ์ก์ ์ด์ ๋ ๊ด์ฐฎ์ ๋ณด์๋ ์์ค ๊ณก์ ๋๋ฌธ์ด ์๋๋ผ, ๋ค์ด์คํธ๋ฆผ ํ๊ฐ๊ฐ ๊ธฐ๋์น๋ณด๋ค ๋ค์ฒ์ ธ ์์๋ค๋ ์ฌ์ค ๋๋ฌธ์ด์๋ค. ๋ํ, SmolLM2์ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ก๋ถํฐ์ ํ๊ฐ๋ฅผ ๊ฐ์ง๊ณ ์์๋ ๊ฒ์ด ์ค์ํ๋ค: ๊ทธ๊ฒ๋ค์ 3B ๋ชจ๋ธ์ด ์ด๊ธฐ์ ์ฌ๋ฐ๋ฅธ ๊ถค๋์ ์์ง ์๋ค๋ ์จ์ ์ฑ ๊ฒ์ฌ๋ฅผ ํ ์ ์๊ฒ ํด์ฃผ์๋ค. ๋ฐ๋ผ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค๋ฉด, ๋ค์ด์คํธ๋ฆผ ํ๊ฐ๋ฅผ ์ผ์ฐ ์คํํ๊ธฐ ์์ํ๊ณ , ์คํ ์์ค ๋ชจ๋ธ๊ณผ ๋น๊ตํ๋ค๋ฉด ์ ์๋ค์๊ฒ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ๊ณตํ ์ ์๋์ง ๋ฌผ์ด๋ณธ๋ค. ๊ทธ๊ฒ๋ค์ ์ฐธ์กฐ์ ์ผ๋ก์ ๋งค์ฐ ๊ท์คํ ์ ์๋ค.
์ธํ๋ผ ์ธก๋ฉด์์ ๊ฐ์ฅ ์ค์ํ ์งํ๋ ์ด๋น ํ ํฐ ์๋ก ์ธก์ ๋๋ย ์ฒ๋ฆฌ๋์ด๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์คํ ์ ๋ฐ์ ๊ฑธ์ณ 13,500โ14,000 ํ ํฐ/์ด ์ฌ์ด์ ์์ ์ ์ธ ์ฒ๋ฆฌ๋์ ์์ํ์ผ๋ฉฐ, ์ง์์ ์ธ ํธ์ฐจ๋ ์ํ ์ ํธ์๋ค. ๊ทธ๋ฌ๋ ์ฒ๋ฆฌ๋๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค: ํ๋์จ์ด ๊ณ ์ฅ์ ์์ธกํ๊ณ ๊ฐ์งํ๊ธฐ ์ํด ์ง์์ ์ธย ํ๋์จ์ด ์ํ ๋ชจ๋ํฐ๋ง๋ ํ์ํ๋ค. ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ ์ฃผ์ ์งํ๋ก๋ GPU ์จ๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฐ ์ปดํจํ ํ์ฉ๋ฅ ์ด ํฌํจ๋๋ค. ์ฐ๋ฆฌ๋ ๊ทธ๊ฒ๋ค์ Grafana ๋์๋ณด๋์ ๊ธฐ๋กํ๊ณ ํ๋์จ์ด ์ด์ ์งํ์ ๋ํ ์ค์๊ฐ Slack ๊ฒฝ๊ณ ๋ฅผ ์ค์ ํ๋ค.
์์ ํ ์ฌ์์ ๋ ์ฆ์์์ ์์
์ฐ๋ฆฌ๊ฐ 1์กฐ ํ ํฐ ํ์ ์คํ์ ์ฌ์์ํ๋ค๋ ์ ์ ๊ณ ๋ คํ ๋, ์ค์ํ ์ง๋ฌธ์ด ์ ๊ธฐ๋๋ค: ๋ญ๊ฐ ์๋ชป๋์์ ๋ ํญ์ ์ฌ์์ํด์ผ ํ๋๊ฐ? ๋ต์ ๋ฌธ์ ์ ์ฌ๊ฐ์ฑ๊ณผ ๊ทผ๋ณธ ์์ธ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค.
์ฐ๋ฆฌ์ ๊ฒฝ์ฐ, TP ์๋ฉ ๋ฒ๊ทธ๋ ์ฐ๋ฆฌ๊ฐ ์ฒซ ๋จ์ถ๋ฅผ ์๋ชป ๊ฟฐ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ๊ฐ์ค์น์ ์ ๋ฐ์ด ์ ๋๋ก ์ด๊ธฐํ๋์ง ์์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ชจ๋ธ์ SmolLM2์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ๋น์ทํ ์ง์ ์์ ์ ์ฒด๋๊ณ ์์์ผ๋ฉฐ, ์ด๋ ์ฐ๋ฆฌ๊ฐ ๋์ผํ ์ฑ๋ฅ์ ๋ฐํํ์ง๋ง ํ์ต ๋น์ฉ์ ๊ฑฐ์ ๋ ๋ฐฐ๋ ๋๋ ๋ชจ๋ธ๋ก ๋๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ฌ์์ํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ด์๋ค. ๊ทธ๋ฌ๋ ๋ง์ ๋ฌธ์ ๋ค์ ์ปดํจํ ๋ญ๋น๋ฅผ ํผํ๊ธฐ ์ํด ์คํ ์ค๊ฐ์ ์์ ๋ ์ ์๋ค. ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ๋ ์์ค ๊ธ๋ฑ(loss spikes)๊ณผ ๊ด๋ จ์ด ์์ผ๋ฉฐ, ์ด๋ ์ฌ์ํ ๋ฌธ์ ๋ ๋ฐ์ฐ์ ์๋ฆด ์ ์๋ ํ์ต ์์ค์ ๊ฐ์์ค๋ฌ์ด ์ ํ์ด๋ค.
Stas Bekman์ด ๋จธ์ ๋ฌ๋ ์์ง๋์ด๋ง ์คํ ๋ถ์์ ๋ฉ์ง๊ฒ ํํํ๋ฏ์ด โํ์ต ์์ค ํ๋กฏ์ ์ฌ์ฅ ๋ฐ๋ ํจํด๊ณผ ์ ์ฌํ๋คโ์ข์ ๊ฒ, ๋์ ๊ฒ, ๊ทธ๋ฆฌ๊ณ ๊ฑฑ์ ํด์ผ ํ ๊ฒ์ด ์๋ค.โ

์์ค ๊ธ๋ฑ์ ๋ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋๋ค:
- ํ๋ณต ๊ฐ๋ฅํ ๊ธ๋ฑ:ย ์ด๊ฒ๋ค์ ๋น ๋ฅด๊ฒ (๊ธ๋ฑ ์งํ) ๋๋ ๋๋ฆฌ๊ฒ (๊ธ๋ฑ ์ ๊ถค์ ์ผ๋ก ๋์๊ฐ๊ธฐ ์ํด ๋ช ๋ฒ์ ํ์ต ๋จ๊ณ๊ฐ ๋ ํ์ํจ) ํ๋ณต๋ ์ ์๋ค. ๋ณดํต ์ด๊ฒ๋ค์ ๋ซ๊ณ ๊ณ์ ํ์ตํ ์ ์๋ค. ํ๋ณต์ด ๋งค์ฐ ๋๋ฆฌ๋ค๋ฉด, ๋ฌธ์ ๊ฐ ๋๋ ๋ฐฐ์น๋ฅผ ๊ฑด๋๋ฐ๊ธฐ ์ํด ์ด์ ์ฒดํฌํฌ์ธํธ๋ก ๋๊ฐ๊ธฐ๋ฅผ ์๋ํ ์ ์๋ค.
- ํ๋ณต ๋ถ๊ฐ๋ฅํ ๊ธ๋ฑ:ย ๋ชจ๋ธ์ด ๋ฐ์ฐํ๊ฑฐ๋ ๊ธ๋ฑ ์ ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์์ ์ ์ฒด๋๋ค. ์ด๊ฒ๋ค์ ๋จ์ํ ์ด์ ์ฒดํฌํฌ์ธํธ๋ก ๋๊ฐ๋ ๊ฒ๋ณด๋ค ๋ ์ค์ํ ๊ฐ์ ์ ํ์๋ก ํ๋ค.
์ฐ๋ฆฌ๋ ํ์ต ๋ถ์์ ์ฑ์ ์์ ํ ์ดํดํ์ง ๋ชปํ์ง๋ง, ๋๊ท๋ชจ์์ ๋ ๋น๋ฒํด์ง๋ค๋ ๊ฒ์ ์๊ณ ์๋ค. ๋ณด์์ ์ธ ์ํคํ ์ฒ์ ์ตํฐ๋ง์ด์ ๋ฅผ ๊ฐ์ ํ ๋ ์ผ๋ฐ์ ์ธ ๋ฒ์ธ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ๋์ ํ์ต๋ฅ :ย ํ์ต ์ด๊ธฐ์ ๋ถ์์ ์ฑ์ ์ ๋ฐํ๋ฉฐ ํ์ต๋ฅ ์ ์ค์์ผ๋ก์จ ํด๊ฒฐ๋ ์ ์๋ค.
- ๋์ ๋ฐ์ดํฐ:ย ํ๋ณต์ด ๋๋ฆด ์ ์์ง๋ง ์ผ๋ฐ์ ์ผ๋ก ํ๋ณต ๊ฐ๋ฅํ ๊ธ๋ฑ์ ์ฃผ์ ์์ธ์ด๋ค. ๋ชจ๋ธ์ด ์ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๋ง๋ ๋ ํ์ต ํ๋ฐ๋ถ์ ๋ฐ์ํ ์ ์๋ค.
- ๋ฐ์ดํฐ-๋งค๊ฐ๋ณ์ ์ํ ์ํธ ์์ฉ:ย PaLM (Chowdhery et al., 2022)์ ๊ธ๋ฑ์ด ์ข ์ข โ๋์ ๋ฐ์ดํฐโ ๋จ๋ ๋ณด๋ค๋ ๋ฐ์ดํฐ ๋ฐฐ์น์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์ ์ํ์ ํน์ ์กฐํฉ์์ ๋ฐ์ํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๋ค. ๋ค๋ฅธ ์ฒดํฌํฌ์ธํธ์์ ๋์ผํ ๋ฌธ์ ๋ฐฐ์น๋ฅผ ํ์ตํ์ ๋ ๊ธ๋ฑ์ด ์ฌํ๋์ง ์์๋ค.
- ๋์ ์ด๊ธฐํ:ย OLMo2 (OLMo et al., 2025)์ ์ต๊ทผ ์ฐ๊ตฌ๋ ์ค์ผ์ผ๋ง๋ ์ด๊ธฐํ์์ ๋จ์ํ ์ ๊ท ๋ถํฌ (ํ๊ท =0,ํ์คํธ์ฐจ=0.02)๋ก ์ ํํ๋ ๊ฒ์ด ์์ ์ฑ์ ๊ฐ์ ํ์์ ๋ณด์ฌ์ฃผ์๋ค.
- ์ ๋ฐ๋ ๋ฌธ์ :ย ๋ ์ด์ ์๋ฌด๋ FP16์ผ๋ก ํ์ตํ์ง ์๊ธด ํ์ง๋ง, BLOOM์ BF16์ ๋นํด ๊ทธ๊ฒ์ด ๋งค์ฐ ๋ถ์์ ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
๊ธ๋ฑ์ด ๋ฐ์ํ๊ธฐ ์ ์, ์์ ์ฑ์ ๊ตฌ์ถํ๋ผ:
๋ณด์์ ์ธ ํ์ต๋ฅ ๊ณผ ์ข์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง ์ํ ๋ชจ๋ธ์ ๊ฑฐ์ ๊ธ๋ฑํ์ง ์์ง๋ง, ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ ์๋ฐฉ์ ์ธ ์์ ์ฑ ์กฐ์น๋ฅผ ์๊ตฌํ๋ค. ๋ ๋ง์ ํ๋ค์ด ๋๊ท๋ชจ๋ก ํ์ตํจ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ํ์ต ๋ถ์์ ์ฑ์ ์๋ฐฉํ๋ ๋ฐ ๋์์ด ๋๋ ๊ธฐ์ ๋๊ตฌ ์์๋ค์ ์ถ์ ํ๋ค:
๋ฐ์ดํฐ ํํฐ๋ง ๋ฐ ์ ํ๋ง:ย ์ด ๋ธ๋ก๊ทธ์ ์ด ์์ ์์, ๋น์ ์ ์ฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ฐ์ดํฐ๋ก ๋๋์๊ฐ์ผ ํ๋์ง ์์์ฐจ๋ ธ์ ๊ฒ์ด๋ค. ๋ฐ์ดํฐ๊ฐ ๊นจ๋ํ๊ณ ์ ์์๋์ง ํ์ธํ๋ ๊ฒ์ ๊ธ๋ฑ์ ์๋ฐฉํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, OLMo2๋ ๋ฐ๋ณต๋๋ n-gram (1-13 ํ ํฐ ์คํฌ์ 32ํ ์ด์ ๋ฐ๋ณต)์ ๊ฐ์ง ๋ฌธ์๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด ๊ธ๋ฑ ๋น๋๋ฅผ ์๋นํ ์ค์ธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
ํ์ต ์์ :ย Z-์์ค ์ ๊ทํ๋ ์ฑ๋ฅ์ ์ํฅ์ ์ฃผ์ง ์์ผ๋ฉด์ ์ถ๋ ฅ ๋ก์ง์ด ๋๋ฌด ์ปค์ง๋ ๊ฒ์ ๋ฐฉ์งํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ฒ ๋ฉ์ ๊ฐ์ค์น ๊ฐ์ ์์ ์ ์ธํ๋ ๊ฒ๋ ๋์์ด ๋๋ค.
์ํคํ ์ฒ ๋ณ๊ฒฝ:ย QKNorm (์ดํ ์ ์ ์ฟผ๋ฆฌ์ ํค ํฌ์ ์ ๊ทํ)์ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ์ ์ฆ๋์๋ค. OLMo2์ ๋ค๋ฅธ ํ๋ค์ ๊ทธ๊ฒ์ด ์์ ์ฑ์ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ํฅ๋ฏธ๋กญ๊ฒ๋ Marin ํ์ ๋ฐ์ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์คํ ์ค๊ฐ์ ์ ์ฉ๋ ์๋ ์์์ ๋ฐ๊ฒฌํ๋ค.
์ด์จ๋ ๊ธ๋ฑ์ด ๋ฐ์ํ์ ๋ - ํผํด ํต์ :
์ด๋ฌํ ์๋ฐฉ ์กฐ์น์๋ ๋ถ๊ตฌํ๊ณ , ๊ธ๋ฑ์ ์ฌ์ ํ ๋ฐ์ํ ์ ์๋ค. ๋ค์์ ๊ทธ๊ฒ๋ค์ ์์ ํ๊ธฐ ์ํ ๋ช ๊ฐ์ง ์ต์ ์ด๋ค:
- ๋ฌธ์ ๊ฐ ๋๋ ๋ฐฐ์น ๊ฑด๋๋ฐ๊ธฐ:ย ๊ธ๋ฑ ์ ์ผ๋ก ๋๊ฐ๊ณ ๋ฌธ์ ๊ฐ ๋๋ ๋ฐฐ์น๋ฅผ ๊ฑด๋๋ด๋ค. ์ด๊ฒ์ ๊ธ๋ฑ์ ๋ํ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์์ ์ด๋ค. Falcon ํ (Almazrouei et al., 2023)์ ๊ทธ๋ค์ ๊ธ๋ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด 1B ํ ํฐ์ ๊ฑด๋๋ฐ์๊ณ , PaLM ํ (Chowdhery et al., 2022)์ ๊ธ๋ฑ ์์น ์ฃผ๋ณ์ 200-500 ๋ฐฐ์น๋ฅผ ๊ฑด๋๋ฐ๋ ๊ฒ์ด ์ฌ๋ฐ์ ๋ฐฉ์งํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
- ๊ธฐ์ธ๊ธฐ ํด๋ฆฌํ ๊ฐํ:ย ๊ธฐ์ธ๊ธฐ ๋ ธ๋ฆ ์๊ณ๊ฐ์ ์ผ์์ ์ผ๋ก ์ค์ธ๋ค.
- ์ํคํ ์ฒ ์์ ์ ์ฉ:ย Marin์์ ์ํ๋ ๊ฒ๊ณผ ๊ฐ์ด QKnorm๊ณผ ๊ฐ์ ์ํคํ ์ฒ ์์ ์ ์ ์ฉํ๋ค.
์ฐ๋ฆฌ๋ ์ฒ๋ฆฌ๋ ์ ํ์์ TP ๋ฒ๊ทธ์ ์ด๋ฅด๊ธฐ๊น์ง์ ํ์ฅ ๋ฌธ์ , ๋ฌธ์ ๋ฅผ ์กฐ๊ธฐ์ ํฌ์ฐฉํ๊ธฐ ์ํ ๋ชจ๋ํฐ๋ง ๊ดํ, ๊ทธ๋ฆฌ๊ณ ์์ค ๊ธ๋ฑ์ ์๋ฐฉํ๊ณ ์์ ํ๊ธฐ ์ํ ์ ๋ต์ ์ดํด๋ณด์๋ค. ๋ค๋จ๊ณ ํ์ต์ด ๋ชจ๋ธ์ ์ต์ข ์ฑ๋ฅ์ ์ด๋ป๊ฒ ํฅ์์ํฌ ์ ์๋์ง ๋ ผ์ํ๋ฉฐ ์ด ์ฑํฐ๋ฅผ ๋ง์น๊ณ ์ ํ๋ค.
์ค๊ฐ ํ์ต (Mid-training)
ํ๋ LLM ์ฌ์ ํ์ต์ ์ผ๋ฐ์ ์ผ๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ํผํฉ์ ๊ฐ์ง ๋ค๋จ๊ณ(multiple stages)๋ฅผ ํฌํจํ๋ฉฐ, ์ข ์ข ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ํ์ฅํ๊ธฐ ์ํ ์ต์ข ๋จ๊ณ๊ฐ ๋ค๋ฐ๋ฅธ๋ค. ์๋ฅผ ๋ค์ด, Qwen3 (A. Yang, Li, et al., 2025)๋ 3๋จ๊ณ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ค: 4k ์ปจํ ์คํธ์์ 30Tํ ํฐ์ ๋ํ ์ผ๋ฐ ๋จ๊ณ, STEM ๋ฐ ์ฝ๋ฉ์ ๊ฐ์กฐํ๋ 5T ๊ณ ํ์ง ํ ํฐ์ ์ฌ์ฉํ ์ถ๋ก ๋จ๊ณ, ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก 32k ์ปจํ ์คํธ ๊ธธ์ด์์ ์์ฒ์ต ํ ํฐ์ ๋ํ ๊ธด ์ปจํ ์คํธ ๋จ๊ณ์ด๋ค. SmolLM3๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๋์ ํ๊ณ ์ปจํ ์คํธ๋ฅผ ํ์ฅํ๊ธฐ ์ํ ๊ณํ๋ ๊ฐ์ ๊ณผ ํจ๊ป, ์ฑ๋ฅ ๋ชจ๋ํฐ๋ง์ ๊ธฐ๋ฐํ ๋ฐ์ํ ์กฐ์ ์ ํ๋ค๋, ์ ์ฌํ ์ฒ ํ์ ๋ฐ๋๋ค.
์ฐ๋ฆฌ๊ฐ ๋ฐ์ดํฐ ํ๋ ์ด์ ์น์ ์์ ์ค๋ช ํ๋ฏ์ด, ๋ฐ์ดํฐ ํผํฉ์ ํ์ต ๋ด๋ด ๊ณ ์ ๋์ด ์์ ํ์๊ฐ ์๋ค. ๋ค๋จ๊ณ ํ์ต์ ํตํด ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ๋น์จ์ ์ ๋ต์ ์ผ๋ก ๋ณ๊ฒฝํ ์ ์๋ค. ์ผ๋ถ ๊ฐ์ ์ ์ฒ์๋ถํฐ ๊ณํ๋๋ค: SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 2๋จ๊ณ์์ ๊ณ ํ์ง FineMath4+ ๋ฐ Stack-Edu๋ฅผ ๋์ ํ ๋ค์, ์ต์ข ๊ฐ์ ๋จ๊ณ ๋์ ํ๋ ์ด์ ๋ Q&A ๋ฐ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ ๊ฒ์ ๋ฏธ๋ฆฌ ๊ณํํ์ฌ ์๊ณ ์์๋ค. ๋ค๋ฅธ ๊ฐ์ ์ ๋ฐ์ํ์ด๋ฉฐ, ํ์ต ์ค ์ฑ๋ฅ ๋ชจ๋ํฐ๋ง์ ์ํด ์ฃผ๋๋๋ค. ์๋ฅผ ๋ค์ด, SmolLM2์์ ์ํ ๋ฐ ์ฝ๋ ์ฑ๋ฅ์ด ๋ชฉํ๋ณด๋ค ๋ค์ฒ์ง๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ ๋, ์ฐ๋ฆฌ๋ ์์ ํ ์๋ก์ด ๋ฐ์ดํฐ์ (FineMath ๋ฐ Stack-Edu)์ ํ๋ ์ด์ ํ๊ณ ์ค๊ฐ ํ์ต์ ๋์ ํ๋ค. ๊ณํ๋ ์ปค๋ฆฌํ๋ผ์ ๋ฐ๋ฅด๋ ๋ํ๋๋ ๊ฒฉ์ฐจ์ ์ ์ํ๋ , ์ด๋ฌํย ์ ์ฐ์ฑ์ ์ฐ๋ฆฌ๊ฐ ์ปดํจํ ์์ฐ์ ๊ฐ์น๋ฅผ ๊ทน๋ํํ ์ ์๊ฒ ํด์ฃผ๋ ๊ฒ์ด๋ค.
2๋จ๊ณ ๋ฐ 3๋จ๊ณ ํผํฉ
์๋ ์ฐจํธ๋ ์ฐ๋ฆฌ์ 3๊ฐ์ง ํ์ต ๋จ๊ณ์ ํ์ต ์ค ์น/์ฝ๋/์ํ ๋น์จ์ ์งํ ์ํฉ์ ๋ณด์ฌ์ค๋ค. ๊ฐ ๋จ๊ณ์ ๋ํ SmolLM3 ํ์ต ์ค์ ์ ์ ํํ ๋ฐ์ดํฐ ๊ฐ์ค์น์ ํจ๊ป ์ฌ๊ธฐ(https://github.com/huggingface/smollm/tree/main/text/pretraining/smollm3) ์์ ํ์ธํ ์ ์๋ค. ๊ฐ ๋จ๊ณ์ ๊ทผ๊ฑฐ์ ๊ตฌ์ฑ์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ฐ์ดํฐ ํ๋ ์ด์ ์น์ ์ ์ฐธ๊ณ ํด๋ผ.

1๋จ๊ณ: ๊ธฐ๋ณธ ํ์ต (8์กฐ ํ ํฐ, 4k ์ปจํ ์คํธ) ๊ธฐ์ด ๋จ๊ณ๋ ์ฐ๋ฆฌ์ ํต์ฌ ์ฌ์ ํ์ต ํผํฉ์ ์ฌ์ฉํ๋ค: ์น ๋ฐ์ดํฐ (FineWeb-Edu, DCLM, FineWeb2, FineWeb2-HQ), The Stack v2์ StarCoder2์ ์ฝ๋, ๊ทธ๋ฆฌ๊ณ FineMath3+์ InfiWebMath3+์ ์ํ์ด๋ค. ๋ชจ๋ ํ์ต์ 4k ์ปจํ ์คํธ ๊ธธ์ด์์ ์ด๋ฃจ์ด์ง๋ค.
**2๋จ๊ณ: ๊ณ ํ์ง ์ฃผ์ (2์กฐ ํ ํฐ, 4k ์ปจํ ์คํธ)**์ฐ๋ฆฌ๋ ๊ณ ํ์ง ํํฐ๋ง๋ ๋ฐ์ดํฐ์ ์ ๋์ ํ๋ค: ์ฝ๋๋ฅผ ์ํ Stack-Edu, ์ํ์ ์ํ FineMath4+ ๋ฐ InfiWebMath4+, ๊ทธ๋ฆฌ๊ณ ๊ณ ๊ธ ์ํ์ ์ถ๋ก ์ ์ํ MegaMath (์ฐ๋ฆฌ๋ Qwen Q&A ๋ฐ์ดํฐ, ํฉ์ฑ ์ฌ์์ฑ, ๋ฐ ํ ์คํธ-์ฝ๋ ์ธํฐ๋ฆฌ๋ธ ๋ธ๋ก์ ์ถ๊ฐํ๋ค).
3๋จ๊ณ: ์ถ๋ก ๋ฐ Q&A ๋ฐ์ดํฐ๋ฅผ ํฌํจํ LR ๊ฐ์ (1.1์กฐ ํ ํฐ, 4k ์ปจํ ์คํธ) ํ์ต๋ฅ ๊ฐ์ ๋จ๊ณ ๋์, ์ฐ๋ฆฌ๋ ๊ณ ํ์ง ์ฝ๋ ๋ฐ ์ํ ๋ฐ์ดํฐ์ ์ ๋์ฑ ์ ์ํ๋งํ๋ฉด์ OpenMathReasoning, OpenCodeReasoning ๋ฐ OpenMathInstruct์ ๊ฐ์ ์ง์นจ ๋ฐ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ๋์ ํ๋ค. Q&A ์ํ์ ๋จ์ํ Concatenate ๋๊ณ , ์ค๋ฐ๊ฟ์ผ๋ก ๊ตฌ๋ถ๋๋ค.
๊ธด ์ปจํ ์คํธ ํ์ฅ: 4k์์ 128k ํ ํฐ์ผ๋ก
์ปจํ ์คํธ ๊ธธ์ด๋ ๋ชจ๋ธ์ด ์ผ๋ง๋ ๋ง์ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋์ง๋ฅผ ๊ฒฐ์ ํ๋ฉฐ, ๊ธด ๋ฌธ์ ๋ถ์, ์ผ๊ด๋ ๋ฉํฐํด ๋ํ ์ ์ง, ๋๋ ์ ์ฒด ์ฝ๋๋ฒ ์ด์ค ์ฒ๋ฆฌ์ ๊ฐ์ ์์ ์ ์ค์ํ๋ค. SmolLM3๋ 4k ํ ํฐ์์ ํ์ต์ ์์ํ์ง๋ง, ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํด 128k๋ก ํ์ฅํด์ผ ํ๋ค.
์ ์ค๊ฐ ํ์ต์์ ์ปจํ ์คํธ๋ฅผ ํ์ฅํ๋๊ฐ?
์ฒ์๋ถํฐ ๊ธด ์ปจํ ์คํธ๋ก ํ์ตํ๋ ๊ฒ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ฐ์ฐ๋์ด ์ ๊ณฑ์ผ๋ก ํ์ฅ๋๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค. ๊ฒ๋ค๊ฐ, ์ฐ๊ตฌ๋ ํ์ต ๋ ๋ฌด๋ ต์ด๋ ์ง์์ ์ธ ์ฌ์ ํ์ต ์ค์ ์์ญ์ต์์ ์ฒ์ต ํ ํฐ์ผ๋ก ์ปจํ ์คํธ๋ฅผ ํ์ฅํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ข์ ๊ธด ์ปจํ ์คํธ ์ฑ๋ฅ์ ๋๋ฌํ๊ธฐ์ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค (Gao et al., 2025).
์์ฐจ์ ํ์ฅ: 4k โ 32K โ 64K
์ฐ๋ฆฌ๋ ๊ณง๋ฐ๋ก 128k๋ก ์ ํํ์ง ์์๋ค. ๋์ , ์ฐ๋ฆฌ๋ ๋จ๊ณ์ ์ผ๋ก ์ปจํ ์คํธ๋ฅผ ์ ์ง์ ์ผ๋ก ํ์ฅํ์ฌ ๋ชจ๋ธ์ด ๋ ๋์๊ฐ๊ธฐ ์ ์ ๊ฐ ๊ธธ์ด์ ์ ์ํ ์๊ฐ์ ์ฃผ์๋ค. ์ฐ๋ฆฌ๋ ๋ ๊ฐ์ ๊ธด ์ปจํ ์คํธ ๋จ๊ณ๋ฅผ ์คํํ๋ค: ๋จผ์ 4k์์ 32k๋ก, ๊ทธ ๋ค์ 32k์์ 64k๋ก (128k ๊ธฐ๋ฅ์ ํ์ต์ด ์๋ ์ถ๋ก ์ ์ธ์ฝ์์ ๋์จ๋ค). ์ฐ๋ฆฌ๋ 50B ํ ํฐ์ ๊ฑธ์ณ ๊ฐ ๋จ๊ณ์ ๋ํด ์๋ก์ด ํ์ต๋ฅ ์ค์ผ์ค์ ์์ํ๋ ๊ฒ์ด ์ฃผ ๊ฐ์ ๋จ๊ณ์ ๋ง์ง๋ง 100B ํ ํฐ ๋์ ์ปจํ ์คํธ๋ฅผ ํ์ฅํ๋ ๊ฒ๋ณด๋ค ๋ ์ ์๋ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ฐ ๋จ๊ณ์์, ์ฐ๋ฆฌ๋ ์ข์ ๊ธด ์ปจํ ์คํธ ๋ฐ์ดํฐ ํผํฉ๊ณผ RoPE theta ๊ฐ์ ์ฐพ๊ธฐ ์ํด ์ ๊ฑฐ ์คํ์ ์คํํ๊ณ , Ruler ๋ฒค์น๋งํฌ์์ ํ๊ฐํ๋ค.
๐ก๊ธฐ๋ณธ ๋ชจ๋ธ์์์ ๊ธด ์ปจํ ์คํธ ํ๊ฐ
๊ธด ์ปจํ ์คํธ ์ ๊ฑฐ ์คํ ๋์, ์ฐ๋ฆฌ๋ HELMET ๋ฒค์น๋งํฌ๊ฐ ๊ธฐ๋ณธ ๋ชจ๋ธ์์ ๋งค์ฐ ๋ ธ์ด์ฆ๊ฐ ๋ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค (๋ค๋ฅธ ์๋๋ก ๋์ผํ ํ์ต์ ํ๋ฉด ๊ฐ๋ณ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค). Gao et al.์ ๋ฒค์น๋งํฌ ์์ ์ ๋ถ์ฐ์ ์ค์ด๊ธฐ ์ํด ๊ทธ ์์ SFT๋ฅผ ์ํํ ๊ฒ์ ๊ถ์ฅํ๋ค. ๋์ ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ ์์ค์์ ๋ ์ ๋ขฐํ ์ ์๋ ์ ํธ๋ฅผ ์ ๊ณตํ๋ RULER๋ฅผ ์ ํํ๋ค.
์ด ๋จ๊ณ ๋์, ๊ธด ์ปจํ ์คํธ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ธด ์น ํ์ด์ง ๋ฐ ์ฑ ๊ณผ ๊ฐ์ ๊ธด ์ปจํ ์คํธ ๋ฌธ์๋ฅผ ์ ์ํ๋งํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค (Gao et al., 2025). ์ฐ๋ฆฌ๋ FineWeb-Edu ๋ฐ Python-Edu๋ฅผ ์ฌ์ฉํ์ฌ Qwen2.5-1M์ ์ ๊ทผ ๋ฐฉ์ (A. Yang, Yu, et al., 2025)์ ๋ฐ๋ผ ๊ฒ์ ๋ฐ ์ค๊ฐ ์ฑ์ฐ๊ธฐ(fill-in-the-middle)์ ๊ฐ์ ์์ ์ ์ํด ์ฑ , ๊ธฐ์ฌ, ์ฌ์ง์ด ํฉ์ฑ ์์ฑ๋ ๋ฌธ์๊น์ง ์ ์ํ๋งํ๋ ์ฌ๋ฌ ์ ๊ฑฐ ์คํ์ ์คํํ๋ค. ๋๋๊ฒ๋, ์ฐ๋ฆฌ๋ 3๋จ๊ณ์ ๊ธฐ์ค ํผํฉ์ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๊ฐ์ ์ ๊ด์ฐฐํ์ง ๋ชปํ๋๋ฐ, ์ด๋ ์ด๋ฏธ Ruler์์ Llama 3.2 3B ๋ฐ Qwen2.5 3B์ ๊ฐ์ ๋ค๋ฅธ ์ต์ฒจ๋จ ๋ชจ๋ธ๊ณผ ๊ฒฝ์๋ ฅ์ด ์์๋ค. ์ฐ๋ฆฌ๋ ๊ธฐ์ค ํผํฉ์ด ์น ๋ฐ์ดํฐ ๋ฐ ์ฝ๋ (ํ ํฐ์ 10%๋ก ์ถ์ ๋จ)๋ก๋ถํฐ ์์ฐ์ค๋ฝ๊ฒ ๊ธด ๋ฌธ์๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ, NoPE๋ฅผ ์ฌ์ฉํ ๊ฒ์ด ๋์์ด ๋์๋ค๊ณ ๊ฐ์ค์ ์ธ์ ๋ค.
(๊ธด ์ปจํ ์คํธ ํ์ฅ์ ๋ํ ๋ ๋ง์ ํต์ฐฐ๋ ฅ์ ์ํด, How to Train Long-Context Language Models (Effectively) ๋ ผ๋ฌธ์ ์ฝ๋ ๊ฒ์ ์ถ์ฒํ๋ค.)
RoPE ABF (RoPE with Adjusted Base Frequency):ย 4k์์ 32k๋ก ๊ฐ ๋, ์ฐ๋ฆฌ๋ RoPE theta (๊ธฐ๋ณธ ์ฃผํ์)๋ฅผ 2M์ผ๋ก ๋๋ ธ๊ณ , 32k์์ 64k๋ก ๊ฐ ๋๋ 5M์ผ๋ก ๋๋ ธ๋ค. ์ฐ๋ฆฌ๋ 10M๊ณผ ๊ฐ์ ๋ ํฐ ๊ฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด RULER ์ ์๋ฅผ ์ฝ๊ฐ ํฅ์์ํค์ง๋ง GSM8k์ ๊ฐ์ ์ผ๋ถ ์งง์ ์ปจํ ์คํธ ์์ ์ ํด์น๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ฌ, ์งง์ ์ปจํ ์คํธ์ ์ํฅ์ ๋ฏธ์น์ง ์๋ 5M์ ์ ์งํ๋ค. ์ด ์ปจํ ์คํธ ํ์ฅ ๋จ๊ณ ๋์, ์ฐ๋ฆฌ๋ ๋ํ ์ํ, ์ฝ๋, ๋ฐ ์ถ๋ก Q&A ๋ฐ์ดํฐ๋ฅผ ๋์ฑ ์ ์ํ๋งํ ๊ธฐํ๋ฅผ ์ด์ฉํ์ผ๋ฉฐ, ChatML ํ์์ ์์ญ๋ง ๊ฐ์ ์ํ์ ์ถ๊ฐํ๋ค.
YARN ์ธ์ฝ: 128k ๋๋ฌ.ย 64k ์ปจํ ์คํธ์์ ํ์ตํ ํ์๋, ์ฐ๋ฆฌ๋ SmolLM3๊ฐ ์ถ๋ก ์ 128k๋ฅผ ์ฒ๋ฆฌํ๊ธฐ๋ฅผ ์ํ๋ค. 128k ์ํ์ค๋ก ํ์ตํ๋ ๋์ (๋น์ฉ์ด ์์ฒญ๋๊ฒ ๋ง์ด ๋ ๋ค), ์ฐ๋ฆฌ๋ย YARN (Yet Another RoPE extensioN method)ย (B. Peng et al., 2023)์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ํ์ต ๊ธธ์ด๋ฅผ ๋์ด ์ธ์ฝํ ์ ์๊ฒ ํด์ค๋ค. ์ด๋ก ์ ์ผ๋ก, YARN์ ์ํ์ค ๊ธธ์ด์ 4๋ฐฐ ์ฆ๊ฐ๋ฅผ ํ์ฉํ๋ค. ์ฐ๋ฆฌ๋ 64k ์ฒดํฌํฌ์ธํธ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด 32k ์ฒดํฌํฌ์ธํธ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค 128k์์ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ฌ, ๋ชฉํ ์ถ๋ก ๊ธธ์ด์ ๋ ๊ฐ๊น๊ฒ ํ์ตํ๋ ๊ฒ์ ์ด์ ์ ํ์ธํ๋ค. ๊ทธ๋ฌ๋ 256k (64k์ 4๋ฐฐ)๋ก ๋ฐ์ด๋ถ์ด๋ ๊ฒ์ ์ ํ๋ Ruler ์ฑ๋ฅ์ ๋ณด์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ 128k๊น์ง๋ง ์ฌ์ฉํ ๊ฒ์ ๊ถ์ฅํ๋ค.
์ด๊ฒ์ผ๋ก, ์ฐ๋ฆฌ๋ ๊ณํ ๋ฐ ์ ๊ฑฐ ์คํ์์๋ถํฐ ์ต์ข ํ์ต ์คํ๊น์ง, ๊ทธ ๊ณผ์ ์์ ๊ฒช์ ๋ชจ๋ ๋นํ์ธ๋ ์คํ ๋ฆฌ์ ๋์ ๊ณผ ํจ๊ป SmolLM3๋ฅผ ์ํ ์ ์ฒด ์ฌ์ ํ์ต ์ฌ์ ์ ์ด์ผ๊ธฐํ๋ค.
์ฌ์ ํ์ต ๋ง๋ฌด๋ฆฌ
์ฐ๋ฆฌ๋ ๋ง์ ๋ด์ฉ์ ๋ค๋ฃจ์๋ค. ์ ๊ทธ๋ฆฌ๊ณ ๋ฌด์์ ํ์ตํ ์ง ๊ฒฐ์ ํ๋ ๋ฐ ๋์์ ์ค ํ์ต ๋์นจ๋ฐ๋ถํฐ, ์ ๋ต์ ๊ณํ, ๋ชจ๋ ์ํคํ ์ฒ ์ ํ์ ๊ฒ์ฆํ ์ฒด๊ณ์ ์ธ ์ ๊ฑฐ ์คํ, ๊ทธ๋ฆฌ๊ณ ๋๊ท๋ชจ์์ ๋๋ผ์ด ์ผ๋ค์ด ๋ฑ์ฅํ๋ ์ค์ ํ์ต ๋ง๋ผํค (๋ฏธ์คํฐ๋ฆฌํ๊ฒ ๋ถ๊ดดํ๋ ์ฒ๋ฆฌ๋, ๋ฐ์ดํฐ๋ก๋ ๋ณ๋ชฉ ํ์, ๊ทธ๋ฆฌ๊ณ 1์กฐ ํ ํฐ์์ ์ฌ์์์ ๊ฐ์ ํ ๋ฏธ๋ฌํ ํ ์ ๋ณ๋ ฌํ ๋ฒ๊ทธ)๊น์ง.
์ ๋ค๋ฌ์ด์ง ๊ธฐ์ ๋ณด๊ณ ์ ๋ค์ ์ง์ ๋ถํ ํ์ค์ด ์ด์ ๋ณด์ธ๋ค: LLM ํ์ต์ ์ํคํ ์ฒ ํ์ ๋ฐ ๋ฐ์ดํฐ ํ๋ ์ด์ ๋งํผ์ด๋ย ์ ์ ๋ ์คํ๊ณผ ๋น ๋ฅธ ๋๋ฒ๊น ์ ๊ดํ ๊ฒ์ด๋ค. ๊ณํ์ ํ ์คํธํ ๊ฐ์น๊ฐ ์๋ ๊ฒ์ ์๋ณํ๋ค. ์ ๊ฑฐ ์คํ์ ๊ฐ ๊ฒฐ์ ์ ๊ฒ์ฆํ๋ค. ๋ชจ๋ํฐ๋ง์ ๋ฌธ์ ๋ฅผ ์กฐ๊ธฐ์ ํฌ์ฐฉํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ฐ์ ์ผ๋ก ๋ฌด์ธ๊ฐ ๊ณ ์ฅ ๋ ๋, ์ฒด๊ณ์ ์ธ ์ํ ์ ๊ฑฐ๋ ์ ํํ ์ด๋๋ฅผ ๋ด์ผ ํ ์ง ์๋ ค์ค๋ค.
SmolLM3์ ๊ฒฝ์ฐ ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ํ๋ก์ธ์ค๋ ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ถํ๊ณ ์ ํ๋ ๊ฒ์ ์ ๊ณตํ๋ค: ์ํ, ์ฝ๋, ๋ค๊ตญ์ด ์ดํด, ๊ทธ๋ฆฌ๊ณ ๊ธด ์ปจํ ์คํธ ์์ ์์ ๊ฒฝ์๋ ฅ ์๋, Qwen3 ๋ชจ๋ธ์ ํ๋ ํ ํ๋ก ํฐ์ด์ ์๋ 11์กฐ ํ ํฐ์ผ๋ก ํ์ต๋ 3B ๋ชจ๋ธ์ด๋ค.

12๊ฐ ์ธ๊ธฐ LLM ๋ฒค์น๋งํฌ์ ๋ํ ๊ธฐ๋ณธ ๋ชจ๋ธ ํ๊ฐ ์น๋ฅ (%). ๋ฒค์น๋งํฌ: HellaSwag, ARC, Winogrande, CommonsenseQA, MMLU-CF, MMLU Pro CF, PIQA, OpenBookQA, GSM8K, MATH, HumanEval+, MBPP+
๊ธฐ๋ณธ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๊ฐ ์ ์ฅ๋๊ณ , ํ์ต์ด ์๋ฃ๋๊ณ , GPU๊ฐ ๋ง์นจ๋ด ์์ผ๋ฉด, ์ฐ๋ฆฌ๋ ๋๋ฌ๋ค๊ณ ๋ถ๋ฅด๊ณ ์ถ์์ง๋ ๋ชจ๋ฅธ๋ค. ๊ฒฐ๊ตญ, ์ฐ๋ฆฌ๋ ํ ์คํธ๋ฅผ ์ ์์ธกํ๊ณ , ๊ฐ๋ ฅํ ๋ฒค์น๋งํฌ ์ ์๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ ๋ชฉํ๋ก ํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์๋ค.
์์ง์ ์๋๋ค. ์๋ํ๋ฉด ์ค๋๋ ์ฌ๋๋ค์ด ์ํ๋ ๊ฒ์ ๊ฐ๊ณต๋์ง ์์ ๋ค์ ํ ํฐ ์์ธก๊ธฐ๊ฐ ์๋๋ผย ์ด์์คํดํธ์ย ์ฝ๋ฉ ์์ด์ ํธ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ๊ธฐ์ ์ฌํ ํ์ต(Post-training)์ด ๋ฑ์ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ํ์ค์ ๋ ผ๋ฌธ๋ณด๋ค ๋ ์ง์ ๋ถํ๋ค.
Beyond base models โ post-training in 2025
์ฌ์ ํ์ต์ด ๋๋๋ฉด ํ๋ฃจ ์์ SFT ๊ธฐ์ค์ ์ ํ๋ณดํด์ผ ํ๋ค.
โย Lewis Tunstall, ๋๊ด์ ์ธ LLM ์ ๋ฌธ๊ฐ.

์์ ๋ง์ ์ฌํ ํ์ต ๋ชจํ์ ์ ํํด๋ผ.
์ฌ์ ํ์ต์ ์ฐ๋ฆฌ์๊ฒ SmolLM3์ ์์ด์ ์ธ ๋ฅ๋ ฅ์ ์ฃผ์์ง๋ง, GPU๊ฐ ์๊ธฐ๋ ์ ์ ์ฐ๋ฆฌ๋ ๋ชจ๋ธ ๋ฅ๋ ฅ์ ๋ค์ ๊ฐ์ฒ์ง์ธ **์ฌํ ํ์ต(post-training)**์ ์ง์ ํ๋ค. ์ฌ๊ธฐ์๋ ์ง๋ ํ์ธ ํ๋(SFT), ๊ฐํ ํ์ต, ๋ชจ๋ธ ๋ณํฉ ๋ฑ์ด ํฌํจ๋๋ฉฐ, ๋ชจ๋ โํ ์คํธ๋ฅผ ์์ธกํ๋ ๋ชจ๋ธโ์์ โ์ฌ๋๋ค์ด ์ค์ ๋ก ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธโ๋ก์ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๊ธฐ ์ํด ์ค๊ณ๋์๋ค. ์ฌ์ ํ์ต์ด ์ง์์ ๊ฐ์ค์น์ ์ต์ง๋ก ์ง์ด๋ฃ๋ ๊ฒ์ด๋ผ๋ฉด, ์ฌํ ํ์ต์ ๊ทธ ์์ด์ ์ธ ๋ฅ๋ ฅ์ ์ ๋ขฐํ ์ ์๊ณ ์กฐ์ข ๊ฐ๋ฅํ ๋ฌด์ธ๊ฐ๋ก ์กฐ๊ฐํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ ๋ค๋ฌ์ด์ง ์ฌํ ํ์ต ๋ ผ๋ฌธ๋ค์ ์ฌ์ผ์ ๋๋ผ์: GPU ๋ฉํธ๋ค์ด, ๊น๋ค๋ก์ด ๋ฐ์ดํฐ ํผํฉ, ๋๋ ๊ฒ๋ณด๊ธฐ์ ์ฌ์ํ ์ฑํ ํ ํ๋ฆฟ ๊ฒฐ์ ์ด ๋ค์ด์คํธ๋ฆผ ๋ฒค์น๋งํฌ์ ํ๊ธ๋๋ ๋ฐฉ์์ ๋ณด์ฌ์ฃผ์ง ์๋๋ค. ์ด ์น์ ์์, ์ฐ๋ฆฌ๋ SmolLM3๋ฅผ ๊ฐ๋ ฅํ ๊ธฐ๋ณธ ๋ชจ๋ธ์์ ์ต์ฒจ๋จ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ๋ก ๋ฐ๊พธ๊ธฐ ์ํด ์ฌํ ํ์ต์ ํผ๋์ค๋ฌ์ด ์ธ๊ณ๋ฅผ ์ด๋ป๊ฒ ํค์ณ๋๊ฐ๋์ง ๋ณด์ฌ์ค ๊ฒ์ด๋ค.
๐ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ด๋ ๋ฌด์์ธ๊ฐ?
ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ๋ ๊ฐ์ง ๋ณ๊ฐ์ ๋ชจ๋๋ก ์๋ํ๋ค: ํ๋๋ ๊ฐ๊ฒฐํ๊ณ ์ง์ ์ ์ธ ์๋ต์ ์ํ ๊ฒ์ด๊ณ ๋ค๋ฅธ ํ๋๋ ํ์ฅ๋ ๋จ๊ณ๋ณ ์ถ๋ก ์ ์ํ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ์๋ ๋ชจ๋๋ ์์คํ ๋ฉ์์ง์์ ์ฌ์ฉ์์ ์ํด ์ค์ ๋๋ค. Qwen3๋ฅผ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ๊ฐ๋ฒผ์ด ๋ช ๋ น์ด๋ก ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ๋ง๋ ๋ค: โ/thinkโ๋ ํ์ฅ๋ ์ถ๋ก ์ ํธ์ถํ๋ ๋ฐ๋ฉด, โ/no_thinkโ๋ ๊ฐ๊ฒฐํ ๋ต๋ณ์ ๊ฐ์ ํ๋ค. ์ด๋ฐ ์์ผ๋ก, ์ฌ์ฉ์๋ ๋ชจ๋ธ์ด ๊น์ด์ ์๋ ์ค ๋ฌด์์ ์ฐ์ ์ํ ์ง ์ ์ดํ๋ค.
์ฌํ ํ์ต ๋์นจ๋ฐ: ์ โ ๋ฌด์์ โ ์ด๋ป๊ฒ
์ฌ์ ํ์ต๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ฌํ ํ์ต์ ๋ญ๋น๋๋ ์ฐ๊ตฌ ๋ฐ ์์ง๋์ด๋ง ์ฃผ๊ธฐ๋ฅผ ํผํ๊ธฐ ์ํด ๋ช ํํ ๋์นจ๋ฐ์ผ๋ก๋ถํฐ ์ด์ ์ ์ป๋๋ค. ํ๋ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
-
์ ์ฌํ ํ์ต์ ํ๋๊ฐ?ย ์ฐ๋ฆฌ๊ฐ ์ฌ์ ํ์ต ๋์นจ๋ฐ์์ ์ค๋ช ํ ํ์ต์ ์ธ ๊ฐ์ง ๋๊ธฐโ์ฐ๊ตฌ, ํ๋ก๋์ , ๊ทธ๋ฆฌ๊ณ ์ ๋ต์ ์คํ ์์คโ๋ ์ฌํ ํ์ต์๋ ๋์ผํ๊ฒ ์ ์ฉ๋๋ค. ์๋ฅผ ๋ค์ด, RL์ด ๊ธฐ์กด ๋ชจ๋ธ์์ ์๋ก์ด ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๊ธ ํด์ ํ ์ ์๋์ง ํ์ํ๊ณ ์๊ฑฐ๋(์ฐ๊ตฌ), ์ง์ฐ ์๊ฐ ๋ฌธ์ ๋ก ์ธํด ํฐ ๋ชจ๋ธ์ ์์ ๋ชจ๋ธ๋ก ์ฆ๋ฅ(distill)ํด์ผ ํ๊ฑฐ๋(ํ๋ก๋์ ), ํน์ ์ฌ์ฉ ์ฌ๋ก์ ๋ํ ๊ฐ๋ ฅํ ์คํ ๋ชจ๋ธ์ด ์กด์ฌํ์ง ์๋ ๊ฒฉ์ฐจ๋ฅผ ์๋ณํ์ ์ ์๋ค(์ ๋ต์ ์คํ ์์ค). ์ฐจ์ด์ ์ ์ฌํ ํ์ต์ด ์ฒ์๋ถํฐ ๋ฅ๋ ฅ์ ๋ง๋๋ ๋์ ๊ธฐ์กด ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ GPU์ ์์ ๋ป๊ธฐ ์ ์ ์๋ ์ง๋ฌธ๋ค์ ์ค์ค๋ก์๊ฒ ๋ฌผ์ด๋ด์ผ ํ๋ค:
- ์ ๋ง๋ก ์ฌํ ํ์ต์ ํด์ผ ํ๋๊ฐ?ย ๋ง์ ์คํ ๊ฐ์ค์น ๋ชจ๋ธ๋ค์ด ์ด์ ๊ด๋ฒ์ํ ์์ ์์ ๋ ์ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์ํ๋ค. ์ผ๋ถ๋ ์์ํ์ ์ ๋นํ ์ปดํจํ ์ผ๋ก ๋ก์ปฌ์์ ์คํ๋ ์๋ ์๋ค. ๋ฒ์ฉ ์ด์์คํดํธ๋ฅผ ์ํ๋ค๋ฉด, Hugging Face Hub์ ๊ธฐ์ฑ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ฌ๋ฌ๋ถ์ ํ์๋ฅผ ์ถฉ์กฑ์ํฌ ์ ์๋ค.
- ๊ณ ํ์ง, ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์๋๊ฐ?ย ์ฌํ ํ์ต์ ๋ฒ์ฉ ๋ชจ๋ธ์ด ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์ด๋ ํน์ ์์ ์ด๋ ๋๋ฉ์ธ์ ๋ชฉํ๋ก ํ ๋ ๊ฐ์ฅ ์๋ฏธ๊ฐ ์๋ค. ์ฌ๋ฐ๋ฅธ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์ฌ๋ฌ๋ถ์ด ๊ฐ์ฅ ์ค์ํ๊ฒ ์๊ฐํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ํด ๋ ์ ํํ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ๋ชจ๋ธ์ ํ๋ํ ์ ์๋ค.
- ์ฑ๊ณต์ ์ธก์ ํ ์ ์๋๊ฐ?ย ๋ช ํํ ํ๊ฐ ๊ธฐ์ค ์์ด๋ ์ฌํ ํ์ต์ด ์ ๋ง ๋์์ด ๋๋์ง ์ ์ ์์ ๊ฒ์ด๋ค.
-
์ฌํ ํ์ต์ ๋ฌด์์ ๋ฌ์ฑํด์ผ ํ๋๊ฐ?ย ์ด๊ฒ์ ์ฌ๋ฌ๋ถ์ ์ฐ์ ์์์ ๋ฌ๋ ค์๋ค:
- ์ฃผ์ ๋ฅผ ๊ฑฐ์ ๋ฒ์ด๋์ง ์๋ ๊น๋ํ ์ง์นจ ์ํ์๋ฅผ ์ํ๋๊ฐ?
- ์๊ตฌ์ ๋ฐ๋ผ ํค๊ณผ ์ญํ ์ ์ ํํ ์ ์๋ ๋ค์ฌ๋ค๋ฅํ ์ด์์คํดํธ์ธ๊ฐ?
- ์ํ, ์ฝ๋, ๋๋ ์์ด์ ํธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ์ถ๋ก ์์ง์ธ๊ฐ?
- ์ฌ๋ฌ ์ธ์ด๋ก ๋ํํ ์ ์๋ ๋ชจ๋ธ์ธ๊ฐ?
-
์ด๋ป๊ฒ ๋๋ฌํ ๊ฒ์ธ๊ฐ?ย ๊ทธ๊ฒ์ด ๋ ์ํผ๊ฐ ์ค์ํ ์ด์ ์ด๋ค. ์ฐ๋ฆฌ๋ ๋ค์์ ๋ค๋ฃฐ ๊ฒ์ด๋ค:
- ํต์ฌ ๋ฅ๋ ฅ์ ์ฃผ์ ํ๊ธฐ ์ํย ์ง๋ ํ์ธ ํ๋(SFT).
- ์ธ๊ฐ ๋๋ AI ์ ํธ๋๋ก๋ถํฐ ์ง์ ํ์ตํ๊ธฐ ์ํย ์ ํธ๋ ์ต์ ํ(PO).
- ์ง๋ ๋ฐ์ดํฐ๋ฅผ ๋์ด ์ ๋ขฐ์ฑ๊ณผ ์ถ๋ก ์ ์ ์ ํ๊ธฐ ์ํย ๊ฐํ ํ์ต(RL).
- ๋ค์์ฑ๊ณผ ํ์ง ์ฌ์ด์ ์ฌ๋ฐ๋ฅธ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํย ๋ฐ์ดํฐ ํ๋ ์ด์ .
- ์ง์ ์ ์ถ์ ํ๊ณ ํ๊ท๋ฅผ ์กฐ๊ธฐ์ ํฌ์ฐฉํ๊ธฐ ์ํย ํ๊ฐ.
์ด ๋์นจ๋ฐ์ ์ฌํ ํ์ต์ ์นด์ค์ค์์ ๋ฐฉํฅ์ ์ก๊ฒ ํด์ค๋ค.ย ์๋ ๋ฐฉํฅ์ ์ ์ํ๊ณ ,ย ๋ฌด์์ ์ฐ์ ์์๋ฅผ ์ค์ ํ๋ฉฐ,ย ์ด๋ป๊ฒ๋ ์ผ๋ง์ ์ค์ฉ์ ์ธ ํ์ต ๋ฃจํ๋ก ๋ฐ๊พผ๋ค.
SmolLM3์ ๋ํด ์ฐ๋ฆฌ๊ฐ ์ด ์ง๋ฌธ๋ค์ ์ด๋ป๊ฒ ๋ตํ๋์ง ์ดํด๋ณด์:
- ์?ย ์ฐ๋ฆฌ์๊ฒ โ์โ๋ ๊ฐ๋จํ๋ค. ์ถ์ ์ ์ ์ฌํ ํ์ต์ด ํ์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์์๊ธฐ ๋๋ฌธ์ด๋ค. ๋์์ Qwen3์ ๊ฐ์ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ด ์ ์ ์ธ๊ธฐ๋ฅผ ์ป๊ณ ์์์ง๋ง, ๊ทธ๊ฒ๋ค์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ๋ ์คํ ๋ ์ํผ๋ ๋๋ฌผ์๋ค. SmolLM3๋ ์ฐ๋ฆฌ์๊ฒ ๋ ๊ฐ์ง๋ฅผ ํด๊ฒฐํ ๊ธฐํ๋ฅผ ์ฃผ์๋ค: ์ค์ ์ฌ์ฉ์ ์ํด ๋ชจ๋ธ์ ์ค๋นํ๊ณ , Qwen3์ 1.7B ๋ฐ 4B ๋ชจ๋ธ๊ณผ ํจ๊ป ํ๋ ํ ํ๋ก ํธ์ ์๋ฆฌํ ์์ ํ ๊ฐ๋ฐฉ๋ ๋ ์ํผ์ ๊ธฐ์ฌํ๋ ๊ฒ์ด๋ค.
- ๋ฌด์?ย ์ฐ๋ฆฌ๋ SmolLM3์ ๊ฐ์ ์ ๋ง์ถ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ๋ก ํ์ผ๋ฉฐ, ์ฃผ๋ก ์์ด ์ด์ธ์ ์ธ์ด์์๋ ์ถ๋ก ํ์ง์ด ์ ์ง๋์ด์ผ ํ๋ค๋ ์ ์ด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ์ฌ์ฉ์ ์ ์ ๋ ๋๊ตฌ ํธ์ถ ๋ฐ ๊ธด ์ปจํ ์คํธ ์ํฌํ๋ก๋ฅผ ํฌํจํ๋ฏ๋ก, ๊ทธ๊ฒ๋ค์ด ์ฐ๋ฆฌ์ ์ฌํ ํ์ต ๋ ์ํผ์์ ํต์ฌ ์๊ตฌ ์ฌํญ์ด ๋์๋ค.
- ์ด๋ป๊ฒ?ย ๊ทธ๊ฒ์ ์ด ์ฑํฐ์ ๋๋จธ์ง ๋ถ๋ถ์ด๋ค ๐.
์ฌ์ ํ์ต๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ๋ถํฐ ์์ํด์ผ ํ๋ค: ํ๊ฐ(evals)์ ๊ธฐ์ค์ (baselines). ์๋ํ๋ฉด ๋ชจ๋ ํฐ ๋ชจ๋ธ์ ์์ ์ ๊ฑฐ ์คํ์ผ๋ก ์์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๊ฐ ์ ๊ฑฐ ์คํ์ ์ํํ๋ ๋ฐฉ์์ ์ค์ํ ์ฐจ์ด๊ฐ ์๋ค. ์ฌ์ ํ์ต์์ โ์์โ์ ์ผ๋ฐ์ ์ผ๋ก ๋ ์์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ์๋ฏธํ๋ค. ์ฌํ ํ์ต์์ โ์์โ์ย ๋ ์์ ๋ฐ์ดํฐ์ ๊ณผ ๋ ๊ฐ๋จํ ์๊ณ ๋ฆฌ์ฆ์ ์๋ฏธํ๋ค. ์ฐ๋ฆฌ๋ ๋์์ด ๋๋ฌด ๋ชจ๋ธ ์์กด์ ์ด๊ณ ์คํ์ด ๋์ ๋ชจ๋ธ์์ ์ง์ ๋ฐ๋ณตํ ์ ์์ ๋งํผ ์งง๊ธฐ ๋๋ฌธ์ ์ ๊ฑฐ ์คํ์ ์ํด ๋ค๋ฅธ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ฑฐ์ ์ฌ์ฉํ์ง ์๋๋ค.
๋ง์ ๋ชจ๋ธ ํ์ต์๋ค์ด ํ๋ก์ ํธ ํ๋ฐ๊น์ง ํผํ๋ ์ฃผ์ ์ธ, ํ๊ฐ๋ถํฐ ์์ํด๋ณด์.
๊ฐ์ฅ ๋จผ์ ํ ์ผ: ๋ค๋ฅธ ๋ชจ๋ ๊ฒ๋ณด๋ค ํ๊ฐ(evals)
์ฌํ ํ์ต์ ๊ฐ์ฅ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ โ ์ฌ์ ํ์ต๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก โ ์ฌ๋ฐ๋ฅธ ํ๊ฐ ์ธํธ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ค. ์ค๋๋ ๋๋ถ๋ถ์ LLM์ด ์ด์์คํดํธ๋ก ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ARC-AGI์ ๊ฐ์ โ์ง๋ฅโ์ ์ถ์์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ซ๋ ๊ฒ๋ณด๋ค โ์ ์๋ํ๋โ ๋ชจ๋ธ์ ๋ชฉํ๋ก ํ๋ ๊ฒ์ด ๋ ๋์ ๋ชฉํ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ข์ ์ด์์คํดํธ๋ ๋ฌด์์ ํด์ผ ํ๋๊ฐ? ์ต์ํ ๋ค์์ ํ ์ ์์ด์ผ ํ๋ค:
- ๋ชจํธํ ์ง์นจ ์ฒ๋ฆฌํ๊ธฐ
- ๋จ๊ณ๋ณ๋ก ๊ณํํ๊ธฐ
- ์ฝ๋ ์์ฑํ๊ธฐ
- ์ ์ ํ ๋ ๋๊ตฌ ํธ์ถํ๊ธฐ
์ด๋ฌํ ํ๋์ ์ถ๋ก , ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ์ํ, ์ฝ๋ ๋ฐ ๋๊ตฌ ์ฌ์ฉ ๊ธฐ์ ์ ํผํฉ์ ์์กดํ๋ค. 30์ต ๋งค๊ฐ๋ณ์๋งํผ ์๊ฑฐ๋ ์ฌ์ง์ด ๊ทธ๋ณด๋ค ์์ ๋ชจ๋ธ๋ ์ด์์คํดํธ๋ก ์ ์๋ํ ์ ์์ง๋ง, ์ฑ๋ฅ์ ์ผ๋ฐ์ ์ผ๋ก 10์ต ๋ฏธ๋ง์์ ๊ธ๊ฒฉํ ๋จ์ด์ง๋ค.
(์์ฃผ ์์ ๋ชจ๋ธ์ด ์ ํ๋ ์ฉ๋์ ์์ํ๊ธฐ ์ํด ๋๊ตฌ ํธ์ถ์ ์ฌ์ฉํ์ฌ ์คํ ๊ฐ๋ฅํ ์ด์์คํดํธ๋ก ์๋ํ ์ ์๋์ง ์ฌ๋ถ๋ ํฅ๋ฏธ๋กญ์ง๋ง ์ฌ์ ํ ์ด๋ฆฐ ์ง๋ฌธ์ผ๋ก ๋จ์ ์๋ค. ์ด ๋ฐฉํฅ์ ์ต๊ทผ ์์ ์ LiquidAI์ ๋ชจ๋ธ๋ค์ ์ฐธ๊ณ ํด๋ผ.)
Hugging Face์์, ์ฐ๋ฆฌ๋ ์ฌ์ ํ์ต์ ์ํ ์ ๊ฑฐ ์คํ ์น์ ์์ ์์ธํ ์ค๋ช ํ ์ฌ์ ํ์ต ์์น (๋จ์กฐ์ฑ, ๋ฎ์ ๋ ธ์ด์ฆ, ๋๋ค ์ด์์ ์ ํธ, ์์ ์ผ๊ด์ฑ)์ ๋ฐ์ํ๋ ๊ณ์ธตํ๋ ํ๊ฐ ์ค์ํธ๋ฅผ ์ฌ์ฉํ๋ค.
๐ํ๊ฐ๋ฅผ ์ต์ ์ํ๋ก ์ ์งํ๊ธฐ
๊ณ ๋ คํด์ผ ํ ํ๊ฐ ๋ชฉ๋ก์ ๋ชจ๋ธ์ด ๊ฐ์ ๋จ์ ๋ฐ๋ผ ์ง์์ ์ผ๋ก ์งํํ๊ณ ์์ผ๋ฉฐ ์๋ ๋ ผ์๋ ํ๊ฐ๋ค์ 2025๋ ์ค๋ฐ์ ์ฐ๋ฆฌ์ ์ด์ ์ ๋ฐ์ํ๊ณ ์๋ค. ์ฌํ ํ์ต ํ๊ฐ์ ๋ํ ํฌ๊ด์ ์ธ ๊ฐ์๋ Evaluation Guidebook์ ์ฐธ๊ณ ํ๋ผ.
๋ค์์ ์ฌํ ํ์ต๋ ๋ชจ๋ธ์ ํ๊ฐํ ์ ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ์ด๋ค:
- ๋ฅ๋ ฅ ํ๊ฐ (Capability evals)
์ด ํด๋์ค์ ํ๊ฐ๋ ์ถ๋ก ๋ฐ ๊ฒฝ์ ์ํ ๋ฐ ์ฝ๋ฉ๊ณผ ๊ฐ์ ๊ธฐ๋ณธ ๊ธฐ์ ์ ๋ชฉํ๋ก ํ๋ค.
- ์ง์.ย ์ฐ๋ฆฌ๋ ํ์ฌ ๊ณผํ์ ์ง์์ ์ํ ์ฃผ์ ํ๊ฐ๋ก GPQA Diamond (Rein et al., 2024)๋ฅผ ์ฌ์ฉํ๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ํ์ ์์ค์ ๊ฐ๊ด์ ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ํฌํ ์ํ์๋ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ๊ณ MMLU ๋ฐ ์น๊ตฌ๋ค๋ณด๋ค ๋ ๋์ ์ ํธ๋ฅผ ์ ๊ณตํ๋ฉฐ ์คํ ์๋๋ ํจ์ฌ ๋น ๋ฅด๋ค. ์ฌ์ค์ฑ์ ๋ํ ๋ ๋ค๋ฅธ ์ข์ ํ ์คํธ๋ SimpleQA (Wei et al., 2024)์ด์ง๋ง, ์ํ ๋ชจ๋ธ์ ์ ํ๋ ์ง์์ผ๋ก ์ธํด ์ด ๋ฒค์น๋งํฌ์์ ์๋นํ ์ด๋ ค์์ ๊ฒช๋ ๊ฒฝํฅ์ด ์๋ค.
- ์ํ.ย ์ํ์ ๋ฅ๋ ฅ์ ์ธก์ ํ๊ธฐ ์ํด, ์ค๋๋ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ์ต์ ๋ฒ์ ์ AIME (ํ์ฌ 2025 ๋ฒ์ )์์ ํ๊ฐ๋๋ค. MATH-500 (Lightman et al., 2023)์ ์ํ ๋ชจ๋ธ์ ์ ์ฉํ ์จ์ ์ฑ ํ ์คํธ๋ก ๋จ์ ์์ง๋ง, ์ถ๋ก ๋ชจ๋ธ์ ์ํด ํฌ๊ฒ ํฌํ๋์๋ค. ๋ ํฌ๊ด์ ์ธ ์ํ ํ๊ฐ ์ธํธ๋ฅผ ์ํด MathArena์ ํ๊ฐ๋ค์ ์ถ์ฒํ๋ค.
- ์ฝ๋.ย ์ฐ๋ฆฌ๋ ์ฝ๋ฉ ์ญ๋์ ์ถ์ ํ๊ธฐ ์ํด ์ต์ ๋ฒ์ ์ LiveCodeBench๋ฅผ ์ฌ์ฉํ๋ค. ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ๋ฅผ ๋ชฉํ๋ก ํ์ง๋ง, ์ฐ๋ฆฌ๋ LiveCodeBench์ ๊ฐ์ ์ด ๋น๋ก Python์ ๊ตญํ๋์ง๋ง ๋ ๋์ ์ฝ๋ฉ ๋ชจ๋ธ๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. SWE-bench Verified๋ ์ฝ๋ฉ ๊ธฐ์ ์ ๋ ์ ๊ตํ ์ฒ๋์ด์ง๋ง, ์ํ ๋ชจ๋ธ์๋ ๋๋ฌด ์ด๋ ค์ด ๊ฒฝํฅ์ด ์์ด ์ฐ๋ฆฌ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๊ณ ๋ คํ๋ ๋์์ ์๋์๋ค.
- ๋ค๊ตญ์ด์ฑ.ย ๋ถํํ๋, ๋ชจ๋ธ์ ๋ค๊ตญ์ด ๊ธฐ๋ฅ์ ํ ์คํธํ๋ ๊ฒ์ ๊ดํด์๋ ์ ํ์ง๊ฐ ๋ง์ง ์๋ค. ์ฐ๋ฆฌ๋ ํ์ฌ ์ฐ๋ฆฌ ๋ชจ๋ธ์ด ์ ์ํํด์ผ ํ๋ ์ฃผ์ ์ธ์ด๋ฅผ ๋ชฉํ๋ก Global MMLU (Singh et al., 2025)์ ์์กดํ๋ฉฐ, MGSM (Shi et al., 2022)์ด ๋ค๊ตญ์ด ์ํ์ ๋ฅ๋ ฅ ํ ์คํธ๋ก ํฌํจ๋๋ค.
- ํตํฉ ์์ ํ๊ฐ (Integrated task evals)
์ด๋ฌํ ํ๊ฐ๋ค์ ์ฐ๋ฆฌ๊ฐ ์ถ์ํ ๊ฒ๊ณผ ๊ฐ๊น์ด ๊ฒ๋ค์ ํ ์คํธํ๋ค: ๋ฐ-ํ์ค์ ์ธ ์ค์ ์์์ ๋ฉํฐํด ์ถ๋ก , ๊ธด ์ปจํ ์คํธ ์ฌ์ฉ, ๊ทธ๋ฆฌ๊ณ ๋๊ตฌ ํธ์ถ์ด๋ค.
- ๊ธด ์ปจํ ์คํธ.ย ๊ธด ์ปจํ ์คํธ ๊ฒ์์ ์ํ ๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ํ ์คํธ๋ย Needle in a Haystack (NIAH)ย (Kamradt, 2023)์ผ๋ก, ๋ฌด์์ ์ฌ์ค(โ๋ฐ๋โ)์ด ๊ธด ๋ฌธ์(โ๊ฑด์ด๋๋ฏธโ) ๋ด ์ด๋๊ฐ์ ๋ฐฐ์น๋๊ณ ๋ชจ๋ธ์ด ๊ทธ๊ฒ์ ๊ฒ์ํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฒค์น๋งํฌ๋ ๊ธด ์ปจํ ์คํธ ์ดํด๋ฅผ ๊ตฌ๋ณํ๊ธฐ์๋ ๋๋ฌด ํ๋ฉด์ ์ด์ด์, ์ปค๋ฎค๋ํฐ๋ย RULERย (Hsieh et al., 2024) ๋ฐย HELMETย (Yen et al., 2025)๊ณผ ๊ฐ์ ๋ ํฌ๊ด์ ์ธ ํ๊ฐ๋ฅผ ๊ฐ๋ฐํ๋ค. ๋ ์ต๊ทผ์ OpenAI๋ ๊ธด ์ปจํ ์คํธ ํ๊ฐ์ ๋์ด๋๋ฅผ ํ์ฅํ๋ MRCR ๋ฐ GraphWalks ๋ฒค์น๋งํฌ๋ฅผ ์ถ์ํ๋ค. (๊ธด ์ปจํ ์คํธ ํ๊ฐ์ ํ๊ณ์ ํ์ค์ ์ธ ํ๊ฐ๋ฅผ ์ค๊ณํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ด ํ๋ฅญํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผhttps://nrehiew.github.io/blog/long_context/๋ ์ฐธ๊ณ ํด๋ผ.)
- ์ง์นจ ๋ฐ๋ฅด๊ธฐ.ย IFEvalย (J. Zhou et al., 2023)์ ํ์ฌ ์ง์นจ ๋ฐ๋ฅด๊ธฐ๋ฅผ ์ธก์ ํ๋ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ํ๊ฐ์ด๋ฉฐ, โ๊ฒ์ฆ ๊ฐ๋ฅํ ์ง์นจโ์ ๋ํด ์๋ ์ฑ์ ์ ์ฌ์ฉํ๋ค.ย IFBenchย (Pyatkin et al., 2025)๋ IFEval๋ณด๋ค ๋ ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด ์ธํธ๋ฅผ ํฌํจํ๊ณ ์ต๊ทผ ๋ชจ๋ธ ๋ฆด๋ฆฌ์ค์์ ๋ฐ์ํ ์ผ๋ถ ๋ฒค์น๋งํฌ ์ต์ ํ(benchmaxxing)๋ฅผ ์ํํ๋ Ai2์ ์๋ก์ด ํ์ฅํ์ด๋ค. ๋ฉํฐํด ์ง์นจ ๋ฐ๋ฅด๊ธฐ๋ฅผ ์ํด ์ฐ๋ฆฌ๋ย Multi-IFย (He et al., 2024) ๋๋ย MultiChallengeย (Sirdeshmukh et al., 2025)๋ฅผ ์ถ์ฒํ๋ค.
- ์ ๋ ฌ (Alignment).ย ๋ชจ๋ธ์ด ์ฌ์ฉ์ ์๋์ ์ผ๋ง๋ ์ ๋ถํฉํ๋์ง ์ธก์ ํ๋ ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก ์ธ๊ฐ ์ฃผ์์ ๋๋ LMArena์ ๊ฐ์ ๊ณต๊ฐ ์์ํ์ ์ํด ์ํ๋๋ค. ์์ ํ์ ์์ฑ, ์คํ์ผ ๋๋ ์ ๋ฐ์ ์ธ ์ ์ฉ์ฑ๊ณผ ๊ฐ์ ํ์ง์ ์๋ํ๋ ์งํ๋ก ์ ๋์ ์ผ๋ก ์ธก์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ๊ฒฝ์ฐ์ ์ด๋ฌํ ํ๊ฐ๋ฅผ ์คํํ๋ ๊ฒ์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ์ปค๋ฎค๋ํฐ๋ ์ธ๊ฐ ์ ํธ๋์ ๋ํ ๋๋ฆฌ์๋ก LLM์ ์ฌ์ฉํ๋ ๊ฒ์ ์์กดํ๊ฒ ๋์๋ค. ์ด๋ฐ ์ข ๋ฅ์ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ๋ฒค์น๋งํฌ์๋ย AlpacaEvalย (Dubois et al., 2025),ย ArenaHardย (T. Li et al., 2024) ๋ฐย MixEvalย (Ni et al., 2024)์ด ํฌํจ๋๋ฉฐ, ํ์๋ LMArena์ ์ธ๊ฐ Elo ๋ฑ๊ธ๊ณผ ๊ฐ์ฅ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค.
- ๋๊ตฌ ํธ์ถ.ย BFCL์ ๋๊ตฌ ํธ์ถ์ ๋ํ ํฌ๊ด์ ์ธ ํ ์คํธ๋ฅผ ์ ๊ณตํ์ง๋ง, ์ข ์ข ๊ฝค ๋นจ๋ฆฌ ํฌํ๋๋ค.ย TAU-Benchย (Barres et al., 2025)๋ ์๋ฎฌ๋ ์ด์ ๋ ๊ณ ๊ฐ ์๋น์ค ์ค์ ์์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๊ณ ์ฌ์ฉ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ ์คํธํ๋ฉฐ ๋ณด๊ณ ํ๊ธฐ์ ์ธ๊ธฐ ์๋ ๋ฒค์น๋งํฌ๊ฐ ๋์๋ค.
- ๊ณผ์ ํฉ ๋ฐฉ์ง ํ๊ฐ (Overfitting-prevention evals)
๋ชจ๋ธ์ด ํน์ ๊ธฐ์ ์ ๊ณผ์ ํฉ๋๊ณ ์๋์ง ํ ์คํธํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ GSM8k (Cobbe et al., 2021)์ ๋ฌธ์ ๋ฅผ ๊ต๋์์ผ ๋ชจ๋ธ์ด ์ฌ์ ํ ๋น์ทํ ๋์ด๋์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋์ง ํ ์คํธํ๋ย GSMPlusย (Q. Li et al., 2024)์ ๊ฐ์ ๊ฒฌ๊ณ ์ฑ ๋๋ ์ ์์ฑ ํ๊ฐ๋ฅผ ์ธํธ์ ํฌํจํ๋ค.
- ๋ด๋ถ ํ๊ฐ (Internal evals)
๊ณต๊ฐ ๋ฒค์น๋งํฌ๊ฐ ๋ชจ๋ธ ๊ฐ๋ฐ ์ค์ ์ ์ฉํ ์ ํธ๋ฅผ ์ ๊ณตํ ์ ์์ง๋ง, ํน์ ๊ธฐ๋ฅ์ ๋ชฉํ๋ก ํ๋ ์์ฒด ๋ด๋ถ ํ๊ฐ๋ฅผ ๊ตฌํํ๊ฑฐ๋ ๋ด๋ถ ์ ๋ฌธ๊ฐ์๊ฒ ๋ชจ๋ธ๊ณผ ์ํธ ์์ฉํ๋๋ก ์์ฒญํ๋ ๊ฒ์ ๋์ฒดํ ์๋ ์๋ค.
(์ด๊ฒ์ AI ์ ํ์ ๊ตฌ์ถํ๋ ๊ฒฝ์ฐ ํนํ ๊ทธ๋ ๋ค. ์ด ์ฃผ์ ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ์กฐ์ธ์ Hamel Husain์ ํ๋ฅญํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ https://www.decodingai.com/?utm_source=navbar&utm_medium=web ์ ์ฐธ๊ณ ํด๋ผ.)
์๋ฅผ ๋ค์ด, SmolLM3์ ๊ฒฝ์ฐ ๋ชจ๋ธ์ด ๋ฉํฐํด ์ถ๋ก ์ ํ ์ ์๋์ง ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๊ฐ ํ์ํ์ผ๋ฏ๋ก, ์ด๋ฅผ ์ธก์ ํ๊ธฐ ์ํด Multi-IF ๋ณํ์ ๊ตฌํํ๋ค.
- ๋ฐ์ด๋ธ ํ๊ฐ ๋ฐ ์๋ ๋ (Vibe evaluations and arenas)
๋ง์ฐฌ๊ฐ์ง๋ก, ์ฐ๋ฆฌ๋ ์ค๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ โ๋ฐ์ด๋ธ ํ ์คํธโ (์ฆ, ๋ชจ๋ธ๊ณผ ์ํธ ์์ฉํ๋ ๊ฒ)ํ๋ ๊ฒ์ด ํ๊ฐ ์ ์๋ก ํฌ์ฐฉ๋์ง ์๋ ๋ชจ๋ธ ๋์์ ๋ฏธ๋ฌํ ๊ธฐ๋ฒฝ์ ๋ฐ๊ฒฌํ๋ ๋ฐ ํ์์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๋์ค์ ๋ ผ์ํ๊ฒ ์ง๋ง, ๋ฐ์ด๋ธ ํ ์คํธ๋ ๋ชจ๋ ์์คํ ๋ฉ์์ง๊ฐ ์ฝํผ์ค์์ ์ญ์ ๋๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ฝ๋์ ๋ฒ๊ทธ๋ฅผ ๋ฐ๊ฒฌํ๋ค! ์ด๊ฒ์ ๋ํ ์ธ๊ธฐ ์๋ LMArena์์์ฒ๋ผ ์ธ๊ฐ ์ ํธ๋๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ๋๊ท๋ชจ๋ก ์ํ๋ ์ ์๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ํฌ๋ผ์ฐ๋์์ฑ๋ ์ธ๊ฐ ํ๊ฐ๋ ๊นจ์ง๊ธฐ ์ฌ์ด ๊ฒฝํฅ์ด ์์ผ๋ฏ๋ก (์ค์ ์ ์ฉ์ฑ๋ณด๋ค ์์ฒจ๊ณผ ํ๋ คํ ์ธ์ฌ๋ฅผ ์ ํธํจ), ๋ฎ์ ์ ํธ ํผ๋๋ฐฑ์ผ๋ก ๋ณด๋ ๊ฒ์ด ์ค์ํ๋ค.
โ๏ธย ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ค์ผ ์ ๊ฑฐํ๋ค
๊ณต๊ฐ ๋ฒค์น๋งํฌ์ ์์กดํ ๋์ ํ ๊ฐ์ง ์ํ์ ๋ชจ๋ธ์ด ์ฝ๊ฒ ๊ทธ๊ฒ๋ค์ ๊ณผ์ ํฉ๋ ์ ์๋ค๋ ๊ฒ์ธ๋ฐ, ํนํ ๋ชฉํ ๋ฒค์น๋งํฌ์ ์ ์ฌํ ํ๋กฌํํธ ๋ฐ ์๋ต์ ์์ฑํ๊ธฐ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋ ๋ ๊ทธ๋ ๋ค. ์ด๋ฌํ ์ด์ ๋ก, ๋ชจ๋ธ ๊ฐ๋ฐ์ ์๋ดํ๋ ๋ฐ ์ฌ์ฉํ ํ๊ฐ์ ๋ํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ค์ผ ์ ๊ฑฐํ๋ ๊ฒ์ด ํ์์ ์ด๋ค. Open-R1 (https://github.com/huggingface/open-r1/blob/main/scripts/decontaminate.py) ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ ์คํฌ๋ฆฝํธ๋ฅผ ์ฌ์ฉํ์ฌ N-gram ์ผ์น๋ก ์ด๋ฅผ ์ํํ ์ ์๋ค.
SmolLM3์ ๊ฒฝ์ฐ ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ์ง์นจ์ ์์ ์ ์ผ๋ก ๋ฐ๋ฅด๊ณ ์ํ ๋ฐ ์ฝ๋์ ๊ฐ์ ์ธ๊ธฐ ์๋ ๋๋ฉ์ธ์์ ์ ์ถ๋ก ํ ์ ์๋ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ์ํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋ค๊ตญ์ด์ฑ ๋ฐ ๊ธด ์ปจํ ์คํธ ๊ฒ์ ๊ธฐ๋ฅ์ ๋ณด์กดํ๋๋ก ๋ณด์ฅํ๊ณ ์ถ์๋ค.
์ด๊ฒ์ ์ฐ๋ฆฌ๋ฅผ ๋ค์๊ณผ ๊ฐ์ ํ๊ฐ ์ธํธ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ง๋ค์๋ค:
| ๋ฒค์น๋งํฌ | ์นดํ ๊ณ ๋ฆฌ | ํ๋กฌํํธ ์ | ์งํ |
|---|---|---|---|
| AIME25 | ๊ฒฝ์ ์ํ | 30 | avg@64 |
| LiveCodeBench (๊ฒ์ฆ์ฉ v4, ์ต์ข ์ถ์์ฉ v5) | ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ | 100 (268) | avg@16 |
| GPQA Diamond | ๋ํ์ ์์ค ์ถ๋ก | 198 | avg@8 |
| IFEval | ์ง์นจ ๋ฐ๋ฅด๊ธฐ | 541 | ์ ํ๋ |
| MixEval Hard | ์ ๋ ฌ | 1000 | ์ ํ๋ |
| BFCL v3 | ๋๊ตฌ ์ฌ์ฉ | 4441 | ํผํฉ |
| Global MMLU (๊ฒ์ฆ์ฉ lite) | ๋ค๊ตญ์ด Q&A | 590,000 (6,400) | ์ ํ๋ |
| GSMPlus (๊ฒ์ฆ์ฉ mini) | ๊ฒฌ๊ณ ์ฑ | 10,000 (2,400) | ์ ํ๋ |
| RULER | ๊ธด ์ปจํ ์คํธ | 6,500 | ์ ํ๋ |
์ด ํ๊ฐ๋ค์ด ์ค์ ๋ก ๋ฌด์์ ํ ์คํธํ๋์ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๊ฐ๊ฐ์ ์ป๊ธฐ ์ํด ๊ฐ๊ฐ์ ๋ช ๊ฐ์ง ์์ ์ง๋ฌธ์ ์ดํด๋ณด์:

์์ ์์๋ค์ ํ์ด๋ณด๋ฉด์ ๊ฐ ๋ฒค์น๋งํฌ์ ์ง๋ฌธ ์ ํ์ ๋ด๋ผ. ๋๋ฉ์ธ์ ๋ค์์ฑ์ด ์ฐ๋ฆฌ๊ฐ ์ ๊ฑฐ ์คํ ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๋ฅ๋ ฅ์ ๋ค์ํ ์ธก๋ฉด์ ํ ์คํธํ๊ณ ์์์ ์ด๋ป๊ฒ ๋ณด์ฅํ๋์ง ์ฃผ๋ชฉํด๋ผ.
์ฐ๋ฆฌ๊ฐ ์์ ํ๊ณ ์๋ 30์ต ๋ชจ๋ธ ๊ท๋ชจ์ ๋ํด, ์ฐ๋ฆฌ๋ ์ด๋ฌํ ํ๊ฐ๋ค์ด ์คํ ๊ฐ๋ฅํ ์ ํธ๋ฅผ ์ฃผ๊ณ , ํ์ต ์์ฒด๋ณด๋ค ๋น ๋ฅด๊ฒ ์คํ๋๋ฉฐ, ๊ฐ์ ์ด ์ํ๋ง ๋ ธ์ด์ฆ๊ฐ ์๋๋ผ ์ค์ ๋ผ๋ ํ์ ์ ์ค ๊ฒ์ด๋ผ๊ณ ๋๊ผ๋ค. ์ฐ๋ฆฌ๋ ๋ํ ๊ธฐ๋ณธ ๋ชจ๋ธ ์ฑ๋ฅ์์ ๋๋ฌด ๋ง์ด ํ๊ทํ์ง ์์๋์ง ํ์ธํ๊ธฐ ์ํด ์ฌ์ ํ์ต ํ๊ฐ (์ ์ฒด ๋ชฉ๋ก์ ์ ๊ฑฐ ์คํ ์น์ ์ฐธ์กฐ) ์ ์ฑ๋ฅ๋ ๊ณ์ ์ถ์ ํ๋ค.
โ๏ธํ๊ฐ์ ์ฐ์ ์์๋ฅผ ์ ํ๋ค
์์ ์ด์ผ๊ธฐ๋ ์ฐ๋ฆฌ๊ฐ ํ์ผ๋ก ๋ชจ์ฌ ํ๊ฐ ์ธํธ์ ๋ํด ํฉ์ํ๊ณ , ์ด๋ค ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ ์ ๊ทธ๊ฒ๋ค์ ์ค๋นํ๋ค๋ ๊ฒ์ฒ๋ผ ๋ค๋ฆฐ๋ค. ํ์ค์ ํจ์ฌ ๋ ์ง์ ๋ถํ๋ค: ์ฐ๋ฆฌ๋ ์ด๋ฐํ ๋ง๊ฐ์ผ์ด ์์๊ณ ์์ ๋ง์ ํ๊ฐ๋ค์ด ๊ตฌํ๋๊ธฐ ์ ์ ๋ชจ๋ธ ํ์ต์ ์๋๋ ๋ค (์: RULER๋ ๋ชจ๋ธ ์ถ์ ๋ฉฐ์น ์ ๊น์ง ์ฌ์ฉํ ์ ์์๋ค ๐). ๋์ด์ผ๋ณด๋ฉด ์ด๊ฒ์ ์ค์์์ผ๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๋ค ํต์ฌ ํ๊ฐ๊ฐ ์ฌํ ํ์ต ์ ๋ฐ์ ๊ฑธ์ณ ๋ณด์กด๋์ด์ผ ํ๋์ง ์ฌ์ ํ์ต ํ๊ณผ ๋ ผ์ํ์ด์ผ ํ๊ณ ๊ธฐ๋ณธ ๋ชจ๋ธ ํ์ต์ด ์๋ฃ๋๊ธฐ ํจ์ฌ ์ ์ ๊ทธ๊ฒ๋ค์ ๊ตฌํํ๋ ๊ฒ์ ์ฐ์ ์์๋ก ์ผ์์ด์ผ ํ๋ค. ์ฆ, ๋ค๋ฅธ ๋ชจ๋ ๊ฒ๋ณด๋ค ํ๊ฐ๋ฅผ ์ฐ์ ์ํด์ผ ํ๋ค!
์ฐธ์ฌ ๊ท์น
์์ฒ ๊ฐ์ ๋ชจ๋ธ์ ํ๊ฐํ๋ฉด์ ์ป์ ๋ช ๊ฐ์ง ํ๋ค๊ฒ ์ป์ ๊ตํ์ผ๋ก ์ด ์น์ ์ ์์ฝํ๋ค:
- ๋ชจ๋ธ ๊ฐ๋ฐ ์ค ํ๊ฐ๋ฅผ ๊ฐ์ํํ๊ธฐ ์ํดย ์์ ํ์ ์งํฉ์ ์ฌ์ฉํ๋ค. ์๋ฅผ ๋ค์ด, LiveCodeBench v4๋ v5์ ๋์ ์๊ด๊ด๊ณ๊ฐ ์์ง๋ง ์ ๋ฐ์ ์๊ฐ ๋ง์ ์คํ๋๋ค. ๋์์ผ๋ก, ์ ์ฒด ํ๊ฐ์ ์์ ์ ์ผ๋ก ์ผ์นํ๋ ๊ฐ์ฅ ์์ ํ๋กฌํํธ ํ์ ์งํฉ์ ์ฐพ์ผ๋ ค๋ tinyBenchmarks (Polo et al., 2024)์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
- ์ถ๋ก ๋ชจ๋ธ์ ๊ฒฝ์ฐ,ย ์ฑ์ ๋ย ์ถ๋ ฅ์์ ์๊ฐ์ ์ฌ์ฌ(chain-of-thought)์ ์ ๊ฑฐํ๋ค. ์ด๊ฒ์ ๊ฑฐ์ง ๊ธ์ ์ ์ ๊ฑฐํ๊ณ โ50๋จ์ด ๋ฏธ๋ง์ผ๋ก ์๋ฅผ ์จ๋ผโ์ ๊ฐ์ ์ ์ฝ ์กฐ๊ฑด์ ์๋ฐํ๋ ์๋ต์ ํ๋ํฐ๋ฅผ ์ฃผ๋ IFEval๊ณผ ๊ฐ์ ๋ฒค์น๋งํฌ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค.
- ํ๊ฐ๊ฐย LLM ์ฌํ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์๊ฐ์ ๋ฐ๋ฅธ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ์ฌํ๊ณผ ๋ฒ์ ์ ๊ณ ์ ํ๋ค. ๋ ์ข์ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ ๊ณต๊ธ์๊ฐ ์ฌํ ๋ชจ๋ธ์ ๋ํ ์๋น์ค๋ฅผ ์ค๋จํ๋๋ผ๋ ํ๊ฐ๋ฅผ ์ฌํํ ์ ์๋๋ก ์คํ ๊ฐ์ค์น ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
- ๊ธฐ๋ณธ ๋ชจ๋ธ์ย ์ค์ผ์ ๊ฒฝ๊ณํ๋ค. ์๋ฅผ ๋ค์ด, AIME 2025 ์ด์ ์ ์ถ์๋ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ AIME 2024๋ณด๋ค ํจ์ฌ ๋์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ ์ผ๋ถ ๋ฒค์น๋งํฌ ์ต์ ํ๊ฐ ์์ฉํ์์ ์์ฌํ๋ค.
- ๊ฐ๋ฅํ๋ค๋ฉด, ์ ๊ฑฐ ์คํ ์ค์ ์ฌ์ฉ๋ ๋ชจ๋ ๊ฒ์ย ํ ์คํธ๊ฐ ์๋ย ๊ฒ์ฆ์ผ๋ก ์ทจ๊ธํ๋ค. ์ด๋ Tulu3 ํ๊ฐ ํ๋ ์์ํฌ (Lambert et al., 2025)์ ์ ์ฌํ๊ฒ ์ต์ข ๋ชจ๋ธ ๋ณด๊ณ ์๋ฅผ ์ํด ๋ณด๋ฅ๋ ๋ฒค์น๋งํฌ ์ธํธ๋ฅผ ์ ์งํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ๊ณต๊ฐ ์ค์ํธ์ ๋ํ ๊ณผ์ ํฉ์ ์ก๊ธฐ ์ํด ํญ์ ์์ ์ ๋ฐ์ดํฐ ๋ฐ ์์ ์ ๋ํ ์์ย โ๋ฐ์ด๋ธ ํ๊ฐโย ์ธํธ๋ฅผ ํฌํจํ๋ค.
- ๋ฌธ์ ์๊ฐ ์ ์ ํ๊ฐ (์ผ๋ฐ์ ์ผ๋ก ~2k ๋ฏธ๋ง)์ ๊ฒฝ์ฐ, k๋ฒ ์ํ๋งํ๊ณ avg@k ์ ํ๋๋ฅผ ๋ณด๊ณ ํ๋ค. ์ด๊ฒ์ ๊ฐ๋ฐ ์ค ์๋ชป๋ ๊ฒฐ์ ์ผ๋ก ์ด์ด์ง ์ ์๋ ๋ ธ์ด์ฆ๋ฅผ ์ํํ๋ ๋ฐ ์ค์ํ๋ค.
- ์๋ก์ด ํ๊ฐ๋ฅผ ๊ตฌํํ ๋, ๋ช ๊ฐ์ง ๋ชจ๋ธ์ ๊ณต๊ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณต์ ํ ์ ์๋์ง ํ์ธํ๋ค (์ผ๋ถ ์ค์ฐจ ๋ฒ์ ๋ด์์). ์ด๊ฒ์ ํ์ง ์์ผ๋ฉด ๋์ค์ ๊ตฌํ์ ์์ ํ๊ณ ๋ง์ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ฌํ๊ฐํด์ผ ํ๋ ๊ฒฝ์ฐ ๋ง์ ์๊ฐ์ ๋ญ๋นํ๊ฒ ๋ ๊ฒ์ด๋ค.
- ์์ฌ์ค๋ฌ์ธ ๋๋ ํญ์ ํ๊ฐ ๋ฐ์ดํฐ๋ก ๋์๊ฐ์ ๋ชจ๋ธ์ ๋ฌด์์ ํ๋กฌํํธํ๊ณ ์๋์ง ์ฃผ๋ชฉํด์ ๊ฒ์ฌํ๋ค.
ํ๊ฐ๊ฐ ์ค๋น๋์์ผ๋ฏ๋ก, ์ด์ ๋ชจ๋ธ์ ์ข ํ์ต์ํฌ ์๊ฐ์ด๋ค! ๊ทธ ์ ์, ์ฐ๋ฆฌ๋ ๋จผ์ ์ฌํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ํํด์ผ ํ๋ค.
๋ฌด์ญ์ ๋๊ตฌ (Tools of the trade)
๋ชจ๋ ์ฌํ ํ์ต ๋ ์ํผ ๋ค์๋ ๋๊ท๋ชจ ์คํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํ๋ ์์ํฌ ๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋๊ตฌ ์์๊ฐ ์๋ค. ๊ฐ ํ๋ ์์ํฌ๋ ์์ฒด์ ์ผ๋ก ์ง์๋๋ ์๊ณ ๋ฆฌ์ฆ, ํ์ธ ํ๋ ๋ฐฉ๋ฒ ๋ฐ ํ์ฅ์ฑ ๊ธฐ๋ฅ ์ธํธ๋ฅผ ์ ๊ณตํ๋ค. ์๋ ํ๋ ๊ฐ ํ๋ ์์ํฌ์ ์ง๋ ํ์ธ ํ๋(SFT)์์ ์ ํธ๋ ์ต์ ํ(PO) ๋ฐ ๊ฐํ ํ์ต(RL)์ ์ด๋ฅด๋ ์ฃผ์ ์ง์ ์์ญ์ ์์ฝํ๋ค:
| ํ๋ ์์ํฌ | SFT | PO | RL | ๋ฉํฐ๋ชจ๋ฌ | FullFT | LoRA | ๋ถ์ฐ |
|---|---|---|---|---|---|---|---|
| TRL | โ | โ | โ | โ | โ | โ | โ |
| Axolotl | โ | โ | โ | โ | โ | โ | โ |
| OpenInstruct | โ | โ | โ | โ | โ | โ | โ |
| Unsloth | โ | โ | โ | โ | โ | โ | โ |
| vERL | โ | โ | โ | โ | โ | โ | โ |
| Prime RL | โ | โ | โ | โ | โ | โ | โ |
| PipelineRL | โ | โ | โ | โ | โ | โ | โ |
| ART | โ | โ | โ | โ | โ | โ | โ |
| TorchForge | โ | โ | โ | โ | โ | โ | โ |
| NemoRL | โ | โ | โ | โ | โ | โ | โ |
| OpenRLHF | โ | โ | โ | โ | โ | โ | โ |
์ฌ๊ธฐ์ย FullFT๋ ํ์ต ์ค ๋ชจ๋ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๊ฐ ์ ๋ฐ์ดํธ๋๋ **์ ์ฒด ํ์ธ ํ๋(full fine-tuning)**์ ์๋ฏธํ๋ค.ย LoRA๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋๊ฒฐ๋ ์ํ๋ก ์ ์งํ๋ฉด์ ์์ ์ ์์ ํ๋ ฌ๋ง ์ ๋ฐ์ดํธํ๋ ๋งค๊ฐ๋ณ์ ํจ์จ์ ์ ๊ทผ ๋ฐฉ์์ธย Low-Rank Adaptation์ ๋ํ๋ธ๋ค. ๋ฉํฐ๋ชจ๋ฌ์ ํ ์คํธ ์ด์ธ์ ์์ (์: ์ด๋ฏธ์ง)์ ๋ํ ํ์ต ์ง์ ์ฌ๋ถ๋ฅผ ๋ํ๋ด๋ฉฐ ๋ถ์ฐ์ ํ๋ ์ด์์ GPU์์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด ๊ฐ๋ฅํ์ง ์ฌ๋ถ๋ฅผ ๋ํ๋ธ๋ค.
Hugging Face์์ ์ฐ๋ฆฌ๋ TRL์ ๊ฐ๋ฐํ๊ณ ์ ์ง ๊ด๋ฆฌํ๋ฏ๋ก, ์ด๊ฒ์ด ์ฐ๋ฆฌ๊ฐ ์ ํํ ํ๋ ์์ํฌ์ด๋ฉฐ SmolLM3๋ฅผ ์ฌํ ํ์ต์ํค๋ ๋ฐ ์ฌ์ฉํ์๋ค.
๐ํ๋ ์์ํฌ๋ฅผ ํฌํฌ(fork)ํ๋ผ
์ด ๋ถ์ผ์ ๋น ๋ฅธ ์๋๋ฅผ ๊ฐ์ํ ๋, ์ฐ๋ฆฌ๋ TRL์ ๋ด๋ถ ํฌํฌ์์ ์คํ์ ์คํํ๋ ๊ฒ์ด ๊ฝค ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด๋ฅผ ํตํด ์๋ก์ด ๊ธฐ๋ฅ์ ๋งค์ฐ ๋น ๋ฅด๊ฒ ์ถ๊ฐํ ์ ์์ผ๋ฉฐ, ๋์ค์ ๋ฉ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์ ์คํธ๋ฆผ๋๋ค. ํ๋ ์์ํฌ์ ๋ด๋ถ ์์ ์ ์ต์ํ๋ค๋ฉด, ์ ์ฌํ ์ํฌํ๋ก๋ฅผ ์ฑํํ๋ ๊ฒ์ด ๋น ๋ฅธ ๋ฐ๋ณต์ ์ํ ๊ฐ๋ ฅํ ์ ๊ทผ ๋ฐฉ์์ด ๋ ์ ์๋ค.
๋๋์ฒด ์ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋๊ฐ?
ํ์ต ํ๋ ์์ํฌ ์ฌ์ฉ์ ํํํ๊ณ ๋์ ํญ์ ๋ชจ๋ ๊ฒ์ ์ฒ์๋ถํฐ ๊ตฌํํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋ ์ฐ๊ตฌ์ ๋ถ๋ฅ๊ฐ ์๋ค. ์ฌ๊ธฐ ๋ดํฌ๋ ์ฃผ์ฅ์ โ์ง์ ํโ ์ดํด๋ ๋ชจ๋ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ค์ ๊ตฌํํ๊ฑฐ๋, ๋ชจ๋ ๋ถ์ฐ ํ์ต ๊ธฐ๋ณธ ์์๋ฅผ ์๋์ผ๋ก ์ฝ๋ฉํ๊ฑฐ๋, ์ผํ์ฉ ํ๊ฐ ํ๋ค์ค๋ฅผ ํดํนํ์ฌ ๋ง๋๋ ๊ฒ์์๋ง ๋์จ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ ์ด ์ ์ฅ์ ํ๋ ์ฐ๊ตฌ ๋ฐ ์์ฐ์ ํ์ค์ ๋ฌด์ํ๋ค. RL์ ์๋ก ๋ค์ด๋ณธ๋ค. PPO ๋ฐ GRPO์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌํํ๊ธฐ๊ฐ ๊น๋ค๋ก์ด ๊ฒ์ผ๋ก ์ ๋ช ์ด ๋์ผ๋ฉฐ (Huang et al., 2024), ์ ๊ทํ ๋๋ KL ํ๋ํฐ์ ์์ ์ค์๋ ๋ฉฐ์น ๊ฐ์ ๋ญ๋น๋ ์ปดํจํ ๋ฐ ๋ ธ๋ ฅ์ผ๋ก ์ด์ด์ง ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ์ด๋ค ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ผ ํ์ผ ๊ตฌํ์ ์ง์ ์์ฑํ๊ณ ์ถ์ ์ ์์ง๋ง, ๊ทธ ๋์ผํ ์คํฌ๋ฆฝํธ๊ฐ 10์ต์์ 1000์ต ์ด์์ ๋งค๊ฐ๋ณ์๋ก ํ์ฅ๋ ์ ์์๊น?
ํ๋ ์์ํฌ๋ ๊ธฐ๋ณธ ์ฌํญ์ด ์ด๋ฏธ ์ ์ดํด๋์ด ์๊ณ ๋์์ด ์ฌ๋ฐ๋ช ํ๋ ๊ฒ์ด ์๊ฐ ๋ญ๋น์ด๊ธฐ ๋๋ฌธ์ ์กด์ฌํ๋ค. ๊ทธ๋ ๋ค๊ณ ์ ์์ค ํ ์ปค๋ง์ ๊ฐ์น๊ฐ ์๋ค๋ ๋ง์ ์๋๋ค. PPO๋ฅผ ์ฒ์๋ถํฐ ํ ๋ฒ ๊ตฌํํ๋ ๊ฒ์ ํ๋ฅญํ ๊ณต๋ถ๊ฐ ๋๋ ์ฐ์ต์ด๋ค. ํ๋ ์์ํฌ ์์ด ์ฅ๋๊ฐ ํธ๋์คํฌ๋จธ๋ฅผ ์์ฑํ๋ฉด ์ดํ ์ ์ด ์ค์ ๋ก ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ฐฐ์ธ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ, ๋ง์์ ๋๋ ํ๋ ์์ํฌ๋ฅผ ์ ํํ๊ณ ๋ชฉ์ ์ ๋ง๊ฒ ํดํนํ์ฌ ์ฌ์ฉํ๋ค.
์์๋ฆฌ๋ ๊ทธ๋ง๋๊ณ , ์ฐ๋ฆฌ๊ฐ ์ข ์ข ํ์ต ์คํ์ ์์ํ๋ ๊ณณ์ ์ดํด๋ณด์.
์ (๊ฑฐ์) ๋ชจ๋ ์ฌํ ํ์ต ํ์ดํ๋ผ์ธ์ด SFT๋ก ์์ํ๋๊ฐ
์์ฆ X(ํธ์ํฐ)์์ ์๊ฐ์ ๋ณด๋ธ๋ค๋ฉด, ๊ฐํ ํ์ต(RL)๋ง์ด ์ ์ผํ ๊ฒ์์ด๋ผ๊ณ ์๊ฐํ ๊ฒ์ด๋ค. ๋งค์ผ ์๋ก์ด ์ฝ์ด, ์๊ณ ๋ฆฌ์ฆ ์กฐ์ , ๊ทธ๋ฆฌ๊ณ RL์ด ์๋ก์ด ๋ฅ๋ ฅ์ ๋์ด๋ผ ์ ์๋์ง ์ฌ๋ถ์ ๋ํ ๋จ๊ฑฐ์ด ๋ ผ์์ด ๋ฒ์ด์ง๊ณ ์๋ค (Chu et al., 2025; Yue et al., 2025).
๋ฌผ๋ก RL์ ์๋ก์ด ๊ฒ์ด ์๋๋ค. OpenAI์ ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ ์ด๊ธฐ ๋ชจ๋ธ์ ์ ๋ ฌํ๊ธฐ ์ํด ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RLHF) (Lambert et al., 2022)์ ํฌ๊ฒ ์์กดํ์ง๋ง, DeepSeek-R1 (DeepSeek-AI, Guo, et al., 2025)์ด ์ถ์๋๊ณ ๋์์ผ RL ๊ธฐ๋ฐ ์ฌํ ํ์ต์ด ์คํ ์์ค ์ํ๊ณ์์ ์ง์ ์ผ๋ก ์ธ๊ธฐ๋ฅผ ์ป์๋ค.
๊ทธ๋ฌ๋ ๋ณํ์ง ์์ ํ ๊ฐ์ง๊ฐ ์๋ค: ๊ฑฐ์ ๋ชจ๋ ํจ๊ณผ์ ์ธ ์ฌํ ํ์ต ํ์ดํ๋ผ์ธ์ ์ฌ์ ํ ์ง๋ ํ์ธ ํ๋(SFT)์ผ๋ก ์์ํ๋ค. ์ด์ ๋ ๊ฐ๋จํ๋ค:
- ์ ๋ ดํ๋ค:ย SFT๋ RL์ ๋นํด ์ ๋นํ ์ปดํจํ ์ ์๊ตฌํ๋ค. ์ค๋ฆฌ์ฝ ๋ชจ๋ฅ๋ถ์ ํผ์ฐ์ง ์๊ณ ๋, ๊ทธ๋ฆฌ๊ณ RL์ ํ์ํ ์๊ฐ์ ์ผ๋ถ๋ง์ผ๋ก๋ ์ผ๋ฐ์ ์ผ๋ก ์๋ฏธ ์๋ ์ด๋์ ์ป์ ์ ์๋ค.
- ์์ ์ ์ด๋ค:ย ๋ณด์ ์ค๊ณ ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ทน๋๋ก ๋ฏผ๊ฐํ ๊ฒ์ผ๋ก ์ ๋ช ๋์ RL๊ณผ ๋ฌ๋ฆฌ, SFT๋ โ๊ทธ๋ฅ ์๋ํ๋คโ.
- ์ฌ๋ฐ๋ฅธ ๊ธฐ์ค์ ์ด๋ค:ย ์ข์ SFT ์ฒดํฌํฌ์ธํธ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋ฌ๋ถ์ด ์ถ๊ตฌํ๋ ๋๋ถ๋ถ์ ์ด๋์ ์ ๊ณตํ๋ฉฐ, DPO ๋๋ RLHF์ ๊ฐ์ ๋์ค ๋ฐฉ๋ฒ์ ํจ์ฌ ๋ ํจ๊ณผ์ ์ผ๋ก ๋ง๋ ๋ค.
์ค์ ๋ก, ์ด๊ฒ์ SFT๊ฐ ์ฝ๊ธฐ ๋๋ฌธ์ ์ฒซ ๋จ๊ณ์ผ ๋ฟ๋ง ์๋๋ผ; ๋ ๋ณต์กํ ๊ฒ์ ์๋ํ๊ธฐ ์ ์ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ํฅ์์ํค๋ ๋จ๊ณ์์ ์๋ฏธํ๋ค. ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ์์ ํ ๋ ํนํ ๊ทธ๋ ๋ค. ๋ช ๊ฐ์ง ์์ธ๋ฅผ ์ ์ธํ๊ณ , ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ณ ๊ธ ์ฌํ ํ์ต ๋ฐฉ๋ฒ์ ์ด์ ์ ์ป๊ธฐ์๋ ๋๋ฌด ์ ์ ๋์ง ์์๋ค.
๐DeepSeek R1-Zero๋ ์ด๋ค๊ฐ?
์ต์ ์ ์์๋, SFT๋ก ์์ํ๋ ์ผ๋ฐ์ ์ธ ์ด์ ๊ฐ ํญ์ ์ ์ฉ๋๋ ๊ฒ์ ์๋๋ค. ์ฆ๋ฅํ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ด ์์ผ๋ฉฐ ๊ธด ์๊ฐ์ ์ฌ์ฌ๊ณผ ๊ฐ์ ๋ณต์กํ ํ๋์ ๋ํด ์ธ๊ฐ ์ฃผ์์ ๋๋ฌด ๋ ธ์ด์ฆ๊ฐ ๋ง๋ค. ์ด๊ฒ์ด DeepSeek๊ฐ SFT๋ฅผ ๊ฑด๋๋ฐ๊ณ R1-Zero๋ก ๋ฐ๋ก RL๋ก ๊ฐ ์ด์ ์ด๋ค; ํ์ค ์ง๋๋ก ๊ฐ๋ฅด์น ์ ์๋ ์ถ๋ก ํ๋์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด์์ด๋ค.
์ฌ๋ฌ๋ถ์ด ๊ทธ ์ฒด์ ์ ์๋ค๋ฉด, RL๋ก ์์ํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ผ ์ ์๋ค. ํ์ง๋ง ๊ทธ๊ณณ์์ ์ผํ๊ณ ์๋ค๋ฉดโฆ ์๋ง ์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ์ฝ๊ณ ์์ง ์์ ๊ฒ์ด๋ค ๐.
๋ฐ๋ผ์ SFT๊ฐ ๋๋ถ๋ถ์ ํ์ดํ๋ผ์ธ์ด ์์๋๋ ๊ณณ์ด๋ผ๋ฉด, ๋ค์ ์ง๋ฌธ์:ย ๋ฌด์์ ํ์ธ ํ๋ํด์ผ ํ๋๊ฐ์ด๋ค. ๊ทธ๊ฒ์ ์ฌ๋ฐ๋ฅธ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ํํ๋ ๊ฒ์์ ์์ํ๋ค.
๊ธฐ๋ณธ ๋ชจ๋ธ ์ ํ
์ฌํ ํ์ต์ ์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ํํ ๋, ๋ช ๊ฐ์ง ์ค์ฉ์ ์ธ ์ฐจ์์ด ๊ฐ์ฅ ์ค์ํ๋ค:
- ๋ชจ๋ธ ํฌ๊ธฐ:ย ์ค๋ชฐ(smol) ๋ชจ๋ธ๋ค์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๊ทน์ ์ผ๋ก ๊ฐ์ ๋์์ง๋ง, ์ค๋๋ ์๋ ์ฌ์ ํ ๋ ํฐ ๋ชจ๋ธ์ด ๋ ์ ์ผ๋ฐํํ๊ณ ์ข ์ข ๋ ์ ์ ์ํ๋ก ์ผ๋ฐํํ๋ค. ํ์ต ํ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋ ๋ฐฐํฌํ ๊ณํ์ ๋ํํ๋ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ผ. Hugging Face Hub์์ ์์ ๋ฐ ํฌ๊ธฐ๋ณ๋ก ๋ชจ๋ธ์ ํํฐ๋งํ์ฌ ์ ํฉํ ํ๋ณด๋ฅผ ์ฐพ์ ์ ์๋ค.

- ์ํคํ ์ฒ (MoE ๋ Dense):ย MoE ๋ชจ๋ธ์ ํ ํฐ๋น ๋งค๊ฐ๋ณ์์ ํ์ ์งํฉ์ ํ์ฑํํ๊ณ ์ปดํจํ ๋จ์๋น ๋ ๋์ ์ฉ๋์ ์ ๊ณตํ๋ค. ๋๊ท๋ชจ ์๋น์๋ ํ๋ฅญํ์ง๋ง, ๊ฒฝํ์ ํ์ธ ํ๋ํ๊ธฐ ๋ ๊น๋ค๋กญ๋ค. ๋์กฐ์ ์ผ๋ก, ๋ฐ์งํ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ๋ ๊ฐ๋จํ๊ณ ์ข ์ข ๋ ์์ ๊ท๋ชจ์์ MoE๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค.
- ์ฌํ ํ์ต ์ค์ :ย ๋ฒค์น๋งํฌ๋ ์ ์ฉํ์ง๋ง, ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ปค๋ฎค๋ํฐ์ ๊ณต๋ช ํ๋ ๊ฐ๋ ฅํ ์ฌํ ํ์ต ๋ชจ๋ธ ์ปฌ๋ ์ ์ ๋ณ์๋ค๋ฉด ํจ์ฌ ๋ ์ข๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด ์ ํ์ต๋๋์ง์ ๋ํ ๋๋ฆฌ ์งํ๋ฅผ ์ ๊ณตํ๋ค.
(LocalLLaMa ์๋ธ๋ ๋ง์ ์๋ก์ด ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ๋ถ์๊ธฐ๋ฅผ ์ดํดํ๊ธฐ์ ์ข์ ๊ณณ์ด๋ค. Artificial Analysis ๋ฐ LMArena๋ ์๋ก์ด ๋ชจ๋ธ์ ๋ํ ๋ ๋ฆฝ์ ์ธ ํ๊ฐ๋ฅผ ์ ๊ณตํ์ง๋ง, ์ด๋ฌํ ํ๋ซํผ์ ๋๋๋ก ๋ชจ๋ธ ์ ๊ณต์์ ์ํด ๋ฒค์น๋งํฌ ์ต์ ํ(benchmaxxed)๋๋ค.)
์ฐ๋ฆฌ์ ๊ฒฝํ์, Qwen, Mistral, ๋ฐ DeepSeek์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ฌํ ํ์ต์ ๊ฐ์ฅ ์ ํฉํ๋ฉฐ, Qwen์ ๊ฐ ๋ชจ๋ธ ์๋ฆฌ์ฆ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ํฐ ๋งค๊ฐ๋ณ์ ๋ฒ์ (์: Qwen3 ๋ชจ๋ธ์ 0.6B์์ 235B๊น์ง ๋ค์ํจ!)๋ฅผ ํฌ๊ดํ๊ธฐ ๋๋ฌธ์ ํ์คํ ์ธ๊ธฐ ๋ชจ๋ธ์ด๋ค. ์ด ๊ธฐ๋ฅ์ ํ์ฅ์ ํจ์ฌ ๋ ๊ฐ๋จํ๊ฒ ๋ง๋ ๋ค.
๋ฐฐํฌ ์๊ตฌ ์ฌํญ์ ๋ง๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ ํํ๋ค๋ฉด, ๋ค์ ๋จ๊ณ๋ ํต์ฌ ๊ธฐ์ ์ ์กฐ์ฌํ๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ๋น ๋ฅธ SFT ๊ธฐ์ค์ ์ ์๋ฆฝํ๋ ๊ฒ์ด๋ค.
๊ฐ๋จํ ๊ธฐ์ค์ ํ์ต
SFT์ ๊ฒฝ์ฐ, ์ข์ ๊ธฐ์ค์ ์ ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ , ๋ชจ๋ธ์ ํต์ฌ ๊ธฐ์ ์ ์ง์คํ๋ฉฐ, ํน์ ๋ฅ๋ ฅ์ด ๊ธฐ์ค์ ๋ฏธ์น์ง ๋ชปํ ๋ ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ฅํ๊ธฐ ๊ฐ๋จํด์ผ ํ๋ค. ์ด๊ธฐ ๊ธฐ์ค์ ์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ์ ํํ๋ ๊ฒ์ ๊ณ ํ์ง์ผ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ฐ์ดํฐ์ ์ ๋ํ ์ทจํฅ๊ณผ ์น์ํจ์ ํฌํจํด์ ์ด๋ฃจ์ด์ง๋ค. ์ผ๋ฐ์ ์ผ๋ก ํ์ ๋ฒค์น๋งํฌ์์ ๋์ ์ ์๋ฅผ ๋ณด๊ณ ํ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ๊ณผ๋ํ๊ฒ ์ธ๋ฑ์ฑํ๋ ๊ฒ์ ํผํ๊ณ ๋์ OpenHermes์ ๊ฐ์ ํ๋ฅญํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ์ง์คํ๋ค. ์๋ฅผ ๋ค์ด, SmolLM1 ๊ฐ๋ฐ์์ ์ฐ๋ฆฌ๋ ์ฒ์์ ์๋ฅ์์ผ๋ก๋ ํ๋ฅญํ ๋ฐ์ดํฐ์ ์ธ WebInstruct์ ๋ํด SFT๋ฅผ ์คํํ๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ด๋ธ ํ ์คํธ ์ค์, ๋ชจ๋ธ์ด โ์ ์ง๋ด์ธ์?โ์ ๊ฐ์ ๊ฐ๋จํ ์ธ์ฌ์ ๋ฐฉ์ ์์ผ๋ก ์๋ตํ๊ธฐ ๋๋ฌธ์ ๊ณผํ์ ๋๋ฌด ์ง์ค๋์ด ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
(ํ์ต ๋ฐ์ดํฐ์ ๊ธฐ๋ฒฝ์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด ๋ฐ์ด๋ธ ํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ด ์ฑํฐ์์ ๋ฐ๋ณต๋๋ ์ฃผ์ ์ด๋ค โ ๋จ์ํ ๋ชจ๋ธ๊ณผ ์ฑํ ํ๋ ๊ฒ์ ํ์ ๊ณผ์ํ๊ฐํ์ง ์์์ผ ํ๋ค!)
์ด๋ก ์ธํด ์ฐ๋ฆฌ๋ Everyday Conversations ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ฒ ๋์๊ณ ์ด๋ ์ํ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์ฑํ ๊ธฐ๋ฅ์ ์ฃผ์ ํ๋ ๋ฐ ์ค์ํ ๊ฒ์ผ๋ก ํ๋ช ๋์๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ๋ก ํ๊ณ ์ฒ์์ ์ถ๋ก , ์ง์นจ ๋ฐ๋ฅด๊ธฐ, ๋ฐ ์กฐ์ข ๊ฐ๋ฅ์ฑ์ ๋ชฉํ๋ก ํ๋ ์์ ๋ฐ์ดํฐ์ ์ธํธ๋ฅผ ์ ํํ๋ค. ์๋ ํ๋ ๊ฐ ๋ฐ์ดํฐ์ ์ ํต๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค:
| ๋ฐ์ดํฐ์ | ์ถ๋ก ๋ชจ๋ | ์์ ์ | ์์ % | ํ ํฐ ์ (M) | ํ ํฐ % | ์์ ๋น ํ๊ท ํ ํฐ | ์ปจํ ์คํธ ๋ด ํ๊ท ํ ํฐ | ์๋ต ๋ด ํ๊ท ํ ํฐ | ํ๊ท ํด ์ |
|---|---|---|---|---|---|---|---|---|---|
| Everyday Conversations | /no_think | 2,260 | 2.3 | 0.6 | 0.8 | 260.2 | 222.3 | 94.0 | 7.8 |
| SystemChats 30k | /no_think | 33,997 | 35.2 | 21.5 | 28.2 | 631.9 | 422.8 | 267.7 | 6.3 |
| Tulu 3 SFT Personas IF | /no_think | 29,970 | 31.0 | 13.3 | 17.5 | 444.5 | 119.8 | 380.7 | 2 |
| Everyday Conversations (Qwen3-32B) | /think | 2,057 | 2.1 | 3.1 | 4.1 | 1,522.4 | 376.8 | 1,385.6 | 4 |
| SystemChats 30k (Qwen3-32B) | /think | 27,436 | 28.4 | 29.4 | 38.6 | 1070.8 | 84.6 | 1,042.7 | 2 |
| s1k-1.1 | /think | 835 | 0.9 | 8.2 | 10.8 | 8,859.3 | 370.9 | 9,728.5 | 2 |
| ํฉ๊ณ | - | 96,555 | 100.0 | 76.1 | 100.0 | 2,131.5 | 266.2 | 2,149.9 | 4.0 |
ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๊ธฐ์ค์ ์ ์ํ ๋ฐ์ดํฐ ํผํฉ
SmolLM3 ๊ฐ๋ฐ ์ ๋ฐ์ ๊ฑธ์ณ ๋ฐฐ์ ๋ฏ์ด, ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ ํ์ค SFT๋ณด๋ค ๊น๋ค๋กญ๋ค. ๋จ์ํ ๋ฐ์ดํฐ์ ์ ์์ ์ ์๊ณ ; ๋ชจ๋ ์ ๋ฐ์ ๊ฑธ์ณ ๋ฐ์ดํฐ๋ฅผ **์ง์ง์ด(pair)**์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฐ ์์ ๋ ๋ชจ๋ธ์ด ํ์ฅ๋ ์ถ๋ก ์ ์ฐธ์ฌํด์ผ ํ๋์ง ์๋๋ฉด ๊ฐ๊ฒฐํ ๋ต๋ณ์ ์ ๊ณตํด์ผ ํ๋์ง๋ฅผ ๋ช ํํ๊ฒ ๋ํ๋ด์ผ ํ๋ฉฐ, ์ด์์ ์ผ๋ก๋ ๋ชจ๋๋ฅผ ์ธ์ ์ ํํด์ผ ํ๋์ง ๊ฐ๋ฅด์น๋ ๋ณ๋ ฌ ์์ ๋ฅผ ํ์๋ก ํ๋ค. ์ ํ์์ ์ฃผ๋ชฉํด์ผ ํ ๋ ๋ค๋ฅธ ์ฌํญ์ ์์ ์๊ฐ ์๋ย ํ ํฐ ์ย ์ธก๋ฉด์์ ๋ฐ์ดํฐ ํผํฉ์ ๊ท ํ์ ๋ง์ถฐ์ผ ํ๋ค๋ ๊ฒ์ด๋ค: ์๋ฅผ ๋ค์ด, s1k-1.1 ๋ฐ์ดํฐ์ ์ ์ ์ฒด ์์ ์ ~1%์ด์ง๋ง ๊ธด ์ถ๋ก ์๋ต์ผ๋ก ์ธํด ์ ์ฒด ํ ํฐ์ ~11%๋ฅผ ์ฐจ์งํ๋ค.
์ด๊ฒ์ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ฅ ์ ๊ฒฝ ์ฐ๋ ๊ธฐ์ ์ ๋ฐ์ ๊ฑธ์ณ ๊ธฐ๋ณธ์ ์ธ ๋ฒ์๋ฅผ ์ ๊ณตํ์ง๋ง, ๋ํ ์๋ก์ด ๋์ ์ ๋์ ํ๋ค: ๊ฐ ๋ฐ์ดํฐ์ ์ ํ์ฅ๋ ์ฌ๊ณ ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์ผ ํ๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ํ์ํ๋์ด์ผ ํ๋ค. ์ด๋ฌํ ํ์์ ํตํฉํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ผ๊ด๋ ์ฑํ ํ ํ๋ฆฟ์ด ํ์ํ๋ค.
์ข์ ์ฑํ ํ ํ๋ฆฟ ์ ํ
์ฑํ ํ ํ๋ฆฟ์ ์ ํํ๊ฑฐ๋ ์ค๊ณํ ๋, ๋ชจ๋ ๊ฒ์ ๋ง๋ ์ ๋ต์ ์๋ค. ์ค์ ์ํฉ์์, ์ฐ๋ฆฌ๋ ๋ฏธ๋ฆฌ ์๊ฐํด๋ณผ ๊ฐ์น๊ฐ ์๋ ๋ช ๊ฐ์ง ์ง๋ฌธ์ด ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค:
- ์ฌ์ฉ์๊ฐ ์์คํ ์ญํ ์ ์ฌ์ฉ์ ์ ์ํ ์ ์๋๊ฐ?ย ์ฌ์ฉ์๊ฐ ์์ ์ ์์คํ ํ๋กฌํํธ (์: โํด์ ์ฒ๋ผ ํ๋ํ๋ผโ)๋ฅผ ์ ์ํ ์ ์์ด์ผ ํ๋ค๋ฉด, ํ ํ๋ฆฟ์ ๊ทธ๊ฒ์ ๊น๋ํ๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋ค.
- ๋ชจ๋ธ์ด ๋๊ตฌ๋ฅผ ํ์๋ก ํ๋๊ฐ?ย ๋ชจ๋ธ์ด API๋ฅผ ํธ์ถํด์ผ ํ๋ค๋ฉด, ํ ํ๋ฆฟ์ ๋๊ตฌ ํธ์ถ ๋ฐ ์๋ต์ ์ํ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ์ ์์ฉํด์ผ ํ๋ค.
- ์ถ๋ก ๋ชจ๋ธ์ธ๊ฐ?ย ์ถ๋ก ๋ชจ๋ธ์ย
<think> ... </think>์ ๊ฐ์ ํ ํ๋ฆฟ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ โ์๊ฐโ์ ์ต์ข ๋ต๋ณ๊ณผ ๋ถ๋ฆฌํ๋ค. ์ผ๋ถ ๋ชจ๋ธ์ ๋ํ์ ํด ์ ๋ฐ์ ๊ฑธ์ณ ์ถ๋ก ํ ํฐ์ ๋ฒ๋ฆฌ๋ฉฐ, ์ฑํ ํ ํ๋ฆฟ์ ๊ทธ ๋ก์ง์ ์ฒ๋ฆฌํด์ผ ํ๋ค. - ์ถ๋ก ์์ง๊ณผ ์๋ํ ๊ฒ์ธ๊ฐ?ย vLLM ๋ฐ SGLang๊ณผ ๊ฐ์ ์ถ๋ก ์์ง์ ์ถ๋ก ๋ฐ ๋๊ตฌ๋ฅผ ์ํ ์ ์ฉ ํ์๊ฐ ์๋ค. ์ด๋ฌํ ํ์์์ ํธํ์ฑ์ ๋์ค์ ๋ง์ ๊ณ ํต์ ๋์ด์ค๋ค. ํนํ ์ผ๊ด๋ ๋๊ตฌ ํธ์ถ์ด ํ์์ ์ธ ๋ณต์กํ ์์ด์ ํธ ๋ฒค์น๋งํฌ์์ ๊ทธ๋ ๋ค.
์๋ ํ๋ ๋ช ๊ฐ์ง ์ธ๊ธฐ ์๋ ์ฑํ ํ ํ๋ฆฟ๊ณผ ์ฃผ์ ๊ณ ๋ ค ์ฌํญ ์ ๋ฐ์ ๊ฑธ์น ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค:
| ์ฑํ ํ ํ๋ฆฟ | ์์คํ ์ญํ ์ฌ์ฉ์ ์ ์ | ๋๊ตฌ | ์ถ๋ก | ์ถ๋ก ํธํ์ฑ | ๋น๊ณ |
|---|---|---|---|---|---|
| ChatML | โ | โ | โ | โ | ๊ฐ๋จํ๊ณ ๋๋ถ๋ถ์ ์ฌ์ฉ ์ฌ๋ก์ ์ข์. |
| Qwen3 | โ | โ | โ | โ | ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ํ ํ๋ฆฟ |
| DeepSeek-R1 | โ | โ | โ | โ | <think>๋ก ์ถ๋ก ์ฝํ
์ธ ๋ฅผ ๋ฏธ๋ฆฌ ์ฑ์(Prefills). |
| Llama 3 | โ | โ | โ | โ | ํ์ด์ฌ ์ฝ๋ ์ธํฐํ๋ฆฌํฐ์ ๊ฐ์ ๋ด์ฅ ๋๊ตฌ๊ฐ ์์. |
| Gemma 3 | โ | โ | โ | โ | ์ฒซ ๋ฒ์งธ ์ฌ์ฉ์ ํด์์ ์ ์๋ ์์คํ ์ญํ ์ฌ์ฉ์ ์ ์. |
| Command A Reasoning | โ | โ | โ | โ | ๋ชจ๋ธ๋น ์ฌ๋ฌ ์ฑํ ํ ํ๋ฆฟ. |
| GPT-OSS | โ | โ | โ | โ | Harmony ์๋ต ํ์ ๊ธฐ๋ฐ. ๋ณต์กํ์ง๋ง ๋ค์ฌ๋ค๋ฅํจ. |
๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์, ์ฐ๋ฆฌ๋ ChatML์ด๋ Qwen์ ์ฑํ ํ ํ๋ฆฟ์ด ์์ํ๊ธฐ์ ํ๋ฅญํ ์์์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ์ ์ํ ํ ํ๋ฆฟ์ด ํ์ํ๊ณ Qwen3๊ฐ ์ฐ๋ฆฌ๊ฐ ์ ๊ฒฝ ์ฐ๋ ์ฐจ์ ์ ๋ฐ์ ๊ฑธ์ณ ์ข์ ๊ท ํ์ ์ด๋ฃฌ ๋ช ์ ๋๋ ํ ํ๋ฆฟ ์ค ํ๋๋ผ๋ ๊ฒ์ ํ์ธํ๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๊ฐ ์์ ํ ๋ง์กฑํ์ง ๋ชปํ๋ ํ ๊ฐ์ง ์ฑ์ง์ด ์์๋ค:ย ์ถ๋ก ์ฝํ ์ธ ๊ฐ ๋ํ์ ๋ง์ง๋ง ํด์ ์ ์ธํ ๋ชจ๋ ํด์์ ๋ฒ๋ ค์ง๋ค๋ ๊ฒ์ด๋ค. ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ์ด๊ฒ์ OpenAI์ ์ถ๋ก ๋ชจ๋ธ์ด ์๋ํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๋ค:

์ด๊ฒ์ ์ถ๋ก ์ (์ปจํ ์คํธ ํญ๋ฐ์ ํผํ๊ธฐ ์ํด) ํฉ๋ฆฌ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๋ ํ์ต์ ์ํด์๋ ๋ชจ๋ธ์ ์ ์ ํ๊ฒ ์กฐ๊ฑดํํ๊ธฐ ์ํด ๋ชจ๋ ํด์ ๊ฑธ์ณ ์ถ๋ก ํ ํฐ์ ์ ์งํ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์๋ค.
๋์ , ์ฐ๋ฆฌ๋ ๋ค์ ๊ธฐ๋ฅ์ ๊ฐ์ถ ์์ฒด ์ฑํ ํ ํ๋ฆฟ์ ๋ง๋ค๊ธฐ๋ก ๊ฒฐ์ ํ๋ค:
- Llama 3 ๋ฐ ๋ ์ ๋ชจ๋ธ์์ ํ์ฅ๋ ๊ฒ๊ณผ ๊ฐ์ย ๊ตฌ์กฐํ๋ ์์คํ ํ๋กฌํํธ. ์ฐ๋ฆฌ๋ ๋ํ ์์คํ ํ๋กฌํํธ๋ฅผ ์์ ํ ์ฌ์ ์ํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํ๊ณ ์ถ์๋ค.
- JSON ๋๊ตฌ ํธ์ถ ๋์ ์์์ ํ์ด์ฌ ์ฝ๋๋ฅผ ์คํํ๋ย ์ฝ๋ ์์ด์ ํธย ์ง์.
- ์์คํ ๋ฉ์์ง๋ฅผ ํตํ ์ถ๋ก ๋ชจ๋์ย ๋ช ์์ ์ ์ด.
์ฑํ ํ ํ๋ฆฟ ๋์์ธ์ ๋ฐ๋ณตํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ Chat Template Playground๋ฅผ ์ฌ์ฉํ๋ค. ์ด ํธ๋ฆฌํ ์ ํ๋ฆฌ์ผ์ด์ ์ Hugging Face์ ๋๋ฃ๋ค์ ์ํด ๊ฐ๋ฐ๋์์ผ๋ฉฐ ๋ฉ์์ง๊ฐ ๋ ๋๋ง๋๋ ๋ฐฉ์์ ๋ฏธ๋ฆฌ ๋ณด๊ณ ์์ ๋ฌธ์ ๋ฅผ ๋๋ฒ๊น ํ๊ธฐ ์ฝ๊ฒ ๋ง๋ ๋ค.

๋๋กญ๋ค์ด์์ ๋ค๋ฅธ ์์ ๋ฅผ ์ ํํ์ฌ ์ฑํ ํ ํ๋ฆฟ์ด ๋ฉํฐํด ๋ํ, ์ถ๋ก ๋๋ ๋๊ตฌ ์ฌ์ฉ์ ๋ํด ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ด๋ผ. JSON ์ ๋ ฅ์ ์๋์ผ๋ก ๋ณ๊ฒฝํ์ฌ ๋ค๋ฅธ ๋์์ ํ์ฑํํ ์๋ ์๋ค. ์๋ฅผ ๋ค์ด,ย enable_thinking: false๋ฅผ ์ ๊ณตํ๊ฑฐ๋ ์์คํ ๋ฉ์์ง์ย /no_think๋ฅผ ์ถ๊ฐํ๋ฉด ๋ฌด์จ ์ผ์ด ์ผ์ด๋๋์ง ๋ณด๋ผ.
์ด๊ธฐ ๋ฐ์ดํฐ์ ๊ณผ ์ฑํ ํ ํ๋ฆฟ์ ์ ํ๋ค๋ฉด, ์ด์ ๋ช๋ช ๊ธฐ์ค์ ๋ค์ ํ์ต์์ผ๋ณผ ์ฐจ๋ก์ด๋ค!
์๊ธฐ ๊ธฐ์ค์ (Baby baselines)
์ต์ ํ์ ๋ฐ์ด๋ค๊ณ ์ฑ๋ฅ์ ๋ชจ๋ ์ ์๋ฅผ ์ง๋ด๊ธฐ ์ ์, ์ฐ๋ฆฌ๋ ๋ช ๊ฐ์ง โ์๊ธฐ ๊ธฐ์ค์ โ์ ์๋ฆฝํด์ผ ํ๋ค. ์ด ๊ธฐ์ค์ ๋ค์ (์์ง) ์ต์ฒจ๋จ์ ๋๋ฌํ๋ ๊ฒ์ด ์๋๋ผ, ์ฑํ ํ ํ๋ฆฟ์ด ์ํ๋ ๋๋ก ์ํํ๊ณ ์ด๊ธฐ ํ์ดํผํ๋ผ๋ฏธํฐ ์ธํธ๊ฐ ์์ ์ ์ธ ํ์ต์ ์์ฑํ๋์ง ๊ฒ์ฆํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด ๊ธฐ์ด๋ฅผ ๊ฐ์ถ ํ์๋ง ์ฐ๋ฆฌ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ํ์ต ํผํฉ์ ์ง์ค์ ์ผ๋ก ํ๋ํ๊ธฐ ์์ํ ์ ์๋ค.
SFT ๊ธฐ์ค์ ํ์ต๊ณผ ๊ด๋ จํ์ฌ ๊ณ ๋ คํด์ผ ํ ์ฃผ์ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ ์ฒด ํ์ธ ํ๋(FullFT)์ ์ฌ์ฉํ ๊ฒ์ธ๊ฐ ์๋๋ฉด LoRA๋ QLoRA์ ๊ฐ์ ๋งค๊ฐ๋ณ์ ํจ์จ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ๊ฒ์ธ๊ฐ?ย Thinking Machines์ ํ๋ฅญํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ(https://thinkingmachines.ai/blog/lora/)์ ์ค๋ช ๋ ๋๋ก, LoRA๋ ํน์ ์กฐ๊ฑด (์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ์ํด ๊ฒฐ์ ๋จ) ํ์์ FullFT์ ์ผ์นํ ์ ์๋ค.
- ์ด๋ค ์ ํ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ํ์ํ๊ฐ?ย ์ํ ๋ชจ๋ธ์ด๋ LoRA๋ก ํ์ต๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ก ์ถฉ๋ถํ๋ค. ๋ ํฐ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ชจ๋ธ ๊ฐ์ค์น์ ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ๊ณต์ ํ๊ธฐ ์ํด FSDP2 ๋๋ DeepSpeed ZeRO-3๊ฐ ํ์ํ๋ค. ๊ธด ์ปจํ ์คํธ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ปจํ ์คํธ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
- ํ๋์จ์ด๊ฐ ์ง์ํ๋ ๊ฒฝ์ฐย FlashAttention ๋ฐ Liger์ ๊ฐ์ ์ปค๋์ ์ฌ์ฉํ๋ค.ย ์ด๋ฌํ ์ปค๋ ์ค ๋ค์๋ Hugging Face Hub์ ํธ์คํ ๋์ด ์์ผ๋ฉฐ TRL์์ ๊ฐ๋จํ ์ธ์๋ฅผ ํตํด ์ค์ ํ์ฌ VRAM ์ฌ์ฉ๋์ ํฌ๊ฒ ๋ฎ์ถ ์ ์๋ค.
- ์ด์์คํดํธ ํ ํฐ์ ๋ํด์๋ง ํ์ตํ๋๋ก ์์ค์ ๋ง์คํนํ๋ค.ย ์๋์์ ๋
ผ์ํ๊ฒ ์ง๋ง, ์ด๋ ์ฑํ
ํ
ํ๋ฆฟ์ ์ด์์คํดํธ ํด์ ํน๋ณํย
{% generation %}ย ํค์๋๋ก ๊ฐ์ธ์ ๋ฌ์ฑํ ์ ์๋ค. - ํ์ต๋ฅ ์ ํ๋ํ๋ค;ย ๋ฐ์ดํฐ ์ธ์๋, ์ด๊ฒ์ ๋ชจ๋ธ์ด โ๊ทธ์ ๊ทธ๋ฐโ ๋ โํ๋ฅญํโ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ฐ์ฅ ์ค์ํ ์์์ด๋ค.
- ํ์ต ์ํ์ ํจํน(pack)ํ๊ณ ๋ฐ์ดํฐ ๋ถํฌ์ ์ผ์นํ๋๋ก ์ํ์ค ๊ธธ์ด๋ฅผ ํ๋ํ๋ค.ย ์ด๊ฒ์ ํ์ต ์๋๋ฅผ ๊ทน์ ์ผ๋ก ๋์ผ ๊ฒ์ด๋ค. TRL์๋ ์ด๋ฅผ ์ํํ๋ ํธ๋ฆฌํ ์ ํ๋ฆฌ์ผ์ด์ ์ด ์๋ค.
SmolLM3์ ๋ํด ์ด๋ฌํ ์ ํ ์ค ์ผ๋ถ๊ฐ ์ด๋ป๊ฒ ์ ๊ฐ๋์๋์ง ์ดํด๋ณธ๋ค. ์ฒซ ๋ฒ์งธ ๊ธฐ์ค์ ์คํ์ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ๋จํ ์จ์ ์ฑ ๊ฒ์ฌ(sanity check)๋ฅผ ์ํ๋ค: ์ฑํ ํ ํ๋ฆฟ์ด ์ค์ ๋ก ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ์ ์ด๋์ด๋ด๋๊ฐ? ์ด๋ฅผ ํ ์คํธํ๊ธฐ ์ํด ์ฐ๋ฆฌ ํ ์ด๋ธ์ ์ธ ๊ฐ์ง ๋ฐ์ดํฐ ํผํฉ์ ๋น๊ตํ๋ค:
- Instruct:ย ๋น์ถ๋ก ์์ ์ ๋ํด ํ์ตํ๋ค.
- Thinking:ย ์ถ๋ก ์์ ์ ๋ํด ํ์ตํ๋ค.
- Hybrid:ย ๋ชจ๋ ์์ ์ ๋ํด ํ์ตํ๋ค.
๊ฐ ํผํฉ์ ๋ํด, ์ฐ๋ฆฌ๋ 1e-5์ ํ์ต๋ฅ , 128์ ์ ํจ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ FullFT๋ก SmolLM3-3B-Base์ ๋ํด SFT๋ฅผ ์คํํ๊ณ 1 ์ํฌํฌ ๋์ ํ์ตํ๋ค.
(์ฐ๋ฆฌ๋ ๋๋ถ๋ถ์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ๋ํด, ์ด ํ์ดํผํ๋ผ๋ฏธํฐ ์ ํ์ด ๊ธฐ์ค์ ์ผ๋ก ์ ์๋ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.)
์ด๊ฒ๋ค์ ์์ ๋ฐ์ดํฐ์ ์ด๋ฏ๋ก ํจํน์ ์ฌ์ฉํ์ง ์์์ผ๋ฉฐ, Instruct ํ์ ์งํฉ์ ๊ฒฝ์ฐ ์ํ์ค๋ฅผ 8,192 ํ ํฐ์ผ๋ก, ๋๋จธ์ง๋ 32,768 ํ ํฐ์ผ๋ก ์ ํํ๋ค. 8 x H100์ ํ ๋ ธ๋์์, ์ด๋ฌํ ์คํ์ ๋น ๋ฅด๊ฒ ์คํํ ์ ์์์ผ๋ฉฐ ํ์ ์งํฉ์ ๋ฐ๋ผ 30-90๋ถ ์ฌ์ด๊ฐ ์์๋์๋ค. ์๋ ๊ทธ๋ฆผ์ ํด๋น ์ถ๋ก ๋ชจ๋์ ๋ํ ๊ฐ ํ์ ์งํฉ์ ์ฑ๋ฅ์ ๋น๊ตํ๋ค:

์ด ๊ฒฐ๊ณผ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ด ํ ์ถ๋ก ๋ชจ๋์ ๋ํ ๋ฐ์ดํฐ ํผํฉ์ด ๋ค๋ฅธ ๋ชจ๋์ ๊ฑฐ์ ์ํฅ์ ๋ฏธ์น์ง ์๋ ์ผ์ข ์ โ๋ถ๋ฆฌ ๋(split brain)โ๋ฅผ ๋ํ๋ธ๋ค๋ ๊ฒ์ ๋น ๋ฅด๊ฒ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ Instruct, Thinking ๋ฐ Hybrid ํ์ ์งํฉ ๊ฐ์ ๋๋ถ๋ถ์ ํ๊ฐ๊ฐ ์ ์ฌํ ์ ์๋ฅผ ๊ฐ๋ ๊ฒ์ผ๋ก ๋ถ๋ช ํ์ง๋ง, LiveCodeBench v4 ๋ฐ IFEval์ ์์ธ๋ก ํ์ด๋ธ๋ฆฌ๋ ๋ฐ์ดํฐ๊ฐ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
๊ธฐ์ค์ ๋ฐ์ด๋ธ ํ ์คํธ
ํ๊ฐ๋ ๊ด์ฐฎ์ ๋ณด์์ง๋ง, ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ๋ฅด์๋ (์: ํด์ ์ฒ๋ผ)๋ก ํ๋ํ๊ฒ ํ๋ ค๊ณ ํ์ ๋, ์์คํ ๋ฉ์์ง์ ๋ฐฐ์นํ ๊ฒ์ ๋ฌด์์ด๋ ์ง์์ ์ผ๋ก ๋ฌด์ํ๋ค. ์กฐ๊ธ ํํค์น ํ, ์ฐ๋ฆฌ๋ ๊ทธ ์ด์ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ํํ ๋ฐฉ์ ๋๋ฌธ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค:

๋ฌด์จ ์ผ์ด ์ผ์ด๋ฌ๋ ํ๋ฉด, ์ฑํ ํ ํ๋ฆฟ ์ค๊ณ์์ ์ฐ๋ฆฌ๋ ์์คํ ํ๋กฌํํธ๋ฅผ ์ ์ฅํ๊ธฐ ์ํดย custom_instructionsย ์ธ์๋ฅผ ๋ ธ์ถํ๋ค. ์๋ฅผ ๋ค์ด, ๋ํ์์ ํ๋ฅด์๋๋ฅผ ์ค์ ํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
from transformers import AutoTokenizer
tok = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM3-3B")
messages = [
{
"content": "I'm trying to set up my iPhone, can you help?",
"role": "user",
},
{
"content": "Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]",
"role": "assistant",
},
]
chat_template_kwargs = {
"custom_instructions": "You are a vampire technologist",
"enable_thinking": False,
}
rendered_input = tok.apply_chat_template(
messages, tokenize=False, **chat_template_kwargs
)
print(rendered_input)
## <|im_start|>system
### Metadata
## Knowledge Cutoff Date: June 2025
## Today Date: 28 October 2025
## Reasoning Mode: /no_think
### Custom Instructions
## You are a vampire technologist
## <|im_start|>user
## I'm trying to set up my iPhone, can you help?<|im_end|>
## <|im_start|>assistant
## <think>
## </think>
## Of course, even as a vampire, technology can be a bit of a challenge sometimes # [TRUNCATED]<|im_end|>๋ฌธ์ ๋ ์ฐ๋ฆฌ ๋ฐ์ดํฐ ์ํ์ด ๋ค์๊ณผ ๊ฐ์ด ๋ณด์๋ค๋ ๊ฒ์ด๋ค:
{
"messages": [
{
"content": "I'm trying to set up my iPhone, can you help?",
"role": "user",
},
{
"content": "Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]",
"role": "assistant",
},
],
"chat_template_kwargs": {
"custom_instructions": None,
"enable_thinking": False,
"python_tools": None,
"xml_tools": None,
},
}์ฒ๋ฆฌ ์ฝ๋์ ๋ฒ๊ทธ๊ฐย custom_instructions๋ฅผย None์ผ๋ก ์ค์ ํ๋๋ฐ, ์ด๋ ์ฌ์ค์ ๋ชจ๋ ๋จ์ผ ํ์ต ์ํ์์ ์์คํ ๋ฉ์์ง๋ฅผ ์ ๊ฑฐํ๋ค ๐! ๊ทธ๋์ ์ด๋ฌํ ํ์ต ์ํ์ ๋ํด ๋ฉ์ง ํ๋ฅด์๋๋ฅผ ์ป๋ ๋์ , ์ฐ๋ฆฌ๋ SmolLM3 ๊ธฐ๋ณธ ์์คํ ํ๋กฌํํธ๋ก ๋๋ฌ๋ค:
chat_template_kwargs = {"custom_instructions": None, "enable_thinking": False}
rendered_input = tok.apply_chat_template(messages, tokenize=False, **chat_template_kwargs)
print(rendered_input)
## <|im_start|>system
#### Metadata
## Knowledge Cutoff Date: June 2025
## Today Date: 28 October 2025
## Reasoning Mode: /no_think
#### Custom Instructions
## You are a helpful AI assistant named SmolLM, trained by Hugging Face.
## <|im_start|>user
## I'm trying to set up my iPhone, can you help?<|im_end|>
## <|im_start|>assistant
## <think>
## </think>
## Of course, even as a vampire, technology can be a bit of a challenge sometimes [TRUNCATED]<|im_end|>์ด๊ฒ์ ๋ชจ๋ ํ๋ฅด์๋๊ฐย custom_instructions๋ฅผ ํตํด ์ ์๋๋ SystemChats ํ์ ์งํฉ์ ํนํ ๋ฌธ์ ๊ฐ ๋์์ผ๋ฏ๋ก, ๋ชจ๋ธ์ด ๋ํ ์ค๊ฐ์ ๋ฌด์์๋ก ์บ๋ฆญํฐ๋ฅผ ์ ํํ๋ ๊ฒฝํฅ์ด ์์๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ๋ฅผ ๋ค์ ๊ท์น์ผ๋ก ์ด๋์๋ค:
โ๏ธ๊ท์น
ํ๊ฐ๊ฐ ๊ด์ฐฎ์ ๋ณด์ผ์ง๋ผ๋ ํญ์ ๋ชจ๋ธ์ ๋ฐ์ด๋ธ ํ ์คํธํ๋ค. ์ญ์คํ๊ตฌ, ํ์ต ๋ฐ์ดํฐ์ ๋ฏธ๋ฌํ ๋ฒ๊ทธ๋ฅผ ๋ฐ๊ฒฌํ๊ฒ ๋ ๊ฒ์ด๋ค.
์ด ๋ฒ๊ทธ๋ฅผ ์์ ํ๋ ๊ฒ์ ํ๊ฐ์ ์ํฅ์ ๋ฏธ์น์ง ์์์ง๋ง, ๋ง์นจ๋ด ์ฐ๋ฆฌ๋ ์ฑํ ํ ํ๋ฆฟ๊ณผ ๋ฐ์ดํฐ์ ์์์ด ์๋ํ๊ณ ์๋ค๋ ํ์ ์ ๊ฐ์ก๋ค. ์ค์ ์ด ์์ ๋๊ณ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ด ํ์ธ๋๋ฉด, ๋ค์ ๋จ๊ณ๋ ํน์ ๊ธฐ๋ฅ์ ๊ฐ๋ฐํ๋ ๋ฐ ์ง์คํ๋ ๊ฒ์ด๋ค.
ํน์ ๊ธฐ๋ฅ ํ๊ฒํ
Open-R1 ๊ฐ๋ฐ ์ค์, ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋จ์ผ ํด ์ถ๋ก ๋ฐ์ดํฐ๋ก๋ง ํ์ต์ํค๋ฉด ๋ฉํฐํด์ผ๋ก ์ผ๋ฐํ๋์ง ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด๊ฒ์ ๋๋ผ์ด ์ผ์ด ์๋๋ค; ๊ทธ๋ฌํ ์์ ๊ฐ ์๋ค๋ฉด, ๋ชจ๋ธ์ ํ์ต ๋ถํฌ ๋ฐ์์ ํ ์คํธ๋๊ณ ์๋ ๊ฒ์ด๋ค.
SmolLM3์ ๋ํด ์ด๋ฅผ ์ ๋์ ์ผ๋ก ์ธก์ ํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ย /thinkย ๋๋ย /no_thinkย ํ๊ทธ๋ฅผ ๋ฌด์์๋ก ์ฝ์
ํ์ฌ ๋ชจ๋ธ์ด ์ถ๋ก ๋ชจ๋๋ฅผ ์ผ๊ด๋๊ฒ ์ ํํ ์ ์๋์ง ํ
์คํธํ๋ย ThinkFollow๋ผ๋ ๋ด๋ถ ํ๊ฐ๋ฅผ ๊ฐ๋ฐํ Qwen3์์ ์๊ฐ์ ์ป์๋ค. ๊ตฌํ์์, ์ฐ๋ฆฌ๋ Multi-IF์ ํ๋กฌํํธ๋ฅผ ๊ฐ์ ธ์จ ๋ค์ ๋ชจ๋ธ์ดย <think>์ย </think>ย ํ๊ทธ๋ก ๋ซํ ๋น ๋๋ ๋น์ด ์์ง ์์ ์๊ฐ ๋ธ๋ก์ ์์ฑํ๋์ง ํ์ธํ๋ค. ์์๋๋ก, ํ์ด๋ธ๋ฆฌ๋ ๊ธฐ์ค์ ์ ๊ฒฐ๊ณผ๋ ๋ชจ๋ธ์ด ์ฒซ ๋ฒ์งธ ํด์ ๋์ด ์ถ๋ก ๋ชจ๋๋ฅผ ํ์ฑํํ๋ ๋ฐ ๋์ฐํ๊ฒ ์คํจํจ์ ๋ณด์ฌ์ฃผ์๋ค:

์ด ๊ธฐ๋ฅ์ ์์ ํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ย IFThink๋ผ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ค. Multi-IF ํ์ดํ๋ผ์ธ์ ๊ธฐ๋ฐ์ผ๋ก, ์ฐ๋ฆฌ๋ Tulu 3์ ์ง์นจ ๋ฐ๋ฅด๊ธฐ ํ์ ์งํฉ์์ ๋จ์ผ ํด ์ง์นจ์ ์ฌ์ฉํ๊ณ Qwen3-32B๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ง์นจ๊ณผ ์ถ๋ก ์ถ์ ์ ๋ชจ๋ ์์ฑํจ์ผ๋ก์จ ๊ทธ๊ฒ๋ค์ ๋ฉํฐํด ๊ตํ์ผ๋ก ํ์ฅํ๋ค. ๋ฐฉ๋ฒ์ ์๋์ ์ค๋ช ๋์ด ์๋ค:
(์ฐ๋ฆฌ๋ ์ถฉ๋ํ๋ ์ง์นจ์ ํํฐ๋งํ๋ ๊ฒ์ ๊ณ ๋ คํ์ง๋ง, ์ด๊ธฐ ๊ฒฐ๊ณผ๊ฐ ์ด ๋จ๊ณ๋ฅผ ๊ฑด๋๋ธ ๋งํผ ์ถฉ๋ถํ ๊ฐ๋ ฅํ๋ค.)

์ด ๋ฐ์ดํฐ๋ฅผ ์ฐ๋ฆฌ์ ๊ธฐ์ค์ ํผํฉ์ ํฌํจํ๋ ๊ทน์ ์ธ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ก๋ค:

IFThink๋ก ๋ฉํฐํด ์ถ๋ก ๋ฌธ์ ๋ฅผ ์์ ํ ํ, ์ฐ๋ฆฌ์ ๊ธฐ์ค์ ์ ๋ง์นจ๋ด ์๋ํ ๋๋ก ๋์ํ๋ค; ํด ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด์ฑ์ ์ ์งํ๊ณ , ์ง์นจ์ ๋ฐ๋ฅด๋ฉฐ, ์ฑํ ํ ํ๋ฆฟ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ฌ์ฉํ ์ ์์๋ค. ๊ทธ ๊ธฐ์ด๊ฐ ๋ง๋ จ๋์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ์ผ๋ก ๋์๊ฐ๋ค: ํ์ต ์ค์ ์์ฒด๋ฅผ ํ๋ํ๋ ๊ฒ์ด๋ค.
์ด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์ค์ ๋ก ์ค์ํ๊ฐ?
SFT์์๋, ์ค์ ๋ก ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ช ๊ฐ๋ฟ์ด๋ค. ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ํจํน์ ๋ชจ๋ธ์ด ์ผ๋ง๋ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ ์ผ๋ง๋ ์ ์ผ๋ฐํํ๋์ง์ ๋ํ ๊ฑฐ์ ๋ชจ๋ ๊ฒ์ ๊ฒฐ์ ํ๋ค. ์๊ธฐ ๊ธฐ์ค์ ์์, ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ฑํ ํ ํ๋ฆฟ์ ๊ฒ์ฆํ๊ธฐ ์ํด ํฉ๋ฆฌ์ ์ธ ๊ธฐ๋ณธ๊ฐ์ ์ ํํ๋ค. ์ด์ ์ค์ ์ด ์์ ๋์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์ ํ์ด ๊ธฐ์ค์ ์ ์ผ๋ง๋ ๋ง์ ์ํฅ์ ๋ฏธ์น๋์ง ํ์ธํ๊ธฐ ์ํด ๋ค์ ๋์์๋ค.
์ฌ์ฉ์ ํด ๋ง์คํน (Masking user turns)
์ฑํ ํ ํ๋ฆฟ์ ๋ํ ๋ฏธ๋ฌํ ์ค๊ณ ์ ํ ์ค ํ๋๋ ํ์ต ์ค์ ์ฌ์ฉ์ ํด์ ๋ง์คํนํ ์ง ์ฌ๋ถ์ด๋ค. ๋๋ถ๋ถ์ ์ฑํ ์คํ์ผ ๋ฐ์ดํฐ์ ์์, ๊ฐ ํ์ต ์์ ๋ ๊ต๋๋ก ๋ํ๋๋ ์ฌ์ฉ์ ๋ฐ ์ด์์คํดํธ ๋ฉ์์ง (๋๊ตฌ ํธ์ถ์ด ์์ผ ์ ์์)๋ก ๊ตฌ์ฑ๋๋ค. ๋ชจ๋ธ์ด ๋ชจ๋ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต์ํค๋ฉด, ๊ณ ํ์ง ์ด์์คํดํธ ์๋ต์ ์์ฑํ๋ ๋ฐ ์ง์คํ๋ ๋์ ์ฌ์ฉ์ ์ฟผ๋ฆฌ๋ฅผ ์๋ ์์ฑํ๋ ๊ฒ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ์ฌ์ฉ์ ํด ๋ง์คํน์ ๋ชจ๋ธ์ ์์ค์ด ์ฌ์ฉ์ ๋ฉ์์ง๊ฐ ์๋ ์ด์์คํดํธ ์ถ๋ ฅ์ ๋ํด์๋ง ๊ณ์ฐ๋๋๋ก ๋ณด์ฅํจ์ผ๋ก์จ ์ด๋ฅผ ๋ฐฉ์งํ๋ค:

TRL์์, ๋ง์คํน์ ์ด์์คํดํธ ํ ํฐ ๋ง์คํฌ๋ฅผ ๋ฐํํ ์ ์๋ ์ฑํ
ํ
ํ๋ฆฟ์ ์ ์ฉ๋๋ค. ์ค์ ์ํฉ์์, ์ด๊ฒ์ ๋ค์๊ณผ ๊ฐ์ด ํ
ํ๋ฆฟ์ {% generation %} ํค์๋๋ฅผ ํฌํจํ๋ ๊ฒ์ ์๋ฐํ๋ค:
{%- for message in messages -%}
{%- if message.role == "user" -%}
{{ "<|im_start|>" + message.role + "\n" + message.content + "<|im_end|>\n" }}
{%- elif message.role == "assistant" -%}
{% generation %}
{{ "<|im_start|>assistant" + "\n" + message.content + "<|im_end|>\n" }}
{% endgeneration %}
{%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
{{ "<|im_start|>assistant\n" }}
{%- endif %}๊ทธ๋ฌ๊ณ ๋์, return_assistant_tokens_mask=True์ ํจ๊ป apply_chat_template()์ด ์ฌ์ฉ๋ ๋, ์ฑํ ํ ํ๋ฆฟ์ ๋ํ์ ์ด๋ ๋ถ๋ถ์ด ๋ง์คํน๋์ด์ผ ํ๋์ง ๋ํ๋ผ ๊ฒ์ด๋ค. ๋ค์์ ๊ฐ๋จํ ์์๋ก, ์ด์์คํดํธ ํ ํฐ์๋ ID 1์ด ๋ถ์ฌ๋๋ ๋ฐ๋ฉด, ์ฌ์ฉ์ ํ ํฐ์ ID 0์ผ๋ก ๋ง์คํน๋๋ ๋ฐฉ์์ ๋ณด์ฌ์ค๋ค:
chat_template = '''
{%- for message in messages -%}
{%- if message.role == "user" -%}
{{ "<|im_start|>" + message.role + "\n" + message.content + "<|im_end|>\n" }}
{%- elif message.role == "assistant" %}
{% generation %}
{{ "<|im_start|>assistant" + "\n" + message.content + "<|im_end|>\n" }}
{% endgeneration %}
{%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
{{ "<|im_start|>assistant\n" }}
{%- endif %}
'''
rendered_input = tok.apply_chat_template(messages, chat_template=chat_template, return_assistant_tokens_mask=True, return_dict=True)
print(rendered_input)
## {'input_ids': [128011, 882, 198, 40, 2846, 4560, 311, 743, 709, 856, 12443, 11, 649, 499, 1520, 30, 128012, 198, 257, 128011, 78191, 198, 2173, 3388, 11, 1524, 439, 264, 51587, 11, 5557, 649, 387, 264, 2766, 315, 264, 8815, 7170, 510, 2434, 12921, 9182, 60, 128012, 271], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'assistant_masks': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}์ค์ ์ํฉ์์๋, ๋ง์คํน์ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ์ ํฐ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฉฐ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋ช ์ง์ ์ ๊ฐ์ ์ ์ ๊ณตํ๋ค. SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ IFEval์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋๋ฐ, ์๋ง๋ ๋ชจ๋ธ์ด ํ๋กฌํํธ๋ฅผ ๋ค์ ์ง์ ํ๋ ค๋ ๊ฒฝํฅ์ด ์ ๊ณ ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด์ ๋ ๋ฉด๋ฐํ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ด๋ค. ์ฌ์ฉ์ ๋ง์คํน์ด ๊ฐ ํ๊ฐ ๋ฐ ์ถ๋ก ๋ชจ๋์ ์ด๋ค ์ํฅ์ ๋ฏธ์ณค๋์ง ๋น๊ตํ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค:

ํจํนํ ๊ฒ์ธ๊ฐ ๋ง ๊ฒ์ธ๊ฐ? (To pack or not to pack?)
์ํ์ค ํจํน์ ํ์ต ํจ์จ์ฑ์ ํฐ ์ฐจ์ด๋ฅผ ๋ง๋๋ ํ์ต ์ธ๋ถ ์ฌํญ ์ค ํ๋์ด๋ค. SFT์์ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์ ๊ฐ๋ณ ๊ธธ์ด์ ์ํ์ ํฌํจํ๋ฏ๋ก, ๊ฐ ๋ฐฐ์น๋ ์ปดํจํ ์ ๋ญ๋นํ๊ณ ์๋ ด์ ๋ฆ์ถ๋ ๋ง์ ํจ๋ฉ ํ ํฐ์ ํฌํจํ๋ค.
ํจํน์ ์ํ๋ ์ต๋ ํ ํฐ ๊ธธ์ด์ ๋๋ฌํ ๋๊น์ง ์ฌ๋ฌ ์ํ์ค๋ฅผ ํจ๊ป ์ฐ๊ฒฐํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ฐ๊ฒฐ์ ์ํํ๋ ๋ค์ํ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ, TRL์ ํจํนํ ์ํ์ค์ ์์๊ฐ ๊ธธ์ด์ ์ํด ๊ฒฐ์ ๋๋ โ์ต์ ์ ํฉ ๊ฐ์(best-fit decreasing)โ ์ ๋ต (Ding et al., 2024)์ ์ฑํํ๋ค.

์ฌํ ํ์ต ๋ ์ฌ์ ํ์ต์์์ ํจํน
์ฌ์ ํ์ต์์๋ ์ด๊ฒ์ด ์ค์ ๋ก ์ง๋ฌธ์ด ๋์ง ์๋๋ค. ์์กฐ ๊ฐ์ ํ ํฐ์ ๋ํด ํ์ตํ ๋, ํจ๋ฉ์ ์๋นํ ์์ ์ปดํจํ ์ ๋ญ๋นํ์ง ์์ผ๋ ค๋ฉด ํจํน์ด ํ์์ ์ด๋ค. Megatron-LM ๋ฐ Nanotron๊ณผ ๊ฐ์ ์ฌ์ ํ์ต ํ๋ ์์ํฌ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํจํน์ ๊ตฌํํ๋ค. ์ฌํ ํ์ต์ ๋ค๋ฅด๋ค. ์คํ์ด ๋ ์งง๊ธฐ ๋๋ฌธ์ ํธ๋ ์ด๋์คํ๊ฐ ๋ฐ๋๋ค.
ํจํน์ด ํ์ต์ ์ผ๋ง๋ ํจ์จ์ ์ธ์ง ๊ฐ์ ์ก๊ธฐ ์ํด, ์๋์์ ์ฐ๋ฆฌ๋ ๊ธฐ์ค ๋ฐ์ดํฐ์ ์ 1 ์ํฌํฌ์ ๊ฑธ์ณ ํจํน๊ณผ ๋นํจํน ๊ฐ์ ๋ฐํ์์ ๋น๊ตํ๋ค:

(๋ฐํ์์ด ์ ํจ ๋ฐฐ์น ํฌ๊ธฐ 32 ์ดํ ํํํด์ง๋ ์ด์ ๋ ์ด๊ฒ์ด ๊ธฐ์ธ๊ธฐ ๋์ ์ ํธ์ถํ์ง ์๊ณ ๊ฐ๋ฅํ ๊ฐ์ฅ ํฐ ํฌ๊ธฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค.)
๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ํจํน์ด ์ฒ๋ฆฌ๋์ 3-5๋ฐฐ ํฅ์์ํจ๋ค๋ ๊ฒ์ ์ ์ ์๋ค! ๊ทธ๋ ๋ค๋ฉด ํญ์ ํจํน์ ์ฌ์ฉํด์ผ ํ๋๊ฐ? ์ด๋ ์ ๋ ๋ต์ ๋ฐ์ดํฐ์ ์ด ์ผ๋ง๋ ํฐ์ง์ ๋ฌ๋ ค์๋ค. ํจํน์ ๊ฐ ๋จ๊ณ์ ๋ ๋ง์ ํ ํฐ์ ๋ง์ถค์ผ๋ก์จ ์ํฌํฌ๋น ์ต์ ํ ๋จ๊ณ ์๋ฅผ ์ค์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ค์ ๊ทธ๋ฆผ์์ ์ด๋ฅผ ๋ณผ ์ ์๋ค. ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ๋ฐฐ์น๋น ํ๊ท ๋นํจ๋ฉ ํ ํฐ ์๋ฅผ ์๊ฐํํ๋ค:

ํจํน์ ์ฌ์ฉํ๋ฉด ๋ฐฐ์น๋น ํ ํฐ ์๋ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ํ์ฅ๋๋ฉฐ ํจํน ์๋ ํ์ต์ ๋นํด ์ต์ ํ ๋จ๊ณ๋น ์ต๋ 33๋ฐฐ ๋ ๋ง์ ํ ํฐ์ ํฌํจํ ์ ์๋ค! ๊ทธ๋ฌ๋ ํจํน์ ํ์ต ์ญํ์ ์ฝ๊ฐ ๋ณ๊ฒฝํ ์ ์๋ค: ์ ์ฒด์ ์ผ๋ก ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋์, ๋ ์ ์ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ์ฌ ์ต์ข ์ฑ๋ฅ์ ์ํฅ์ ์ค ์ ์์ผ๋ฉฐ, ํนํ ๊ฐ ์ํ์ด ๋ ์ค์ํ ์์ ๋ฐ์ดํฐ์ ์์ ๊ทธ๋ ๋ค. ์๋ฅผ ๋ค์ด, ๋์ผํ ์ ํจ ๋ฐฐ์น ํฌ๊ธฐ 128์์ ํจํน ๋ ๋นํจํน์ ๋น๊ตํ๋ฉด, IFEval๊ณผ ๊ฐ์ ์ผ๋ถ ํ๊ฐ๊ฐ ๊ฑฐ์ 10ํผ์ผํธ ํฌ์ธํธ์ ์๋นํ ์ฑ๋ฅ ํ๊ฒฉ์ ์ ๋ ๊ฒ์ ๋ณผ ์ ์๋ค:

๋ ์ผ๋ฐ์ ์ผ๋ก, ์ ํจ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 32๋ณด๋ค ํฌ๋ฉด ์ด ํน์ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์ ์ ๋ํด ํ๊ท ์ฑ๋ฅ ์ ํ๊ฐ ์์์ ์ ์ ์๋ค:


์ค์ ์ํฉ์์๋, ๋ฐ์ดํฐ์ ์ด ๋ฐฉ๋ํ ๋๊ท๋ชจ SFT์ ๊ฒฝ์ฐ, ์ปดํจํ ์ ์ฝ์ด ๊ธฐ์ธ๊ธฐ ๋น๋์ ์ฌ์ํ ์ฐจ์ด๋ณด๋ค ํจ์ฌ ํฌ๊ธฐ ๋๋ฌธ์ ํจํน์ ๊ฑฐ์ ํญ์ ์ ์ฉํ๋ค. ๊ทธ๋ฌ๋ ๋ ์๊ฑฐ๋ ๋ ๋ค์ํ ๋ฐ์ดํฐ์ โ ๋๋ฉ์ธ๋ณ ํ์ธ ํ๋์ด๋ ์ ํ๋ ์ธ๊ฐ ํ๋ ์ด์ ๋ฐ์ดํฐ์ ๋ํ ์ง์นจ ํ๋๊ณผ ๊ฐ์ โ ์ ๊ฒฝ์ฐ, ์ํ ์ธ๋ถ์ฑ์ ๋ณด์กดํ๊ณ ๋ชจ๋ ์์ ๊ฐ ์ต์ ํ์ ๊นจ๋ํ๊ฒ ๊ธฐ์ฌํ๋๋ก ๋ณด์ฅํ๊ธฐ ์ํด ํจํน์ ๋นํ์ฑํํ ๊ฐ์น๊ฐ ์์ ์ ์๋ค.
๊ถ๊ทน์ ์ผ๋ก, ์ต์ ์ ์ ๋ต์ ๊ฒฝํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ค: ํจํน์ ํ์ฑํํ๊ณ ์์ํ๊ณ , ์ฒ๋ฆฌ๋๊ณผ ๋ค์ด์คํธ๋ฆผ ํ๊ฐ๋ฅผ ๋ชจ๋ ๋ชจ๋ํฐ๋งํ๊ณ , ์๋ ์ด๋์ด ๋๋ฑํ๊ฑฐ๋ ํฅ์๋ ๋ชจ๋ธ ํ์ง๋ก ์ด์ด์ง๋์ง์ ๋ฐ๋ผ ์กฐ์ ํ๋ค.
ํ์ต๋ฅ ํ๋
์ด์ ๋ง์ง๋ง์ด์ง๋ง ์ฌ์ ํ ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ธ ํ์ต๋ฅ ์ ๋๋ฌํ๋ค. ๋๋ฌด ๋๊ฒ ์ค์ ํ๋ฉด ํ์ต์ด ๋ฐ์ฐํ ์ ์๊ณ ; ๋๋ฌด ๋ฎ์ผ๋ฉด ์๋ ด์ด ๊ณ ํต์ค๋ฝ๊ฒ ๋๋ฆฌ๋ค.
SFT์์ ์ต์ ์ ํ์ต๋ฅ ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ ํ์ต ์ค์ ์ฌ์ฉ๋ ๊ฒ๋ณด๋ค ํ ์๋ฆฟ์ (๋๋ ๊ทธ ์ด์) ์๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ ํ๋ถํ ํํ์ ๊ฐ์ง ๋ชจ๋ธ์์ ์ด๊ธฐํํ๊ณ ์์ผ๋ฉฐ, ๊ณต๊ฒฉ์ ์ธ ์ ๋ฐ์ดํธ๋ ์น๋ช ์ ์ธ ๋ง๊ฐ์ผ๋ก ์ด์ด์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌํ ํ์ต ๋ ์ฌ์ ํ์ต์์์ ํ์ต๋ฅ ํ๋
์ ์ฒด ์คํ์ ๋ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์์ด ์์ฒญ๋๊ฒ ๋น์ผ ์ฌ์ ํ์ต๊ณผ ๋ฌ๋ฆฌ, ์ฌํ ํ์ต ์คํ์ ์ค์ ๋ก ์ ์ฒด ํ์ต๋ฅ ์ค์์ ์ํํ ์ ์์ ๋งํผ ์งง๋ค.
์ฐ๋ฆฌ์ ์คํ์์, ์ฐ๋ฆฌ๋ โ์ต๊ณ ์โ ํ์ต๋ฅ ์ด ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ, ํฌ๊ธฐ ๋ฐ ํจํน ์ฌ์ฉ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ๋์ ํ์ต๋ฅ ์ ํญ๋ฐ์ ์ธ ๊ธฐ์ธ๊ธฐ๋ก ์ด์ด์ง ์ ์์ผ๋ฏ๋ก, ํจํน์ด ํ์ฑํ๋ ๋ ํ์ต๋ฅ ์ ์ฝ๊ฐ ๋ฎ์ถ๋ ๊ฒ์ด ์ข ์ข ๋ ์์ ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์๋์์ ๋ณผ ์ ์๋ฏ์ด, 3e-6 ๋๋ 1e-5์ ์์ ํ์ต๋ฅ ์ ์ฌ์ฉํ๋ ๊ฒ์ด ํฐ ๊ฐ๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค:


(์ค์บํ ํ์ต๋ฅ ๊ฐ ๋ฒ์๋ฅผ ์ ํํ ๋, [1e-6, 3e-6, 1e-5, 3e-5, 1e-4]์ ๊ฐ์ ์ด๊ธฐ ๋ฒ์๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ ์ฉํ๋ค. ์ด๊ฒ์ ๋ ์๋ฆฟ์๋ฅผ ํฌ๊ดํ๋ฉฐ ์ถ๊ฐ ํ๋์ ์ ์ฉํ ์ ์๋ ์์ญ์ ์ขํ ์ ์๊ฒ ํด์ค๋ค.)
ํ๊ท ์ ์ผ๋ก ๋ช ์ ์ ๋ณ๊ฒ ์๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, AIME25์ ๊ฐ์ ๊ฐ๋ณ ๋ฒค์น๋งํฌ๋ฅผ ๋ณด๋ฉด ํ์ต๋ฅ ์ด 1e-5๋ณด๋ค ํด ๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ํฌํฌ ์ ํ์ฅ
์ฐ๋ฆฌ์ ์ ๊ฑฐ ์คํ์์, ์ฐ๋ฆฌ๋ ๋น ๋ฅด๊ฒ ๋ฐ๋ณตํ๊ธฐ ์ํด ๋ณดํต ๋จ์ผ ์ํฌํฌ ๋์ ํ์ตํ๋ค. ์ข์ ๋ฐ์ดํฐ ํผํฉ์ ์๋ณํ๊ณ ํ์ต๋ฅ ๊ณผ ๊ฐ์ ์ฃผ์ ๋งค๊ฐ๋ณ์๋ฅผ ํ๋ํ๋ค๋ฉด, ๋ค์ ๋จ๊ณ๋ ์ต์ข ํ์ต์ ์ํด ์ํฌํฌ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด, ์ฐ๋ฆฌ์ ๊ธฐ์ค ๋ฐ์ดํฐ ํผํฉ์ ๊ฐ์ ธ์ 5 ์ํฌํฌ ๋์ ํ์ตํ๋ฉด, ํ๊ท ์ ์ผ๋ก ๋ช ํผ์ผํธ ํฌ์ธํธ์ ์ฑ๋ฅ์ ๋ ์ง๋ผ ์ ์์์ ์ ์ ์๋ค:


ํ์ต๋ฅ ์ค์บ์์ ๋ณด์๋ฏ์ด, ํ๊ท ์ฑ๋ฅ์ ์ํฌํฌ ์ ํ์ฅ์ด ๊ฐ๋ณ ํ๊ฐ์ ๋ฏธ์น๋ ์ํฅ์ ๊ฐ๋ฆฐ๋ค: ํ์ฅ๋ ์ฌ๊ณ ๋ฅผ ๊ฐ์ง LiveCodeBench v4์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ 1 ์ํฌํฌ์ ๋นํด ์ฑ๋ฅ์ ๊ฑฐ์ ๋ ๋ฐฐ๋ก ์ฌ๋ ธ๋ค!
SFT ๋ฐ์ดํฐ ํผํฉ์ ๋ฐ๋ณตํ๊ณ ๋ชจ๋ธ์ด ํฉ๋ฆฌ์ ์ธ ์์ค์ ์ฑ๋ฅ์ ๋๋ฌํ๋ค๋ฉด, ๋ค์ ๋จ๊ณ๋ ์ข ์ข ์ ํธ๋ ์ต์ ํ๋ ๊ฐํ ํ์ต๊ณผ ๊ฐ์ ๊ณ ๊ธ ๋ฐฉ๋ฒ์ ํ์ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๊ทธ๊ฒ๋ค์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ์ถ๊ฐ ์ปดํจํ ์ ์ง์์ ์ธ ์ฌ์ ํ์ต(continued pretraining)์ ํตํด ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ฐํํ๋ ๋ฐ ์ฐ๋ ๊ฒ์ด ๋ ๋์์ง ๊ณ ๋ คํ ๊ฐ์น๊ฐ ์๋ค.
๐์ฌํ ํ์ต์์์ ์ตํฐ๋ง์ด์
์ฌ์ ํ์ต ์น์ ์์ ์ธ๊ธํ ๋ ๋ค๋ฅธ ์ค์ํ ๊ตฌ์ฑ ์์๋ ์ตํฐ๋ง์ด์ ์ด๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก AdamW๋ ์ฌํ ํ์ต์ ์ํ ๊ธฐ๋ณธ ์ ํ์ผ๋ก ๋จ์ ์๋ค. ์ด๋ฆฐ ์ง๋ฌธ์ Muon๊ณผ ๊ฐ์ ๋์ฒด ์ตํฐ๋ง์ด์ ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ๋์ผํ ์ตํฐ๋ง์ด์ ๋ก ์ฌํ ํ์ต๋์ด์ผ ํ๋์ง ์ฌ๋ถ์ด๋ค. Kimi ํ์ ์ฌ์ ๋ฐ ์ฌํ ํ์ต์ ๋์ผํ ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด Moonlight ๋ชจ๋ธ์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
์ง์์ ์ฌ์ ํ์ต์ ํตํ ์ถ๋ก ๊ฐํ
์ง์์ ์ธ ์ฌ์ ํ์ตโ๋๋ ๋ฉ์ง๊ฒ ๋ค๋ฆฌ๊ณ ์ถ๋ค๋ฉดย ์ค๊ฐ ํ์ต(mid-training)โ์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ฐ์ ธ์ SFT๋ฅผ ์ํํ๊ธฐ ์ ์ ๋๋์ ๋๋ฉ์ธ๋ณ ํ ํฐ์ผ๋ก ๋ ํ์ต์ํค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ค๊ฐ ํ์ต์ SFT์ ๋ชฉํ ๊ธฐ๋ฅ์ด ์ฝ๋ฉ์ด๋ ์ถ๋ก ๊ณผ ๊ฐ์ ๊ณตํต ํต์ฌ ๊ธฐ์ ์ ๊ณต์ ํ ๋ ์ ์ฉํ๋ค. ์ค์ ์์, ์ด๊ฒ์ ๋ชจ๋ธ์ ์ถ๋ก , ํน์ ์ธ์ด, ๋๋ ์ฌ๋ฌ๋ถ์ด ์ ๊ฒฝ ์ฐ๋ ๋ค๋ฅธ ๊ธฐ๋ฅ์ ๋ ์ ์ง์ํ๋ ๋ถํฌ๋ก ์ด๋์ํจ๋ค. ์ด๋ฏธ ๊ทธ ํต์ฌ ๊ธฐ์ ์ ํตํฉํ ๋ชจ๋ธ์์ SFT๋ฅผ ์์ํ๋ฉด ๋ชจ๋ธ์ด ์ฒ์๋ถํฐ ํต์ฌ ๊ธฐ์ ์ ๋ฐฐ์ฐ๊ธฐ ์ํด ์ปดํจํ ์ ์ฌ์ฉํ๋ ๋์ SFT ๋ฐ์ดํฐ์ ํน์ ์ฃผ์ ์ ๋ ์ ์ง์คํ ์ ์๋ค.
์ค๊ฐ ํ์ต ์ ๊ทผ ๋ฐฉ์์ ์ผ๋ฐ ์ฌ์ ํ์ต โ ์ค๊ฐ ํ์ต โ ์ฌํ ํ์ต์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ๊ฐ์ฒํ ULMFit (Howard & Ruder, 2018)์ผ๋ก ๊ฑฐ์ฌ๋ฌ ์ฌ๋ผ๊ฐ๋ฉฐ, ์ด๋ ์ด์ FAIR์ Code World Model (team et al., 2025)๊ณผ ๊ฐ์ ํ๋ LLM์์ ์ผ๋ฐ์ ์ด๋ค.

์ด ์ ๊ทผ ๋ฐฉ์์ Phi-4-Mini-Reasoning (Xu et al., 2025)์ ํ์ต์๋ ์ฌ์ฉ๋์์ง๋ง, ํ ๊ฐ์ง ๋ณํ์ด ์๋ค: ์ ์๋ค์ ์น ๋ฐ์ดํฐ์ ๋ํด ์ง์์ ์ธ ์ฌ์ ํ์ต์ ํ๋ ๋์ , ์ค๊ฐ ํ์ต ์ฝํผ์ค๋ก DeepSeek-R1์์ ์ฆ๋ฅ๋ ์ถ๋ก ํ ํฐ์ ์ฌ์ฉํ๋ค. ๊ฒฐ๊ณผ๋ ์ค๋๋ ฅ ์์์ผ๋ฉฐ, ๋ค๋จ๊ณ ํ์ต์ ํตํด ์ผ๊ด๋๊ณ ํฐ ์ด๋์ ๋ณด์ฌ์ฃผ์๋ค:
| ๋ชจ๋ธ | AIME24 | MATH-500 | GPQA Diamond |
|---|---|---|---|
| Phi-4-Mini | 10.0 | 71.8 | 36.9 |
| + ์ฆ๋ฅ ์ค๊ฐ ํ์ต | 30.0 | 82.9 | 42.6 |
| + ์ฆ๋ฅ ํ์ธ ํ๋ | 43.3 | 89.3 | 48.3 |
| + ๋กค์์ DPO | 50.0 | 93.6 | 49.0 |
| + RL (Phi-4-Mini-Reasoning) | 57.5 | 94.6 | 52.0 |
์ด ๊ฒฐ๊ณผ๋ค์ ์ฐ๋ฆฌ๊ฐ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์๋ํ๋๋ก ์๊ทนํ๋ค. Open-R1์์ ์ถ๋ก ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ณ ํ๊ฐํ ์ด์ ๊ฒฝํ์ผ๋ก๋ถํฐ, ์ฐ๋ฆฌ๋ ์์ ํ ์ธ ๊ฐ์ง ์ฃผ์ ํ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์๋ค:
- Mixture of Thoughts:ย ์ํ, ์ฝ๋, ๊ณผํ ์ ๋ฐ์ ๊ฑธ์ณ DeepSeek-R1์์ ์ฆ๋ฅ๋ 35๋ง ๊ฐ์ ์ถ๋ก ์ํ.
- Llama-Nemotron-Post-Training-Dataset:ย Llama3 ๋ฐ DeepSeek-R1๊ณผ ๊ฐ์ ๋ค์ํ ๋ชจ๋ธ์์ ์ฆ๋ฅ๋ NVIDIA์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ . ์ฐ๋ฆฌ๋ DeepSeek-R1 ์ถ๋ ฅ์ ๋ํด ๋ฐ์ดํฐ์ ์ ํํฐ๋งํ์ฌ ์ฝ 364๋ง ์ํ ๋๋ 187์ต ํ ํฐ์ ์ป์๋ค.
- OpenThoughts3-1.2M:ย QwQ-32B์์ ์ฆ๋ฅ๋ 120๋ง ์ํ, 165์ต ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์ต๊ณ ํ์ง์ ์ถ๋ก ๋ฐ์ดํฐ์ ์ค ํ๋.
์ฐ๋ฆฌ๋ ์ต์ข SFT ํผํฉ์ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ๊ณํ์ด์์ผ๋ฏ๋ก, ํด๋น ๋จ๊ณ๋ฅผ ์ํด Mixture of Thoughts๋ฅผ ์๊ปด๋๊ณ ๋๋จธ์ง๋ ์ค๊ฐ ํ์ต์ ์ํด ์ฌ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค. ์ฐ๋ฆฌ๋ SmolLM3 ํ ํ๋ฆฟ์ด ๋๋ฌด ์ผ์ฐ โ๋ฒ์ธ(burn in)โ๋๋ ๊ฒ์ ํผํ๊ธฐ ์ํด ChatML์ ์ฑํ ํ ํ๋ฆฟ์ผ๋ก ์ฌ์ฉํ๋ค. ๋ํ 128์ ์ ํจ ๋ฐฐ์น ํฌ๊ธฐ๋ก ํ์ต์ ๊ฐ์ํํ๊ธฐ ์ํด 8๊ฐ ๋ ธ๋๋ฅผ ์ฌ์ฉํ์ฌ 2e-5์ ํ์ต๋ฅ ๋ก 5 ์ํฌํฌ ๋์ ํ์ตํ๋ค.
๐์ธ์ ์ค๊ฐ ํ์ต์ ํ๋๊ฐ?
์ฐ๋ฆฌ๊ฐ SFT ์คํ์ ๋ช ๋ฒ ํ ํ์ ์ค๊ฐ ํ์ต์ ๋ ผ์ํ๋ ์ด์ ๊ฐ ๊ถ๊ธํ ์ ์๋ค. ์ฐ๋๊ธฐ์ ์ผ๋ก, ์ค๊ฐ ํ์ต์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋ํ SFT ์ด์ ์ ๋ฐ์ํ๋ค. ๊ทธ๋ฌ๋ ์ค๊ฐ ํ์ต์ ์ํํ๊ธฐ๋ก ํ ๊ฒฐ์ ์ ์ด๊ธฐ SFT ์คํ์ ์คํํ๊ณ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ํ์ธํ ํ์๋ง ๋ช ํํด์ง๋ค. ์ค์ ์์, ์ฌ๋ฌ๋ถ์ ์ข ์ข ๋ฐ๋ณตํ ๊ฒ์ด๋ค: SFT๋ฅผ ์คํํ์ฌ ์ฝํ ์์ญ์ ์๋ณํ๊ณ , ๋ชฉํ ์ค๊ฐ ํ์ต์ ์ํํ ๋ค์, ๋ค์ SFT๋ฅผ ์คํํ๋ค. ์ด ์น์ ์ โSFT๋ง์ผ๋ก ์ถฉ๋ถํ์ง ์์ ๋ ํด์ผ ํ ์ผโ๋ก ์๊ฐํ๋ผ.
๋ น๋ GPU์ ๋ฏธ์คํฐ๋ฆฌ
์ด ์คํ๋ค์ ์คํํ๋ ๊ฒ์ ์ฐ๋ฆฌ ํด๋ฌ์คํฐ์์ ๋๋ผ์ด ๋์ ์ผ๋ก ํ๋ช ๋์๋ค: ๋ ธํ๋ GPU๋ ๋ค์ํ ์ง์ ์์ ์ค๋กํ๋ง๋์ด ํ๋์จ์ด ๊ณ ์ฅ๊ณผ ๊ฐ ์คํ์ ๊ฐ์ ์ฌ์์์ผ๋ก ์ด์ด์ก๋ค. ์ด๋ค ์ํฉ์ด์๋์ง ๋ง๋ณด์ฌ๋๋ฆฌ๊ธฐ ์ํด, ๋ค์์ ์คํ ์ค ํ๋์ ๋ก๊ทธ์ด๋ฉฐ, ๊ฐ ์์์ ์ฌ์์์ ๋ํ๋ธ๋ค:

์ฐ๋ฆฌ๋ ์ฒ์์ DeepSpeed๊ฐ ๋ฒ์ธ์ผ ์ ์๋ค๊ณ ์๊ฐํ๋ค. ์ก์ ๋ฌ๋ ์ดํฐ๊ฐ ์ฒ๋ฆฌ๋์ ๊ณ ๋๋ก ์ต์ ํ๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ํ ์คํธํ๊ธฐ ์ํด DP๋ก ์ ํํ๋๋ฐ, ๋ค์ ๋์์ด ๋์์ง๋ง ์์ค์ด ๊ทน์ ์ผ๋ก ๋ฌ๋๋ค!
(ํ๋ฐค์ค์ ์ฝ๋์์ ๋ฒ๊ทธ๋ฅผ ์ฐพ๋ ๊ฒ์ ์๊ฐ๋ณด๋ค ํํ๋ค. ๋์ด์ผ๋ณด๋ฉด, ์ด ๊ท๋ชจ์ ๊ธด ์คํ์ ๊ฒฝ์ฐ nanotron์ด ์ค์ ๊ฒ์ฆ๋์๊ณ ์ฒ๋ฆฌ๋์ด ๋ ๋นจ๋๊ธฐ ๋๋ฌธ์ ๊ทธ๊ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ํฉ๋ฆฌ์ ์ด์์ ๊ฒ์ด๋ค.)

๋์ค์ ๋ฐ๊ฒฌํ๋ฏ์ด, Accelerate์ DP ๋ฒ๊ทธ๋ก ์ธํด ๊ฐ์ค์น์ ๊ธฐ์ธ๊ธฐ๊ฐ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์ ๋ฐ๋ (์ด ๊ฒฝ์ฐ BF16)๋ก ์ ์ฅ๋์ด ์์น ๋ถ์์ ์ฑ๊ณผ ๋์ ๋ฐ ์ต์ ํ ์ค ๊ธฐ์ธ๊ธฐ ์ ํ๋ ์์ค๋ก ์ด์ด์ก๋ค.
(์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๋๋ถ๋ถ์ ์ก์ ๋ฌ๋ ์ดํฐ๋ โ๋ง์คํฐ ๊ฐ์ค์นโ ๋ฐ ์ตํฐ๋ง์ด์ ์ํ์ FP32๋ฅผ ์ฌ์ฉํ๊ณ ์๋ฐฉํฅ ๋ฐ ์ญ๋ฐฉํฅ ํจ์ค์ ๋ํด์๋ง BF16์ผ๋ก ๋ค์ ์บ์คํ ํ๋ค.)
๊ทธ๋์ ์ฐ๋ฆฌ๋ DeepSpeed๋ก ๋ค์ ์ ํํ๊ณ GPU ๊ณผ์ด ๋ฐ โ๋ฒ์ค์์ ๋จ์ด์งโ์ผ๋ก ์ธํ ์๊ฐ ์์ค์ ์ต์ํํ๊ธฐ ์ํด ๊ณต๊ฒฉ์ ์ธ ์ฒดํฌํฌ์ธํ ์ ์ถ๊ฐํ๋ค. ์ด ์ ๋ต์ ์ฑ๊ณต์ ์์ด ์ ์ฆ๋์์ผ๋ฉฐ ์ฐ๋ฆฌ๊ฐ ๋ ์ผ๋ฐ์ ์ผ๋ก ๊ถ์ฅํ๋ ๊ฒ์ด๋ค:
โ๏ธ๊ท์น
์ฌ์ ํ์ต์์ ๊ฐ์กฐํ๋ฏ์ด, ํ์ต ์คํ ์ค ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ๋ฅผ ์์ฃผ ์ ์ฅํ๊ณ , ์ฐ๋ฐ์ ์ธ ๋ฎ์ด์ฐ๊ธฐ๋ฅผ ํผํ๊ธฐ ์ํด ์ด์์ ์ผ๋ก๋ Hugging Face Hub์ ํธ์ํ๋ค. ๋ํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ฅ์ ์ ๊ฐํ๊ณ ์๋ ์ฌ์์์ด ๊ฐ๋ฅํ๋๋ก ๋ง๋ ๋ค. ์ด ๋ ๊ฐ์ง ์ ๋ต ๋ชจ๋ ์๊ฐ์ ์ ์ฝํด ์ค ๊ฒ์ด๋ค. ํนํ ์ค๊ฐ ํ์ต๊ณผ ๊ฐ์ด ์ฅ๊ธฐ ์คํ ์์ ์ ๊ฒฝ์ฐ ๋์ฑ ๊ทธ๋ ๋ค.
์ฝ ์ผ์ฃผ์ผ ๋์ ์คํ๋ค์ ์ด์ฌํ ๋๋ด์ฃผ์๊ณ , ๋ง์นจ๋ด ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค:

์ ๋ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ NVIDIA์ ์ฌํ ํ์ต ๋ฐ์ดํฐ์ ์ด OpenThoughts๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ์ง๋ง, ํจ๊ป ์ฐ๋ ๊ฒ์ด ์ ์ฒด์ ์ผ๋ก ๊ฐ์ฅ ์ข๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
์ด์ ์ด๋ฌํ ์ฒดํฌํฌ์ธํธ ์ค ํ๋๋ฅผ ๊ฐ์ ธ์ ๋์ผํ ๊ธฐ์ค ๋ฐ์ดํฐ ํผํฉ์ ์ ์ฉํ์ ๋์ ํจ๊ณผ๋ฅผ ์ดํด๋ณด์:


์ฌ์ ํ์ต๋ ๋ชจ๋ธ ๋์ ์ค๊ฐ ํ์ต๋ ์ถ๋ก ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ํจ๊ณผ๋ ๊ทน์ ์ด๋ค: ํ์ฅ๋ ์ฌ๊ณ ๋ก AIME25 ๋ฐ LiveCodeBench v4์์ ์ฑ๋ฅ์ ๊ฑฐ์ ์ธ ๋ฐฐ๋ก ๋๋ ธ๊ณ , GPQA-D๋ ์ ์ฒด 10์ ํฅ์์ ๋ฐ์๋ค. ๋ค์ ๋๋๊ฒ๋, ์ถ๋ก ํต์ฌ์ย /no_thinkย ์ถ๋ก ๋ชจ๋๋ก ๋ถ๋ถ์ ์ผ๋ก ์ด์ ๋์ด, ์ถ๋ก ๋ฒค์น๋งํฌ์์ ์ฝ 4-6์ ํฅ์๋์๋ค. ์ด ๊ฒฐ๊ณผ๋ ์ถ๋ก ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ์ค์ ์ด๋ฏธ ๋ง์ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณด์ง ์์๋ค๋ฉด ์ด๋ ์ ๋์ ์ค๊ฐ ํ์ต์ ์ํํ๋ ๊ฒ์ด ๊ฑฐ์ ํญ์ ํฉ๋ฆฌ์ ์ด๋ผ๋ ๋ช ํํ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
๐์ธ์ ์ค๊ฐ ํ์ต์ ํ์ง ์๋๊ฐ
์ค๊ฐ ํ์ต์ ๋ชจ๋ธ์ด ์๋ก์ด ํต์ฌ ๊ธฐ์ ์ ๋ฐฐ์์ผ ํ ๋ ๋น๋๋ค. ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ธฐ์ ์ ๊ฐ์ง๊ณ ์๊ฑฐ๋ ์คํ์ผ์ด๋ ๋ํ ์ก๋ด๊ณผ ๊ฐ์ ์์ ๋ฅ๋ ฅ์ ๋์ด๋ด๋ ค๊ณ ํ๋ค๋ฉด ๋ ์ ์ฉํ๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ, ์ค๊ฐ ํ์ต์ ๊ฑด๋๋ฐ๊ณ ์ปดํจํ ์ ์ ํธ๋ ์ต์ ํ๋ ๊ฐํ ํ์ต๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํ ๋นํ๋ ๊ฒ์ ๊ถ์ฅํ๋ค.
SFT ๋ฐ์ดํฐ ํผํฉ๊ณผ ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ๋ฅ๋ ฅ์ ํ์ ์ด ์๊ธฐ๋ฉด, ์ด์ ์ ์์ฐ์ค๋ฝ๊ฒ ๊ธฐ์ ํ์ต์์ ๊ธฐ์ ์ ์ ๋ก ์ด๋ํ๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ, ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ํธ๋ ์ต์ ํ์ด๋ค.
SFT์์ ์ ํธ๋ ์ต์ ํ๋ก: ๋ชจ๋ธ์๊ฒ โ๋ ๋์โ์ด ๋ฌด์์ธ์ง ๊ฐ๋ฅด์น๊ธฐ
SFT๋ฅผ ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ๊ณ์ ํ์ฅํ ์ ์์ง๋ง, ์ด๋ ์์ ์์๋ ์ด๋์ด ์ค์ด๋ค๊ฑฐ๋ ๋ชจ๋ธ์ด ์์ ์ ๋ฒ๊ทธ ์๋ ์ฝ๋๋ฅผ ์์ ํ์ง ๋ชปํ๋ ๊ฒ๊ณผ ๊ฐ์ ์คํจํ๋ ๋ชจ์ต์ ๊ด์ฐฐํ๊ฒ ๋ ๊ฒ์ด๋ค. ์์ผ๊น? SFT๋ **๋ชจ๋ฐฉ ํ์ต(imitation learning)**์ ํ ํํ์ด๋ฏ๋ก, ๋ชจ๋ธ์ ํ์ต๋ ๋ฐ์ดํฐ์ ํจํด์ ์ฌ์์ฐํ๋ ๊ฒ๋ง ๋ฐฐ์ฐ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ์ดํฐ์ ์ด๋ฏธ ์ข์ ์์ ์ฌํญ์ด ํฌํจ๋์ด ์์ง ์๊ฑฐ๋ ์ฆ๋ฅ๋ฅผ ํตํด ์ํ๋ ํ๋์ ๋์ด๋ด๊ธฐ ์ด๋ ต๋ค๋ฉด, ๋ชจ๋ธ์ ๋ฌด์์ด โ๋ ๋์โ ๊ฒ์ธ์ง์ ๋ํ ๋ช ํํ ์ ํธ๋ฅผ ์ป์ง ๋ชปํ๋ค.
์ฌ๊ธฐ์ ์ ํธ๋ ์ต์ ํ(preference optimisation)๊ฐ ๋ฑ์ฅํ๋ค. ๋ฐ๋ชจ๋ฅผ ๋จ์ํ ๋ณต์ฌํ๋ ๋์ , ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์๊ฒ โ์๋ต A๊ฐ ์๋ต B๋ณด๋ค ๋ซ๋คโ์ ๊ฐ์ ๋น๊ต ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ค. ์ด๋ฌํ ์ ํธ๋๋ ํ์ง์ ๋ํ ๋ ์ง์ ์ ์ธ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๊ณ ๋ชจ๋ธ ์ฑ๋ฅ์ด SFT๋ง์ ํ๊ณ๋ฅผ ๋์ด ํ์ฅ๋ ์ ์๊ฒ ํด์ค๋ค.
์ ํธ๋ ์ต์ ํ์ ๋ ๋ค๋ฅธ ์ด์ ์ ์์์ ์ด ์ด๋ฏธ ์ง์นจ์ ๋ฐ๋ฅผ ์ ์๊ณ ์ด์ ํ์ต ๋จ๊ณ์ ์ง์์ ๊ฐ์ง๊ณ ์๋ ๊ฝค ์ข์ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก SFT๋ณด๋ค ํจ์ฌ ์ ์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ๋ฐ์ดํฐ์ ์ด ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๋์ง ์ดํด๋ณด์.
์ ํธ๋ ๋ฐ์ดํฐ์ ์์ฑ
์ญ์ฌ์ ์ผ๋ก, ์ ํธ๋ ๋ฐ์ดํฐ์ ์ ์ธ๊ฐ ์ฃผ์์์๊ฒ ๋ชจ๋ธ ์๋ต ์์ ์ ๊ณตํ๊ณ ์ด๋ค ๊ฒ์ด ๋ ๋์์ง (์๋ง๋ ์ฒ๋๋ก) ํ๊ฐํ๋๋ก ์์ฒญํ์ฌ ์์ฑ๋์๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ ํ LLM ์ ๊ณต์๊ฐย ์ธ๊ฐ ์ ํธ๋ย ๋ ์ด๋ธ์ ์์งํ๋ ๋ฐ ์ฌ์ฉ๋์ง๋ง, ๋งค์ฐ ๋น์ธ๊ณ ํ์ฅ์ด ์ ์ ๋๋ค. ์ต๊ทผ, LLM์ ๊ณ ํ์ง ์๋ต์, ์ข ์ข ๋น์ฉ ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ์์ฑํ ์ ์๊ฒ ๋์๋ค. ์ด๋ฌํ ๋ฐ์ ์ LLM์ด ๋ง์ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ํ ์ ํธ๋๋ฅผย ์์ฑํ๋ ๊ฒ์ ์ค์ฉ์ ์ผ๋ก ๋ง๋ ๋ค. ์ค์ ์์, ๋ ๊ฐ์ง ์ผ๋ฐ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ด ์๋ค:
๊ฐํ ๊ฒ ๋ ์ฝํ ๊ฒ (Strong vs. weak)
- ๊ณ ์ ๋ ํ๋กฌํํธ ์ธํธย x๋ฅผ ์ทจํ๋ค (์ข ์ข ๋ฒ์์ ๋์ด๋๋ฅผ ์ํด ํ๋ ์ด์ ๋จ).
- ์ฝํ ๋ชจ๋ธ์ด๋ ๊ธฐ์ค ๋ชจ๋ธ์์ ํ๋์ ์๋ต์ ์์ฑํ๊ณ , ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์์ ๋ค๋ฅธ ํ๋๋ฅผ ์์ฑํ๋ค.
- ๋ ๊ฐํ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ ํ๋ ์๋ตย y_c๋ก, ๋ ์ฝํ ๊ฒ์ ๊ฑฐ๋ถ๋ ์๋ตย y_r๋ก ๋ ์ด๋ธ๋งํ๋ค.
์ด๊ฒ์ โ๋ ๊ฐํ ๊ฒ ๋ ๋ ์ฝํ ๊ฒโ ๋น๊ต ๋ฐ์ดํฐ์ ์ ์์ฑํ๋๋ฐ, ๋ ๊ฐํ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ํ์คํ ๋ ๋ซ๋ค๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๊ตฌ์ถํ๊ธฐ ๊ฐ๋จํ๋ค.
์๋๋ Intel์ ์ธ๊ธฐ ์๋ ์์๋ก, gpt-3.5์ gpt-4์ ์๋ต์ด ํฌํจ๋ SFT ๋ฐ์ดํฐ์ ์ ๊ฐ์ ธ์ gpt-4 ์๋ต์ ์ ํ๋จ์ผ๋ก, gpt-3.5 ์๋ต์ ๊ฑฐ๋ถ๋จ์ผ๋ก ์ ํํ์ฌ ์ ํธ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ณํํ๋ค:

์ฑ์ ์ ํตํ ์จ-ํด๋ฆฌ์ (On-policy with grading)
- ํ์ต์ํฌย ๋์ผํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋์ผํ ํ๋กฌํํธ์ ๋ํด ์ฌ๋ฌ ํ๋ณด ์๋ต์ ์์ฑํ๋ค. ์ด๊ฒ์ ๋ชจ๋ธ์ด ์์ฐ์ค๋ฝ๊ฒ ์์ฑํ ์ถ๋ ฅ์ ๋ถํฌ๋ฅผ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ โ์จ-ํด๋ฆฌ์(on-policy)โ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค.
- ๋ ๊ฐํ ๋ชจ๋ธ์ ๋ ํผ๋ฐ์ค๋ก ์์กดํ๋ ๋์ , ํ๋ ์ด์์ ํ์ง ์ถ (์: ์ ์ฉ์ฑ ๋๋ ์ฌ์ค์ ์ ํ์ฑ)์ ๋ฐ๋ผ ์๋ต์ ์ ์ ๋งค๊ธฐ๋ ๊ฒ์ฆ์(verifier) ๋๋ ๋ณด์ ๋ชจ๋ธ์ธ **์ธ๋ถ ์ฑ์ ์(external grader)**๋ฅผ ๋์ ํ๋ค.
- ๊ทธ๋ฐ ๋ค์ ์ฑ์ ์๋ ํ๋ณด ์๋ต ๊ฐ์ ์ ํธ๋ ๋ ์ด๋ธ์ ํ ๋นํ์ฌ ๋ ๋ฏธ๋ฌํ๊ณ ์ ์ฐํ ์ ํธ๋ ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ค.
์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ด ๊ฐ์ ๋จ์ ๋ฐ๋ผ ์ ํธ๋ ๋ฐ์ดํฐ์ ์ง์์ ์ธ ๋ถํธ์คํธ๋ํ์ ํ์ฉํ์ง๋ง, ๊ทธ ํ์ง์ ํ๊ฐ์์ ์ ๋ขฐ์ฑ๊ณผ ๊ต์ (calibration)์ ํฌ๊ฒ ์์กดํ๋ค.
๊ทธ๋ฌํ ๋ฐ์ดํฐ์ ์ ์ข์ ์๋ SnorkelAI์์ ๋์จ ๊ฒ์ผ๋ก, UltraFeedback์ด๋ผ๋ ์ธ๊ธฐ ์๋ ์ ํธ๋ ๋ฐ์ดํฐ์ ์์ ํ๋กฌํํธ๋ฅผ ๊ฐ์ ธ์ 3๊ฐ ์ธํธ๋ก ๋๋๊ณ , ์ ๋ ์ํผ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ค:

SmolLM3 ๊ฐ๋ฐ ๋น์์๋ ์ถ๋ก ๊ฒฝ๋ก๊ฐ ํฌํจ๋ ์ ํธ๋ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ์ง ์์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ โ๊ฐํ ๊ฒ ๋ ์ฝํ ๊ฒโ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์์ฒด์ ์ผ๋ก ์ผ๋ถ๋ฅผ ์์ฑํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค. ์ฐ๋ฆฌ๋ Ai2์ Tulu 3 ์ ํธ๋ ํผํฉ์ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌย /thinkย ๋ชจ๋์์ Qwen3-0.6B ๋ฐ Qwen3-32B์ ์๋ต์ ์์ฑํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก 25๋ง ๊ฐ ์ด์์ LLM ์์ฑ ์ ํธ๋๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ผ๋ฉฐ, ์ ํธ๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์ถ์ ๊ฑธ์ณ SFT ์ฒดํฌํฌ์ธํธ๋ฅผ ๋์์ ๊ฐ์ ํ ์ค๋น๊ฐ ๋์๋ค.
์ด๋ค ์๊ณ ๋ฆฌ์ฆ์ ์ ํํด์ผ ํ๋๊ฐ?
์ง์ ์ ํธ๋ ์ต์ ํ(Direct Preference Optimization, DPO)ย (Rafailov et al., 2024)๋ ์คํ ์์ค์์ ๋๋ฆฌ ์ฑํ๋ ์ต์ด์ ์ ํธ๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ด์๋ค.
DPO์ ๋งค๋ ฅ์ ๊ตฌํํ๊ธฐ ๊ฐ๋จํ๊ณ , ์ค์ ์์ ์์ ์ ์ด๋ฉฐ, ์ ๋นํ ์์ ์ ํธ๋ ๋ฐ์ดํฐ๋ก๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, DPO๋ RL๊ณผ ๊ฐ์ ๋ ๋ณต์กํ ๊ธฐ์ ์ ๋๋ฌํ๊ธฐ ์ ์ SFT ๋ชจ๋ธ์ ๊ฐ์ ํ๋ ๊ธฐ๋ณธ ๋ฐฉ๋ฒ์ด ๋์๋ค.
๊ทธ๋ฌ๋ ์ฐ๊ตฌ์๋ค์ DPO๋ฅผ ๊ฐ์ ํ ์ ์๋ ๋ง์ ๋ฐฉ๋ฒ์ด ์์์ ๋น ๋ฅด๊ฒ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์ค๋๋ ํ์ํ ์ ์๋ ๋ค์ํ ๋์์ด ์๋ค. ์๋์ ์ฐ๋ฆฌ ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ผ๊ณ ์๊ฐํ ๋ช ๊ฐ์ง๋ฅผ ๋์ดํ๋ค:
- Kahneman-Tversky ์ต์ ํ (KTO)ย [Ethayarajh et al. (2024)]: ์ ํธ๋ ์์ ์์กดํ๋ ๋์ , KTO๋ ์ธ๊ฐ์ ์์ฌ ๊ฒฐ์ ์์ ์์ด๋์ด๋ฅผ ์ป์ด ๊ฐ๋ณ ์๋ต์ด โ๋ฐ๋์งํ์ง ์๋์งโ ๋ชจ๋ธ๋งํ๋ค. ์ง์ ์ด๋ฃฌ ์ ํธ๋ ๋ฐ์ดํฐ (์: ์ต์ข ์ฌ์ฉ์๊ฐ ์์งํ ๐ ๋๋ ๐์ ๊ฐ์ ์์ ์๋ต)์ ์ ๊ทผํ ์ ์๋ ๊ฒฝ์ฐ ์ข์ ์ ํ์ด๋ค.
- ์น์ฐ๋น ์ ํธ๋ ์ต์ ํ (ORPO)ย [Hong et al. (2024)]: ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์น์ฐ๋น(odds ratio)๋ฅผ ์ถ๊ฐํ์ฌ ์ ํธ๋ ์ต์ ํ๋ฅผ SFT์ ์ง์ ํตํฉํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฐธ์กฐ ๋ชจ๋ธ์ด๋ SFT ๋จ๊ณ๊ฐ ํ์ ์์ผ๋ฏ๋ก ์ด ๋ฐฉ๋ฒ์ ๊ณ์ฐ์ ์ผ๋ก ๋ ํจ์จ์ ์ด๋ค.
- ์ต์ปค ์ ํธ๋ ์ต์ ํ (APO)ย [DโOosterlinck et al. (2024)]: ์ด๊ฒ์ ๋จ์ํ ์ฐจ์ด๋ฅผ ์ต์ ํํ๋ ๊ฒ์ด ์๋๋ผ, ์ ํ๋ ์ถ๋ ฅ ๋ ๊ฑฐ๋ถ๋ ์ถ๋ ฅ์ ๋ํ ๋ชจ๋ธ์ ๊ฐ๋ฅ๋๊ฐ ์ผ๋ง๋ ์ด๋ํด์ผ ํ๋์ง ๋ช ์์ ์ผ๋ก ์ ๊ทํํ๋ ๋ ์ ์ด ๊ฐ๋ฅํ ๋ชฉ์ ํจ์์ด๋ค. ๋ ๊ฐ์ง ๋ณํ (APO-zero ๋ฐ APO-down)์ด ์์ผ๋ฉฐ, ๊ทธ ์ ํ์ ๋ชจ๋ธ๊ณผ ์ ํธ๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ, ์ฆ ์ ํ๋ ์ถ๋ ฅ์ด ๋ชจ๋ธ๋ณด๋ค ๋ ๋์์ง ๋์์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
๋คํํ๋, ์ด๋ฌํ ์ ํ ์ค ๋ค์๋ TRL์ย DPOTrainer์์ ํ ์ค ๋ณ๊ฒฝ์ ๋ถ๊ณผํ๋ฏ๋ก, ์ด๊ธฐ ๊ธฐ์ค์ ์ ์ํด ์ฐ๋ฆฌ๋ ๋ค์์ ์ํํ๋ค:
- Ai2์ Tรผlu3 Preference Personas IF ๋ฐ์ดํฐ์ ์ ํ๋กฌํํธ์ ๋ต๋ณ์ ์ฌ์ฉํ์ฌย /no_thinkย ์ถ๋ก ๋ชจ๋๋ก IFEval์์ ์ง์นจ ๋ฐ๋ฅด๊ธฐ ๊ฐ์ ์ ์ธก์ ํ๋ค.
- ์์ ํ๋กฌํํธ๋ฅผ ์ฌ์ฌ์ฉํ์ง๋ง, ์ด์ Qwen3-32B ๋ฐ Qwen3-0.6B๋ก โ๊ฐํ ๊ฒ ๋ ์ฝํ ๊ฒโ ์ ํธ๋ ์์ ์์ฑํ๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์๊ฒย /thinkย ์ถ๋ก ๋ชจ๋์ ๋ํ ์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค.
- 1 ์ํฌํฌ ๋์ ํ์ตํ๊ณ IFEval์ ๋ํ ๋๋ฉ์ธ ๋ด ๊ฐ์ ๊ณผ ํจ๊ป ์ง์นจ ๋ฐ๋ฅด๊ธฐ์ ์ง์ ์ ์ธ ์๊ด๊ด๊ณ๊ฐ ์๋ AIME25์ ๊ฐ์ ๋ค๋ฅธ ํ๊ฐ์ ๋ํ ๋๋ฉ์ธ-๋ฐ ์ํฅ์ ์ธก์ ํ๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋ ์ถ๋ก ๋ชจ๋์ ๋ํ ๋๋ฉ์ธ ๋ด ๊ฐ์ ์ ์๋นํ๋ค: IFEval์์ APO-zero๋ SFT ์ฒดํฌํฌ์ธํธ๋ณด๋ค 15-20ํผ์ผํธ ํฌ์ธํธ ํฅ์๋์๋ค!

APO-zero๋ ๋ํ ์ต๊ณ ์ ์ ๋ฐ์ ์ธ ๋๋ฉ์ธ-๋ฐ ์ฑ๋ฅ์ ๊ฐ์ก์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋๋จธ์ง ์ ๊ฑฐ ์คํ์ ๊ทธ๊ฒ์ ์ฌ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค.
๐์ ํธ๋ ์ต์ ํ๋ ์ถ๋ก ์ ํจ๊ณผ์ ์ด๋ค
์์ ๊ฒฐ๊ณผ์์ ๋ณด๋ฏ์ด, ์ ํธ๋ ์ต์ ํ๋ ๋ชจ๋ธ์ ๋ ๋์์ด ๋๊ฑฐ๋ ์ ๋ ฌ๋๊ฒ ๋ง๋ค ๋ฟ๋ง ์๋๋ผ,ย ๋ ์ ์ถ๋ก ํ๋๋ก ๊ฐ๋ฅด์น๋ค. ์ถ๋ก ๋ชจ๋ธ์ ๊ฐ์ ํ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค๋ฉด, ๊ฐํ ๊ฒ ๋ ์ฝํ ๊ฒ ์ ํธ๋๋ฅผ ์์ฑํ๊ณ ๋ค๋ฅธ ์์ค ํจ์๋ฅผ ์ ๊ฑฐ ์คํํด ๋ณด๋ผ: ๋ฐ๋๋ผ DPO๋ณด๋ค ์๋นํ ๊ฐ์ ์ ํ์ธํ ์ ์์ ๊ฒ์ด๋ค!
์ ํธ๋ ์ต์ ํ์ ๊ฐ์ฅ ์ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ๋ฌด์์ธ๊ฐ?
์ ํธ๋ ์ต์ ํ์ ๊ฒฝ์ฐ, ์ผ๋ฐ์ ์ผ๋ก ํ์ต ์ญํ์ ์ํฅ์ ๋ฏธ์น๋ ์ธ ๊ฐ์ง ํ์ดํผํ๋ผ๋ฏธํฐ๋ง ์๋ค:
- ํ์ต๋ฅ , ์ผ๋ฐ์ ์ผ๋ก SFT์ ์ฌ์ฉ๋ ๊ฒ๋ณด๋ค 10-100๋ฐฐ ๋ ์๋ค.
- ๋งค๊ฐ๋ณ์ ฮฒ, ์ผ๋ฐ์ ์ผ๋ก ์ ํธ๋ ์ ์ฌ์ด์ ๋ง์ง ํฌ๊ธฐ๋ฅผ ์ ์ดํ๋ค.
- ๋ฐฐ์น ํฌ๊ธฐ
SmolLM3์ ๋ํด ์ด๊ฒ๋ค์ด ์ด๋ป๊ฒ ์์ฉํ๋์ง ์ดํด๋ณด์.ย smoltalk2ย ์ ์ฒด์ ๋ํด ํ์ต๋ SFT ์ฒดํฌํฌ์ธํธ๋ถํฐ ์์ํ์.
์ต๊ณ ์ ์ฑ๋ฅ์ ์ํด ์์ ํ์ต๋ฅ ์ฌ์ฉ
์ฐ๋ฆฌ๊ฐ ์คํํ ์ฒซ ๋ฒ์งธ ์ ๊ฑฐ ์คํ์ ํ์ต๋ฅ ์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ํ์ธํ๋ ๊ฒ์ด์๋ค. ์ฐ๋ฆฌ๋ SFT ํ์ต๋ฅ (2e-5)๋ณด๋ค ~200๋ฐฐ ๋ ์์(1e-7) ๊ฒ๋ถํฐ ~2๋ฐฐ ๋ ์์(1e-5) ๊ฒ ์ฌ์ด์ ํ์ต๋ฅ ์ ์ํฅ์ ํ์ธํ๊ธฐ ์ํด ์คํ์ ์งํํ๋ค. Zephyr 7B์ ๊ฐ์ ์ด์ ํ๋ก์ ํธ๋ ์ ํธ๋ ์ต์ ํ ๋ฐฉ๋ฒ์ ๋ํ ์ต๊ณ ์ ํ์ต๋ฅ ์ด SFT์ ์ฌ์ฉ๋ ๊ฒ๋ณด๋ค ์ฝ 10๋ฐฐ ๋ ์๋ค์์ผ ํ๋ค๋ ๊ฒ์ ๊ฐ๋ฅด์ณ ์ฃผ์๊ณ , SmolLM3์ ๋ํด ์คํํ ์ ๊ฑฐ ์คํ์ ์ด ๊ฒฝํ ๋ฒ์น์ ์ฌํ์ธํ๋ค.
์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ~10๋ฐฐ ๋ ์์ ํ์ต๋ฅ ์ ๋ ์ถ๋ก ๋ชจ๋์์ SFT ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง, ๊ทธ 10๋ฐฐ ์ ํ์ ๋์ด์๋ ๋ชจ๋ ํ์ต๋ฅ ์ ํ์ฅ๋ ์ฌ๊ณ ๋ชจ๋์ ๋ํด ๋ ๋์ ์ฑ๋ฅ์ ์ด๋ํ๋ค:



/no_think ์ถ๋ก ๋ชจ๋์ ๋ํ ๊ฒฝํฅ์ ๋ ์์ ์ ์ด๋ฉฐ, ์ต๊ณ ์ ํ์ต๋ฅ ์ 5e-6์ด๋ค. ์ด๊ฒ์ ์ฃผ๋ก ๋จ์ผ ๋ฒค์น๋งํฌ (LiveCodeBench v4)์ ์ํด ์ฃผ๋๋๋ฏ๋ก, ์ฐ๋ฆฌ๋ SmolLM3 ์คํ์ 1e-6์ ์ ํํ๋ค.
์ฌ๋ฌ๋ถ์ ํ์ต ์คํ์ ๋ํ ์ฐ๋ฆฌ์ ๊ถ์ฅ ์ฌํญ์ SFT ํ์ต๋ฅ ๋ณด๋ค 5๋ฐฐ์์ 20๋ฐฐ ๋ ์์ ๋ฒ์์์ ํ์ต๋ฅ ์ค์บ์ ์คํํ๋ ๊ฒ์ด๋ค. ๊ทธ ๋ฒ์ ๋ด์์ ์ต์ ์ ์ฑ๋ฅ์ ์ฐพ์ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ๋๋ค!
ฮฒ ํ๋
ฮฒ ๋งค๊ฐ๋ณ์์ ๋ํด ์คํํ ์คํ์ 0.01์์ 0.99๊น์ง, ๋ ํผ๋ฐ์ค ๋ชจ๋ธ์ ๋ํ ๊ฐ๊ฐ ๋ค๋ฅธ ์ ๋์ ์ ๋ ฌ์ ์ฅ๋ คํ๋ ๊ฐ๋ค์ ํ์ํ๋ค. ์๊ธฐ์ํค์๋ฉด, ๋ฒ ํ ๊ฐ์ด ๋ฎ์์๋ก ๋ ํผ๋ฐ์ค ๋ชจ๋ธ์ ๊ฐ๊น๊ฒ ๋จธ๋ฌด๋ฅด๋ ๊ฒ์ ์ฅ๋ คํ๊ณ ๋์ ๊ฐ์ ๋ชจ๋ธ์ด ์ ํธ๋ ๋ฐ์ดํฐ์ ๋ ๋ฐ์ ํ๊ฒ ์ผ์นํ๋๋ก ํ์ฉํ๋ค. ฮฒ=0.1 ์ ๋ํ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ ์ถ๋ก ๋ชจ๋ ๋ชจ๋์์ ๊ฐ์ฅ ๋์ผ๋ฉฐ SFT ์ฒดํฌํฌ์ธํธ์ ์งํ์ ๋น๊ตํ์ฌ ํฅ์๋๋ค. ๋ฎ์ ๋ฒ ํ ๊ฐ์ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ ํด์น๊ณ SFT ์ฒดํฌํฌ์ธํธ๋ณด๋ค ๋ ๋์ ๋ชจ๋ธ์ ์ด๋ํ๋ ๋ฐ๋ฉด, ํ์ฅ๋ ์ฌ๊ณ ์์ด๋ ์ฌ๋ฌ ฮฒ ๊ฐ์ ๊ฑธ์ณ ์ฑ๋ฅ์ด ์์ ์ ์ผ๋ก ์ ์ง๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ ํธ๋ ์ต์ ํ์ 0.1๋ณด๋ค ํฐ ๊ฐ์ด ๋ฐ๋์งํ๋ฉฐ, ๋ชจ๋ธ์ ์ ํธ๋ ๋ฐ์ดํฐ์ ์ ๋ ฌํ๋ ๊ฒ์ด ๋ ํผ๋ฐ์ค ๋ชจ๋ธ์ ๊ฐ๊น๊ฒ ์ ์งํ๋ ๊ฒ๋ณด๋ค ๋ ์ ๋ฆฌํ๋ค๋ ๊ฒ์ ์์ฌํ๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ 0.01๊ณผ 0.5 ๋ฒ์์ ฮฒ ๊ฐ์ ํ์ํ ๊ฒ์ ์ ์ํ๋ค. ๋ ๋์ ๊ฐ์ ํ๋กฏ์ ํ์๋ ํ๊ฐ์์ ํฌ์ฐฉํ์ง ๋ชปํ ์๋ ์๋ SFT ์ฒดํฌํฌ์ธํธ์ ๋ฅ๋ ฅ์ ์ง์ธ ์ ์๋ค.

์ ํธ๋ ๋ฐ์ดํฐ ํ์ฅ
์ฐ๋ฆฌ๋ ๋ํ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ๊ฒฐ๊ณผ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๊ฒฐ์ ํ๊ธฐ ์ํด ์คํ์ ์คํํ์ฌ 2k์์ 340k ์ ํธ๋ ์์ ๊ฐ์ ํ ์คํธํ๋ค. ์ด ๋ฒ์ ์ ๋ฐ์ ๊ฑธ์ณ ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ์ ์ง๋์๋ค. ํ์ฅ๋ ์ฌ๊ณ ๋ชจ๋์์์ ์ฑ๋ฅ ์ ํ๋ 100k ์ ํธ๋ ์์ ๋์ด์๋ ๋ฐ์ดํฐ์ ์์ ๋ฐ์ํ์ง๋ง, ๊ทธ ์ ํ๋ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฅธ ํ์ต๋ฅ ๊ฐ์์ ๋ณธ ๊ฒ๋งํผ ๋๋๋ฌ์ง์ง๋ ์์๋ค. SmolLM3 ํ์ต ์คํ์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ 169k ์ ํธ๋ ์์ด์์ง๋ง, ๊ฒฐ๊ณผ๋ ๋ ์์ ๋ฐ์ดํฐ์ ๋ SFT ์ฒดํฌํฌ์ธํธ๋ณด๋ค ๊ฐ์ ์ ๋ณด์ฌ์ค์ ๋ณด์ฌ์ค๋ค. ๋ฏธ๋ ํ๋ก์ ํธ๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ ๋ฐ๋ณต ๋จ๊ณ ๋์ ๋ ์์ ๋ฐ์ดํฐ์ ์ผ๋ก ์คํํ ์ ์๋ค๋ ๊ฒ์ ์๊ฒ ๋์๋๋ฐ, ์ฌ๋ฌ ์์ด๋์ด๋ฅผ ์๋ํ๊ณ ๊ฐ์ฅ ์ ๋งํ ๊ตฌ์ฑ์ ๋น ๋ฅด๊ฒ ์๋ณํ๋ ๊ฒ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์ด๋ค.

๋ชจ๋ ๊ฒ์ ํ๋๋ก ๋ชจ์ผ๊ธฐ
์ด ๋ชจ๋ ์ค๋ ๋๋ฅผ ํ๋๋ก ๋ชจ์ ์ต์ข SmolLM3-3B ๋ชจ๋ธ์ ๋ง๋ค์๋ค: ๋๊ธ ํฌ๊ธฐ ์ค ์ต๊ณ ์ด๋ฉฐ Qwen์ ์์ฒด ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ๊ณผ ํจ๊ป ํ๋ ํ ํ๋ก ํธ์ ์์นํ๋ค.
์ถ๋ก ์๋ Instruction ๋ชจ๋ธ

๋ช ์ฃผ๊ฐ์ ์์ ์น๊ณ ๋ ๊ฝค ๊ด์ฐฎ๋ค!
์ฐธ์ฌ ๊ท์น
๋ฏธ๋ ํ๋ก์ ํธ์ ์ ์ฉํ ์ ์๋ ์ ํธ๋ ์ต์ ํ์ ๋ํ ์ฐ๋ฆฌ์ ๋ฐ๊ฒฌ์ ์์ฝํ๊ฒ ๋ค:
- ์์ฒด ์ ํธ๋ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋๋ ค์ํ์ง ๋ง๋ผ!ย ์ถ๋ก ์ด โ๋๋ฌด ์ ๋ ดํด์ ์ธก์ ํ ์ ์์ ์ ๋โ๊ฐ ๋จ์ ๋ฐ๋ผ, ์์ฆ์๋ ๋ค์ํ ์ถ๋ก ์ ๊ณต์๋ก๋ถํฐ LLM ์ ํธ๋๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๊ฐ๋จํ๊ณ ๋น์ฉ ํจ์จ์ ์ด๋ค.
- DPO๋ฅผ ์ด๊ธฐ ๊ธฐ์ค์ ์ผ๋ก ์ ํํ๊ณ ๊ฑฐ๊ธฐ์๋ถํฐ ๋ฐ๋ณตํ๋ผ.ย ์ ํธ๋ ๋ฐ์ดํฐ์ ์ ํ์ ๋ฐ๋ผ ORPO, KTO, ๋๋ APO์ ๊ฐ์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด DPO๋ณด๋ค ์๋นํ ์ด๋์ ์ ๊ณตํ ์ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
- SFT์ ์ฌ์ฉ๋ ๊ฒ๋ณด๋ค ์ฝ 10๋ฐฐ ๋ ์์ ํ์ต๋ฅ ์ ์ฌ์ฉํ๋ผ.
- ฮฒ ์ ๋ํด ์ค์บํ๋ค, ์ผ๋ฐ์ ์ผ๋ก 0.01์์ 0.5 ๋ฒ์์ด๋ค.
- ๋๋ถ๋ถ์ ์ ํธ๋ ์๊ณ ๋ฆฌ์ฆ์ 1 ์ํฌํฌ ํ์ ๊ณผ์ ํฉ๋๋ฏ๋ก,ย ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ๊ณ ์ต๊ณ ์ ์ฑ๋ฅ์ ์ํด ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋ค.
์ ํธ๋ ์ต์ ํ๋ ์ข ์ข ๋จ์์ฑ๊ณผ ์ฑ๋ฅ ์ฌ์ด์ ์ต์ ์ ์ด์ง๋ง, ์ฌ์ ํ ์ง๋ํ์ต์ผ๋ก๋ถํฐ ์ฃผ์ ํ๊ณ๋ฅผ ๋ฌผ๋ ค๋ฐ๋๋ค: ์ค์ง ์์งํ ์ ์๋ ์คํ๋ผ์ธ ์ ํธ๋ ๋ฐ์ดํฐ๋งํผ๋ง ์ข๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ์์ ์์, ์ ์ ๋ฐ์ดํฐ์ ์ ์ ํธ๊ฐ ๊ณ ๊ฐ๋๊ณ ๋ชจ๋ธ์ด ํ๋กฌํํธ ๋ฐ ํ๊ฒฝ๊ณผ ์ํธ ์์ฉํจ์ ๋ฐ๋ผ ์จ๋ผ์ธ์์ ์๋ก์ด ํ์ต ํผ๋๋ฐฑ์ ์์ฑํ ์ ์๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค. ๊ทธ๊ณณ์ด ์ ํธ๋ ์ต์ ํ๊ฐ ์จ-ํด๋ฆฌ์ ๋ฐ RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ ๋์ ๊ฐ์กฑ๋ค๊ณผ ๋ง๋๋ ์ง์ ์ด๋ค.
์จ-ํด๋ฆฌ์ ๋ฐ ์ง๋ ๋ ์ด๋ธ์ ๋์ด์
๋ชจ๋ธ์ด ์ํ ๋ฌธ์ ๋ฅผ ์ผ๊ด๋๊ฒ ํด๊ฒฐํ๊ฑฐ๋, ์คํ ๊ฐ๋ฅํ ์ฝ๋๋ฅผ ์์ฑํ๊ฑฐ๋, ์ฌ๋ฌ ๋จ๊ณ์ ๊ฑธ์ณ ๊ณํํ๊ธฐ๋ฅผ ์ํ๋ค๋ฉด, ๋จ์ํ โA๊ฐ B๋ณด๋ค ๋ซ๋คโ๋ ๊ฒ๋ณด๋ค๋ **๋ณด์ ์ ํธ(reward signal)**๊ฐ ํ์ํ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
์ฌ๊ธฐ์ RL์ด ์๋ฏธ์์ด์ง๊ธฐ ์์ํ๋ค. ์ ํธ๋๋ก ๋ชจ๋ธ์ ๊ฐ๋ ํ๋ ๋์ , ํ๊ฒฝ (์ํ ๊ฒ์ฆ์, ์ฝ๋ ์คํ๊ธฐ, ๋๋ ์ค์ ์ฌ์ฉ์ ํผ๋๋ฐฑ์ผ ์ ์์)๊ณผ ์ํธ ์์ฉํ๊ฒ ํ๊ณ ๊ฒฐ๊ณผ๋ก๋ถํฐ ์ง์ ํ์ตํ๊ฒ ํ๋ ๊ฒ์ด๋ค. RL์ ๋ค์๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์ ๋น๋๋ค:
- ์ ํ๋๋ฅผ ์๋์ผ๋ก ํ์ธํ ์ ์์ ๋, ์: ๋จ์ ํ ์คํธ, ์ํ์ ์ฆ๋ช , API ํธ์ถ, ๋๋ ๊ณ ํ์ง ๊ฒ์ฆ์๋ ๋ณด์ ๋ชจ๋ธ์ ์ ๊ทผํ ์ ์์ ๋.
- ์์ ์ดย ๋ค๋จ๊ณ ์ถ๋ก ๋๋ ๊ณํ์ ํ์๋ก ํ ๋, ์ฌ๊ธฐ์ ๋ก์ปฌ ์ ํธ๋๋ ์ฅ๊ธฐ์ ์ธ ์ฑ๊ณต์ ํฌ์ฐฉํ์ง ๋ชปํ ์ ์๋ค.
- ๋จ์ ํ ์คํธ ํต๊ณผ ๋๋ ๋ชฉํ ์ต๋ํ์ ๊ฐ์ดย ์ ํธ๋ ๋ ์ด๋ธ๋ฅผ ๋์ด์ ๋ชฉํ๋ฅผ ์ํด ์ต์ ํํ๊ณ ์ ํ ๋.
LLM๊ณผ ๊ด๋ จํ์ฌ, RL์๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฐฉํฅ์ฑ์ด ์๋ค:
-
์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต (RLHF):ย ์ด๊ฒ์ OpenAI์ InstructGPT ๋ ผ๋ฌธ (Ouyang et al., 2022)์ ์ํด ๋์คํ๋์์ผ๋ฉฐ gpt-3.5 ๋ฐ ๋ง์ ํ๋ LLM์ ๊ธฐ์ด๊ฐ ๋ ์ ๊ทผ ๋ฐฉ์์ด๋ค. ์ฌ๊ธฐ์, ์ธ๊ฐ ์ฃผ์์๋ ๋ชจ๋ธ ์ถ๋ ฅ (์: โA๊ฐ B๋ณด๋ค ๋ซ๋คโ)์ ๋น๊ตํ๊ณ ๋ณด์ ๋ชจ๋ธ์ด ๊ทธ๋ฌํ ์ ํธ๋๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ ์ฑ ์ ํ์ต๋ ๋ณด์์ ์ต๋ํํ๊ธฐ ์ํด RL๋ก ํ์ธ ํ๋๋๋ค.
(๋ณด์ ๋ชจ๋ธ์ ์ธ๊ฐ ์ ํธ๋๋ฅผ ๊ทผ์ฌํ ๋ฟ์ด๋ฏ๋ก, ๋๋๋ก ๋ณด์ ํดํน(reward hacking)์ ์ฅ๋ คํ ์ ์๋ค. ์ ์ฑ ์ด โ๋ ๋ ๋ ๋โ์ ๊ฐ์ ๋ถํฌ ์ธ ์ํ์ค๋ฅผ ๋ฐฉ์ถํ๊ณ ๊ฐ์ง ๋์ ๋ณด์์ ๋ฐ์ RL ๋ฃจํ๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ตฌ์์ง๋ ๊ฒ์ด๋ค.)
-
๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ ๊ธฐ๋ฐ ๊ฐํ ํ์ต (RLVR):ย ์ด๊ฒ์ DeepSeek-R1์ ์ํด ๋์คํ๋ ์ ๊ทผ ๋ฐฉ์์ด๋ฉฐ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ๋ช ํํ๊ฒ ์ ์๋ ์ ํ์ฑ ๊ธฐ์ค์ ์ถฉ์กฑํ๋์ง ํ์ธํ๋ ๊ฒ์ฆ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํฌํจํ๋ค (์: ์ฝ๋๊ฐ ์ปดํ์ผ๋๊ณ ๋ชจ๋ ํ ์คํธ๋ฅผ ํต๊ณผํ๋๊ฐ, ๋๋ ์ํ์ ๋ต๋ณ์ด ์ฌ๋ฐ๋ฅธ๊ฐ?). ๊ทธ๋ฐ ๋ค์ ์ ์ฑ ์ ๋ ๊ฒ์ฆ ๊ฐ๋ฅํ๊ฒ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ ์์ฑํ๊ธฐ ์ํด RL๋ก ํ์ธ ํ๋๋๋ค.
RLHF์ RLVR ๋ชจ๋ ๋ชจ๋ธ์ด ๋ฌด์์ ์ํด ์ต์ ํ๋๊ณ ์๋์ง๋ฅผ ์ ์ํ์ง๋ง, ๊ทธ ์ต์ ํ๊ฐ ์ด๋ป๊ฒ ์ํ๋์ด์ผ ํ๋์ง๋ ๋งํด์ฃผ์ง ์๋๋ค. ์ค์ ์์, RL ๊ธฐ๋ฐ ํ์ต์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด **์จ-ํด๋ฆฌ์(on-policy)**์ธ์ง **์คํ-ํด๋ฆฌ์(off-policy)**์ธ์ง์ ํฌ๊ฒ ์์กดํ๋ค.
GRPO์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ผ๋กย ์จ-ํด๋ฆฌ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆย ๋ฒ์ฃผ์ ์ํ๋ฉฐ, ๋ต๋ณ์ ์์ฑํ๋ ๋ชจ๋ธ(์ ์ฑ )์ด ์ต์ ํ๋๋ ๋ชจ๋ธ๊ณผ ๋์ผํ๋ค. GRPO๊ฐ ์จ-ํด๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ธ ๊ฒ์ ๋์ฒด๋ก ์ฌ์ค์ด์ง๋ง, ๋ช ๊ฐ์ง ์ฃผ์ ์ฌํญ์ด ์๋ค. ์ฒซ์งธ, ์์ฑ ๋จ๊ณ๋ฅผ ์ต์ ํํ๊ธฐ ์ํด ์ฌ๋ฌ ๋ฐฐ์น์ ์์ฑ์ด ์ํ๋ง๋ ๋ค์ ๋ชจ๋ธ์ ๋ํด k ๋ฒ์ ์ ๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์, ์ฒซ ๋ฒ์งธ ๋ฐฐ์น๋ ์จ-ํด๋ฆฌ์์ด๊ณ ๋ค์ ๋ช ๋ฐฐ์น๋ ์ฝ๊ฐ ์คํ-ํด๋ฆฌ์์ด๋ค.
์์ฑ์ ์ฌ์ฉ๋ ๋ชจ๋ธ๊ณผ ์ต์ ํ๋๋ ํ์ฌ ๋ชจ๋ธ ์ฌ์ด์ ์ ์ฑ ์ง์ฐ(policy-lag)์ ์ค๋ช ํ๊ธฐ ์ํด, ์ค์๋ ์ํ๋ง(importance sampling)๊ณผ ํด๋ฆฌํ์ด ํ ํฐ ํ๋ฅ ์ ๋ค์ ๊ฐ์ค์น ์ฌ๋ถ์ฌ ๋ฐ ์ ๋ฐ์ดํธ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
(์ฐ๋ฆฌ๋ ์ฌ๊ธฐ์ ์คํ-ํด๋ฆฌ์ RL์ ์ธ๊ธํ์ง๋ง, Q-learning๊ณผ ๊ฐ์ด ๊ถค์ (trajectory)์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ ์ฑ ์ด ์ต์ ํ๋๋ ์ ์ฑ ๊ณผ ์์ ํ ๋ค๋ฅผ ์ ์๋ ๋ช ๊ฐ์ง ์ง์ ํ ์คํ-ํด๋ฆฌ์ RL ์๊ณ ๋ฆฌ์ฆ์ด ์๋ค. GRPO๊ฐ LLM์ ์ ์ฉ๋ ๋, ์์ฑ์ ์ฌ์ฉ๋๋ ์ ์ฑ ์ ์ต์ ํ์ ์ฌ์ฉ๋๋ ์ ์ฑ ๋ณด๋ค ๋ค์ฒ์ง ์ ์์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๋ ์ฌ์ด์ 16๋จ๊ณ ๋ฏธ๋ง์ ์ฐจ์ด๊ฐ ์๋ค.)
LLM์ ์๊ธฐ ํ๊ท ์์ฑ์ด ๋๋ฆฌ๊ธฐ ๋๋ฌธ์, verl ๋ฐ PipelineRL๊ณผ ๊ฐ์ ๋ง์ ํ๋ ์์ํฌ๋ ํ์ต ์ฒ๋ฆฌ๋์ ์ต๋ํํ๊ธฐ ์ํด ๋ต๋ณ(completion)์ ๋น๋๊ธฐ ์์ฑ ๋ฐ ๋ชจ๋ธ ๊ฐ์ค์น์ โ๋นํ ์ค(in-flight)โ ์ ๋ฐ์ดํธ๋ฅผ ์ถ๊ฐํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ ๋ณต์กํ๊ณ ์ ์คํ ๊ตฌํ์ ์๊ตฌํ์ง๋ง, ๋๊ธฐ์ ํ์ต ๋ฐฉ๋ฒ๋ณด๋ค 4-5๋ฐฐ ๋ ๋์ ํ์ต ์๋๋ฅผ ๋ฌ์ฑํ ์ ์๋ค. ๋์ค์ ๋ณด๊ฒ ๋๊ฒ ์ง๋ง, ํ์ต ํจ์จ์ฑ์ ์ด๋ฌํ ๊ฐ์ ์ ๋กฑํ ์ผ ํ ํฐ ๋ถํฌ๋ฅผ ๊ฐ์ง ์ถ๋ก ๋ชจ๋ธ์ ๋ํด ํนํ ๋๋๋ฌ์ง๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ฃผ๋ก ์๊ฐ ์ ์ฝ๊ณผ ์คํ๋ผ์ธ ์ ํธ๋ ์ต์ ํ๋ง์ผ๋ก ์ด๋ฏธ ๋๊ธ ์ต๊ณ ์ธ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์์๊ธฐ ๋๋ฌธ์ RL์ ์์ ํ ๊ฑด๋๋ฐ์๋ค. ๊ทธ๋ฌ๋ ์ถ์ ์ดํ ์ฐ๋ฆฌ๋ ์ด ์ฃผ์ ๋ฅผ ๋ค์ ๋ฐฉ๋ฌธํ์ผ๋ฉฐ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ RLVR์ ์ ์ฉํ๋ฉด์ ์ป์ ๊ตํ ์ค ์ผ๋ถ๋ฅผ ๊ณต์ ํ๋ฉฐ ์ฌํ ํ์ต ์ฑํฐ๋ฅผ ๋ง์น ๊ฒ์ด๋ค.
ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ RLVR ์ ์ฉ
ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ ์ถ๋ก ๋ชจ๋์ ๋ฐ๋ผ ์์ฑ ๊ธธ์ด๊ฐ ์๋นํ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ RLVR์ ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ์ ์ ๊ธฐํ๋ค. ์๋ฅผ ๋ค์ด, ์๋ ๊ทธ๋ฆผ์์ ์ฐ๋ฆฌ๋ SmolLM3์ ์ต์ข APO ์ฒดํฌํฌ์ธํธ์ ๋ํด AIME25์์์ ํ ํฐ ๊ธธ์ด ๋ถํฌ๋ฅผ ์๊ฐํํ๋ค:

๋ณด์๋ค์ํผ, /no_think ๋ชจ๋๋ ์ฝ 2k ํ ํฐ์ ์ค์๊ฐ ๊ธธ์ด๋ฅผ ๊ฐ์ง ์๋ฃจ์ ์ ์์ฑํ๋ ๋ฐ๋ฉด, /think ๋ชจ๋๋ 16k ํ ํฐ๊ณผ ๋๊บผ์ด ๊ผฌ๋ฆฌ(fat-tailed) ๋ถํฌ๋ก ํจ์ฌ ๋ ํฌ๋ค. ์ด์์ ์ผ๋ก, ์ฐ๋ฆฌ๋ RLVR๋ก ๋ ๋ชจ๋์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๋ฉด์ ๊ทธ๋ค์ ๊ฐ ๊ธธ์ด ๋ถํฌ๋ฅผ ๋๋ฌด ๊ธ๊ฒฉํ๊ฒ ๋ณ๊ฒฝํ์ง ์๊ธฐ๋ฅผ ์ํ๋ค.
๊ทธ๋ ๊ฒ ํ ๋ฐฉ๋ฒ์ ์์๋ด๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋จผ์ /no_think ๋ชจ๋๋ฅผ ์ต์ ํํ๋ ๋ฐ ์ง์คํ๊ณ ๊ฒ์ฆ๋ ๋ต๋ณ์ด ์๋ 25๋ง ๊ฐ ์ด์์ ์ํ ๋ฌธ์ ๋ฐ์ดํฐ์ ์ธ Big-Math์์ ํ๋กฌํํธ์ ๋ถ๋ถ ์งํฉ์ ๊ฐ์ ธ์๋ค.
๋๋๊ฒ๋, ์์งํ๊ฒ GRPO๋ฅผ ์ ์ฉํ๋ฉด ์ผ์ข ์ย ๋ณด์ ํดํน์ผ๋ก ์ด์ด์ง๋ค: ๊ธด CoT๋ฅผ ๋ง๋ค๋๋ก ํ๋กฌํํธ๋์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ , ๋ชจ๋ธ์ ๋ณด์์ ๋๋ฆฌ๊ธฐ ์ํด ๊ธฐ๋ณธ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์ฉํ๋ ๋ฒ์ ๋ฐฐ์ด๋ค. ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋ณด์๋ง ์ฌ๋ผ๊ฐ๋ ๊ฒ์ด ์๋๋ผ ์๋ฃ ๊ธธ์ด๋ ์ฌ๋ผ๊ฐ๋ค:

SmolLM3์ ์์งํ๊ฒ RLVR์ ์ ์ฉํ๋ฉด ๋์ ๋ณด์๊ณผ ํฅ์๋ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง๋ง, ํญ๋ฐ์ ์ธ completion ๊ธธ์ด๋ผ๋ ๋น์ฉ์ด ๋ฐ์ํ๊ฒ ๋๋ค.
๋ฌ๋ฆฌ ๋งํ๋ฉด, GRPO๋ฅผ ์ฌ์ฉํ RLVR์ ์ฐ๋ฆฌ ์ถ๋ก ๋ชจ๋ธ์ย /no_thinkย ๋ชจ๋๋ฅผย /thinkย ๋ชจ๋์ ๋งค์ฐ ์ ์ฌํด ๋ณด์ด๋ ๊ฒ์ผ๋ก ๋ฐ๊ฟ๋ฒ๋ ธ๋ค!
๋ชจ๋ธ์ ๋ต๋ณ์ ๊ฒํ ํ ๋, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด ์ด์ ๊ธด CoT๋ฅผ ์์ฑํ๊ณ ์ฌ์ง์ด ์ถ๋ก ๋ชจ๋ธ๊ณผ ๊ด๋ จ๋ โ์ ๊น, โฆโ๊ณผ ๊ฐ์ ์ธ์ง์ ํ๋ (Gandhi et al., 2025) ์ค ์ผ๋ถ๋ฅผ ํฌํจํ๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ด์ ๋ํ ์์๋ ์๋์ ๊ฐ๋ค:
However, since the jogger and the train are moving in the same direction, the relative speed between them is the difference of their speeds:
\\( v_{\\text{rel}} = v_t - v_j = 12.7778 - 2.7778 = 10 \\) m/s
**Wait,** let me double-check the calculation:
**Wait,** 46 km/hr to m/s:
46 * 1000 m / 3600 s = (46 * 10)/36 = 460/36 โ 12.7778 m/s (correct)
10 km/hr is:
10 * 1000 / 3600 = 10000 / 3600 โ 2.7778 m/s (correct)
Difference: 12.7778 - 2.7778 = 10 m/s (exact, since 46-10=36 km/hr โ 36*(1000/3600)=10 m/s exactly)
The jogger is 340 meters ahead of the train's engine. When the train passes the jogger, the distance the train needs to cover relative to the jogger is 340 meters plus the length of the train? Wait, actually, let me think about the problem again.
**Wait,** actually, when the problem says the train takes 46 seconds to pass the jogger, that usually means the time from the front of the train to the end passing the jogger. The length of the train would then be equal to the relative speed multiplied by the time.
But first, the initial position: the jogger is 340 meters ahead of the engine. So the engine is 340 meters ahead of the jogger. Wait no, the wording says "340 m ahead of the engine", so the jogger is ahead by 340 meters. So when the jogger is running alongside, the engine of the train is 340 m away behind the jogger? Wait, maybe I need to clarify.
**Wait** the problem says: "A jogger running at 10 km/hr alongside a railway track is 340 m ahead of the engine of a train running at 46 km/hr in the same direction. The train takes 46 seconds to pass the jogger. How long is the train in meters?"
Hmm, so the jogger is 340 m ahead of the engine along the track. Since they're moving in the same direction, the train is behind the jogger by 340 meters. To pass the jogger, the train has to cover that 340 meters plus the length of the train itself?
๊ณผ๋ํ ๊ธธ์ด ํ๋ํฐ๋ก ๋ณด์ ํดํน ์ํ
์ด ๋ฌธ์ ๋ ํน์ ๊ธธ์ด ์ด์์ ์๋ฃ์ ํ๋ํฐ๋ฅผ ์ฃผ๋ **๊ณผ๋ํ ๊ธธ์ด ํ๋ํฐ(overlong completion penalty)**๋ฅผ ํฌํจํจ์ผ๋ก์จ ์ํ๋ ์ ์๋ค. ํ๋ํฐ๋ ๋ ๊ฐ์ง ์ธ์, ์ต๋ ์๋ฃ ๊ธธ์ด ์ ์ํํธ ์ฒ๋ฒ ์บ์ ์ ์ํด ๋งค๊ฐ๋ณ์ํ๋๋ค. ์ด ํ๋ํฐ๋ DAPO ๋ ผ๋ฌธ (Yu et al., 2025)์์ ์ ์๋ ๊ฐ์ ์ฌํญ ์ค ํ๋์์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ด ๋ณด์ ํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ๊ณผ ๊ฐ๋ค:
์ด ํ๋ํฐ๋ฅผ ์ฌ์ฉํ์ฌ, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ง์ ์ ์ดํ๊ณ ์๋ต ๊ธธ์ด ์ฆ๊ฐ์ ์ฑ๋ฅ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ์ธก์ ํ ์ ์๋ค. ์๋ ๊ทธ๋ฆผ์ ์์๊ฐ ๋์ ์๋๋ฐ, ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ๊ณผ๋ํ ๊ธธ์ด ํ๋ํฐ๋ฅผ 1.5k์์ 4k๊น์ง 512 ํ ํฐ ๋จ์๋ก ๋ณ๊ฒฝํ๋ค:


๊ณผ๋ํ ๊ธธ์ด ํ๋ํฐ๋ฅผ ์ ์ฉํ๋ฉด ๊ฐ ๋กค์์์ ๊ธธ์ด๋ฅผ ์ ํํ๋ฉด์ ํ๊ท ๋ณด์๋ ์ค์ด๋ ๋ค.
์๋ต ๊ธธ์ด์ ์ฑ๋ฅ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ AIME25์์์ ๊ฐ์ ์ ์กฐ์ฌํ ๋ ๋ ๋ช ํํ๋ค:

AIME25์์์ RLVR์ ์ฌ์ฉํ SmolLM3์ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ.
์ด์ ์ฐ๋ฆฌ๋ ๊ณผ๋ํ ๊ธธ์ด ํ๋ํฐ๊ฐ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๋ช ํํ๊ฒ ๋ณผ ์ ์์ผ๋ฉฐ, 2-4k ๋ฒ์์ ํ๋ํฐ๊ฐ ํ ํฐ ๋ถํฌ๋ฅผ ์ต์ ํ๋ฉด์ ์๋นํ ๊ฐ์ ์ ๋ง๋ ๋ค๋ ๊ฒ์ ๋ณด์๋ค. ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ๋จ๊ณ 400์์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ฐ์ ธ์ค๋ฉด, ๋ค์ํ ํ๋ํฐ ๋ฒ์์ ๊ฑธ์ณ ์ด๊ธฐ ์ ์ฑ ๊ณผ ์ต์ข ๋ชจ๋ธ ๊ฐ์ ์ถ๋ ฅ ํ ํฐ ๋ถํฌ๋ฅผ ๋น๊ตํ ์ ์๋ค:


๋ชจ๋ ๊ฒ์ ํ๋๋ก ๋ชจ์
์ฐ๋ฆฌ๋ 2.5-3k ๋ฒ์์ ๊ธธ์ด ํ๋ํฐ๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ์ฑ๋ฅ๊ณผ ์๋ต ๊ธธ์ด ์ฌ์ด์ ์ต๊ณ ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์๋ ๊ทธ๋ฆผ์ GRPO๊ฐ APO์ ๊ฐ์ ์คํ๋ผ์ธ ๋ฐฉ๋ฒ์ ๋นํด AIME 2025์์ ์ฑ๋ฅ์ ๊ฑฐ์ ๋ ๋ฐฐ๋ก ๋๋ฆฐ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค:

์ด์ ย /no_thinkย ์ถ๋ก ๋ชจ๋์์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์์์ผ๋ฏ๋ก, RL ํ์ต ํ์ดํ๋ผ์ธ์ ๋ค์ ๋จ๊ณ๋ ๋ ์ถ๋ก ๋ชจ๋์์ ๋ชจ๋ธ์ ํ ๋ฒ์ ๊ณต๋ ํ์ต์ํค๋ ๊ฒ์ผ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ์ด๊ฒ์ด ๊ฝค ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋๋ฐ, ๊ฐ ๋ชจ๋๊ฐ ๊ณ ์ ํ ๊ธธ์ด ํ๋ํฐ๋ฅผ ์๊ตฌํ๊ณ , ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ทธ ์ํธ ์์ฉ์ด ํ์ต์ ๋ถ์์ ํ๊ฒ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๊ฒ์ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ๋ชจ๋ธ์ RL์ ์ ์ฉํ๋ ค๊ณ ํ ๋์ ์ฃผ์ ๋์ ๊ณผ์ ์ด๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๊ฒ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ Qwen๊ณผ ๊ฐ์ ๋ชจ๋ธ ๊ฐ๋ฐ์๋ค์ด Instruction ๋ฐ ์ถ๋ก ๋ณํ ๋ชจ๋ธ์ ๋ณ๋๋ก ์ถ์ํ๋ ์๋ก์ด ์ถ์ธ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋ ๊ฒ์ ๋ฐ์๋ ๊ฒ์ ์ ์ ์์๋ค.
์ฐ๋ฆฌ์ ์คํ์ RLVR์ด ์ถ๋ก ํ๋์ ํจ๊ณผ์ ์ผ๋ก ์กฐ์ข ํ ์ ์์์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ด๊ฒ์ ์ ์คํ ๋ณด์ ํ์ฑ ๋ฐ ์์ ์ฑ ๋ฉ์ปค๋์ฆ์ด ์์ด์ผ๋ง ๊ฐ๋ฅํ๋ค. ์ด๋ฌํ ๋ณต์ก์ฑ์ ๊ฐ์ํ ๋, ๊ฐํ ํ์ต์ด ์ ์ผํ ์คํ ๊ฐ๋ฅํ ๊ฒฝ๋ก์ธ์ง ๋ฌผ์ด๋ณผ ๊ฐ์น๊ฐ ์๋ค. ์ฌ์ค, ์ต๊ทผ ๋ฌธํ์์ ๋ช ๊ฐ์ง ๋ ๊ฐ๋ฒผ์ด ์จ-ํด๋ฆฌ์ ์ต์ ํ ์ ๋ต์ด ์ ์๋์์ง๋ง, ์คํ ์์ค ์ปค๋ฎค๋ํฐ์์๋ ๋๋๊ฒ๋ ์ด๋ฌํ ๊ฒ๋ค์ด ๋ ํ์๋์๋ค. ๊ทธ๊ฒ๋ค ์ค ์ผ๋ถ๋ฅผ ์ดํด๋ณด๋ฉฐ ์ด ์ฑํฐ๋ฅผ ๋ง์น๊ฒ ๋ค.
RL๋ง์ด ์ ์ผํ ๊ฒ์์ธ๊ฐ?
์จ-ํด๋ฆฌ์ ํ์ต์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ ํธ๋ ์ต์ ํ์ ์ฆ๋ฅ๋ฅผ ๋ชจ๋ธ์ด ์งํํจ์ ๋ฐ๋ผ ํ์ต ์ ํธ๋ฅผ ์๋ก ๊ณ ์น๋ ๋ฐ๋ณต ๋ฃจํ๋ก ํ์ฅํ๋ ๊ฒ์ด๋ค:
- ์จ๋ผ์ธ DPO:ย ๊ณ ์ ๋ ์ ํธ๋ ๋ฐ์ดํฐ์ ์ ๋ํด ํ ๋ฒ ํ์ตํ๋ ๋์ , ๋ชจ๋ธ์ ์ง์์ ์ผ๋ก ์๋ก์ด ์๋ต์ ์ํ๋งํ๊ณ , ์๋ก์ด ์ ํธ๋ ๋ ์ด๋ธ (๋ณด์ ๋ชจ๋ธ์ด๋ LLM ์ฑ์ ์๋ก๋ถํฐ)์ ์์งํ๊ณ , ์ค์ค๋ก๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ์ด๊ฒ์ ์ต์ ํ๋ฅผย ์จ-ํด๋ฆฌ์๋ก ์ ์งํ๊ณ ํ์ต ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ํ์ฌ ๋์ ๊ฐ์ ๋๋ฆฌํํธ๋ฅผ ์ค์ธ๋ค (Guo et al., 2024).
- ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ:ย ์ ํธ๋ ๋์ , ์ ํธ๋ฅผ ๋ ๊ฐ๋ ฅํ ๊ต์ฌ ๋ชจ๋ธ๋ก๋ถํฐ ์ป๋๋ค. ํ์์ ๋ชจ๋ ํ์ต ๋จ๊ณ์์ ์๋ต์ ์ํ๋งํ๊ณ ์ด๋ฌํ ์ํ์ ๋ํ ํ์๊ณผ ๊ต์ฌ ๋ก์ง ๊ฐ์ KL ๋ฐ์ฐ์ด ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๋ค. ์ด๊ฒ์ ํ์์ด ๋ช ์์ ์ธ ์ ํธ๋ ๋ ์ด๋ธ์ด๋ ๊ฒ์ฆ์ ์์ด ์ง์์ ์ผ๋ก ๊ต์ฌ์ ๋ฅ๋ ฅ์ ํก์ํ ์ ์๊ฒ ํ๋ค (Agarwal et al., 2024).
์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ ์ ์ธ ์ ํธ๋ ์ต์ ํ์ ์ ์ฒด RL ์ฌ์ด์ ๊ฒฝ๊ณ๋ฅผ ํ๋ฆฌ๊ฒ ํ๋ค: ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด, ๊ฐํ ํ์ต ๋ฃจํ๋ฅผ ์ค๊ณํ๊ณ ์์ ํํ๋ ์ ์ฒด ๋ณต์ก์ฑ ์์ด๋ ๋ชจ๋ธ์ ํ์ฌ ๋ถํฌ์ ์ ์ํ๋ ์ด์ ์ ์ฌ์ ํ ์ป์ ์ ์๋ค.
์ด๋ค ๋ฐฉ๋ฒ์ ์ ํํด์ผ ํ๋๊ฐ?
์ด๋ค ์จ-ํด๋ฆฌ์ ๋ฐฉ๋ฒ์ด โ์ต๊ณ โ์ธ์ง์ ๋ํ ์๋ง์ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ด ์์ง๋ง, ์ค์ ์ํฉ์์์ ๊ฒฐ์ ์ ์๋ ํ์ ํ์๋ ๋ช ๊ฐ์ง ์์ธ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค:
| ์๊ณ ๋ฆฌ์ฆ | ์ธ์ ์ฌ์ฉํ ๊น | ํธ๋ ์ด๋์คํ | ์ต์ ๋ชจ๋ธ ํฌ๊ธฐ |
|---|---|---|---|
| ์จ๋ผ์ธ DPO | ์ ํธ๋ ๋ ์ด๋ธ์ ์ ๋ ดํ๊ฒ ์ป์ ์ ์์ ๋. ์งํํ๋ ๋ถํฌ์ ํ๋์ ์ ๋ ฌํ๋ ๋ฐ ์ต์ . | ๋ฐ๋ณต์ ์ผ๋ก ํ์ฅํ๊ธฐ ์ฝ๊ณ RL๋ณด๋ค ์์ ์ ์ด์ง๋ง, ๋ ์ด๋ธ ํ์ง ๋ฐ ๋ฒ์์ ์์กดํจ. ์ง์๋๋ ํ์ต ํ๋ ์์ํฌ๊ฐ ์ ์. | ์ ํธ๋๊ฐ ๋ชจ๋ฐฉ์ ๋์ด์ ๊ฐ์ ์ ํฌ์ฐฉํ ์ ์๋ ๋ชจ๋ ํฌ๊ธฐ. |
| ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ | ๋ ๊ฐ๋ ฅํ ๊ต์ฌ ๋ชจ๋ธ์ ์ ๊ทผํ ์ ์๊ณ ๋ฅ๋ ฅ์ ํจ์จ์ ์ผ๋ก ์ ์ดํ๊ณ ์ถ์ ๋. | ๊ตฌํ์ด ๊ฐ๋จํ๊ณ ์คํ ๋น์ฉ์ด ์ ๋ ดํ์ง๋ง, ๊ต์ฌ ๋ชจ๋ธ์ด ๊ฐ์ง ํธํฅ์ ์์ํ๊ฒ ๋๋ฉฐ ์ฑ๋ฅ์ ํ๊ณ๊ฐ ๊ต์ฌ์ ์ํด ์ ํ๋จ. TRL ๋ฐ NemoRL์์๋ง ์ง์๋จ. | ์ค์ํ ๋ชจ๋ธ (<30B)์ ๊ฐ์ฅ ํจ๊ณผ์ . |
| ๊ฐํ ํ์ต | ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์์ด๋ ๋ค๋จ๊ณ ์ถ๋ก /๊ณํ์ด ํ์ํ ์์ ์ด ์์ ๋ ์ต์ . ๋ณด์ ๋ชจ๋ธ๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์ง๋ง, ๋ณด์ ๋ชจ๋ธ์ ์ฝ์ ์ ์ด์ฉํ๋ ๋ณด์ ํดํน๊ณผ ๊ฐ์ ๋์ ๊ณผ์ ๊ฐ ์์. | ์ ์ฐํ๊ณ ๊ฐ๋ ฅํ์ง๋ง, ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์์ ํํ๊ธฐ ์ด๋ ค์; ์ ์คํ ๋ณด์ ํ์ฑ์ด ํ์ํจ. ๋๋ถ๋ถ์ ์ฌํ ํ์ต ํ๋ ์์ํฌ์์ ์ง์๋จ. | ์ค๋ํ ๋ชจ๋ธ (20B+), ์ถ๊ฐ ์ฉ๋์ด ๊ตฌ์กฐํ๋ ๋ณด์ ์ ํธ๋ฅผ ํ์ฉํ ์ ์๊ฒ ํด์ค. |
์คํ ์์ค ์ํ๊ณ์์ GRPO ๋ฐ REINFORCE์ ๊ฐ์ ๊ฐํ ํ์ต ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ฒฝํฅ์ด ์์ง๋ง, Qwen3 ๊ธฐ์ ๋ณด๊ณ ์ (A. Yang, Li, et al., 2025)๋ 320์ต ๋งค๊ฐ๋ณ์ ๋ฏธ๋ง์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐ ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๊ฐ์กฐํ๋ค:

์ํ ๋ชจ๋ธ์ ๋ํ ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ์ ํ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์์ฑ์ ์ผ๋ฐ์ ์ผ๋ก RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ์ ์ ์ปดํจํ ๋น์ฉ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ํ๋กฌํํธ๋น ์ฌ๋ฌ ๋กค์์์ ์์ฑํ๋ ๋์ ํ๋๋ง ์ํ๋งํ ๋ค์ ๋จ์ผ ์๋ฐฉํฅ-์ญ๋ฐฉํฅ ํจ์ค์์ ๊ต์ฌ์ ์ํด ์ฑ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค. Qwen3 ๊ธฐ์ ๋ณด๊ณ ์์์ ๋ณผ ์ ์๋ฏ์ด, GRPO ๋๋น ์ด๋์ ์๋นํ ์ ์๋ค:
| ๋ฐฉ๋ฒ | AIMEโ24 | AIMEโ25 | MATH500 | LiveCodeBench v5 | MMLU -Redux | GPQA -Diamond | GPU ์๊ฐ |
|---|---|---|---|---|---|---|---|
| ์คํ-ํด๋ฆฌ์ ์ฆ๋ฅ | 55.0 | 42.8 | 92.4 | 42.0 | 86.4 | 55.6 | - |
| + ๊ฐํ ํ์ต | 67.6 | 55.5 | 94.8 | 52.9 | 86.9 | 61.3 | 17,920 |
| + ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ | 74.4 | 65.5 | 97.0 | 60.3 | 88.3 | 63.3 | 1,800 |
๋ ์ต๊ทผ์, Thinking Machines๋ ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ๊ฐ ์ฌํ ํ์ต๋ ๋ชจ๋ธ์ด ์๋ก์ด ๋๋ฉ์ธ์์ ์ถ๊ฐ๋ก ํ์ต๋ ๋ ์ด์ ์ฑ๋ฅ์ด ์ ํ๋๋ **์น๋ช ์ ์ธ ๋ง๊ฐ(catastrophic forgetting)**์ ์ํํ๋ ๋ฐ์๋ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ฃผ์๋ค. ์๋ ํ์์, ๊ทธ๋ค์ Qwen3-8b (IFEval)์ ์ฑํ ์ฑ๋ฅ์ด ๋ด๋ถ ๋ฐ์ดํฐ๋ก ํ์ธ ํ๋๋ ๋ ๋จ์ด์ง์ง๋ง, ์ ๋ ดํ ์ฆ๋ฅ๋ก ํ๋์ด ๋ณต์๋ ์ ์์์ ๋ณด์ฌ์ค๋ค:

์ฐ๋ฆฌ๋ ๋ ์๊ณ ์์ ๋ณ ๋ชจ๋ธ๋ก ์ฆ๋ฅ๋ ์ ์๋ ๋ค์ํ๊ณ ์ ๋ฅํ ์คํ ๊ฐ์ค์น LLM์ ๋ง์ด ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ์ ๋ํด ์๋นํ ํฅ๋ถํ๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ์จ-ํด๋ฆฌ์ ์ฆ๋ฅ ๋ฐฉ๋ฒ์ ํ ๊ฐ์ง ์ฝ์ ์ ๊ต์ฌ์ ํ์์ด ๋์ผํ ํ ํฌ๋์ด์ ๋ฅผ ๊ณต์ ํด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๋ชจ๋ ๊ต์ฌ๊ฐ ๋ชจ๋ ํ์์๊ฒ ์ฆ๋ฅ๋ ์ ์๋๋ก ํ๋ GOLD (General On-Policy Logit Distillation)๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค. ์ด ์ฃผ์ ์ ๊ด์ฌ์ด ์๋ค๋ฉด ์ฐ๋ฆฌ์ ๊ธฐ์ ๊ธฐ์ฌ๋ฅผ ํ์ธํ๋ ๊ฒ์ ์ถ์ฒํ๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, FAIR์ ์ฐ๊ตฌ์๋ค์ DPO์ ๋ํด ์์ ํ ์คํ-ํด๋ฆฌ์์ธ ๊ฒ๊ณผ ์จ-ํด๋ฆฌ์์ธ ๊ฒ์ ํจ๊ณผ๋ฅผ ๋น๊ตํ์ผ๋ฉฐ ํจ์ฌ ์ ์ ์ปดํจํ ์ ์ฌ์ฉํ์ฌ GRPO์ ์ฑ๋ฅ๊ณผ ์ผ์นํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค (Lanchantin et al., 2025):

๊ทธ๋ค์ ๋ ผ๋ฌธ์์ ๋ณผ ์ ์๋ฏ์ด, ์จ๋ผ์ธ DPO๋ ์ํ ์์ ์ ์ ์๋ํ๋ฉฐ ์ธ๋ฏธ-์จ-ํด๋ฆฌ์ ๋ณํ์กฐ์ฐจ๋ ๋ง์ ๋จ๊ณ๋ฅผ ๊ฐ์ง ์คํ-ํด๋ฆฌ์์ผ ๋ฟ์์๋ ๋ถ๊ตฌํ๊ณ ๊ฒฝ์ํ ๋งํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค:
| ํ์ต ๋ฐฉ๋ฒ | Math500 | NuminaMath | AMC23 |
|---|---|---|---|
| ์๋ (Llama-3.1-8B-Instruct) | 47.4 | 33.9 | 23.7 |
| ์คํ๋ผ์ธ DPO (s = inf) | 53.7 | 36.4 | 28.8 |
| ์ธ๋ฏธ-์จ๋ผ์ธ DPO (s = 100) | 58.9 | 39.3 | 35.1 |
| ์ธ๋ฏธ-์จ๋ผ์ธ DPO (s = 10) | 57.2 | 39.4 | 31.4 |
| ์จ๋ผ์ธ DPO (s = 1) | 58.7 | 39.6 | 32.9 |
| GRPO | 58.1 | 38.8 | 33.6 |
์ ๋ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ RL์ ํจ๊ณผ์ ์ผ๋ก ํ์ฅํ๋ ๊ฒ (Khatri et al., 2025)๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ์ํ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํ์ํ๋ ๊ฒ ๋ชจ๋์ ๋ํด ์ฌ์ ํ ํ ์ผ์ด ๋ง๋ค๊ณ ๋๋๋ค. ์ฐธ์ผ๋ก ํฅ๋ฏธ์ง์งํ ์๊ฐ์ด๋ค!
์ฌํ ํ์ต ๋ง๋ฌด๋ฆฌ
์ฌ๊ธฐ๊น์ง ์๋ค๋ฉด ์ถํํ๋ค: ์ด์ ์ฌํ ํ์ต์ ์ฑ๊ณต์ ํ์ํ ๋ชจ๋ ํต์ฌ ์ฌ๋ฃ๋ฅผ ๊ฐ์ถ์๋ค. ์ด์ SOTA ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ๋ง์ ์คํ์ ์คํํ๊ณ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ํ ์คํธํ ์ค๋น๊ฐ ๋์๋ค.
๊ทธ๋ฌ๋ ์๋ง ๊นจ๋ฌ์๊ฒ ์ง๋ง, ํ๋ฅญํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์๋ ๊ฒ์ ์ด์ผ๊ธฐ์ ์ ๋ฐ์ผ ๋ฟ์ด๋ค. ์ค์ ๋ก ๊ทธ๋ฌํ ๋ชจ๋ธ์ ์๋ช ์ ๋ถ์ด๋ฃ์ผ๋ ค๋ฉด ์ฌ๋ฐ๋ฅธ ์ธํ๋ผ๊ฐ ํ์ํ๋ค. LLM ํ์ต์ ์จ์ ์์ ์ผ๋ก ์ด ์ํ์ ๋ง๋ฌด๋ฆฌํ๊ณ ์ ํ๋ค.
Infrastructure - the unsung hero
์ด์ ์ฌ๋ฌ๋ถ์ ๋ชจ๋ธ ์์ฑ ๋ฐ ํ์ต์ ๋ํด ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๋ชจ๋ ๊ฒ์ ์์์ผ๋ฏ๋ก, ํ๋ก์ ํธ(๊ทธ๋ฆฌ๊ณ ์ํ ๊ณ์ข)๋ฅผ ์ฑํจ๋ก ์ด๋ ์ ์๋ ์ค์ํ์ง๋ง ์ ํ๊ฐ๋ ๊ตฌ์ฑ ์์์ธย ์ธํ๋ผ๋ฅผ ๋ค๋ค๋ณผ ์ฐจ๋ก์ด๋ค. ํ๋ ์์ํฌ, ์ํคํ ์ฒ, ๋ฐ์ดํฐ ํ๋ ์ด์ ์ค ์ด๋์ ์ง์คํ๋ ์ธํ๋ผ ๊ธฐ์ด๋ฅผ ์ดํดํ๋ฉด ํ์ต ๋ณ๋ชฉ ํ์์ ์๋ณํ๊ณ , ๋ณ๋ ฌํ ์ ๋ต์ ์ต์ ํํ๊ณ , ์ฒ๋ฆฌ๋ ๋ฌธ์ ๋ฅผ ๋๋ฒ๊น ํ๋ ๋ฐ ๋์์ด ๋๋ค. (์ต์ํ ์ธํ๋ผ ํ๊ณผ์ ์์ฌ์ํต์ ๊ฐ์ ๋๋ค ๐).
๋ชจ๋ธ์ ํ์ต์ํค๋ ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์ํคํ ์ฒ์ ๋ฐ์ดํฐ์ ๊น์ ๊ด์ฌ์ ๊ฐ์ง์ง๋ง, ์ธํ๋ผ ์ธ๋ถ ์ฌํญ์ ์ดํดํ๋ ์ฌ๋์ ๊ฑฐ์ ์๋ค. ์ธํ๋ผ ์ ๋ฌธ ์ง์์ ์ผ๋ฐ์ ์ผ๋ก ํ๋ ์์ํฌ ๊ฐ๋ฐ์์ ํด๋ฌ์คํฐ ์์ง๋์ด์๊ฒ ์์ผ๋ฉฐ, ๋๋จธ์ง๋ ํด๊ฒฐ๋ ๋ฌธ์ ๋ก ์ทจ๊ธํ๋ค: GPU๋ฅผ ๋น๋ฆฌ๊ณ , PyTorch๋ฅผ ์ค์นํ๋ฉด ์ค๋น๊ฐ ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ๊ฑฐ์ ํ ๋ฌ ๋์ 384๊ฐ์ H100์์ SmolLM3๋ฅผ ํ์ต์์ผ ์ด 11์กฐ ํ ํฐ์ ์ฒ๋ฆฌํ๋คโฆ ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ ์์กฐ๋ก์ด ์ฌ์ ์ด ์๋์๋ค! ๊ทธ ๊ธฐ๊ฐ ๋์ ์ฐ๋ฆฌ๋ ๋ ธ๋ ๊ณ ์ฅ, ์คํ ๋ฆฌ์ง ๋ฌธ์ , ์คํ ์ฌ์์์ ์ฒ๋ฆฌํ๋ค (ํ์ต ๋ง๋ผํค ์น์ ์ฐธ์กฐ). ์ด๋ฌํ ๋ฌธ์ ์ ๋๋นํ๊ณ ํ์ต์ ์ํํ๊ณ ์ ์ง ๋ณด์๊ฐ ์ ๊ฒ ๋ค๋๋ก ์ ์งํ๊ธฐ ์ํด ์ข์ ๋น์ ๊ณํ๊ณผ ์ ๋ต์ ๊ฐ์ ธ์ผ ํ๋ค.
์ด ์ฑํฐ๋ ๊ทธ ์ง์ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ํ์ต์ ์ค์ํ ์ง๋ฌธ์ ์ด์ ์ ๋ง์ถ ํ๋์จ์ด ๊ณ์ธต์ ๋ํ ์ค์ฉ์ ์ธ ๊ฐ์ด๋๋ก ์๊ฐํ๋ผ.ย (์ฐธ๊ณ : ๊ฐ ํ์ ์น์ ์ TL;DR- ์์ฝ์ผ๋ก ์์ํ๋ฏ๋ก ๊น์ด ์์ค์ ์ ํํ ์ ์๋๋ก ํ๋ค.)
์ฒ์ ๋ ์น์ ์ ํ๋์จ์ด ์๋ ๋ฐฉ์์ ๊ธฐ์ด๋ฅผ ๋ค๋ฃฌ๋ค: GPU๋ ์ค์ ๋ก ๋ฌด์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋๊ฐ? ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ ์ด๋ป๊ฒ ์๋ํ๋๊ฐ? CPU์ GPU๋ ์ด๋ป๊ฒ ํต์ ํ๋๊ฐ? ์ฐ๋ฆฌ๋ ๋ํ GPU๋ฅผ ํ๋ณดํ ๋ ๊ณ ๋ คํด์ผ ํ ์ฌํญ๊ณผ ๊ธด ํ์ต ์คํ์ ์ ๋ ํ๊ธฐ ์ ์ ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณผ ๊ฒ์ด๋ค. ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๊ฐ ๋จ๊ณ์์ ์ด๋ฌํ ์์คํ ์ ์ง์ ์ธก์ ํ๊ณ ์ง๋จํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ค. ๋ค์ ์น์ ์ ๋ ์์ฉ๋ ๋ด์ฉ์ด๋ฉฐ, ์ธํ๋ผ๋ฅผ ์ฅ์ ์ ํ๋ ฅ์ ์ผ๋ก ๋ง๋ค๊ณ ํ์ต ์ฒ๋ฆฌ๋์ ์ต๋ํ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ณผ ๊ฒ์ด๋ค.
์ด ์ฑํฐ์ ํต์ฌ์ย ๋ณ๋ชฉ ํ์์ ์ฐพ์ ์์ ํ๋ ๊ฒ์ด๋ค!
์ด๊ฒ์ ํน์ ์ค๊ณ ๊ฒฐ์ ์ด ์ค์ํ ์ด์ ์ ๋ํ ์ง๊ด์ ๊ตฌ์ถํ๋ ๊ณต๋ถ ๊ณผ์ ์ผ๋ก ์๊ฐํด๋ผ. ๋ชจ๋ธ์ ํ์ฑํ๊ฐ ๊ฐ๊ฐ ๋ค๋ฅธ ๋์ญํญ๊ณผ ์ง์ฐ ์๊ฐ ํน์ฑ์ ๊ฐ์ง ์ฌ๋ฌ ์์ค์ ์บ์๋ฅผ ํต๊ณผํด์ผ ํ๋ค๋ ๊ฒ์ ์ดํดํ๋ฉด, ๋ฐ์ดํฐ ์ด๋์ ์ต์ํํ๊ธฐ ์ํด ํ์ต์ ๊ตฌ์กฐํํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์ฐ์ค๋ฝ๊ฒ ์๊ฐํ๊ธฐ ์์ํ ์ ์์ด์ง ๊ฒ์ด๋ค. ๋ ธ๋ ๊ฐ ํต์ ์ด ๋ ธ๋ ๋ด ํต์ ๋ณด๋ค ๋ช ๋ฐฐ๋ ๋๋ฆฌ๋ค๋ ๊ฒ์ ์๊ฒ ๋๋ฉด, ๋ณ๋ ฌํ ์ ๋ต์ด ์ ๊ทธ๋ ๊ฒ ์ค์ํ์ง ์ดํดํ๊ฒ ๋ ๊ฒ์ด๋ค.
GPU๋ฅผ ์ด์ด๋ณด๊ณ ๋ฌด์์ด ๋ค์ด ์๋์ง ๋ณด๋ ๊ฒ์ผ๋ก ์์ํ์.
GPU ๋ด๋ถ: ๋ด๋ถ ์ํคํ ์ฒ
GPU๋ ๊ทผ๋ณธ์ ์ผ๋ก ์ง์ฐ ์๊ฐ๋ณด๋คย ์ฒ๋ฆฌ๋์ ์ต์ ํ๋ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ๋ก์ธ์์ด๋ค. ๋ช ๊ฐ์ง ๋ณต์กํ ๋ช ๋ น ์คํธ๋ฆผ์ ๋น ๋ฅด๊ฒ ์คํํ๋ ๋ฐ ํ์ํ CPU์ ๋ฌ๋ฆฌ, GPU๋ ์์ฒ ๊ฐ์ ๊ฐ๋จํ ์์ ์ ๋์์ ์คํํ์ฌ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
GPU ์ฑ๋ฅ์ ์ดํดํ๋ ์ด์ ๋ ๋จ์ํ ์์ ์ปดํจํ ํ์๊ฐ ์๋๋ผย ๊ณ์ฐ๊ณผ ๋ฐ์ดํฐ ์ด๋ ๊ฐ์ ์ํธ ์์ฉ์ ์์์ ์ธ์ํ๋ ๋ฐ ์๋ค. GPU๋ ์ด๋ก ์ ์ธ ํ ๋ผํ๋กญ์ค์ ์ปดํจํ ์ ๊ฐ์ง ์ ์์ง๋ง ๋ฐ์ดํฐ๊ฐ ์ปดํจํ ์ ๋์ ์ถฉ๋ถํ ๋นจ๋ฆฌ ๋๋ฌํ ์ ์๋ค๋ฉด ๊ทธ ์ ์ฌ๋ ฅ์ ์ฌ์ฉ๋์ง ์๋๋ค. ์ด๊ฒ์ด ์ฐ๋ฆฌ๊ฐ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ (๋ฐ์ดํฐ๊ฐ ์ด๋ํ๋ ๋ฐฉ์)์ ์ปดํจํ ํ์ดํ๋ผ์ธ (์์ ์ด ์๋ฃ๋๋ ๋ฐฉ์)์ ๋ชจ๋ ์ดํดํด์ผ ํ๋ ์ด์ ์ด๋ค.
๋ฐ๋ผ์ ๊ฐ์ฅ ๋์ ์์ค์์ GPU๋ ๋ ๊ฐ์ง ํ์ ์์ ์ ์ํํ๋ค:
- ๋ฐ์ดํฐ ์ด๋ ๋ฐ ์ ์ฅ (๋ฉ๋ชจ๋ฆฌ ์์คํ )
- ๋ฐ์ดํฐ๋ก ์ ์ฉํ ์์ ์ํ (์ปดํจํ ํ์ดํ๋ผ์ธ)
์ปดํจํ ์ ๋ ๋ฐ FLOPs
์์ฝ:ย GPU๋ ์ฑ๋ฅ์ FLOPs (์ด๋น ๋ถ๋ ์์์ ์ฐ์ฐ)๋ก ์ธก์ ํ๋ค.
H100๊ณผ ๊ฐ์ ์ต์ GPU๋ ๋ ๋ฎ์ ์ ๋ฐ๋์์ ๊ทน์ ์ผ๋ก ๋ ๋์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ๋ค: 990 TFLOPs (BF16) ๋ 67 TFLOPs (FP32). ๊ทธ๋ฌ๋ ์ค์ ์ฑ๋ฅ์ ๋ฉ๋ชจ๋ฆฌ ๋ณ๋ชฉ ํ์์ผ๋ก ์ธํด ์ด๋ก ์ ํผํฌ์ 70-77%์ด๋ค. ์ต์ฒจ๋จ ํ์ต์ 20-41%์ ์ข ๋จ ๊ฐ(end-to-end) ํจ์จ์ฑ, ์ฆ ๋ชจ๋ธ ํ๋กญ์ค ํ์ฉ๋ฅ (MFU)์ ๋ฌ์ฑํ๋ค. ํ์ต ์คํ์ ๊ณํํ ๋ ๋ง์ผํ ์ฌ์์ด ์๋ ํ์ค์ ์ธ ์์น๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
GPU ์ปดํจํ
์ฑ๋ฅ์ FLOPs (์ด๋น ๋ถ๋ ์์์ ์ฐ์ฐ)๋ก ์ธก์ ๋๋ค. FLOP์ ๋จ์ผ ์ฐ์ ์ฐ์ฐ, ์ผ๋ฐ์ ์ผ๋ก a+b ์ ๊ฐ์ ๋ถ๋ ์์์ ๋ง์
์ด๋ฉฐ, ์ต์ GPU๋ ์ด๋น ์์กฐ ๊ฐ์ ์ด๋ฌํ ์ฐ์ฐ(TFLOPs)์ ์คํํ ์ ์๋ค.
GPU ์ปดํจํ ์ ๊ธฐ๋ณธ ๋น๋ฉ ๋ธ๋ก์ **์คํธ๋ฆฌ๋ฐ ๋ฉํฐํ๋ก์ธ์(SM)**๋ก, ๋ช ๋ น์ ๋ณ๋ ฌ๋ก ์คํํ๋ ๋ ๋ฆฝ์ ์ธ ์ฒ๋ฆฌ ์ฅ์น์ด๋ค. ๊ฐ SM์๋ ๋ ๊ฐ์ง ์ ํ์ ์ฝ์ด๊ฐ ํฌํจ๋์ด ์๋ค: ํ์ค ๋ถ๋ ์์์ ์ฐ์ฐ์ ์ํย CUDA ์ฝ์ด์ ๋ฅ๋ฌ๋์ ์ฃผ๋ ฅ ์ฐ์ฐ(ํธ๋์คํฌ๋จธ ์ฑ๋ฅ์ ์ค์ํจ)์ธ ํ๋ ฌ ๊ณฑ์ ์ ์ต์ ํ๋ย Tensor ์ฝ์ด์ด๋ค.
ํ๋ GPU๋ ์นฉ ์ ์ฒด์ ์๋ฐฑ ๊ฐ์ ์ด๋ฌํ SM์ ์ ๋ ฌํ๋ค! ์๋ฅผ ๋ค์ด, H100 SXM5 ๋ฒ์ (์ฐ๋ฆฌ ํด๋ฌ์คํฐ์์ ์ฌ์ฉํ๋ GPU)์๋ 132๊ฐ์ SM์ด ํฌํจ๋์ด ์๋ค. ๊ฐ SM์ ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ๋ฉฐ **์ํ(warp)**๋ผ๊ณ ๋ถ๋ฆฌ๋ 32๊ฐ์ ์ค๋ ๋ ๊ทธ๋ฃน์ ๋์์ ์คํํ๋ค. ์ด๋ฅผ ๋๊ธฐ ์ํด SM์ ๋ ๋ค๋ฅธ ๊ตฌ์ฑ ์์์ธ ์ํ ์ค์ผ์ค๋ฌ์ ์์กดํ๋ค: ๋ค๋ฅธ ์ํ์ ๋ช ๋ น์ ๊ท ํ ์๊ฒ ํ ๋นํจ์ผ๋ก์จ ํ๋๊ฐ ๋ฉ์ถ ๋ ์ํ ๊ฐ ์ ํ์ ํตํด SM์ด โ์ง์ฐ ์๊ฐ์ ์จ๊ธธโ ์ ์๋๋ก ํ๋ค. ์ด SIMT (๋จ์ผ ๋ช ๋ น, ๋ค์ค ์ค๋ ๋) ์คํ ๋ชจ๋ธ์ ์ํ์ ๋ชจ๋ ์ค๋ ๋๊ฐ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ํด ๋์์ ๋์ผํ ๋ช ๋ น์ ์คํํจ์ ์๋ฏธํ๋ค.
(์ํ๋ Lindholm et al., 2008์ ๋ฐ๋ฅด๋ฉด โ์ต์ด์ ๋ณ๋ ฌ ์ค๋ ๋ ๊ธฐ์ โ์ธ ์ง์กฐ๋ฅผ ์ฐธ์กฐํ์ฌ ๋ช ๋ช ๋์๋ค. ๋ค๋ฅธ GPU ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ์์ ์ํ์ ํด๋นํ๋ ๊ฒ์๋ WebGPU์ ํ์ ๊ทธ๋ฃน(subgroups), DirectX์ ์จ์ด๋ธ(waves), Metal์ simdgroups๊ฐ ํฌํจ๋๋ค.)

์๋ฐฑ ๊ฐ์ SM์ด ๊ฐ๊ฐ ์ฌ๋ฌ ์ํ๋ฅผ ๋์์ ์คํํ๋ฏ๋ก ๋จ์ผ GPU๋ ์๋ง ๊ฐ์ ์ค๋ ๋๋ฅผ ๋์์ ์คํํ ์ ์๋ค. ์ด ๋๊ท๋ชจ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ GPU๊ฐ ๋ฅ๋ฌ๋ ์ํฌ๋ก๋๋ฅผ ์ง๋ฐฐํ๋ ํ๋ ฌ ์ฐ์ฐ์์ ํ์ํ ์ ์๊ฒ ํด์ค๋ค!
FLOPs๋ฅผ ๋ ผ์ํ ๋ย ์ ๋ฐ๋(Precision)๋ ์๋นํ ์ค์ํ๋ค. Tensor ์ฝ์ด๋ ๋ค์ํ ์ ๋ฐ๋(FP64, FP32, FP16/BF16, FP8, FP4 - ๋ถ๋ ์์์ ์ซ์์ ๋ํ ์๊ธฐ๋ ์ฌ๊ธฐ ์ฐธ์กฐ)์์ ์๋ํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ฌ์ฑ ๊ฐ๋ฅํ ์ฒ๋ฆฌ๋์ ๋ฐ์ดํฐ ์ ํ์ ๋ฐ๋ผ ์ข ์ข ์๋ฆฟ์ ์ฐจ์ด๋ก ๊ทน์ ์ผ๋ก ๋ฌ๋ผ์ง๋ค. ๋ ๋ฎ์ ์ ๋ฐ๋ ํ์์ ๋ ์ ์ ๋ฐ์ดํฐ ์ด๋์ ์๊ตฌํ๊ณ ๋์ผํ ์ค๋ฆฌ์ฝ ์์ญ์ ๋ ๋ง์ ์ฐ์ฐ์ ํจํนํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ ๋์ ์ฒ๋ฆฌ๋์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ์ด์ ์๋ ํ์ต ๋ถ์์ ์ฑ ๋๋ฌธ์ ํผํ์๋ค. ๊ทธ๋ฌ๋ ์ค๋๋ ์๋ ๋ค์ํ ์๋ก์ด ๊ธฐ์ ๋๋ถ์ ํ์ต๊ณผ ์ถ๋ก ๋ชจ๋ ์ ์ ๋ ๋ฎ์ ์ ๋ฐ๋๋ฅผ ์ฌ์ฉํด๊ฐ๊ณ ์์ผ๋ฉฐ FP8 ๋ฐ FP4์ ๋๋ฌํ๊ณ ์๋ค.
(FP8 ํผํฉ ์ ๋ฐ๋ ํ์ต์ ๋ํ ์ฐ๋ฆฌ์ ๊ฒฝํ์ ๋ํด ๋ ์์ธํ ์๊ณ ์ถ๋ค๋ฉด Ultra Scale Playbook์ ํ์ธํ๋ผ.)
์๋ ํ๋ ๋ค์ํ NVIDIA GPU ์ธ๋ ๋ฐ ์ ๋ฐ๋์ ๊ฑธ์น ์ด๋ก ์ ํผํฌ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค:
| ์ ๋ฐ๋ / GPU ์ ํ | A100 | H100 | H200 | B100 | B200 |
|---|---|---|---|---|---|
| FP64 | 9.7 | 34 | 34 | 40 | 40 |
| FP32 | 19.5 | 67 | 67 | 80 | 80 |
| FP16/BF16 | 312 | 990 | 990 | 1750 | 2250 |
| FP8 | - | 3960 | 3960 | 4500 | 5000 |
| FP4 | - | - | - | 9000 | 10000 |
์ ๋ฐ๋ ๋ฐ GPU ์ธ๋์ ๋ฐ๋ฅธ ์ด๋ก ์ TFLOPs๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ. ์ถ์ฒ: Nvidia, SemiAnalysis
๋ ๋ฎ์ ์ ๋ฐ๋์์์ ๊ทน์ ์ธ ์ฒ๋ฆฌ๋ ์ฆ๊ฐ๋ ๋จ์ํ ์์ ์๋์ ๊ดํ ๊ฒ์ด ์๋๋ผ ์์น ๊ณ์ฐ์ ๋ํ ์ฐ๋ฆฌ์ ์๊ฐ์ ๊ทผ๋ณธ์ ์ผ๋ก ์ ํํ๋ ๊ฒ์ ๋ฐ์ํ๋ค. FP8 ๋ฐ FP4๋ ๋ชจ๋ธ์ดย ์ํธ๋น ๋ฐ ์ด๋น ๋ ๋ง์ ์ฐ์ฐ์ ์ํํ ์ ์๊ฒ ํ์ฌ ๋๊ท๋ชจ ํ์ต ๋ฐ ์ถ๋ก ๋ชจ๋์ ํ์์ ์ด๋ค. H100์ FP8์์์ 3960 TFLOPs๋ FP16/BF16 ๋๋น 4๋ฐฐ ํฅ์์ ๋ํ๋ด๋ฉฐ, B200์ FP4์์์ 10,000 TFLOPs๋ ์ด๋ฅผ ๋์ฑ ๋ฐ์ด๋ถ์ธ ๊ฒ์ด๋ค.
์ซ์ ์ดํดํ๊ธฐ:ย ์ด๋ฌํ ์ด๋ก ์ ํผํฌ FLOPs๋ ๋ชจ๋ ์ปดํจํ ์ ๋์ด ์์ ํ ํ์ฉ๋๊ณ ๋ฐ์ดํฐ๊ฐ ์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํย ์ด์์ ์ธ ์กฐ๊ฑดย ํ์์ ๋ฌ์ฑ ๊ฐ๋ฅํ ์ต๋ ๊ณ์ฐ ์ฒ๋ฆฌ๋์ ๋ํ๋ธ๋ค. ์ค์ ์์, ์ค์ ์ฑ๋ฅ์ ์ํฌ๋ก๋๊ฐ ์ปดํจํ ์ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ ๊ณต๊ธํ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ์์ ์ด ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋์จ์ด์ ํจ์จ์ ์ผ๋ก ๋งคํ๋ ์ ์๋์ง์ ํฌ๊ฒ ์ข์ฐ๋๋ค.
SmolLM3์ ๊ฒฝ์ฐ NVIDIA H100 80GB HBM3 GPU์์ ํ์ตํ ์์ ์ด์์ผ๋ฏ๋ก ๋จผ์ ์ค์ ์ฑ๋ฅ ๋๋น H100์ ์ด๋ก ์ TFLOPs ์ฌ์์ ํ ์คํธํ๊ณ ์ถ์๋ค. ์ด๋ฅผ ์ํด ์ฐ๋ฆฌ๋ SemiAnalysis GEMM ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ๋ค: ์ด๊ฒ์ Meta์ Llama 70B ํ์ต์ ์ค์ ํ๋ ฌ ๊ณฑ์ ๋ชจ์์ ๋ํ ์ฒ๋ฆฌ๋์ ํ ์คํธํ๋ค.
| ๋ชจ์ (M, N, K) | FP64 torch.matmul | FP32 torch.matmul | FP16 torch.matmul | BF16 torch.matmul | FP8 TE.Linear (autocast, bias=False) | FP8 torch._scaled_mm (e5m2/e4m3fn) | FP8 torch._scaled_mm (e4m3) |
|---|---|---|---|---|---|---|---|
| (16384, 8192, 1280) | 51.5 TFLOPS | 364.5 TFLOPS | 686.5 TFLOPS | 714.5 TFLOPS | 837.6 TFLOPS | 1226.7 TFLOPS | 1209.7 TFLOPS |
| (16384, 1024, 8192) | 56.1 TFLOPS | 396.1 TFLOPS | 720.0 TFLOPS | 757.7 TFLOPS | 547.3 TFLOPS | 1366.2 TFLOPS | 1329.7 TFLOPS |
| (16384, 8192, 7168) | 49.5 TFLOPS | 356.5 TFLOPS | 727.1 TFLOPS | 752.9 TFLOPS | 1120.8 TFLOPS | 1464.6 TFLOPS | 1456.6 TFLOPS |
| (16384, 3584, 8192) | 51.0 TFLOPS | 373.3 TFLOPS | 732.2 TFLOPS | 733.0 TFLOPS | 952.9 TFLOPS | 1445.7 TFLOPS | 1370.3 TFLOPS |
| (8192, 8192, 8192) | 51.4 TFLOPS | 372.7 TFLOPS | 724.9 TFLOPS | 729.4 TFLOPS | 1029.1 TFLOPS | 1404.4 TFLOPS | 1397.5 TFLOPS |
Llama 70B ํ์ต ์ํฌ๋ก๋์ ์ ๋ฐ๋ ๋ฐ ํ๋ ฌ ๋ชจ์์ ๋ฐ๋ผ H100 80GB์์ ๋ฌ์ฑ๋ TFLOPs๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ
์ด๋ก ์ ์ฑ๋ฅ ๊ฒ์ฆ:ย ์ฐ๋ฆฌ์ ์คํ์ ์ด๋ก ์ ํผํฌ์ ๋ฌ์ฑ ๊ฐ๋ฅํ ์ฑ๋ฅ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ๋๋ฌ๋๋ค.
FP64 Tensor ์ฝ์ด ์ฐ์ฐ์ ๊ฒฝ์ฐ 49-56 TFLOPs๋ฅผ ๋ฌ์ฑํ์ฌ ์ด๋ก ์ ํผํฌ(67 TFLOPs)์ 74-84%๋ฅผ ๋ํ๋๋ค. TF32(PyTorch๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก Tensor ์ฝ์ด์ FP32 ํ ์์ ์ฌ์ฉํ๋ TensorFloat-32)์ ๊ฒฝ์ฐ 356-396 TFLOPs๋ฅผ ๋ฌ์ฑํ์ฌ ์ด๋ก ์ ํผํฌ(~495 TFLOPs dense)์ 72-80%๋ฅผ ๋ํ๋๋ค. ์ด๋ค์ ํ๋ฅญํ ํ๋์จ์ด ํ์ฉ๋ฅ ์ ๋ณด์ฌ์ฃผ์ง๋ง, ํ๋ ๋ฅ๋ฌ๋ ํ์ต์์๋ ์ด๋ฌํ ์ ๋ฐ๋๊ฐ ๊ฑฐ์ ์ฌ์ฉ๋์ง ์๋๋ค: FP64๋ ๊ณ์ฐ ๋น์ฉ ๋๋ฌธ์ด๊ณ , TF32๋ BF16 ๋ฐ FP8๊ณผ ๊ฐ์ ๋ ๋ฎ์ ์ ๋ฐ๋๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค.
(NVIDIA ์ฌ์์ ์ข ์ข 2:4 ๊ตฌ์กฐ์ ํฌ์์ฑ ํจํด์ ๊ฐ์ ํ ํฌ์ ์ฑ๋ฅ(TF32์ ๊ฒฝ์ฐ 989 TFLOPs)์ ๋์ดํ๋ค. ์ฐ๋ฆฌ ๋ฒค์น๋งํฌ๊ฐ ํ ์คํธํ๋ ๋ฐ์งํ ์ฐ์ฐ์ ํฌ์ ํผํฌ์ ์ฝ ์ ๋ฐ(~495 TFLOPs)์ ๋ฌ์ฑํ๋ค.)
BF16 ์ฐ์ฐ์ ๊ฒฝ์ฐ ๋ค์ํ ํ๋ ฌ ๋ชจ์์์ ์ผ๊ด๋๊ฒ 714-758 TFLOPs๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ด๋ H100์ ์ด๋ก ์ 990 TFLOPs ํผํฌ์ ์ฝ 72-77%์ด๋ค. ์ด๊ฒ์ ์ค์ ๋ก ์ค์ ์ํฌ๋ก๋์ ๋ํด ํ๋ฅญํ ํ์ฉ๋ฅ (utilisation rate) ์ด๋ค!
๐ย ๋ชจ๋ธ FLOPs ํ์ฉ๋ฅ (MFU)
์ปค๋ ๋ฒค์น๋งํฌ๋ ์์ TFLOPS๋ฅผ ์ธก์ ํ์ง๋ง, ์ข ๋จ ๊ฐ ํ์ต ํจ์จ์ฑ์ **๋ชจ๋ธ FLOPs ํ์ฉ๋ฅ (MFU)**๋ก ํฌ์ฐฉ๋๋ค: ์ด๋ก ์ ํผํฌ ํ๋์จ์ด ์ฑ๋ฅ์ ๋ํ ์ ์ฉํ ๋ชจ๋ธ ๊ณ์ฐ์ ๋น์จ์ด๋ค.
์ฐ๋ฆฌ์ BF16 matmul ๋ฒค์น๋งํฌ๋ H100 ์ด๋ก ์ ํผํฌ์ 72-77%๋ฅผ ๋ฌ์ฑํ์์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ ์ค์ ์ ๋ํด ์ปค๋ ์์ค์์ ๋ฌ์ฑํ ์ ์๋ ์ํ์ ์ ๋ํ๋ธ๋ค. ์ข ๋จ ๊ฐ ํ์ต MFU๋ ๋ ๋ณต์กํ ๋น-matmul ์ฐ์ฐ, ํต์ ์ค๋ฒํค๋ ๋ฐ ๊ธฐํ ๋ณด์กฐ ๊ณ์ฐ์ผ๋ก ์ธํด ํ์ฐ์ ์ผ๋ก ๋ ๋ฎ์ ๊ฒ์ด๋ค.
SOTA ํ์ต MFU:ย Meta๋ Llama 3 405B๋ฅผ ํ์ตํ ๋ 38-41%๋ฅผ ๋ฌ์ฑํ ๋ฐ๋ฉด, DeepSeek-v3๋ MoE ์ํคํ ์ฒ์ ๊ด๋ จ๋ ๋ ์๊ฒฉํ ํต์ ๋ณ๋ชฉ ํ์์ด ์๋ GPU์์ ~20-30%์ ๋๋ฌํ๋ค. SmolLM3์ ๊ฒฝ์ฐ ๋์ค์ ๋ณด๊ฒ ๋๊ฒ ์ง๋ง ~30% MFU๋ฅผ ๋ฌ์ฑํ๋ค. ๊ฒฉ์ฐจ์ ๋ง์ ๋ถ๋ถ์ ๋ถ์ฐ ํ์ต์ ๋ ธ๋ ๊ฐ ํต์ ์ค๋ฒํค๋์์ ๋น๋กฏ๋๋ค. ~77%์ ์ปค๋ ์์ค ์ํ์ ์ ๊ฐ์ํ ๋, ์ด๋ฌํ ์ข ๋จ ๊ฐ ์์น๋ ๋ฌ์ฑ ๊ฐ๋ฅํ matmul ์ฑ๋ฅ ๋๋น ๋๋ต 50-55% ํจ์จ์ฑ์ ๋ํ๋ธ๋ค. ์ถ๋ก ์ํฌ๋ก๋๋ ์์ matmul ์ฑ๋ฅ์ ๋ ๊ฐ๊น์ด 70% ์ด์์ ๋ ๋์ MFU์ ๋๋ฌํ ์ ์์ง๋ง ํ๋ก๋์ ๋ฐฐํฌ์์ ๊ณต๊ฐ๋ ๊ฒฐ๊ณผ๋ ๋๋ฌผ๋ค.
FP8 ๊ฒฐ๊ณผ๋ ๋ ๋ฏธ๋ฌํ๋ค. 3๊ฐ์ง ๋ค๋ฅธ ํ๋ ฌ ๊ณฑ์ ๋ฐฉ๋ฒ/์ปค๋์ ๋ํ ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด์.
(์ปค๋์ CUDA ์ฝ๋์ ๋จ์์ด๋ค.)
e4m3 ์ ๋ฐ๋๋ก PyTorch์ย torch._scaled_mmย ์ปค๋์ ์ฌ์ฉํ์ฌ, ์ฐ๋ฆฌ๋ ํ๋ ฌ ๋ชจ์์ ๋ฐ๋ผ 1,210-1,457 TFLOPs๋ฅผ ๋ฌ์ฑํ๋๋ฐ, ์ด๋ ์ด๋ก ์ 3,960 TFLOPs ํผํฌ์ ๋๋ต 31-37%์ด๋ค. ๐ฎ ์์ผ๊น? (FP8์์) ์ด ๋ฎ์ ํ์ฉ๋ฅ ๋น์จ์ ์ค์ ๋ก ์ฑ๋ฅ ์ ํ๋ฅผ ๋ํ๋ด์ง ์๋๋ค; ์คํ๋ ค, ์ปดํจํ ์ฒ๋ฆฌ๋์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ด๋ฌํ ์ฐ์ฐ์ด ์ ์ ๋ ๋ฉ๋ชจ๋ฆฌ ์ ํ์ (memory-bound)์ด ๋จ์ ๋ณด์ฌ์ค๋ค. Tensor ์ฝ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ด ์ ๋ฌํ ์ ์๋ ๊ฒ๋ณด๋ค ๋ ๋นจ๋ฆฌ FP8 ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ์ ํ ์์ธ์ด ๋๋ ๊ฒ์ด๋ค.
Transformer Engine์ย TE.Linear๋ ๋ชจ์์ ๋ฐ๋ผ 547-1,121 TFLOPs๋ฅผ ๋ฌ์ฑํ ๋ฐ๋ฉด,ย torch._scaled_mm์ ์ผ๊ด๋๊ฒ ๋ ๋์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ๋ค. ์ด๊ฒ์ ์ค์ํ ๊ตํ์ ๊ฐ์กฐํ๋ค:ย ์ปค๋ ๊ตฌํ์ ์๋นํ ์ค์ํ๋ฉฐ, API ์ ํ์ ๋์ผํ ํ๋์จ์ด ๊ธฐ๋ฅ์ ๋์์ผ๋ก ํ ๋์๋ ์ฑ๋ฅ์ 2-3๋ฐฐ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.
SmolLM3 ํ์ต์ ๊ฒฝ์ฐ, ์ด๋ฌํ ์ค์ ์ธก์ ๊ฐ์ ํ์ค์ ์ธ ์ฒ๋ฆฌ๋ ๊ธฐ๋์น๋ฅผ ์ค์ ํ๋ ๋ฐ ๋์์ด ๋์๋ค. ์์ฒด ํ์ต ์คํ์ ๊ณํํ ๋, ๊ธฐ๋์น๋ฅผ ์ค์ ํ๊ธฐ ์ํด ์ด๋ก ์ ํผํฌ๋ณด๋ค๋ ์ด๋ฌํ ๋ฌ์ฑ ๊ฐ๋ฅํ ์์น๋ฅผ ์ฌ์ฉํ๋ค.
๐ง์ปดํจํ ๋ฅ๋ ฅ (Compute Capability)
์ฌ๋ฐ๋ฅธ ์ปค๋ API๋ฅผ ์ ํํ๋ ๊ฒ ์ธ์๋, ์ฐ๋ฆฌ๋ ๊ทธ๋ฌํ ์ปค๋์ด ์ฌ๋ฐ๋ฅธ ํ๋์จ์ด ์ธ๋๋ฅผ ์ํด ์ปดํ์ผ๋์๋์ง ํ์ธํด์ผ ํ๋ค. ์ปดํจํ ๋ฅ๋ ฅ(CC, Compute Capability)์ PTX ๋ช ๋ น ์ธํธ์์ ๋ฌผ๋ฆฌ์ GPU ์ธ๋ถ ์ ๋ณด๋ฅผ ์ถ์ํํ๋ NVIDIA์ ๋ฒ์ ๊ด๋ฆฌ ์์คํ ์ด๋ค. ์ด๊ฒ์ GPU๊ฐ ์ง์ํ๋ ๋ช ๋ น ๋ฐ ๊ธฐ๋ฅ์ ๊ฒฐ์ ํ๋ค.
์ด๊ฒ์ด ์ค์ํ ์ด์ :ย ํน์ ์ปดํจํ ๋ฅ๋ ฅ์ ์ํด ์ปดํ์ผ๋ ์ปค๋์ ์ด์ ํ๋์จ์ด์์ ์คํ๋์ง ์์ ์ ์์ผ๋ฉฐ, ์ฝ๋๊ฐ ๋์ GPU์ CC์ ๋ํด ์ปดํ์ผ๋์ง ์์ ๊ฒฝ์ฐ ์ต์ ํ๋ฅผ ๋์น ์ ์๋ค. ๋ ๋์ ๊ฒ์, ํ๋ ์์ํฌ๊ฐ ์กฐ์ฉํ ์ฐจ์ ์ ์ปค๋์ ์ ํํ ์ ์๋ค๋ ๊ฒ์ด๋คโ์ฐ๋ฆฌ๋ PyTorch๊ฐ H100์์ sm_75 ์ปค๋ (Turing GPU์ฉ์ผ๋ก ์ค๊ณ๋ ์ปดํจํ ๋ฅ๋ ฅ 7.5)์ ์ ํํ์ฌ ๋ฏธ์คํฐ๋ฆฌํ ์๋ ์ ํ๋ฅผ ์ ๋ฐํ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด๊ฒ์ PyTorch ์ปค๋ฎค๋ํฐ์ ๋ฌธ์ํ๋ ์ ์ฌํ ๋ฌธ์ ๋ก, ํ๋ ์์ํฌ๊ฐ ์ข ์ข ์ต์ ์ ๊ฒ๋ณด๋ค๋ ๋ ์ค๋๋๊ณ ํธํ ๊ฐ๋ฅํ ์ปค๋์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ค์ ํ๋ค. ์ด ๊ฒ๋ณด๊ธฐ์๋ ์ฌ์ํ ์ธ๋ถ ์ฌํญ์ ๋์ผํ ํ๋์จ์ด์์ 720 TFLOPS๋ฅผ ์ป๋๋ 500 TFLOPS๋ฅผ ์ป๋๋์ ์ฐจ์ด๋ฅผ ๋ง๋ค ์ ์๋ค.
๋ฏธ๋ฆฌ ์ปดํ์ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ฌ์ฉ์ ์ ์ ์ปค๋์ ์ฌ์ฉํ ๋, ํญ์ ํธํ์ฑ๊ณผ ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ฅํ๊ธฐ ์ํด ํ๋์จ์ด์ ์ปดํจํ ๋ฅ๋ ฅ์ ๋ง๊ฒ ๋น๋๋์๋์ง ํ์ธํด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด,ย sm90xmma_gemmโฆ_cublas๋ SM 9.0 (H100์์ ์ฌ์ฉ๋๋ ์ปดํจํ ๋ฅ๋ ฅ 9.0)์ฉ์ผ๋ก ์ปดํ์ผ๋ ์ปค๋์ ๋ํ๋ธ๋ค.
nvidia-smi --query-gpu=compute_cap์ผ๋ก GPU์ ์ปดํจํ
๋ฅ๋ ฅ์ ํ์ธํ๊ฑฐ๋ NVIDIA CUDA C ํ๋ก๊ทธ๋๋ฐ ๊ฐ์ด๋์ ์ปดํจํ
๋ฅ๋ ฅ ์น์
์์ ๊ธฐ์ ์ฌ์์ ์ฐพ์ ์ ์๋ค.
์ฐ๋ฆฌ๊ฐ ๋ณด์๋ฏ์ด, ๋ฎ์ ์ ๋ฐ๋์์ ๊ณ์ฐ์ด ๋๋ฌด ๋นจ๋ผ์ง๋ฉด GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋ณ๋ชฉ ํ์์ด ๋๋ ๊ฒ ๊ฐ๋ค. GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ฌด์์ด ๋ณ๋ชฉ ํ์์ ์ ๋ฐํ๋์ง ์ดํด๋ณด์!
GPU ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ: ๋ ์ง์คํฐ์์ HBM๊น์ง
๊ณ์ฐ์ ์ํํ๊ธฐ ์ํด GPU๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฝ๊ธฐ/์ฐ๊ธฐ๋ฅผ ํด์ผ ํ๋ฏ๋ก ์ด๋ฌํ ์ ์ก์ด ์ด๋ค ์๋๋ก ๋ฐ์ํ๋์ง ์๋ ๊ฒ์ด ์ค์ํ๋ค. GPU ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ ๊ณ ์ฑ๋ฅ ์ปค๋์ ์์ฑํ๋ ๋ฐ ์ค์ํ๋ค.
์์ฝ:ย GPU๋ ๋น ๋ฅด์ง๋ง ์์ ๊ฒ(๋ ์ง์คํฐ, ๊ณต์ ๋ฉ๋ชจ๋ฆฌ)์์ ๋๋ฆฌ์ง๋ง ํฐ ๊ฒ(HBM ๋ฉ์ธ ๋ฉ๋ชจ๋ฆฌ)์ ์ด๋ฅด๋ ๊ณ์ธต ๊ตฌ์กฐ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ฑํ๋ค. ํ๋ AI๋ ์ข ์ข ย ๋ฉ๋ชจ๋ฆฌ ์ ํ์ ์ด๊ธฐ ๋๋ฌธ์ ์ด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค: ๋ณ๋ชฉ ํ์์ ๋ฐ์ดํฐ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด ์๋๋ผย ์ด๋์ํค๋ ๊ฒ์ด๋ค. ์ฐ์ฐ์ ์ตํฉ(Flash Attention๊ณผ ๊ฐ์)์ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋๋ฆฐ HBM์ ์ฐ๋ ๋์ ๋น ๋ฅธ ์จ์นฉ ๋ฉ๋ชจ๋ฆฌ์ ์ ์งํจ์ผ๋ก์จ 2-4๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค. ๋ฒค์น๋งํฌ์ ๋ฐ๋ฅด๋ฉด H100์ HBM3๋ ๋๊ท๋ชจ ์ ์ก์ ๋ํด ์ด๋ก ์ ์ฌ์๊ณผ ์ผ์นํ๋ ์ค์ ~3 TB/s๋ฅผ ์ ๊ณตํ๋ค.
์ค์ ๋ก ๋ฉ๋ชจ๋ฆฌ ์์ ์ด GPU๋ฅผ ํตํด ์ด๋ป๊ฒ ํ๋ฅด๋์ง ์๊ฐํํ๊ธฐ ์ํด, ๋จผ์ ์ ํํ ์ปค๋์ ๋ํด ์๋ก ๋ค๋ฅธ ๋ฉ๋ชจ๋ฆฌ ์ฅ์น ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ด๋ป๊ฒ ์ด๋ํ๋์ง ๊ทธ๋ํฝ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ํ๋กํ์ผ๋ง ๊ทธ๋ํ์ธ NVIDIA Nsight Compute์ ๋ฉ๋ชจ๋ฆฌ ์ฐจํธ๋ฅผ ์ดํด๋ณด์:

์ผ๋ฐ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฐจํธ๋ ์ ์ญ(Global), ๋ก์ปฌ(Local), ํ ์ค์ฒ(Texture), ํ๋ฉด(Surface), ๊ณต์ (Shared) ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ย ๋ ผ๋ฆฌ์ ์ฅ์น(๋ น์)์ L1/TEX ์บ์, ๊ณต์ ๋ฉ๋ชจ๋ฆฌ, L2 ์บ์, ์ฅ์น ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ย ๋ฌผ๋ฆฌ์ ์ฅ์น(ํ๋์)๋ฅผ ๋ชจ๋ ๋ณด์ฌ์ค๋ค. ์ฅ์น ๊ฐ์ ๋งํฌ๋ ์ฅ์น ๊ฐ์ ๋ฐ์ํ๋ ๋ช ๋ น(Inst) ๋๋ ์์ฒญ(Req) ์๋ฅผ ๋ํ๋ด๋ฉฐ, ์์์ ์ฌ์ฉ๋์ง ์์(0%)์์ ํผํฌ ์ฑ๋ฅ ์๋(100%)๊น์ง์ ํผํฌ ํ์ฉ๋ฅ ๋ฐฑ๋ถ์จ์ ๋ํ๋ธ๋ค.
NVIDIA Nsight Compute๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ ์ปค๋์ ๋ํด ์ด ๋ฉ๋ชจ๋ฆฌ ์ฐจํธ๋ฅผ ์์ฑํ ์ ์๋ค:
## Profile a specific kernel with memory workload analysis
ncu --set full --kernel-name "your_kernel_name" --launch-skip 0 --launch-count 1 python your_script.py
## Once profiling is complete, open the results in the Nsight Compute GUI to view the Memory Chart์ด๊ฒ์ ๋ช ๊ฐ์ง ํต์ฌ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํด์ค ์ ์๋ฐ:
- ๋ณ๋ชฉ ํ์ ์๋ณ:ย ํฌํ๋ ๋งํฌ (๋นจ๊ฐ์/์ฃผํฉ์์ผ๋ก ํ์๋จ)๋ ๋ฐ์ดํฐ ์ด๋์ด ์ ํ๋ ๊ณณ์ ๋ํ๋ธ๋ค.
- ์บ์ ํจ์จ์ฑ:ย L1/TEX ๋ฐ L2 ์บ์์ ๋ํ ์ ์ค๋ฅ ์ ์ปค๋์ด ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ผ๋ง๋ ์ ํ์ฉํ๋์ง ๋ณด์ฌ์ค๋ค.
- ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค ํจํด:ย ๋ ผ๋ฆฌ์ ์ฅ์น์ ๋ฌผ๋ฆฌ์ ์ฅ์น ๊ฐ์ ํ๋ฆ์ ์ปค๋์ด ์ข์ ๊ณต๊ฐ์ /์๊ฐ์ ์ง์ญ์ฑ์ ๊ฐ์ง๊ณ ์๋์ง ๋ณด์ฌ์ค๋ค.
- ํฌํธ ํ์ฉ๋ฅ :ย ๊ฐ๋ณ ๋ฉ๋ชจ๋ฆฌ ํฌํธ๋ ์ด ๋์ญํญ์ด ํ์ฉ๋์ง ์์ ๊ฒ์ฒ๋ผ ๋ณด์ผ ๋์๋ ํฌํ๋ ์ ์๋ค.
์์ ํน์ ์ฌ๋ก์์, ์ปค๋ ๋ช ๋ น์ด ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํตํด ์ด๋ป๊ฒ ํ๋ฅด๋์ง ๋ณผ ์ ์๋ค (์ฐ๋ฆฌ ํ๋์จ์ด์ FP64 ํ๋ ฌ ๊ณฑ์ ์ ๊ฒฝ์ฐ): ์ ์ญ ๋ก๋ ๋ช ๋ น์ L1/TEX ์บ์์ ๋ํ ์์ฒญ์ ์์ฑํ๋ฉฐ, ์ด๋ ์ ์คํ๊ฑฐ๋ ๋๋ฝ๋์ด L2์ ๋ํ ์ถ๊ฐ ์์ฒญ์ ์์ฑํ๊ณ , ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ๋๋ฝ ์ ์ฅ์น ๋ฉ๋ชจ๋ฆฌ (HBM)์ ์ก์ธ์คํ๋ค. ์ฅ์น ๋ด๋ถ์ ์์น ๋ ์ง์ฌ๊ฐํ์ ํฌํธ ํ์ฉ๋ฅ ์ ๋ณด์ฌ์ค๋ค. ๊ฐ๋ณ ๋งํฌ๊ฐ ํผํฌ ๋ฏธ๋ง์ผ๋ก ์๋ํ๋๋ผ๋ ๊ณต์ ๋ฐ์ดํฐ ํฌํธ๊ฐ ํฌํ๋ ์ ์๋ค.
๐กย ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ ์ก์ธ์ค ์ต์ ํ
์ต์ ์ ์ฑ๋ฅ์ ์ํด, ๋๋ฆฐ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต (HBM)์ผ๋ก์ ํธ๋ํฝ์ ์ต์ํํ๊ณ ๋น ๋ฅธ ๊ณ์ธต (๊ณต์ ๋ฉ๋ชจ๋ฆฌ, ๋ ์ง์คํฐ)์ ํ์ฉ์ ๊ทน๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
์ด์ ์ด ์ฐจํธ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ธฐ๋ณธ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ดํดํด๋ณด์. ํ๋ GPU๋ ์๋, ์ฉ๋ ๋ฐ ๋น์ฉ์ ๊ท ํ์ ๋ง์ถ๋ ๊ณ์ธต ๊ตฌ์กฐ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ฑํ๋๋ฐ, ์ด๋ ๊ทผ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฐ ํ๋ก ์ ์ฝ์ ์ํด ๊ฒฐ์ ๋๋ ์ค๊ณ์ด๋ค.

์ด ๊ณ์ธต ๊ตฌ์กฐ์ ๋งจ ์๋์๋ **HBM (High Bandwidth Memory)**์ด ์๋ค: GPU์ ๋ฉ์ธ ๋ฉ๋ชจ๋ฆฌ๋ก, ์ ์ญ ๋ฉ๋ชจ๋ฆฌ ๋๋ ์ฅ์น ๋ฉ๋ชจ๋ฆฌ๋ผ๊ณ ๋ ํ๋ค. H100์ ์ด๋ก ์ ๋์ญํญ์ด 3.35 TB/s์ธ HBM3๋ฅผ ๊ฐ์ง๊ณ ์๋ค. HBM์ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ์์ ๊ฐ์ฅ ํฌ์ง๋ง ๊ฐ์ฅ ๋๋ฆฐ ๊ณ์ธต์ด๋ค.
์ปดํจํ ์ ๋์ ํฅํด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฌ๋ผ๊ฐ๋ฉด ์ ์ง์ ์ผ๋ก ๋ ๋น ๋ฅด์ง๋ง ๋ ์์ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต์ด ์๋ค:
- L2 ์บ์:ย GPU ์ ์ฒด์ ๊ณต์ ๋๋ ๋ํ SRAM ๊ธฐ๋ฐ ์บ์๋ก, ์ผ๋ฐ์ ์ผ๋ก ์์ญ ๋ฉ๊ฐ๋ฐ์ดํธ์ด๋ค. H100์์๋ ์ด๊ฒ์ด 50MB์ด๋ฉฐ ~13 TB/s์ ๋์ญํญ์ ๊ฐ์ง๋ค.
- L1 ์บ์ ๋ฐ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ (SMEM):ย ๊ฐ ์คํธ๋ฆฌ๋ฐ ๋ฉํฐํ๋ก์ธ์(SM)๋ ์์ฒด L1 ์บ์์ ํ๋ก๊ทธ๋๋จธ ๊ด๋ฆฌ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋์ผํ ๋ฌผ๋ฆฌ์ SRAM ์คํ ๋ฆฌ์ง๋ฅผ ๊ณต์ ํ๋ค. H100์์ ์ด ๊ฒฐํฉ๋ ๊ณต๊ฐ์ SM๋น 256KB์ด๋ฉฐ SM๋น ~31 TB/s์ ๋์ญํญ์ ๊ฐ์ง๋ค.
- ๋ ์ง์คํฐ ํ์ผ (RMEM):ย ๊ณ์ธต ๊ตฌ์กฐ์ ๋งจ ์์์, ๋ ์ง์คํฐ๋ ์ปดํจํ ์ ๋ ๋ฐ๋ก ์์ ์์นํ ๊ฐ์ฅ ๋น ๋ฅธ ์คํ ๋ฆฌ์ง์ด๋ค. ๋ ์ง์คํฐ๋ ๊ฐ๋ณ ์ค๋ ๋์ ๋น๊ณต๊ฐ์ด๋ฉฐ SM๋น ~100s TB/s๋ก ์ธก์ ๋๋ ๋์ญํญ์ ์ ๊ณตํ๋ค.
์ด ๊ณ์ธต ๊ตฌ์กฐ๊ฐ ์กด์ฌํ๋ ์ด์ ๋ SRAM (์บ์ ๋ฐ ๋ ์ง์คํฐ์ ์ฌ์ฉ๋จ)์ ๋น ๋ฅด์ง๋ง ๋ฌผ๋ฆฌ์ ์ผ๋ก ํฌ๊ณ ๋น์ผ ๋ฐ๋ฉด, DRAM (HBM์ ์ฌ์ฉ๋จ)์ ๋ฐ๋๊ฐ ๋๊ณ ์ ๋ ดํ์ง๋ง ๋๋ฆฌ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒฐ๊ณผ: ๋น ๋ฅธ ๋ฉ๋ชจ๋ฆฌ๋ ์ปดํจํ ์ ๊ฐ๊น์ด ์๋์ผ๋ก ์ ๊ณต๋๋ฉฐ, ๋ ๋ฉ๋ฆฌ ์๋ ๋ ๋๋ฆฐ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ง์ ์ผ๋ก ๋ ํฐ ํ์ ์ํด ์ง์๋๋ค.
์ด๊ฒ์ด ์ค์ํ ์ด์ :ย ์ด ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ ์ปค๋ ์ต์ ํ์ ํ์์ ์ด๋ค. ํต์ฌ ํต์ฐฐ๋ ฅ์ ๋ฉ๋ชจ๋ฆฌ ์ ํ ์์ ์ด ๊ณ์ฐ ์๋๊ฐ ์๋๋ผย ๋ฐ์ดํฐ๋ฅผ ์ด๋์ํค๋ ์๋์ ์ํด ์ ํ๋๋ค๋ ๊ฒ์ด๋ค. Horace He๊ฐ Making Deep Learning Go Brrrr From First Principles์์ ์ค๋ช ํ๋ฏ์ด,
โ๋ฉ๋ชจ๋ฆฌ์์ ๋ก๋โ โ โ์์ฒด์ ์ผ๋ก ๋ ๋ฒ ๊ณฑํ๊ธฐโ โ โ๋ฉ๋ชจ๋ฆฌ์ ์ฐ๊ธฐโ
๋ ๋ณธ์ง์ ์ผ๋ก
โ๋ฉ๋ชจ๋ฆฌ์์ ๋ก๋โ โ โ์์ฒด์ ์ผ๋ก ํ ๋ฒ ๊ณฑํ๊ธฐโ โ โ๋ฉ๋ชจ๋ฆฌ์ ์ฐ๊ธฐโ
์ ๋์ผํ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค: ๊ณ์ฐ์ ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค์ ๋นํด ์ฌ์ค์ โ๊ณต์งโ์ด๋ค.
์ด๊ฒ์ด **์ฐ์ฐ์ ์ตํฉ(operator fusion)**์ด ๊ทธํ ๋ก ๊ฐ๋ ฅํ ์ด์ ์ด๋ค: ์ฌ๋ฌ ์ฐ์ฐ์ ๋จ์ผ ์ปค๋๋ก ๊ฒฐํฉํจ์ผ๋ก์จ, ์ฐ์ฐ ์ฌ์ด์ ๋๋ฆฐ HBM์ ๋ค์ ์ฐ๋ ๋์ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋น ๋ฅธ SRAM์ ์ ์งํ ์ ์๋ค. Flash Attention์ ์ด ์์น์ด ์๋ํ๋ ์๋ฒฝํ ์์์ด๋ค.
โกFlash Attention: ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ ์ต์ ํ ์ฌ๋ก ์ฐ๊ตฌ
ํ์ค ์ดํ ์ ๊ตฌํ์ ์ ์ฒด ์ดํ ์ ํ๋ ฌ์ HBM์ materialize ํ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ ์ ํ์ ์ด๋ค:
Q@K^T๋ฅผ ๊ณ์ฐย โ NรN ํฌ๊ธฐ์ย ์ดํ ์ ์ ์๋ฅผ HBM์ ์ฐ๊ธฐ- ์ํํธ๋งฅ์ค ์ ์ฉย โย HBM์์ ์ฝ๊ธฐ, ๊ณ์ฐ, HBM์ ๋ค์ ์ฐ๊ธฐ
V์ ๊ณฑํ๊ธฐย โย HBM์์ ์ดํ ์ ์ ์ ๋ค์ ์ฝ๊ธฐ
Flash Attention์ ์ด๋ฌํ ์ฐ์ฐ์ ์ตํฉํ๊ณ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ SRAM์ ์ ์งํจ์ผ๋ก์จ 2-4๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค:
- ์ ์ฒด ์ดํ ์ ํ๋ ฌ์ ๊ณ์ฐํ๋ ๋์ , SRAM์ ๋ง๋ ํ์ผ(tiles)๋ก ์ดํ ์ ์ ์ฒ๋ฆฌํ๋ค.
- ์ค๊ฐ ์ดํ ์ ์ ์๋ ๊ฒฐ์ฝ ๋น ๋ฅธ ์จ์นฉ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ๋์ง ์๋๋ค.
- ์ต์ข ์ถ๋ ฅ๋ง HBM์ ๋ค์ ์ฐ์ฌ์ง๋ค.
๊ฒฐ๊ณผ: Flash Attention์ HBM ์ก์ธ์ค๋ฅผ ์์ ์ผ๋ก ์ค์ฌ ๋ฉ๋ชจ๋ฆฌ ์ ํ ์์ ์ GPU์ ์ปดํจํ ๊ธฐ๋ฅ์ ๋ ์ ํ์ฉํ๋ ์์ ์ผ๋ก ๋ณํํ๋ค. ์ด๊ฒ์ด ํจ์จ์ ์ธ ์ปค๋ ์ค๊ณ์ ๋ณธ์ง์ด๋ค: ๋๋ฆฐ ๋ฉ๋ชจ๋ฆฌ ์ด๋ ์ต์ํ, ๋น ๋ฅธ ๊ณ์ฐ ์ต๋ํ
์์: ์ค์ HBM3 ๋์ญํญ ๊ฒ์ฆ
์ด์ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ดํดํ์ผ๋ฏ๋ก, ์ด๋ก ์ ์ค์ฒ์ ์ฎ๊ฒจ H100 GPU์ ์ค์ ๋์ญํญ์ ๊ฒ์ฆํด ๋ณด์! ์ด ์ง์ ์ด ๋ฐ๋ก ๋ฒค์น๋งํน ๋๊ตฌ๊ฐ ํ์์ ์ด๊ฒ ๋๋ ์๊ฐ์ด๋ค.
NVBandwidth๋ GPU ์์คํ ์ ๋ฐ์ ๋์ญํญ๊ณผ ์ง์ฐ ์๊ฐ์ ์ธก์ ํ๊ธฐ ์ํด ํน๋ณํ ์ค๊ณ๋ NVIDIA์ ์คํ ์์ค ๋ฒค์น๋งํน ๋๊ตฌ์ด๋ค. ์ด๋ ๋ณต์ฌ ์์ง๊ณผ ์ปค๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ชจ๋ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ฌ ํจํด (ํธ์คํธ-์ฅ์น, ์ฅ์น-ํธ์คํธ, ์ฅ์น-์ฅ์น ์์ )์ ๋ํ ๋ฐ์ดํฐ ์ ์ก ์๋๋ฅผ ํ๊ฐํ๋ค. ์ด ๋๊ตฌ๋ ํนํ GPU ๊ฐ ํต์ (์: NVLink ๋ฐ PCIe, ๋ ๊ฐ์ง ์ ํ์ ์ปค๋ฅํฐ)์ ํ๊ฐํ๊ณ ๋ค์ค GPU ํ๊ฒฝ์์ ์์คํ ์ฑ๋ฅ์ ๊ฒ์ฆํ๋ ๋ฐ ์ ์ฉํ๋ค.
NVIDIA์ GitHub ๋ฆฌํฌ์งํ ๋ฆฌ์์ NVBandwidth๋ฅผ ์ค์นํ ์ ์๋ค. ์ด ๋๊ตฌ๋ ๋ค์ํ ์ฅ์น ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ํจ์จ์ ์ผ๋ก ์ ์ก๋๋์ง ๋ณด์ฌ์ฃผ๋ ์์ธํ ๋์ญํญ ํ๋ ฌ์ ์ถ๋ ฅํ๋ฏ๋ก ์ฑ๋ฅ ๋ณ๋ชฉ ํ์์ ์ง๋จํ๊ฑฐ๋ ๊ฑด๊ฐํ GPU ์ํธ ์ฐ๊ฒฐ์ ํ์ธํ๋ ๋ฐ ์ด์์ ์ด๋ค.
๋ค์ํ ๋ฉ์์ง ํฌ๊ธฐ์ ๊ฑธ์ณ GPU ๋ก์ปฌ์ธ ์ฅ์น ๋ฒํผ ๊ฐย cuMemcpyAsync์ ๋์ญํญ์ ์ธก์ ํ๋ย device_local_copyย ํ
์คํธ๋ฅผ ์ฌ์ฉํ์ฌ H100์ ๋ก์ปฌ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ์ธก์ ํด๋ณด์.
(cuMemcpyAsync๋ ๋ ๋ฉ๋ชจ๋ฆฌ ํฌ์ธํฐ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋น๋๊ธฐ์ ์ผ๋ก ๋ณต์ฌํ๋ฉฐ ์ ์ก ์ ํ(ํธ์คํธ-ํธ์คํธ, ํธ์คํธ-์ฅ์น, ์ฅ์น-์ฅ์น, ๋๋ ์ฅ์น-ํธ์คํธ)์ ์ถ๋ก ํ๋ CUDA ๋๋ผ์ด๋ฒ API ํจ์์ด๋ค.)
$ ./nvbandwidth -t device_local_copy -b 2048
memcpy local GPU(column) bandwidth (GB/s)
0 1 2 3 4 5 6 7
0 1519.07 1518.93 1519.07 1519.60 1519.13 1518.86 1519.13 1519.33์ธก์ ๋ H100 ๋ก์ปฌ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ

๊ฒฐ๊ณผ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ ์ค์ํ ํน์ง์ ๋๋ฌ๋ธ๋ค: ์์ ๋ฉ์์ง ํฌ๊ธฐ (< 1 MB)์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ๋์ญํญ ์ ํ๋ณด๋ค๋ **์ง์ฐ ์๊ฐ ์ ํ(latency-bound)**์ด๋ค. ๋ฉ๋ชจ๋ฆฌ ์ ์ก์ ์์ํ๋ ์ค๋ฒํค๋๊ฐ ์ฑ๋ฅ์ ์ง๋ฐฐํ์ฌ ํผํฌ ๋์ญํญ์ ๋๋ฌํ๋ ๊ฒ์ ๋ฐฉํดํ๋ค. ๊ทธ๋ฌ๋ ํฐ ๋ฉ์์ง ํฌ๊ธฐ ( โฅ1 MB)์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ฝ๊ธฐ ๋ฐ ์ฐ๊ธฐ ์์ ๋ชจ๋์ ๋ํด ~1,500 GB/s์ ์ง์์ ์ธ ๋์ญํญ์ ๋ฌ์ฑํ๋ค.
HBM ๋์ญํญ์ ์ฝ๊ธฐ์ ์ฐ๊ธฐ๊ฐ ๋์์ ๋ฐ์ํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ฏ๋ก, ์ด๋ค์ ํฉ์ฐํ์ฌย 3 TB/s ์ด ์๋ฐฉํฅ ๋์ญํญย (1,519 ์ฝ๊ธฐ + 1,519 ์ฐ๊ธฐ)์ ์ป์ผ๋ฉฐ, ์ด๋ H100์ ์ด๋ก ์ 3.35 TB/s HBM3 ์ฌ์์ด ๋ฐ์ ํ๊ฒ ๊ฒ์ฆ๋ ๊ฒ์ด๋ค.
๋ฃจํ๋ผ์ธ ๋ชจ๋ธ (Roofline Model)
์ปค๋์ด ์ปดํจํ ์ ํ์ ์ธ์ง ๋ฉ๋ชจ๋ฆฌ ์ ํ์ ์ธ์ง ์ดํดํ๋ ๊ฒ์ ์ด๋ค ์ต์ ํ๊ฐ ๋์์ด ๋ ์ง ๊ฒฐ์ ํ ์ ์๊ฒ ํด์ค๋ค.
๋ ๊ฐ์ง ์๋๋ฆฌ์ค๊ฐ ์๋ค:
- **๋ฉ๋ชจ๋ฆฌ ์ ํ์ (memory-bound)**์ธ ๊ฒฝ์ฐ (๋๋ถ๋ถ์ ์๊ฐ์ ๋ฐ์ดํฐ ์ด๋์ ์๋น): ์ปดํจํ ์ฒ๋ฆฌ๋์ ๋๋ฆฌ๋ ๊ฒ์ ๋์์ด ๋์ง ์๋๋ค: ์ฐ์ฐ์ ์ตํฉ๊ณผ ๊ฐ์ ๊ธฐ์ ์ ํตํด ๋ฉ๋ชจ๋ฆฌ ํธ๋ํฝ์ ์ค์ฌ์ผ ํ๋ค.
- **์ปดํจํ ์ ํ์ (compute-bound)**์ธ ๊ฒฝ์ฐ (๋๋ถ๋ถ์ ์๊ฐ์ FLOPs์ ์๋น): ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค ํจํด์ ์ต์ ํํ๋ ๊ฒ์ ๋์์ด ๋์ง ์๋๋ค: ๋ ๋ง์ ์ปดํจํ ํ์๋ ๋ ๋์ ์๊ณ ๋ฆฌ์ฆ์ด ํ์ํ๋ค.
๋ฃจํ๋ผ์ธ ๋ชจ๋ธ์ ์ด๋ฌํ ์ฑ๋ฅ ํน์ฑ์ ์ดํดํ๊ณ ์ต์ ํ ๊ธฐํ๋ฅผ ์๋ณํ๊ธฐ ์ํ ์๊ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
์ค์ ์ปค๋ ๋ถ์์ ์ ์ฉํด๋ณด์. ์์ ์ธ๊ธํ NSight Compute ํ๋กํ์ผ๋ง ๋๊ตฌ์์ ์ฌ์ฉํ ์ ์๋ค (โroofline analysis viewโ ์๋). ๋ค์์ ์ด๋ฅผ ์คํํ์ ๋ ์ป๋ ๊ฒฐ๊ณผ์ ๋ชจ์ต์ด๋ค:

(์ปค๋ ์ฑ๋ฅ ๊ฒฝ๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฃจํ๋ผ์ธ ์ฐจํธ - ์ถ์ฒ: NVIDIA NSight Compute Profiling Guide)
๋ ๊ฐ์ ์ถ์ ๊ฐ์ง ์ด ์ฐจํธ๋ฅผ ์ฝ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์์ง์ถ (FLOP/s):ย ๋ฌ์ฑ๋ ์ด๋น ๋ถ๋ ์์์ ์ฐ์ฐ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํฐ ๋ฒ์์ ๊ฐ์ ์์ฉํ๊ธฐ ์ํด ๋ก๊ทธ ์ค์ผ์ผ์ ์ฌ์ฉํ๋ค.
- ์ํ์ถ (์ฐ์ ๊ฐ๋, Arithmetic Intensity):ย ๋ฉ๋ชจ๋ฆฌ ํธ๋ํฝ(๋ฐ์ดํธ)์ ๋ํ ์์ (FLOPs)์ ๋น์จ์ ๋ํ๋ด๋ฉฐ, ๋ฐ์ดํธ๋น FLOPs๋ก ์ธก์ ๋๋ค. ์ด๊ฒ ๋ํ ๋ก๊ทธ ์ค์ผ์ผ์ ์ฌ์ฉํ๋ค.
๋ฃจํ๋ผ์ธ ์์ฒด๋ ๋ ๊ฐ์ ๊ฒฝ๊ณ๋ก ๊ตฌ์ฑ๋๋ค:
- ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๊ฒฝ๊ณ (๊ธฐ์ธ์ด์ง ์ ):ย GPU์ ๋ฉ๋ชจ๋ฆฌ ์ ์ก ์๋(HBM ๋์ญํญ)์ ์ํด ๊ฒฐ์ ๋๋ค. ์ด ์ ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ํ ์ ์๋ ์๋์ ์ํด ์ ํ๋๋ค.
- ํผํฌ ์ฑ๋ฅ ๊ฒฝ๊ณ (ํํํ ์ ):ย GPU์ ์ต๋ ์ปดํจํ ์ฒ๋ฆฌ๋์ ์ํด ๊ฒฐ์ ๋๋ค. ์ด ์ ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๊ณ์ฐ์ ์คํํ ์ ์๋ ์๋์ ์ํด ์ ํ๋๋ค.
์ด๋ฌํ ๊ฒฝ๊ณ๊ฐ ๋ง๋๋ **์ต๊ธฐ์ (ridge point)**์ ๋ฉ๋ชจ๋ฆฌ ์ ํ ์ฒด์ ์ ์ปดํจํ ์ ํ ์ํ ์ฌ์ด์ ์ ํ์ ๋ํ๋ด๋ ์ง์ ์ด๋ค.
์ฐ๋ฆฌ๋ ์ด์ ์ฐจํธ์ ๋ ๋ถํ ๋ ์์ญ์ ๋ณด๋ฉฐ ์ฑ๋ฅ์ ํด์ํ ์ ์๋ค:
- ๋ฉ๋ชจ๋ฆฌ ์ ํ (๊ธฐ์ธ์ด์ง ๊ฒฝ๊ณ ์๋):ย ์ด ์์ญ์ ์ปค๋์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ์ํด ์ ํ๋๋ค. GPU๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ๊ณ ์์ผ๋ฉฐ, ์ปดํจํ ํ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๋์์ด ๋์ง ์๋๋ค. ์ต์ ํ๋ ์ฐ์ฐ์ ์ตํฉ, ๋ ๋์ ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค ํจํด ๋๋ ์ฐ์ ๊ฐ๋ ์ฆ๊ฐ์ ๊ฐ์ ๊ธฐ์ ์ ํตํด ๋ฉ๋ชจ๋ฆฌ ํธ๋ํฝ์ ์ค์ด๋ ๋ฐ ์ด์ ์ ๋ง์ถฐ์ผ ํ๋ค.
- ์ปดํจํ ์ ํ (ํํํ ๊ฒฝ๊ณ ์๋):ย ์ด ์์ญ์ ์ปค๋์ ์ปดํจํ ์ฒ๋ฆฌ๋์ ์ํด ์ ํ๋๋ค. GPU๋ ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง ์ถฉ๋ถํ ๋นจ๋ฆฌ ์ฒ๋ฆฌํ ์ ์๋ค. ์ต์ ํ๋ ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ด๋ Tensor ์ฝ์ด์ ๊ฐ์ ํน์ ํ๋์จ์ด ํ์ฉ์ ์ด์ ์ ๋ง์ถฐ์ผ ํ๋ค.
๋ฌ์ฑ๋ ๊ฐ (ํ๋กฏ๋ ์ )์ ์ปค๋์ด ํ์ฌ ์ด๋์ ์์นํ๋์ง ๋ณด์ฌ์ค๋ค. ์ด ์ ๊ณผ ๋ฃจํ๋ผ์ธ ๊ฒฝ๊ณ๊น์ง์ ๊ฑฐ๋ฆฌ๋ ์ต์ ํ ์ฌ์ ๊ณต๊ฐ์ ๋ํ๋ด๋ฉฐ, ๊ฒฝ๊ณ์ ๊ฐ๊น์ธ์๋ก ์ปค๋์ ์ฑ๋ฅ์ด ๋ ์ต์ ์ด๋ค.
์ฐ๋ฆฌ ์์์์, ์ปค๋์ย ๋ฉ๋ชจ๋ฆฌ ์ ํ ์์ญ์ ์์นํ๋ฉฐ, ์ด๋ ๋ฉ๋ชจ๋ฆฌ ํธ๋ํฝ์ ์ต์ ํํ์ฌ ๊ฐ์ ํ ์ฌ์ง๊ฐ ์ฌ์ ํ ์์์ ๋ํ๋ธ๋ค!
CUDA ์ฝ์ด, Tensor ์ฝ์ด, ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ ๋ฐ ์ ์์ค ์ต์ ํ ๊ธฐ์ ์ ๋ํ ์์ธํ ์ค๋ช ์ ํฌํจํ์ฌ GPU ๋ด๋ถ์ ๋ํ ๋ ๊น์ ํ๊ตฌ๋ฅผ ์ํ๋ฉด Ultrascale Playbook์ ํ์ธํ๋ผ!ย ์ด์ GPU ๋ด๋ถ์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋๋์ง ์ดํดํ์ผ๋ฏ๋ก, ์ถ์ํ์ฌ GPU๊ฐ ๋๋จธ์ง ์ธ์๊ณผ ์ด๋ป๊ฒ ํต์ ํ๋์ง ์ดํด๋ณด์.
GPU ์ธ๋ถ: GPU๊ฐ ์ธ์๊ณผ ๋ํํ๋ ๋ฐฉ๋ฒ
์ด์ GPU๊ฐ ๋ด๋ถ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ์ดํดํ์ผ๋ฏ๋ก, ์ค์ํ ํ์ค์ ๋ค๋ค์ผ ํ๋ค: GPU๋ ํ๋ก ๊ณ ๋ฆฝ๋์ด ์๋ํ์ง ์๋๋ค. ๊ณ์ฐ์ด ์ผ์ด๋๊ธฐ ์ ์, ๋ฐ์ดํฐ๋ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ๋ก๋๋์ด์ผ ํ๋ค. CPU๋ ์ปค๋์ ์ค์ผ์ค๋งํ๊ณ ์์ ์ ์กฐ์ ํด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ถ์ฐ ํ์ต์์, GPU๋ ์๋ก ํ์ฑํ, ๊ธฐ์ธ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ง์์ ์ผ๋ก ๊ตํํด์ผ ํ๋ค.

์ด๊ณณ์ด ์ธ๋ถ ํต์ ์ธํ๋ผ๊ฐ ์ค์ํด์ง๋ ๊ณณ์ด๋ค. GPU์ ์ปดํจํ ์ ๋์ด ์๋ฌด๋ฆฌ ๊ฐ๋ ฅํ๋๋ผ๋ ๋ฐ์ดํฐ๊ฐ CPU, ์คํ ๋ฆฌ์ง, ๋๋ ๋ค๋ฅธ GPU๋ก๋ถํฐ ์ถฉ๋ถํ ๋นจ๋ฆฌ ๋๋ฌํ ์ ์๋ค๋ฉด, ๋น์ผ ํ๋์จ์ด๋ ์ ํด(idle) ์ํ๊ฐ ๋๋ค. ์ด๋ฌํ ํต์ ๊ฒฝ๋ก์ ๋์ญํญ ํน์ฑ์ ์ดํดํ๋ ๊ฒ์ ํ๋์จ์ด ํ์ฉ์ ๊ทน๋ํํ๊ณ ๋ณ๋ชฉ ํ์์ ์ต์ํํ๋ ๋ฐ ํ์์ ์ด๋ค.
์ด ์น์ ์์๋ GPU๋ฅผ ์ธ๋ถ ์ธ๊ณ์ ์ฐ๊ฒฐํ๋ ๋ค ๊ฐ์ง ์ค์ํ ํต์ ๋งํฌ๋ฅผ ์ดํด๋ณผ ๊ฒ์ด๋ค:
- GPU-CPU:ย CPU๊ฐ ์์ ์ ์ค์ผ์ค๋งํ๊ณ ๋ฐ์ดํฐ๋ฅผ GPU๋ก ์ ์กํ๋ ๋ฐฉ๋ฒ
- GPU-GPU ๋ ธ๋ ๋ด (Intra-node):ย ๋์ผํ ๋จธ์ ์ ์๋ GPU๊ฐ ํต์ ํ๋ ๋ฐฉ๋ฒ
- GPU-GPU ๋ ธ๋ ๊ฐ (Inter-node):ย ๋คํธ์ํฌ๋ฅผ ํตํด ๋ค๋ฅธ ๋จธ์ ์ ์๋ GPU๊ฐ ํต์ ํ๋ ๋ฐฉ๋ฒ
- GPU-์คํ ๋ฆฌ์ง:ย ๋ฐ์ดํฐ๊ฐ ์คํ ๋ฆฌ์ง์์ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ํ๋ฅด๋ ๋ฐฉ๋ฒ
๊ฐ ๋งํฌ๋ ์๋ก ๋ค๋ฅธ ๋์ญํญ๊ณผ ์ง์ฐ ์๊ฐ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ์ดํดํ๋ฉด ํ์ต ํ์ดํ๋ผ์ธ์ด ์ด๋์์ ๋ณ๋ชฉ ํ์์ ๊ฒช๊ณ ์๋์ง ์๋ณํ๋ ๋ฐ ๋์์ด ๋ ๊ฒ์ด๋ค. ์ดํด๋ฅผ ๋๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ์ฅ ์ค์ํ ๊ตฌ์ฑ ์์์ ํต์ ๋งํฌ๋ฅผ ๊ฐ์กฐํ๋ ๋จ์ํ๋ ๋ค์ด์ด๊ทธ๋จ์ ๋ง๋ค์๋ค:

์ด๊ฒ์ด ๋๋ฌด ๊ณผํ๊ฒ ์ด๋ ค์ ๋ณด์ธ๋ค๊ณ ํ๋๋ผ๋ ๊ฑฑ์ ํ์ง ์์๋ ์ข๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ๊ฐ๊ฐ์ ์ฐ๊ฒฐ์ ๋ํด ์์ธํ ์์๋ณด๊ณ ๊ฐ ๋งํฌ์ ์ฑ๋ฅ ํน์ฑ์ ์ดํดํ๊ธฐ ์ํด ์ค์ ๋์ญํญ์ ์ธก์ ํด๋ณผ ๊ฒ์ด๋ค.
GPU ๋ CPU (GPU-to-CPU)
์์ฝ:ย CPU๋ PCIe ์ฐ๊ฒฐ์ ํตํด GPU ์์ ์ ์กฐ์จํ๋ฉฐ, ์ฐ๋ฆฌ p5 ์ธ์คํด์ค์ CPU ๋ GPU ์ ์ก์ ๊ฒฝ์ฐ ~14.2 GB/s (PCIe Gen4 x8)์์ ๋ณ๋ชฉ ํ์์ด ๋ฐ์ํ๋ค. CPU-GPU ์ง์ฐ ์๊ฐ์ ~1.4 ๋ง์ดํฌ๋ก์ด์ด๋ฉฐ, ์ด๋ ๋ง์ ์์ ์ปค๋์ด ์๋ ์ํฌ๋ก๋์ ๋ฌธ์ ๊ฐ ๋๋ ์ปค๋ ์คํ ์ค๋ฒํค๋๋ฅผ ์ถ๊ฐํ๋ค. CUDA ๊ทธ๋ํ๋ ์์ ์ ๋ฐฐ์น ์ฒ๋ฆฌํ์ฌ ์ด ์ค๋ฒํค๋๋ฅผ ์ค์ผ ์ ์๋ค. NUMA ์นํ๋๋ ๋ฉํฐ ์์ผ ์์คํ ์์ ์ค์ํ๋ฉฐ; ์๋ชป๋ CPU ์์ผ์์ GPU ํ๋ก์ธ์ค๋ฅผ ์คํํ๋ฉด ์๋นํ ์ง์ฐ ์๊ฐ์ด ์ถ๊ฐ๋๋ค. Grace Hopper์ ๊ฐ์ ์ต์ ์ํคํ ์ฒ๋ NVLink-C2C (900 GB/s ๋ 128 GB/s)๋ก PCIe ๋ณ๋ชฉ ํ์์ ์ ๊ฑฐํ๋ค.
CPU๋ GPU ๊ณ์ฐ์ ์งํ์(orchestrator)์ด๋ค. ์ปค๋ ์คํ, ๋ฉ๋ชจ๋ฆฌ ํ ๋น ๊ด๋ฆฌ, ๋ฐ์ดํฐ ์ ์ก ์กฐ์ ์ ๋ด๋นํ๋ค. ํ์ง๋ง CPU๋ ์ค์ ๋ก ์ผ๋ง๋ ๋นจ๋ฆฌ GPU์ ํต์ ํ ์ ์๋๊ฐ? ์ด๊ฒ์ ๊ทธ๋ค ์ฌ์ด์ย PCIe (Peripheral Component Interconnect Express)ย ์ฐ๊ฒฐ์ ์ํด ๊ฒฐ์ ๋๋ค.
์ด ๋งํฌ๋ฅผ ์ดํดํ๋ ๊ฒ์ ์ด ๋งํฌ๊ฐ ๋ค์๊ณผ ๊ฐ์ ์ํฅ์ ๋ฏธ์น๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค:
- ์ปค๋ ์คํ ์ง์ฐ ์๊ฐ:ย CPU๊ฐ GPU์ ์์ ์ ์ผ๋ง๋ ๋นจ๋ฆฌ ์ค์ผ์ค๋งํ ์ ์๋๊ฐ
- ๋ฐ์ดํฐ ์ ์ก ์๋:ย CPU์ GPU ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ๋นจ๋ฆฌ ์ด๋ํ ์ ์๋๊ฐ
- ๋๊ธฐํ ์ค๋ฒํค๋:ย CPU-GPU ์กฐ์ ์ง์ ์ ๋น์ฉ
ํ๋ GPU ์๋ฒ์์ CPU-GPU ์ฐ๊ฒฐ์ ํฌ๊ฒ ๋ฐ์ ํ๋ค. ์ด๊ธฐ ์์คํ ์ ๋ค์ด๋ ํธ PCIe ์ฐ๊ฒฐ์ ์ฌ์ฉํ์ง๋ง, DGX H100๊ณผ ๊ฐ์ ํ๋ ๊ณ ์ฑ๋ฅ ์์คํ ์ ์ฌ๋ฌ GPU๋ฅผ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ธฐ ์ํด PCIe ์ค์์น๋ฅผ ์ฌ์ฉํ๋ ๋ ์ ๊ตํ ํ ํด๋ก์ง๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ต์ GB200 ์ํคํ ์ฒ๋ฅผ ํตํด NVIDIA๋ CPU์ GPU๋ฅผ ๋์ผํ ์ธ์ ํ๋ก ๊ธฐํ์ ๋ฐฐ์นํ์ฌ ์ธ๋ถ ์ค์์น์ ํ์์ฑ์ ์์ ํ ์ ๊ฑฐํจ์ผ๋ก์จ ์ด๋ฅผ ํ ๋จ๊ณ ๋ ๋ฐ์ ์์ผฐ๋ค.
์ ์ฌ์ ์ธ ๋ณ๋ชฉ ํ์์ ์๋ณํ๊ธฐ ์ํดย lstopo๋ฅผ ์ฌ์ฉํ์ฌ p5 ์ธ์คํด์ค์ ๋ฌผ๋ฆฌ์ ํ ํด๋ก์ง๋ฅผ ๊ฒ์ฌํ ๋ค์ ์ด ์ค์ํ ๋งํฌ์ ์ค์ ์ฑ๋ฅ์ ์ธก์ ํด๋ณด์.
$ lstopo -v
...
HostBridge L#1 (buses=0000:[44-54])
PCIBridge L#2 (busid=0000:44:00.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[45-54] PCISlot=64)
PCIBridge L#3 (busid=0000:45:00.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[46-54] PCISlot=1-1)
...
PCIBridge L#12 (busid=0000:46:01.4 id=1d0f:0200 class=0604(PCIBridge) link=63.02GB/s buses=0000:[53-53])
PCI L#11 (busid=0000:53:00.0 id=10de:2330 class=0302(3D) link=63.02GB/s PCISlot=86-1)
Co-Processor(CUDA) L#8 (Backend=CUDA GPUVendor="NVIDIA Corporation" GPUModel="NVIDIA H100 80GB HBM3" CUDAGlobalMemorySize=83295872 CUDAL2CacheSize=51200 CUDAMultiProcessors=132 CUDACoresPerMP=128 CUDASharedMemorySizePerMP=48) "cuda0"
GPU(NVML) L#9 (Backend=NVML GPUVendor="NVIDIA Corporation" GPUModel="NVIDIA H100 80GB HBM3" NVIDIASerial=1654922006536 NVIDIAUUID=GPU-ba136838-6443-7991-9143-1bf4e48b2994) "nvml0"
...
...lstopoย ์ถ๋ ฅ์์ ์ฐ๋ฆฌ ์์คํ ์ ๋ ๊ฐ์ง ์ฃผ์ PCIe ๋์ญํญ ๊ฐ์ ๋ณผ ์ ์๋ค:
- 15.75GB/s:ย PCIe Gen4 x8 ๋งํฌ (CPU์์ PCIe ์ค์์น๋ก)์ ํด๋น
- 63.02GB/s:ย PCIe Gen5 x16 ๋งํฌ (PCIe ์ค์์น์์ GPU๋ก)์ ํด๋น
์ ์ฒด ํ ํด๋ก์ง๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ค์์ ์ฌ์ฉํ์ฌ ์๊ฐํํ ์ ์๋ค:
$ lstopo --whole-system lstopo-diagram.png
์ด ๋ค์ด์ด๊ทธ๋จ์ ์ฐ๋ฆฌ ์์คํ ์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋ค:
- ๋ ๊ฐ์ย NUMA (Non-Uniform Memory Access)ย ๋ ธ๋๋ฅผ ํฌํจํ๋ค (NUMA๋ CPU ์์ผ๋น ๋ฉ๋ชจ๋ฆฌ ์์ญ์ด๋ค).
- ๊ฐ CPU ์์ผ์ PCIe Gen4 x8 ๋งํฌ (15.75GB/s)๋ฅผ ํตํด 4๊ฐ์ PCIe ์ค์์น์ ์ฐ๊ฒฐ๋๋ค.
- ๊ฐ PCIe ์ค์์น๋ PCIe Gen5 x16 ๋งํฌ (63.02GB/s)๋ฅผ ํตํด ํ๋์ H100 GPU์ ์ฐ๊ฒฐ๋๋ค.
- โฆ (์ฐ๋ฆฌ๋ ๋ค์ ์น์ ์์ NVSwitch, EFA ๋คํธ์ํฌ ์นด๋ ๋ฐ NVMe ๋๋ผ์ด๋ธ์ ๊ฐ์ ๋ค๋ฅธ ๊ตฌ์ฑ ์์๋ฅผ ํ์ํ ๊ฒ์ด๋ค.)
PCIe ์ฌ์์ ์ธ๋๋ง๋ค ๋ค๋ฅด๋ฉฐ, ๋ ์ธ๋น ์ ์ก ์๋๊ฐ ๋ ๋ฐฐ๋ก ์ฆ๊ฐํ๋ค. ์ ์ก ์๋๋ GT/s (์ด๋น ๊ธฐ๊ฐ์ ์ก)๋ก ์ธก์ ๋๋ฉฐ ์์ ์ ํธ ์๋๋ฅผ ๋ํ๋ด๋ ๋ฐ๋ฉด, ์ฒ๋ฆฌ๋์ GB/s (์ด๋น ๊ธฐ๊ฐ๋ฐ์ดํธ)๋ก ์ธก์ ๋๋ฉฐ ์ธ์ฝ๋ฉ ์ค๋ฒํค๋๋ฅผ ์ค๋ช ํ๊ณ ์ค์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋์ญํญ์ ๋ํ๋ธ๋ค๋ ์ ์ ์ ์ํด์ผ ํ๋ค:
| PCIe ๋ฒ์ | ์ ์ก ์๋ (๋ ์ธ๋น) | ์ฒ๋ฆฌ๋ (GB/s) x16 |
|---|---|---|
| 1.0 | 2.5 GT/s | 4.0 |
| 2.0 | 5.0 GT/s | 8.0 |
| 3.0 | 8.0 GT/s | 15.754 |
| 4.0 | 16.0 GT/s | 31.508 |
| 5.0 | 32.0 GT/s | 63.015 |
| 6.0 | 64.0 GT/s | 121.0 |
| 7.0 | 128.0 GT/s | 242.0 |

ํ ํด๋ก์ง ๋ค์ด์ด๊ทธ๋จ๊ณผ PCIe ๋์ญํญ ํ์์, CPU-๋-GPU ๊ฒฝ๋ก๊ฐ ๋ ๊ฐ์ PCIe ํ์ ํต๊ณผํจ์ ์ ์ ์๋ค: ๋จผ์ PCIe Gen4 x8 (15.754 GB/s)์ ํตํด CPU์์ PCIe ์ค์์น๋ก, ๊ทธ ๋ค์ PCIe Gen5 x16 (63.015 GB/s)์ ํตํด PCIe ์ค์์น์์ GPU๋ก ๊ฐ๋ค. ์ด๋ CPU-GPU ํต์ ์ ๋ณ๋ชฉ ํ์์ด 15.754 GB/s ์์์ ์ฒซ ๋ฒ์งธ ํ์์ ์๋ฏธํ๋ค. ๋ ๋ค๋ฅธ ์ ํธ๋ฆฌํฐ์ธย nvbandwidth๋ก ์ด๊ฒ์ ๊ฒ์ฆํด๋ณด์!
host_to_device_memcpy_ceย ๋ช
๋ น์ GPU์ ๋ณต์ฌ ์์ง์ ์ฌ์ฉํ์ฌ ํธ์คํธ(CPU) ๋ฉ๋ชจ๋ฆฌ์์ ์ฅ์น(GPU) ๋ฉ๋ชจ๋ฆฌ๋ก์ย cuMemcpyAsync์ ๋์ญํญ์ ์ธก์ ํ๋ค.
./nvbandwidth -t host_to_device_memcpy_ce -b <message_size> -i 5
๊ฒฐ๊ณผ๋ ์ค์ ๋ก ์์ ๋ฉ์์ง ํฌ๊ธฐ์ ๊ฒฝ์ฐ ์ง์ฐ ์๊ฐ ์ ํ์ ์ด์ง๋ง, ํฐ ๋ฉ์์ง ํฌ๊ธฐ์ ๊ฒฝ์ฐย ~14.2 GB/s๋ฅผ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ PCIe Gen4 x8์ ๋ํ ์ด๋ก ์ 15.754 GB/s ๋์ญํญ์ ์ฝ 90%์ด๋ค. ์ด๊ฒ์ CPU-GPU ํต์ ์์ CPU-๋-PCIe ์ค์์น ๋งํฌ๊ฐ ์ค์ ๋ก ์ฐ๋ฆฌ์ ๋ณ๋ชฉ ํ์์์ ํ์ธ์์ผ์ค๋ค.
๋์ญํญ ์ธ์๋,ย ์ง์ฐ ์๊ฐ์ CPU๊ฐ ์ปค๋์ ์ผ๋ง๋ ๋นจ๋ฆฌ ์ค์ผ์ค๋งํ ์ ์๋์ง ๊ฒฐ์ ํ๋ฏ๋ก CPU-GPU ํต์ ์ ๋๊ฐ์ด ์ค์ํ๋ค. ์ด๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ํฌ์ธํฐ ์ถ์ ์ปค๋์ ์ฌ์ฉํ์ฌ ์๋ณต ์ง์ฐ ์๊ฐ์ ์ธก์ ํ๋ย nvbandwidth์ย host_device_latency_smย ํ ์คํธ๋ฅผ ์ฌ์ฉํ ์ ์๋ค.ย host_device_latency_smย ํ ์คํธ๋ ํธ์คํธ(CPU)์ ๋ฒํผ๋ฅผ ํ ๋นํ๊ณ ํฌ์ธํฐ ์ถ์ ์ปค๋์ ์ฌ์ฉํ์ฌ GPU์์ ์ก์ธ์คํจ์ผ๋ก์จ ์๋ณต ์ง์ฐ ์๊ฐ์ ์ธก์ ํ๋ค. ์ด๊ฒ์ CPU-GPU ํต์ ์ ์ค์ ์ง์ฐ ์๊ฐ์ ์๋ฎฌ๋ ์ด์ ํด์ค๋ค.
./nvbandwidth -t host_device_latency_sm -i 5
๊ฒฐ๊ณผ๋ ์ง์ฐ ์๊ฐ์ด ์ฝย 1.4 ๋ง์ดํฌ๋ก์ด์์ ๋ณด์ฌ์ค๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ๊ฐ ML ์ํฌ๋ก๋์์ ์ข ์ข ๊ด์ฐฐํ๋ ๋ช ๋ง์ดํฌ๋ก์ด์ ์ปค๋ ์คํ ์ค๋ฒํค๋๋ฅผ ์ค๋ช ํด์ค๋ค. ๋ง์ ์์ ์ปค๋์ ์คํํ๋ ์ํฌ๋ก๋์ ๊ฒฝ์ฐ, ์ถ๊ฐ๋ ์ง์ฐ ์๊ฐ์ด ๋ณ๋ชฉ ํ์์ด ๋ ์ ์๋ค; ๊ทธ๋ ์ง ์์ผ๋ฉด ์ค๋ฒํค๋๋ ๊ฒน์น๋ ์คํ์ ์ํด ์จ๊ฒจ์ง๋ค.
(์๋ฅผ ๋ค์ด ์ํ ๋ชจ๋ธ์ด๋ ์์ ๋ฐฐ์น์ ๊ฒฝ์ฐ ์ปค๋ ์คํ ๋๋ฌธ์ GPU์์ ์ถ๋ก ์ด ํฌํ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค. FlashFormer๋ ์๋ ํฅ์์ ์ป๊ธฐ ์ํด ์ ์ฒด ๋ ์ด์ด๋ฅผ ์ตํฉํจ์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐํ๋ค (Nrusimha et al., 2025).)
๐ย ์คํ ์ค๋ฒํค๋๋ฅผ ์ค์ด๊ธฐ ์ํ CUDA ๊ทธ๋ํ
CUDA ๊ทธ๋ํ๋ ์ผ๋ จ์ ์์ ์ ์บก์ฒํ๊ณ ๋จ์ผ ๋จ์๋ก ์ฌ์ํจ์ผ๋ก์จ ๊ฐ ์ปค๋ ์คํ์ ๋ํ ๋ง์ดํฌ๋ก์ด ๋จ์์ CPU-GPU ์๋ณต ์ง์ฐ ์๊ฐ์ ์ ๊ฑฐํ์ฌ ์ปค๋ ์คํ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์๋ค. ์ด๊ฒ์ ๋ง์ ์์ ์ปค๋์ด๋ ๋น๋ฒํ CPU-GPU ๋๊ธฐํ๊ฐ ์๋ ์ํฌ๋ก๋์ ํนํ ์ ์ฉํ๋ค. ์คํ ์ค๋ฒํค๋ ์ดํด ๋ฐ ์ต์ ํ์ ๋ํ ์์ธํ ๋ด์ฉ์ NVIDIA Nsight Systems์ ์ค๋ฒํค๋ ๋ฐ ์ง์ฐ ์๊ฐ ์๊ฐํ ์ดํด(https://developer.nvidia.com/blog/understanding-the-visualization-of-overhead-and-latency-in-nsight-systems/) ๋ฅผ ์ฐธ์กฐํด๋ผ.
โ ๏ธย MoE ๋ชจ๋ธ ๋ฐ CPU-GPU ๋๊ธฐํ ์ค๋ฒํค๋
์ ๋ฌธ๊ฐ ํผํฉ(MoE) ๋ชจ๋ธ์ ์ผ๋ถ ๊ตฌํ์ ์ ํ๋ ์ ๋ฌธ๊ฐ์ ์ ์ ํ ์ปค๋์ ์ค์ผ์ค๋งํ๊ธฐ ์ํด ๊ฐ ๋ฐ๋ณต์์ CPU-GPU ๋๊ธฐํ๋ฅผ ์๊ตฌํ๋ค. ์ด๊ฒ์ ํนํ CPU-GPU ์ฐ๊ฒฐ์ด ๋๋ฆด ๋ ์ฒ๋ฆฌ๋์ ์๋นํ ์ํฅ์ ๋ฏธ์น ์ ์๋ ์ปค๋ ์คํ ์ค๋ฒํค๋๊ฐ MoE์์ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด, DeepSeek MOE ์ปค๋์ MakoGenerate ์ต์ ํ์์, ์ฐธ์กฐ ๊ตฌํ์ ์๋ฐฉํฅ ํจ์ค๋น 67๊ฐ์ CPU-GPU ๋๊ธฐํ ์ง์ ๊ณผ ํจ๊ป 1,043๊ฐ์ ์ปค๋์ ๋์คํจ์นํ๋ค. ์ ๋ฌธ๊ฐ ๋ผ์ฐํ ๋ฉ์ปค๋์ฆ์ ์ฌ๊ตฌ์ฑํจ์ผ๋ก์จ, ๊ทธ๋ค์ ์ด๋ฅผ 533๊ฐ์ ์ปค๋ ์คํ๊ณผ ๋จ 3๊ฐ์ ๋๊ธฐํ ์ง์ ์ผ๋ก ์ค์ฌ, ๋๊ธฐํ ์ค๋ฒํค๋๋ฅผ 97% ์ค์ด๊ณ ์ข ๋จ ๊ฐ ์ง์ฐ ์๊ฐ์ 44% ์ค์๋ค. ๋ชจ๋ MoE ๊ตฌํ์ด CPU-GPU ๋๊ธฐํ๋ฅผ ์๊ตฌํ๋ ๊ฒ์ ์๋์ง๋ง (ํ๋ ๊ตฌํ์ ์ข ์ข ๋ผ์ฐํ ์ ์ ์ ์ผ๋ก GPU์ ์ ์งํ๋ค), ๊ทธ๋ ๊ฒ ํ๋ ๊ฒฝ์ฐ ํจ์จ์ ์ธ CPU-GPU ํต์ ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ๊ธฐ์ฌํ๋ค.
๐ย Grace Hopper ์ํผ์นฉ: CPU-GPU ํต์ ์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์
NVIDIA์ Grace Hopper ์ํผ์นฉ์ ๊ธฐ์กด x86+Hopper ์์คํ ์ ๋นํด CPU-GPU ํต์ ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค. ์ฃผ์ ๊ฐ์ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ๋ค:
- 1:1 GPU ๋ CPU ๋น์จ (x86+Hopper์ ๊ฒฝ์ฐ 4:1๊ณผ ๋น๊ต), GPU๋น 3.5๋ฐฐ ๋ ๋์ CPU ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ์ ๊ณต
- NVLink-C2C๊ฐ PCIe Gen5 ๋ ์ธ์ ๋์ฒดํ์ฌ 900 GB/s ๋ 128 GB/s ์ ๊ณต (7๋ฐฐ ๋ ๋์ GPU-CPU ๋งํฌ ๋์ญํญ)
- PCIe Gen4๋ฅผ ํตํด ์ฐ๊ฒฐ๋ InfiniBand NDR400 NIC๋ณด๋ค 9๋ฐฐ ๋ ๋์ GPU-GPU ๋งํฌ ๋์ญํญ์ ์ ๊ณตํ๋ NVLink ์ค์์น ์์คํ
์์ธํ ๋ด์ฉ์ NVIDIA Grace Hopper ์ํผ์นฉ ์ํคํ ์ฒ ๋ฐฑ์ (11ํ์ด์ง, https://download.deltacomputer.com/NVIDIA Grace Hopper Superchip Architecture Whitepaper.pdf)๋ฅผ ์ฐธ๊ณ ํ๋ผ.
โ ๏ธย NUMA ์นํ๋: ๋ฉํฐ ์์ผ ์ฑ๋ฅ์ ์ค์ํจ
์ฐ๋ฆฌ์ AMD EPYC 7R13 ๋ ธ๋ (2 ์์ผ, ๊ฐ 48 ์ฝ์ด)์ ๊ฐ์ ๋ฉํฐ ์์ผ ์์คํ ์์, NUMA ์นํ๋(NUMA affinity)๋ GPU ์ฑ๋ฅ์ ์ค์ํ๋ค. ์ด๋ ๋์ ์ฅ์น (์: GPU)์ ๋์ผํ ์์ผ์ ๊ณต์ ํ๋ CPU ์ฝ์ด์์ ํ๋ก์ธ์ค๋ฅผ ์คํํ๋ ๊ฒ์ ์๋ฏธํ๋ค. GPU ํ๋ก์ธ์ค๊ฐ GPU๊ฐ ์ฐ๊ฒฐ๋ ๊ณณ๊ณผ ๋ค๋ฅธ NUMA ๋ ธ๋์ CPU์์ ์คํ๋๋ฉด, ์์ ์ CPU ์ํธ ์ฐ๊ฒฐ (AMD Infinity Fabric)์ ํต๊ณผํด์ผ ํ๋ฏ๋ก ์๋นํ ์ง์ฐ ์๊ฐ๊ณผ ๋์ญํญ ์ ์ฝ์ด ์ถ๊ฐ๋๋ค.
๋จผ์ , ์ฑ๋ฅ์ ์๋ฏธ๋ฅผ ์ดํดํ๊ธฐ ์ํด NUMA ํ ํด๋ก์ง์ ๋ ธ๋ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฒ์ฌํด๋ณด์:
$ numactl --hardware
node distances:
node 0 1
0: 10 32
1: 32 10๊ฑฐ๋ฆฌ ๊ฐ์ ๋์ผํ NUMA ๋ ธ๋ (๊ฑฐ๋ฆฌ 10)์ ๋ฉ๋ชจ๋ฆฌ์ ์ก์ธ์คํ๋ ๊ฒ์ด ๋ค๋ฅธ NUMA ๋ ธ๋ (๊ฑฐ๋ฆฌ 32)๋ก ๊ฑด๋๊ฐ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด 3.2๋ฐฐ์ ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค ์ง์ฐ ์๊ฐ ์ฐจ์ด๋ ํ๋ก์ธ์ค๊ฐ ์๋ชป๋ NUMA ๋ ธ๋์ ๊ณ ์ ๋ ๋ GPU ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.
NUMA ๊ด๋ จ ์ฑ๋ฅ ๋ฌธ์ ์ง๋จ ๋ฐ ํด๊ฒฐ์ ๋ํ ์์ธํ ๋จ๊ณ๋ ์ํธ ์ฐ๊ฒฐ ์ฑ๋ฅ ๋ฌธ์ ํด๊ฒฐ ์น์ ์ ์ฐธ๊ณ ํด๋ผ.
GPU ๋ GPU ๋ ธ๋ ๋ด (GPU-to-GPU Intranode)
๋ถ์ฐ ํ์ต์์, GPU๋ ์ข ์ข ๋ฐ๋ณต๋น ๊ธฐ๊ฐ๋ฐ์ดํธ์ ๋ฐ์ดํฐ์ธ ๊ธฐ์ธ๊ธฐ, ๊ฐ์ค์น, ํ์ฑํ๋ฅผ ์์ฃผ ๊ตํํด์ผ ํ๋ค. ์ด ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ ํต์ ์ ์ ์คํ ์ฒ๋ฆฌ๋ฅผ ์๊ตฌํ๋ค. H100์ ๋ด๋ถ HBM์ ์ฝ 3 TB/s๋ก ์ฝ์ ์ ์์ง๋ง, ์ค์๋ก ์๋ชป๋ ํ๋๊ทธ๋ฅผ ์ฌ์ฉํ๋ฉด GPU ๋ GPU ํต์ ๋์ญํญ์ด ์์ ํ ๋ง๊ฐ์ง ์ ์๋ค!
๋์ผํ ๋ ธ๋ ๋ด์ GPU ๊ฐ ํต์ ์ ์ํํ ์ ์๋ ๋ชจ๋ ๋ฐฉ๋ฒ (๊ทธ๋ฆฌ๊ณ ์ค์ ํด์ผ ํ๊ฑฐ๋ ์ค์ ํ์ง ๋ง์์ผ ํ๋ ๋ชจ๋ ํ๋๊ทธ)์ ๊ฒํ ํ์ฌ ์ ๋ง๊ฐ์ง ์ ์๋์ง ๊ทธ ์ด์ ์ ๋ํด ์์๋ณด์ ๐
์์ฝ:ย ๋ ธ๋ ๋ด์ GPU๋ ์ธ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ํต์ ํ ์ ์๋ค: CPU๋ฅผ ํตํจ (๊ฐ์ฅ ๋๋ฆผ, ~3 GB/s, PCIe ๋ณ๋ชฉ), EFA NIC๋ฅผ ํตํ GPUDirect RDMA (~38 GB/s), ๋๋ NVLink๋ฅผ ํตํ GPUDirect RDMA (~786 GB/s ์๋ฐฉํฅ). NVLink๋ 9-112๋ฐฐ ๋น ๋ฅด๋ฉฐ CPU/PCIe๋ฅผ ์์ ํ ์ฐํํ๋ค. NCCL์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ NVLink๋ฅผ ์๋์ผ๋ก ์ฐ์ ์ํ๋ค. NVLink SHARP (NVLS)๋ ํ๋์จ์ด ๊ฐ์ ์งํฉ(collective)์ ์ ๊ณตํ์ฌ allreduce ์ฑ๋ฅ์ 1.3๋ฐฐ์ธ 480 GB/s๋ก ๋์ธ๋ค. ๊ทธ๋ฌ๋ alltoall ์์ (340 GB/s)์ NVLS ๊ฐ์์ ์ด์ ์ ์ป์ง ๋ชปํ๋ค.
CPU๋ฅผ ํตํด
์์งํ ์ ๊ทผ ๋ฐฉ์์ ํธ์คํธ ๋ฉ๋ชจ๋ฆฌ (SHM)๋ฅผ ์ฌ์ฉํ๋ค: ๋ฐ์ดํฐ๋ GPU1์์ PCIe ์ค์์น๋ฅผ ํตํด CPU๋ก, ํธ์คํธ ๋ฉ๋ชจ๋ฆฌ๋ก ๋ค์ด๊ฐ๋ค๊ฐ, ๋ค์ CPU๋ฅผ ํตํด, PCIe ์ค์์น๋ฅผ ๋ค์ ํต๊ณผํ์ฌ, ๋ง์ง๋ง์ผ๋ก GPU2๋ก ์ด๋ํ๋ค. ์ด๊ฒ์ NCCL์ ์ํดย NCCL_P2P_DISABLE=1ย ๋ฐย FI_PROVIDER=tcpย ํ๊ฒฝ ๋ณ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌ์ฑ๋ ์ ์๋ค (๊ถ์ฅ๋์ง๋ ์์). ์ด ๋ชจ๋๊ฐ ํ์ฑํ๋๋ฉดย NCCL_DEBUG=INFO๋ฅผ ์ค์ ํ์ฌ ํ์ธํ ์ ์์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ ๋ฉ์์ง๊ฐ ํ์๋๋ค:
NCCL INFO Channel 00 : 1[1] -> 0[0] via SHM/direct/direct
CPU ๋ฐ ๋ฉ์ธ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํ GPU-๋-GPU ํต์ ๊ฒฝ๋ก, PCIe ์ค์์น์ CPU๋ฅผ ํต๊ณผํ๋ ๋นํจ์จ์ ์ธ ์๋ณต์ ๋ณด์ฌ์ค๋ค.
์ด ์ฐํ ๊ฒฝ๋ก๋ ์ฌ๋ฌ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ฌ๋ฅผ ํฌํจํ๋ฉฐ PCIe ๋ฐ CPU ๋ฉ๋ชจ๋ฆฌ ๋ฒ์ค๋ฅผ ๋ชจ๋ ํฌํ์์ผ ํผ์ก์ ์ ๋ฐํ๋ค. 4๊ฐ์ H100์ด ๋์ผํ CPU ๋ฉ๋ชจ๋ฆฌ ๋ฒ์ค๋ฅผ ๊ณต์ ํ๋ ์ฐ๋ฆฌ ํ ํด๋ก์ง์์, ์ด ํผ์ก์ ์ฌ๋ฌ GPU๊ฐ ๋์ ํต์ ์ ์๋ํ ๋ ๋์ฑ ๋ฌธ์ ๊ฐ ๋๋๋ฐ, ๊ทธ๋ค์ด ๋์ผํ ์ ํ๋ CPU ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ๋๊ณ ๊ฒฝ์ํ๊ธฐ ๋๋ฌธ์ด๋คโฆ ๐ข
์ด CPU ์ค๊ฐ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด, ์ฐ๋ฆฌ๋ ๊ทผ๋ณธ์ ์ผ๋ก CPU์ PCIe ์ค์์น ์ฌ์ด์ ~16 GB/s์ธ PCIe Gen4 x8 ๋งํฌ์ ์ํด ๋ณ๋ชฉ ํ์์ ๊ฒช๋๋ค. ๋คํํ๋, CPU๋ฅผ ํฌํจํ์ง ์๊ณ ์ฐ๋ฆฌ GPU๊ฐ ํต์ ํ ์ ์๋ ๋ ๋์ ๋ฐฉ๋ฒ์ด ์๋ค:ย GPUDirect RDMA.
Libfabric EFA๋ฅผ ํตํด
**GPUDirect RDMA (Remote Direct Memory Access ๋๋ GDRDMA)**๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ๋ํ ์ง์ ์ก์ธ์ค๋ฅผ ํ์ฉํ์ฌ NVIDIA GPU ๊ฐ์ ์ง์ ํต์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ธฐ์ ์ด๋ค. ์ด๋ ๋ฐ์ดํฐ๊ฐ ์์คํ CPU๋ฅผ ํต๊ณผํ ํ์์ฑ์ ์ ๊ฑฐํ๊ณ ์์คํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํ ๋ฒํผ ๋ณต์ฌ๋ฅผ ํผํ์ฌ, ๊ธฐ์กด CPU ์ค๊ฐ ์ ์ก์ ๋นํด ์ต๋ 10๋ฐฐ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค. GPUDirect RDMA๋ PCIe๋ฅผ ํตํด ์๋ํ์ฌ ๋ ธ๋ ๋ด์์ (์ฌ๊ธฐ์ ๋ณด๋ ๋ฐ์ ๊ฐ์ด) ๊ทธ๋ฆฌ๊ณ RDMA ๊ธฐ๋ฅ์ด ์๋ NIC (๋คํธ์ํฌ ์ธํฐํ์ด์ค ์นด๋, ๋ค์ ์น์ ์์ ๋ณด๊ฒ ๋ ๊ฒ์ด๋ค)๋ฅผ ์ฌ์ฉํ์ฌ ๋ ธ๋ ๊ฐ์ ๋น ๋ฅธ GPU ๋ GPU ํต์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.ย ์์ธํ ๋ด์ฉ์ NVIDIA GPUDirect (https://developer.nvidia.com/gpudirect)๋ฅผ ์ฐธ๊ณ ํด๋ผ..
ํ ํด๋ก์ง ๋ค์ด์ด๊ทธ๋จ์ ๋ค์ ๋ณด๋ฉด, ๊ฐ PCIe ์ค์์น์ 4๊ฐ์ EFA (Elastic Fabric Adapter) NIC๊ฐ ์์์ ์ ์ ์๋ค. ์ฆ, ๊ฐ GPU๋ 4๊ฐ์ EFA ์ด๋ํฐ์ ์ก์ธ์คํ ์ ์๋ค. EFA๋ ํด๋ผ์ฐ๋ ์ธ์คํด์ค๋ฅผ ์ํ AWS์ ๋ง์ถคํ ๊ณ ์ฑ๋ฅ ๋คํธ์ํฌ ์ธํฐํ์ด์ค๋ก, ์ ์ง์ฐ, ๊ณ ์ฒ๋ฆฌ๋ ์ธ์คํด์ค ๊ฐ ํต์ ์ ์ ๊ณตํ๋๋ก ์ค๊ณ๋์๋ค. p5 ์ธ์คํด์ค์์, EFA๋ ์ ํ๋ฆฌ์ผ์ด์ ์ด ์ฌ์ฉํ ์ ์๋ libfabric ์ธํฐํ์ด์ค (๊ณ ์ฑ๋ฅ ๊ณ์ฐ์ ์ํ ํน์ ํต์ API)๋ฅผ ๋ ธ์ถํ๋ฉฐ, ๋ ธ๋ ๊ฐ ์ง์ GPU ๋ GPU ํต์ ์ ์ํ GPUDirect RDMA๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ RDMA ์ ์ฌ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ค.
(EFA๋ ์ํ ๋ฐ์ดํฐ ์ผํฐ ๋คํธ์ํฌ(๋ง์ ์์ ๋คํธ์ํฌ ๊ฒฝ๋ก๊ฐ ์๋)๋ฅผ ์ฌ์ฉํ๋๋ก ์ค๊ณ๋ Scalable Reliable Datagram (SRD)์ด๋ผ๋ ์ ๋ขฐํ ์ ์๋ ์ด๋๋ท ๊ธฐ๋ฐ ์ ์ก ํ๋กํ ์ฝ์ ์ฌ์ฉํ๋ค. ์ฌ๊ธฐ(https://aws.amazon.com/blogs/hpc/in-the-search-for-performance-theres-more-than-one-way-to-build-a-network/) ์์ ๊ทธ ์ค์์ฑ์ ๋ํด ์์๋ณผ ์ ์๋ค.)
$ lstopo -v
...
## We can see 4 such EFA devices per each PCIe switch
PCIBridge L#8 (busid=0000:46:01.0 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[4f-4f] PCIVendor="Amazon.com, Inc.")
PCI L#6 (busid=0000:4f:00.0 id=1d0f:efa1 class=0200(Ethernet) link=15.75GB/s PCISlot=82-1 PCIVendor="Amazon.com, Inc.")
OpenFabrics L#4 (NodeGUID=cd77:f833:0000:1001 SysImageGUID=0000:0000:0000:0000 Port1State=4 Port1LID=0x0 Port1LMC=1 Port1GID0=fe80:0000:0000:0000:14b0:33ff:fef8:77cd) "rdmap79s0"
...
$ fi_info --verbose
fi_link_attr:
address: EFA-fe80::14b0:33ff:fef8:77cd
mtu: 8760 # maximum packet size is 8760 bytes
speed: 100000000000 # each EFA link provides 100 Gbps of bandwidth
state: FI_LINK_UP
network_type: Ethernet๊ฐ EFA ๋งํฌ๋ 100 Gbps (12.5 GB/s)์ ๋์ญํญ์ ์ ๊ณตํ๋ค. GPU๋น 4๊ฐ์ EFA NIC์ ๋ ธ๋๋น 8๊ฐ์ GPU๊ฐ ์์ผ๋ฏ๋ก, ์ด๋ **๋ ธ๋๋น 100ร4ร8=3200 Gbps (400GB/s)**์ ์ด ๋์ญํญ์ ์ ๊ณตํ๋ค.
(libfabric๊ณผ EFA๋ฅผ ์ฌ์ฉํ์ฌ ์ด 3200 Gbps ๋์ญํญ์ ์์ ํ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ํ๊ตฌ๋ Lequn Chen์ ํ๋ฅญํ ๋ธ๋ก๊ทธ ์๋ฆฌ์ฆ: Harnessing 3200 Gbps Network: A Journey with RDMA, EFA, and libfabric์ ์ฐธ๊ณ ํ๋ผ.)
EFA๋ฅผ ํตํ GPUDirect RDMA๋ฅผ ํ์ฑํํ๊ณ ์๋์ง ํ์ธํ๋ ค๋ฉด, FI_PROVIDER=efa ๋ฐ NCCL_P2P_DISABLE=1 ํ๊ฒฝ ๋ณ์๋ฅผ ์ค์ ํด์ผ ํ๋ค. ์ด ๋ชจ๋๊ฐ ํ์ฑํ๋๋ฉด NCCL_DEBUG=INFO๋ฅผ ์ค์ ํ์ฌ ์๋ํ๋์ง ํ์ธํ ์ ์์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ ๋ฉ์์ง๊ฐ ํ์๋๋ค:
NCCL INFO Channel 01/1 : 1[1] -> 0[0] [receive] via NET/Libfabric/0/GDRDMA/Shared

Libfabric EFA๋ฅผ ํตํ GPU-๋-GPU ํต์ ๊ฒฝ๋ก. ์ด๊ฒ์ NVLink๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋นํด ๋ ธ๋ ๋ด ํต์ ์ ๋ ํจ์จ์ ์ด๋ผ๋ ์ ์ ์ ์ํด๋ผ.
EFA๋ฅผ ํตํ GPUDirect RDMA๊ฐ GPU๋น 4๊ฐ์ EFA ์นด๋๋ก ์ฝ 50 GB/s๋ฅผ ๋ฌ์ฑํ์ฌ CPU ์ค๊ฐ ์ ์ก๋ณด๋ค ์๋นํ ๊ฐ์ ์ ์ ๊ณตํ์ง๋ง, ๋ ์ํ ์ ์์๊น? ์ฌ๊ธฐ์ย NVLink๊ฐ ๋ฑ์ฅํ๋ค.
NVLink๋ฅผ ํตํด
NVLink๋ ์๋ฒ ๋ด์์ ๋น ๋ฅธ ๋ค์ค GPU ํต์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ NVIDIA์ ๊ณ ์, ์ง์ GPU ๋ GPU ์ํธ ์ฐ๊ฒฐ ๊ธฐ์ ์ด๋ค. H100์ 4์ธ๋ NVLink (NVLink 4.0)๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฐ๊ฐ ์๋ฐฉํฅ 50 GB/s๋ก ์๋ํ๋ 18๊ฐ์ ๋งํฌ๋ฅผ ํตํด GPU๋น 900 GB/s์ ์๋ฐฉํฅ ๋์ญํญ์ ์ ๊ณตํ๋ค (NVIDIA H100 Tensor Core GPU ๋ฐ์ดํฐ์ํธ https://resources.nvidia.com/en-us-hopper-architecture/nvidia-h100-tensor-c).
DGX H100 ์ํคํ ์ฒ์์, 4๊ฐ์ 3์ธ๋ NVSwitch๋ ๊ฐ GPU๊ฐ ์ค์์น ์ ๋ฐ์ ๊ฑธ์ณ 5+4+4+5 ๋งํฌ๋ก ์ฐ๊ฒฐ๋๋ ๊ณ์ธตํ๋ ํ ํด๋ก์ง๋ฅผ ์ฌ์ฉํ์ฌ 8๊ฐ์ GPU๋ฅผ ์ฐ๊ฒฐํ๋ค. ์ด ๊ตฌ์ฑ์ ๋จ 1๊ฐ์ NVSwitch๋ผ๋ ์ผ์ ํ ํ ์๋ก ๋ชจ๋ GPU ์ ๊ฐ์ ์ฌ๋ฌ ์ง์ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฅํ์ฌ 3.6 TB/s์ ์ด ์๋ฐฉํฅ NVLink ๋คํธ์ํฌ ๋์ญํญ์ ๊ตฌ์ถํ๋ค.
| NVLink 2.0 (Volta) | NVLink 3.0 (Ampere) | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| ๋์ญํญ | 300 GB/s | 600 GB/s | 900 GB/s |
ํ: ์ธ๋๋ณ NVLink ๋์ญํญ ๋น๊ต, ์ด๋ก ์ ์ฌ์์ ๋ณด์ฌ์ค๋ค
๊ธฐ๋ณธ์ ์ผ๋ก NCCL์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ ๋ ธ๋ ๋ด GPU ํต์ ์ ์ํด NVLink๋ฅผ ์ฐ์ ์ํ๋๋ฐ, ์ด๋ ๋์ผํ ๋จธ์ ์ ์๋ GPU ๊ฐ์ ๊ฐ์ฅ ๋ฎ์ ์ง์ฐ ์๊ฐ๊ณผ ๊ฐ์ฅ ๋์ ๋์ญํญ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ ํ๋๊ทธ๋ฅผ ์ ๋๋ก ์ค์ ํ์ง ์์๋ค๋ฉด NVLink ์ฌ์ฉ์ ๋ฐฉํดํ๊ณ ์์ ์ ์๋ค! ๐ฑ
NVLink๋ CPU๋ ์์คํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํฌํจํ์ง ์๊ณ ์ง์ GPU ๋ GPU ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. NVLink๋ฅผ ์ฌ์ฉํ ์ ์์ ๋ NCCL์ PCIe๋ฅผ ํตํ GPUDirect P2P๋ก ๋๋์๊ฐ๊ฑฐ๋, ์์ผ ๊ฐ PCIe ์ ์ก์ด ์ฐจ์ ์ฑ ์ผ ๋ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ (SHM) ์ ์ก์ ์ฌ์ฉํ๋ค.
NVLink๊ฐ ์ฌ์ฉ๋๊ณ ์๋์ง ํ์ธํ๋ ค๋ฉดย NCCL_DEBUG=INFO๋ฅผ ์ค์ ํ๊ณ ๋ค์๊ณผ ๊ฐ์ ๋ฉ์์ง๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค:
NCCL INFO Channel 00/1 : 0[0] -> 1[1] via P2P/CUMEM
(CUMEM์ ํผ์ด ํฌ ํผ์ด ์์ ์ด CUDA ๋ฉ๋ชจ๋ฆฌ ํธ๋ค(cuMem API)์ ์ฌ์ฉํจ์ ๋ํ๋ธ๋ค. ์์ธํ ๋ด์ฉ์ ์ฌ๊ธฐ(https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#cumem-host-allocations) ๋ฅผ ์ฐธ๊ณ ํด๋ผ.)
๋ค์ ๋ค์ด์ด๊ทธ๋จ์ NVLink๋ฅผ ์ฌ์ฉํ ๋ ๋ฐ์ดํฐ๊ฐ ์ด๋ํ๋ ์ง์ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค:

NVLink 4.0์ ์ด๋ก ์ ๋์ญํญ์ธ 900 GB/s์ EFA์ ~50 GB/s๋ฅผ ๋น๊ตํ๋ฉด, ๋ ธ๋ ๋ด ํต์ ์ ๋ํด 18๋ฐฐ์ ์ด์ ์ ๊ธฐ๋ํ ์ ์๋ค. ์ค์ ์์ ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ NCCL์ SendRecv ์ฑ๋ฅ ํ ์คํธ๋ฅผ ์คํํ์ฌ ๋ค์ํ ํต์ ๊ฒฝ๋ก์ ๊ฑธ์ณ ์ค์ ๋์ญํญ์ ์ธก์ ํ๋ค:
$ FI_PROVIDER=XXX NCCL_P2P_DISABLE=X sendrecv_perf -b 8 -e 8G -f 2 -g 1 -c 1 -n 100
์ด๊ฒ์ NVLink๊ฐ ์ผ๋ง๋ ๋ ํจ์จ์ ์ธ์ง ์์ฌ์ ์ฌ์ง ์์ด ๋ณด์ฌ์ค๋ค: ๊ทธ๊ฒ์ EFA์ 38.16 GB/s (9๋ฐฐ ๋ ๋น ๋ฆ, ๋๋ ์๋ฐฉํฅ 18๋ฐฐ)์ CPU ๊ธฐ์ค์ ์ 3.24 GB/s (112.6๋ฐฐ ๋ ๋น ๋ฆ)์ ๋นํดย 364.93 GB/s๋ฅผ ๋ฌ์ฑํ๋ค. ์ด๋ฌํ ์ธก์ ์ NCCL์ด ๋ ธ๋ ๋ด GPU ํต์ ์ ์ํด NVLink๋ฅผ ์ฐ์ ์ํ๋ ์ด์ ๋ฅผ ํ์ธ์์ผ ์ฃผ์ง๋ง, NVLink์ ์ฑ๋ฅ์ ๋ ํ์ธํ๊ธฐ ์ํด ์๋ฐฉํฅ ๋์ ๋ณต์ฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ GPU ์ ๊ฐ์ ์๋ฐฉํฅ ๋์ญํญ์ ์ธก์ ํ๋ย nvbandwidth๋ฅผ ์คํํด๋ณด์:
./nvbandwidth -t device_to_device_bidirectional_memcpy_write_ce -b <message_size> -i 5
memcpy CE GPU(row) <-> GPU(column) Total bandwidth (GB/s)
0 1 2 3 4 5 6 7
0 N/A 785.81 785.92 785.90 785.92 785.78 785.92 785.90
1 785.83 N/A 785.87 785.83 785.98 785.90 786.05 785.94
2 785.87 785.89 N/A 785.83 785.96 785.83 785.96 786.03
3 785.89 785.85 785.90 N/A 785.96 785.89 785.90 785.96
4 785.87 785.96 785.92 786.01 N/A 785.98 786.14 786.08
5 785.81 785.92 785.85 785.89 785.89 N/A 786.10 786.03
6 785.94 785.92 785.99 785.99 786.10 786.05 N/A 786.07
7 785.94 786.07 785.99 786.01 786.05 786.05 786.14 N/A
SUM device_to_device_bidirectional_memcpy_write_ce_total 44013.06์ธก์ ๋ ์๋ฐฉํฅ ๋์ญํญย 786 GB/s๋ NVLink 4.0์ ์ด๋ก ์ 900 GB/s ์ฌ์์ 85%๋ฅผ ๋ํ๋ธ๋ค. NVLink๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ CPU ๋ณ๋ชฉ ํ์์ ์์ ํ ์ฐํํ๋ค (gpu-to-gpu ํต์ ์ ์ํด)!
ํ์ง๋ง ์ด๊ฒ์ด ์งํฉ ํต์ ํจํด์ผ๋ก ์ด๋ป๊ฒ ๋ณํ๋๋๊ฐ? NCCL ํ
์คํธ์ย all_reduce_perfย ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋จ์ผ ๋
ธ๋ ๋ด์ allreduce ์ฑ๋ฅ์ ์ธก์ ํด ๋ณธ๋ค.
(์งํฉ ํต์ ํจํด์ ๋ํ ๋น ๋ฅธ ๋ณต์ต์ UltraScale Playbook ๋ถ๋ก์ ์ฐธ๊ณ ํด๋ผ.)
$ ./all_reduce_perf -b 8 -e 16G -f 2 -g 1 -c 1 -n 100(ํฌ๊ด์ ์ธ ๋ฒค์น๋งํน ์คํฌ๋ฆฝํธ ๋ฐ ๊ตฌ์ฑ์ ๋ํด์๋ AWS Distributed Training Samples์ ํ๋ฅญํ ์ปฌ๋ ์ (https://github.com/aws-samples/awsome-distributed-training/tree/main/micro-benchmarks/nccl-tests) ์ ์ฐธ๊ณ ํด๋ผ.)

์ ๊น๋งโฆ ์ฐ๋ฆฌ๋ย 480 GB/s๋ฅผ ๋ฌ์ฑํ๊ณ ์๋๋ฐ, ์ด๋ NVLink 4.0์ ์ด๋ก ์ ๋จ๋ฐฉํฅ ๋์ญํญ์ธ 450 GB/s๋ฅผ ์ด๊ณผํ๋ค ๐ฎ ์ด๊ฒ์ ๋ฌด์จ ๋ง๋ฒ์ด๋ฉฐ, ์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น?
๋ฌธ์๋ฅผ ์กฐ๊ธ ํํค์ณ ๋ณด๋, ๋ต์ NVIDIA์ ํ๋์จ์ด ๊ฐ์ ์งํฉ ์ฐ์ฐ ๊ธฐ์ ์ธ **NVLink SHARP (NVLS)**์ ์๋ ๊ฒ ๊ฐ๋ค. ๊ทธ๊ฒ์ H100 GPU๊ฐ ์๋ ๋จ์ผ ๋ ธ๋์์ allreduce ์ฐ์ฐ์ ๋ํด ์ฝ 1.3๋ฐฐ์ ์๋ ํฅ์์ ์ ๊ณตํ๋ค!

NVSwitch๊ฐ ์ด๋ฌํ ํ๋์จ์ด ๊ฐ์ ์งํฉ ์ฐ์ฐ์ ํ์ฑํํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ NVSwitch ์ํคํ ์ฒ ํ๋ ์ ํ ์ด์ (https://hc34.hotchips.org/assets/program/conference/day2/Network and Switches/NVSwitch HotChips 2022 r5.pdf) ์ ์ฐธ๊ณ ํด๋ผ.
๊ทธ๊ฒ ๋ค๋ฅธ ๊ณณ์์๋ ๋์์ด ๋ ์ ์์๊น? alltoall ์ฑ๋ฅ์ ๊ฒํ ํด๋ณด์:
$ ./all_to_all_perf -b 8 -e 16G -f 2 -g 1 -c 1 -n 100
์ฐ๋ฆฌ๋ alltoall ์ฐ์ฐ์ ๋ํดย 340 GB/s๋ฅผ ๋ฌ์ฑํ๋๋ฐ, ์ด๋ NVLink 4.0์ ์ฌ์ฉํ๋ H100 ์์คํ ์ ๋ํ ์ ์ฌํ ์ฑ๋ฅ ํน์ฑ์ ๋ณด์ฌ์ฃผ๋ ๊ณต๊ฐ๋ ๋ฒค์น๋งํฌ์ ์ผ์นํ๋ค (์ถ์ฒ https://juser.fz-juelich.de/record/1019178/files/02-NCCL_NVSHMEM.pdf#page=20.00). allreduce์ ๋ฌ๋ฆฌ alltoall ์ฐ์ฐ์ NVLS ํ๋์จ์ด ๊ฐ์์ ์ด์ ์ ์ป์ง ๋ชปํ๋ฉฐ, ์ด๋ allreduce๋ก ๋ฌ์ฑํ 480 GB/s๊ณผ ๋ฌ๋ฆฌ ์ฌ๊ธฐ์๋ 340 GB/s๋ผ๋ ์์น๊ฐ ๋ํ๋๋ ์ด์ ๋ฅผ ์ค๋ช ํ๋ค. alltoall ํจํด์ ๋ชจ๋ GPU ์ ๊ฐ์ ๋ ๋ณต์กํ ์ง์ ๊ฐ ๋ฐ์ดํฐ ๊ตํ์ ์๊ตฌํ๋ฉฐ, NVSwitch์ ์งํฉ ๊ฐ์ ๊ธฐ๋ฅ๋ณด๋ค๋ ์์ํ NVLink์ ๊ธฐ๋ณธ ๋์ญํญ์ ์์กดํ๋ค.
โกย ๊ณ ๊ธ ์ปค๋ ์ต์ ํ
์ผ๋ถ ์ต์ ํ๋ ์ปค๋์ ์ ์ก์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ ์ฉ ์ํ๋ฅผ ํ ๋นํ์ฌ ๊ณ์ฐ๊ณผ NVLink ํต์ ์ ๋ถ๋ฆฌํ๋ค. ์๋ฅผ ๋ค์ด, ThunderKittens๋ ํน์ ์ํ๊ฐ NVLink ์ ์ก์ ๋ฐํํ๊ณ ์๋ฃ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ๋์ ๋ค๋ฅธ ์ํ๋ ๊ณ์ฐ ์์ ์ ๊ณ์ํ๋ ์ํ ์์ค ์ค๊ณ๋ฅผ ์ฌ์ฉํ๋ค. SM ๊ณ์ฐ๊ณผ NVLink ํต์ ์ ์ด ์ธ๋ถํ๋ ์ค์ฒฉ์ ๋๋ถ๋ถ์ GPU ๊ฐ ํต์ ์ง์ฐ ์๊ฐ์ ์จ๊ธธ ์ ์๋ค. ๊ตฌํ ์ธ๋ถ ์ฌํญ์ ๋ค์ค GPU ์ปค๋์ ๋ํ ThunderKittens ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ(https://hazyresearch.stanford.edu/blog/2025-09-22-pgl#fine-grained-overlap-of-sm-compute-and-nvlink-communication-with-thunderkittens) ์ ์ฐธ๊ณ ํด๋ผ.
NVLink๊ฐ ๋จ์ผ ๋ ธ๋ ๋ด์์ ํ์ํ ๋์ญํญ์ ์ ๊ณตํ์ง๋ง, ํ๋ฐํฐ์ด ๋ชจ๋ธ ํ์ต์ ์ฌ๋ฌ ๋ ธ๋์ ๊ฑธ์น ํ์ฅ์ ์๊ตฌํ๋ค.
์ด๊ฒ์ ์๋ก์ด ์ ์ฌ์ ๋ณ๋ชฉ ํ์์ ๋์ ํ๋ค: NVLink๋ณด๋ค ํจ์ฌ ๋ฎ์ ๋์ญํญ์์ ์๋ํ๋ ๋ ธ๋ ๊ฐ ๋คํธ์ํฌ ์ํธ ์ฐ๊ฒฐ์ด๋ค.
GPU ๋ GPU ๋ ธ๋ ๊ฐ (GPU-to-GPU Internode)
์์ฝ:ย ๋ค์ค ๋ ธ๋ GPU ํต์ ์ InfiniBand (400 Gbps) ๋๋ RoCE (100 Gbps)์ ๊ฐ์ ๊ณ ์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ค. Allreduce๋ ์ ํ์ฅ๋์ด (๋ ธ๋ ์ ๋ฐ์ ๊ฑธ์ณ 320-350 GB/s ์์ ์ ), ๋๊ท๋ชจ ํ์ต ํด๋ฌ์คํฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. Alltoall์ ์๊ณ ๋ฆฌ์ฆ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋์ญํญ์ด ๋ ๊ธ๊ฒฉํ ์ ํ๋๋ค. ์ง์ฐ ์๊ฐ์ ๋ ธ๋ ๋ด ~13ฮผs์์ ๋ ธ๋ ๊ฐ 55ฮผs+๋ก ์ ํํ๋ค. ๋น๋ฒํ all-to-all ์ฐ์ฐ์ด ํ์ํ MoE ์ํฌ๋ก๋์ ๊ฒฝ์ฐ, NVSHMEM์ CPU ์กฐ์จ ์ ์ก๋ณด๋ค ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ผ๋ก ๋น๋๊ธฐ GPU ์์ ํต์ ์ ์ ๊ณตํ ์ ์๋ฐ.
๋ชจ๋ธ์ด ๋จ์ผ ๋ ธ๋๊ฐ ์์ฉํ ์ ์๋ ๊ฒ ์ด์์ผ๋ก ํ์ฅ๋จ์ ๋ฐ๋ผ, ํ์ต์ ๊ณ ์ ๋คํธ์ํฌ๋ฅผ ํตํด ์ฐ๊ฒฐ๋ ์ฌ๋ฌ ๋ ธ๋์ ๊ณ์ฐ์ ๋ถ์ฐ์์ผ์ผ ํ๋ค. ๋ฒค์น๋งํฌ์ ๋ฐ์ด๋ค๊ธฐ ์ ์, ๋ค์ค ๋ ธ๋ GPU ํด๋ฌ์คํฐ์์ ์ง๋ฉดํ๊ฒ ๋ 3๊ฐ์ง ์ฃผ์ ๋คํธ์ํน ๊ธฐ์ ์ ์ดํด๋ณธ๋ค:
- **์ด๋๋ท(Ethernet)**์ 1 Gbps์์ 100+ Gbps ์๋๋ก ์งํํ์ผ๋ฉฐ HPC ๋ฐ ๋ฐ์ดํฐ ์ผํฐ ํด๋ฌ์คํฐ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค.
- **RoCE (RDMA over Converged Ethernet)**๋ ์ด๋๋ท ๋คํธ์ํฌ์ RDMA ๊ธฐ๋ฅ์ ๊ฐ์ ธ์ค๋ฉฐ, ์ ํต์ ์ธ TCP ๋ฉ์ปค๋์ฆ ๋์ ํผ์ก ์ ์ด๋ฅผ ์ํด ECN์ ์ฌ์ฉํ๋ค.
- InfiniBand๋ NVIDIA์ ์ฐ์ ํ์ค ์ค์์น ํจ๋ธ๋ฆญ์ผ๋ก, ์ต๋ 400 Gbps ๋์ญํญ๊ณผ RDMA ์ง์์ ํตํ ๋ง์ดํฌ๋ก์ด ๋ฏธ๋ง์ ์ง์ฐ ์๊ฐ์ ์ ๊ณตํ์ฌ GPUDirect RDMA๋ฅผ ํตํด ํธ์คํธ CPU๋ฅผ ์ฐํํ๋ฉด์ ์ง์ GPU ๋ GPU ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์์ฝํ์๋ฉด:
| ์ด๋ฆ | ์ด๋๋ท (25โ100 Gbps) | ์ด๋๋ท (200โ400 Gbps) | RoCE | Infiniband |
|---|---|---|---|---|
| ์ ์กฐ์ ์ฒด | ๋ค์ | ๋ค์ | ๋ค์ | NVIDIA/Mellanox |
| ๋จ๋ฐฉํฅ ๋์ญํญ (Gbps) | 25โ100 | 200โ400 | 100 | 400 |
| ์ข ๋จ ๊ฐ ์ง์ฐ ์๊ฐ (ฮผs) | 10-30 | N/A | ~1 | <1 |
| RDMA | ์๋์ | ์๋์ | ์ | ์ |
ํ: ์ํธ ์ฐ๊ฒฐ ๋น๊ต. ์ถ์ฒ:ย https://www.sciencedirect.com/science/article/pii/S2772485922000618
AWS p5 ์ธ์คํด์ค์ ๊ฒฝ์ฐ NIC (๋คํธ์ํฌ ์ธํฐํ์ด์ค ์นด๋)๋ก **Elastic Fabric Adapter (EFA)**๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ฌ๊ธฐ์ ๊ฐ GPU๋ ์ด์ ์ ๋ณธ ๊ฒ์ฒ๋ผ PCIe Gen5 x16 ๋ ์ธ์ ํตํด 4๊ฐ์ 100 Gbps EFA ๋คํธ์ํฌ ์นด๋์ ์ฐ๊ฒฐ๋๋ค.

Libfabric EFA๋ฅผ ํตํ ๋ ธ๋ ๊ฐ GPU-๋-GPU ํต์ ๊ฒฝ๋ก
์์ ์ค๋ช ๋ ๋ฐ์ ๊ฐ์ด, GPU์ ๋คํธ์ํฌ ์นด๋๊ฐ ๋์ผํ PCIe ์ค์์น์ ์ฐ๊ฒฐ๋๋ฉด GPUDirect RDMA๋ฅผ ํตํด ํต์ ์ด ํด๋น ์ค์์น๋ฅผ ํตํด์๋ง ๋ฐ์ํ ์ ์๋ค. ์ด ์ค์ ์ ํตํด PCIe Gen5 x16 ๋์ญํญ์ ์์ ํ ํ์ฉํ ์ ์์ผ๋ฉฐ ๋ค๋ฅธ PCIe ์ค์์น๋ CPU ๋ฉ๋ชจ๋ฆฌ ๋ฒ์ค๋ฅผ ํฌํจํ์ง ์๋๋ค. ์ด๋ก ์ ์ผ๋ก, ๋ ธ๋๋น 8๊ฐ์ PCIe ์ค์์น x ์ค์์น๋น 4๊ฐ์ EFA NIC x ๊ฐ EFA NIC 100 Gbps๋ 3200 Gbps(400GB/s) ์ ๋์ญํญ์ ์ ๊ณตํ๋ค (์ด๋ AWS p5 ์ฌ์์์ ์ฐพ์ ์ ์๋ ๋์ญํญ์ด๋ค). ๊ทธ๋ ๋ค๋ฉด ์ค์ ๋ก๋ ์ด๋ป๊ฒ ์ ์ง๋๋๊ฐ? ์ด์ ๊ณผ ๋์ผํ ๋ฒค์น๋งํฌ๋ฅผ ์คํํ์ง๋ง ๋ค๋ฅธ ๋ ธ๋์ ๊ฑธ์ณ ์คํํ์ฌ ์์๋ณด์!
Bandwidth Analysis

์ง์ ๊ฐ send/receive ์ฐ์ฐ์ 2-4๊ฐ ๋
ธ๋์ ๋ํด ์ฝ 42-43 GB/s๋ฅผ ๋ฌ์ฑํ์ง๋ง 5๊ฐ ์ด์์ ๋
ธ๋์ ๋ํด์๋ ์ฝ 21 GB/s๋ก ๋จ์ด์ง๋ค. ์ด ์ฑ๋ฅ ์ ํ๋ NCCL์ด 4๊ฐ ์ด์์ ๋
ธ๋๋ก ํ์ฅํ ๋ ํผ์ด๋น ์ง์ ๊ฐ ์ฑ๋ ์๋ฅผ 2๊ฐ์์ 1๊ฐ๋ก ์๋์ผ๋ก ์ค์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ ๋์ญํญ ํ์ฉ๋ฅ ์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฐ์ผ๋ก ์ค์ด๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ค. ์ด๋ก ์ ์ต๋์น๋ ~50 GB/s (4 EFA NIC ร 12.5 GB/s ๊ฐ)๋ก ์ ์ง๋๋ค. ์ฐ๋ฆฌ๋ย NCCL_NCHANNELS_PER_NET_PEER=2 ๋ฅผ ์ค์ ํ์ฌ 5๊ฐ ์ด์์ ๋
ธ๋์์ ์ด ํ
์คํธ์ ๋ํ ์ ์ฒด ์ฒ๋ฆฌ๋์ ๋ณต์ํ๋ ๋ฐ ์ฑ๊ณตํ์ง๋ง, ์ด ํ๋๊ทธ๋ ์๋ฅผ ๋ค์ด all-to-all ์ฑ๋ฅ์ ์ ํ์ํฌ ์ ์์ผ๋ฏ๋ก ์ฃผ์ํด์ ์ฌ์ฉํด์ผ ํ๋ค (์์ธํ ๋ด์ฉ์ GitHub ์ด์ #1272 https://github.com/NVIDIA/nccl/issues/1272 ์ฐธ์กฐ).
all-reduce ์ฐ์ฐ์ ๋จ์ผ ๋ ธ๋ ๋ด์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ 480 GB/s์ ๋ฒ์ค ๋์ญํญ์ ๋ฌ์ฑํ๋ค. 2๊ฐ ๋ ธ๋๋ก ํ์ฅํ ๋ ๋์ญํญ์ 479 GB/s๋ก ๊ฑฐ์ ๋์ผํ๊ฒ ์ ์ง๋ ํ, 3-16๊ฐ ๋ ธ๋์ ๋ํด ์ฝ 320-350 GB/s๋ก ์์ ํ๋๋ค. ์ด ํจํด์ ์ค์ํ ํน์ง์ ๋๋ฌ๋ธ๋ค: NVLink์์ ๋ ธ๋ ๊ฐ ๋คํธ์ํฌ ํจ๋ธ๋ฆญ์ผ๋ก์ ์ ํ์ผ๋ก ์ธํด ๋ ธ๋ ๊ฒฝ๊ณ๋ฅผ ๋์ ๋ ์ด๊ธฐ ํ๋ฝ์ด ์์ง๋ง, ๊ทธ ํ์๋ ๋ ๋ง์ ๋ ธ๋๋ฅผ ์ถ๊ฐํจ์ ๋ฐ๋ผ ๋์ญํญ์ด ๊ฑฐ์ ์ผ์ ํ๊ฒ ํ์ฅ๋๋ค.
๐กย ๋ ธ๋ ์ ๋ฐ์ ๊ฑธ์น All-Reduce ํ์ฅ
2๊ฐ ๋ ธ๋๋ฅผ ๋์ด์ ์ด ๊ฑฐ์ ์ผ์ ํ ํ์ฅ ๋์์ ๋๊ท๋ชจ ํ์ต์ ์์ด ์ค์ ๋ก ๊ฝค ๊ณ ๋ฌด์ ์ด๋ค. 3-16๊ฐ ๋ ธ๋์ ๊ฑธ์ณ ๋น๊ต์ ์์ ์ ์ธ 320-350 GB/s๋ all-reduce ์ฐ์ฐ์ ์์กดํ๋ ๋ณ๋ ฌํ ์ ๋ต (์๋ฅผ ๋ค์ด, ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ์์)์ด GPU๋น ์๋นํ ๋์ญํญ ์ ํ ์์ด ์๋ฐฑ ๋๋ ์์ฒ ๊ฐ์ GPU๋ก ํ์ฅ๋ ์ ์์์ ์์ฌํ๋ค. ์ด ๋ก๊ทธ ์ค์ผ์ผ๋ง ํน์ฑ์ 8๊ฐ์ GPU ๊ฐ๊ฐ์ด ๋ณ๋์ ์ค์์น ๋ ์ผ์ ์ฐ๊ฒฐ๋์ด ์๋ถ ๋์ญํญ(bisection bandwidth)์ ์ต๋ํํ๋ ์ ์ค๊ณ๋ 8-๋ ์ผ ์ต์ ํ ํป ํธ๋ฆฌ(fat tree)๋ฅผ ์ฌ์ฉํ๋ ๋ค๊ณ์ธต ๋คํธ์ํฌ ํ ํด๋ก์ง์ ์ ํ์ด๋ค. ํ๋ ํ๋ฐํฐ์ด ํ์ต ํด๋ฌ์คํฐ๋ ์ผ์์ ์ผ๋ก 100,000๊ฐ ์ด์์ GPU์์ ์๋ํ๋ฉฐ, ์ด ์์ ์ ์ธ ํ์ฅ ๋์์ด ๊ทธ๋ฌํ ๋๊ท๋ชจ Deployment ๋ฅผ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๊ฒ์ด๋ค.
๋ค๋ฅธ ๋์ญํญ ๋งํฌ (๋ ธ๋ ๋ด NVLink ๋ ๋ ธ๋ ๊ฐ ๋คํธ์ํฌ)๋ก ์์ ํ ๋, ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๋์ญํญ์ ์์ ํ ํ์ฉํ๊ธฐ ์ํด ๊ฐ ๋์ญํญ ๊ณ์ธต์ ๋ณ๋ ฌํ ์ ๋ต์ ์กฐ์ ํ๋ ๊ฒ์ ๊ณ ๋ คํด๋ผ. ์ด๊ธฐ์ข ๋คํธ์ํฌ ํ ํด๋ก์ง์ ๋ํ ๋ณ๋ ฌํ ๊ตฌ์ฑ ์ต์ ํ์ ๋ํ ์์ธํ ์ง์นจ์ Ultrascale playbook์ ์ฐธ๊ณ ํด๋ผ.
all-to-all ์ฐ์ฐ์ ๋ ๊ทน์ ์ธ ํ์ฅ ๋ฌธ์ ๋ฅผ ๋ณด์ฌ์ค๋ค: ๋จ์ผ ๋ ธ๋์ ๋ํด 344 GB/s์์ ์์ํ์ฌ, 2๊ฐ ๋ ธ๋์์ 81 GB/s๋ก ๋จ์ด์ง๊ณ ๋ ํฐ ํด๋ฌ์คํฐ์ ๋ํด ์ฝ 45-58 GB/s๋ก ๊ณ์ ๊ฐ์ํ๋ค. ์ด ๋ ๊ฐํ๋ฅธ ์ ํ๋ all-to-all ํจํด์ ์ง์ค์ ์ธ ๋คํธ์ํฌ ์๊ตฌ๋ฅผ ๋ฐ์ํ๋ฉฐ, ์ฌ๊ธฐ์ ๊ฐ GPU๋ ๋ ธ๋ ์ ๋ฐ์ ๊ฑธ์ณ ๋ค๋ฅธ ๋ชจ๋ GPU์ ํต์ ํด์ผ ํ๋ฏ๋ก all-reduce ์ฐ์ฐ๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ๋คํธ์ํฌ ํผ์ก์ ์์ฑํ๋ค.
์ง์ฐ ์๊ฐ (latency) ๋ถ์

์ง์ฐ ์๊ฐ ์ธก์ ์ ๋ ธ๋ ๊ฒฝ๊ณ๋ฅผ ๋๋ ๊ทผ๋ณธ์ ์ธ ๋น์ฉ์ ๋๋ฌ๋ธ๋ค. Send/receive ์ฐ์ฐ์ ๋ชจ๋ ๋ค์ค ๋ ธ๋ ๊ตฌ์ฑ ์ ๋ฐ์ ๊ฑธ์ณ 40-53 ฮผs์ ๋น๊ต์ ์์ ์ ์ธ ์ง์ฐ ์๊ฐ์ ์ ์งํ๋ฉฐ, ์ง์ ๊ฐ ํต์ ์ง์ฐ ์๊ฐ์ด ํด๋ฌ์คํฐ ํฌ๊ธฐ๋ณด๋ค๋ ์ฃผ๋ก ๊ธฐ๋ณธ ๋คํธ์ํฌ ์๋ณต ์๊ฐ์ ์ํด ๊ฒฐ์ ๋จ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ผ๋ถ ๋ณ๋์ ๋คํธ์ํฌ ํ ํด๋ก์ง ๋ฐ ๋ผ์ฐํ ํจ๊ณผ๊ฐ ์ฌ์ ํ ์ญํ ์ ํจ์ ์์ฌํ๋ค.
All-reduce ์ฐ์ฐ์ ๋จ์ผ ๋ ธ๋ ๋ด์์ 12.9 ฮผs์ ์ต์ ์ง์ฐ ์๊ฐ์ ๋ณด์ฌ์ฃผ์ง๋ง, 2๊ฐ ๋ ธ๋์ ๋ํด 55.5 ฮผ
s๋ก ์ ํํ๊ณ ํด๋ฌ์คํฐ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ฑฐ์ ์ ํ์ ์ผ๋ก ๊ณ์ ์ฆ๊ฐํ์ฌ 16๊ฐ ๋ ธ๋์์ 235 ฮผs์ ๋๋ฌํ๋ค. ์ด ํ๋ฆ์ ์ฆ๊ฐ๋ ํต์ ๊ฑฐ๋ฆฌ์ ๋ ๋ง์ ๋ ธ๋์ ๊ฑธ์น ์ถ์ ํธ๋ฆฌ(reduction tree)์ ์ฆ๊ฐํ๋ ๋ณต์ก์ฑ์ ๋ชจ๋ ๋ฐ์ํด ๋ณด์ฌ์ค๋ค๋ค.
All-to-all ์ฐ์ฐ์ ์ ์ฌํ ์ถ์ธ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋จ์ผ ๋ ธ๋ ํต์ ์ ๋ํด 7.6 ฮผs์์ ์์ํ์ง๋ง 2๊ฐ ๋ ธ๋์์ 60 ฮผs๋ก ์ฌ๋ผ๊ฐ๊ณ 16๊ฐ ๋ ธ๋์์ 621 ฮผs์ ๋๋ฌํ๋ค. all-to-all ์ฐ์ฐ์ ๋ํ ์ง์ฐ ์๊ฐ์ ์ด์ ํ(superlinear) ์ฑ์ฅ์ ๋ ๋ง์ ๋ ธ๋๊ฐ ์งํฉ์ ์ฐธ์ฌํจ์ ๋ฐ๋ผ ๋คํธ์ํฌ ํผ์ก ๋ฐ ์กฐ์ ์ค๋ฒํค๋๊ฐ ๋ณตํฉ์ ์ผ๋ก ์์ฉํจ์ ๋ณด์ฌ์ค๋ค.
๐ย ์ต์ ํ๋ GPU ํต์ ์ ์ํ NVSHMEM
์ ๋ฌธ๊ฐ ๋ผ์ฐํ ์ ์ํด ๋น๋ฒํ all-to-all ํต์ ํจํด์ ํ์๋ก ํ๋ ์ ๋ฌธ๊ฐ ํผํฉ(MoE) ์ํคํ ์ฒ์ ๋ถ์์ผ๋ก, ์ต์ ํ๋ GPU ํต์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ์ ๋ ์ค์ํด์ง๊ณ ์๋ค.
NVSHMEM(https://developer.nvidia.com/nvshmem) ์ ์ฌ๋ฌ GPU์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ถํ ๋ ์ ์ญ ์ฃผ์ ๊ณต๊ฐ(PGAS)์ผ๋ก ๊ฒฐํฉํ๋ ๊ณ ์ฑ๋ฅ ํต์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์๋นํ ๊ด์ฌ์ ์ป๊ณ ์๋ค. CPU๊ฐ ์กฐ์จํ๋ ๋ฐ์ดํฐ ์ ์ก์ ์์กดํ๋ ์ ํต์ ์ธ MPI ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, NVSHMEM์ CPU-GPU ๋๊ธฐํ ์ค๋ฒํค๋๋ฅผ ์ ๊ฑฐํ๋ ๋น๋๊ธฐ, GPU ์๋ ์์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
NVSHMEM์ GPU ํต์ ์ ๋ํ ๋ช ๊ฐ์ง ์ฃผ์ ์ด์ ์ ์ ๊ณตํ๋ค: GPUDirect Async์ ๊ฐ์ ๊ธฐ์ ์ ํตํด, GPU๋ ๋ ธ๋ ๊ฐ ํต์ ์ ๋ฐํํ ๋ CPU๋ฅผ ์์ ํ ์ฐํํ์ฌ ์์ ๋ฉ์์ง (<1 KiB)์ ๋ํด ์ต๋ 9.5๋ฐฐ ๋ ๋์ ์ฒ๋ฆฌ๋์ ๋ฌ์ฑํ ์ ์๋ค. ์ด๊ฒ์ ์ง์ค์ ์ธ ๋คํธ์ํฌ ํต์ ํจํด์ ํ์๋ก ํ๋ ์งํฉ ์ฐ์ฐ์ ํนํ ์ ์ตํ๋ค.
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ํ์ฌ Mellanox ์ด๋ํฐ (CX-4 ์ด์)๊ฐ ์๋ InfiniBand/RoCE, Slingshot-11 (Libfabric CXI), ๋ฐ Amazon EFA (Libfabric EFA)๋ฅผ ์ง์ํ๋ค. ์ธ๋ถํ๋ ํต์ ์ผ๋ก ๊ฐ๋ ฅํ ํ์ฅ์ ์๊ตฌํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฒฝ์ฐ, NVSHMEM์ ์ค๋ฒํค๋๊ฐ ๋ฎ์ ๋จ๋ฐฉํฅ ํต์ ๊ธฐ๋ณธ ์์๋ ์ ํต์ ์ธ CPU ํ๋ก์ ๋ฐฉ๋ฒ์ ๋นํด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
NVSHMEM ๋ฌธ์์ GPUDirect Async์ ๋ํ ์ด ์์ธํ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ(https://developer.nvidia.com/blog/improving-network-performance-of-hpc-systems-using-nvidia-magnum-io-nvshmem-and-gpudirect-async/) ์์ ์์ธํ ๋ด์ฉ์ ์์๋ณผ ์ ์๋ค.
๋์ญํญ ์ธก์ ์ด ๊ธฐ๋์ ๋ฏธ์น์ง ๋ชปํ ๋, ์ฌ๋ฌ ์์ธ์ด ์ฑ๋ฅ์ ์ ํํ๋ ์์ธ์ผ ์ ์๋ฐ. ์ด๋ฌํ ์ ์ฌ์ ๋ณ๋ชฉ ํ์์ ์ดํดํ๋ ๊ฒ์ ์ต์ ์ ์ํธ ์ฐ๊ฒฐ ํ์ฉ์ ๋ฌ์ฑํ๋ ๋ฐ ํ์์ ์ด๋ค.
์ํธ ์ฐ๊ฒฐ ๋ฌธ์ ํด๊ฒฐ
์์๋ณด๋ค ๋ฎ์ ๋์ญํญ์ ๊ฒฝํํ๊ณ ์๋ค๋ฉด, ๋ค์ ์์ญ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ธํด์ผ ํ๋ค:
๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ์
์ค๋๋ NCCL, EFA, ๋๋ CUDA ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ค์ํ ์ฑ๋ฅ ์ต์ ํ๋ ๋ฒ๊ทธ ์์ ์ด ๋๋ฝ๋ ์ ์๋ค. ํญ์ ๋ชจ๋ ํต์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ต์ ํธํ ๋ฒ์ ์ ์คํํ๊ณ ์๋์ง ํ์ธํ๋ค. ์: AWS๋ ํ๋์จ์ด์ ์ต์ ํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ์ ์ผ๋ก Deep Learning AMI๋ฅผ ์ ๊ธฐ์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ค. ๋ํ ์ค์ํ ์คํ์ ์ํด ์ด๋ฌํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ์ ์ ๊ธฐ๋กํ๋ ๊ฒ์ด ์ข๋ค.
CPU ์นํ๋ ๊ตฌ์ฑ
๋ถ์ ์ ํ CPU ์นํ๋ ์ค์ ์ ๋ถํ์ํ NUMA ๊ฐ ํธ๋ํฝ์ ์ ๋ฐํ์ฌ NCCL ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์น ์ ์๋ค. ๊ฐ GPU๋ ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค ์ง์ฐ ์๊ฐ์ ์ต์ํํ๊ธฐ ์ํด ๋์ผํ NUMA ๋
ธ๋์ CPU์ ๋ฐ์ธ๋ฉ๋์ด์ผ ํ๋ค. ์ค์ ์์, ์ด Github ์ด์(https://github.com/NVIDIA/nccl/issues/1017#issuecomment-1751385723)๋ย NCCL_IGNORE_CPU_AFFINITY=1ย ๋ฐย --cpu-bind none์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ปจํ
์ด๋ ์ง์ฐ ์๊ฐ์ ํฌ๊ฒ ์ค์ด๋ ๋ฐ ์ด๋ป๊ฒ ๋์์ด ๋์๋์ง ๋ณด์ฌ์ค๋ค. ์์ธํ ๋ด์ฉ์ ์ฌ๊ธฐ(https://enterprise-support.nvidia.com/s/article/understanding-numa-node-for-performance-benchmarks#Mapping-between-PCI-device-driver-port-and-NUMA) ์์ ์ฝ์ ์ ์๋ค.
๋คํธ์ํฌ ํ ํด๋ก์ง ๋ฐ ๋ฐฐ์น
๋คํธ์ํฌ ํ ํด๋ก์ง๋ฅผ ์ดํดํ๋ ๊ฒ์ ์ฑ๋ฅ ๋ฌธ์ ๋ฅผ ์ง๋จํ๋ ๋ฐ ์ค์ํ๋ค. ํด๋ผ์ฐ๋ ๋ฐฐ์น ๊ทธ๋ฃน์ ๋์์ด ๋์ง๋ง ์ธ์คํด์ค ๊ฐ ์ต์ ๋คํธ์ํฌ ํ์ ๋ณด์ฅํ์ง๋ ์๋๋ค. ํ๋ ๋ฐ์ดํฐ ์ผํฐ ํป ํธ๋ฆฌ ํ ํด๋ก์ง์์, ๋ค๋ฅธ ์ต์์ ์ค์์น ์๋์ ๋ฐฐ์น๋ ์ธ์คํด์ค๋ ๋ผ์ฐํ ๊ฒฝ๋ก์ ์ถ๊ฐ ๋คํธ์ํฌ ํ์ผ๋ก ์ธํด ๋ ๋์ ์ง์ฐ ์๊ฐ๊ณผ ์ ์ฌ์ ์ผ๋ก ๋ ๋ฎ์ ๋์ญํญ์ ๊ฒฝํํ ๊ฒ์ด๋ค.
AWS EC2 ์ฌ์ฉ์์ ๊ฒฝ์ฐ, ์ธ์คํด์ค ํ ํด๋ก์ง API๋ ๋คํธ์ํฌ ๋ ธ๋ ๋ฐฐ์น์ ๋ํ ๊ท์คํ ๊ฐ์์ฑ์ ์ ๊ณตํ๋ค. ๋งจ ์๋ ๊ณ์ธต (์ธ์คํด์ค์ ์ง์ ์ฐ๊ฒฐ๋จ)์์ ๋์ผํ ๋คํธ์ํฌ ๋ ธ๋๋ฅผ ๊ณต์ ํ๋ ์ธ์คํด์ค๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ์ฅ ๊ฐ๊น๊ณ ๊ฐ์ฅ ๋ฎ์ ์ง์ฐ ์๊ฐ ํต์ ์ ๋ฌ์ฑํ ๊ฒ์ด๋ค.

ํต์ ํ๋ ๋ ธ๋ ๊ฐ์ ๋คํธ์ํฌ ํ์ ์ต์ํํ๋ ๊ฒ์ ๋ ๋์ ์ํธ ์ฐ๊ฒฐ ์ฑ๋ฅ์ผ๋ก ๊ณง๋ฐ๋ก ๋ํ๋๋ค. ์๊ท๋ชจ ์คํ ๋ฐ ์ ๊ฑฐ ์คํ์ ๊ฒฝ์ฐ, ์ธ์คํด์ค๊ฐ ๋์ผํ ๋คํธ์ํฌ ์ค์์น์ ๊ณต๋ ๋ฐฐ์น๋๋๋ก ํ๋ ๊ฒ์ ์ง์ฐ ์๊ฐ๊ณผ ๋์ญํญ ํ์ฉ ๋ชจ๋์์ ์ธก์ ๊ฐ๋ฅํ ์ฐจ์ด๋ฅผ ๋ง๋ค ์ ์๋ค.
์ฌ๋ฐ๋ฅธ ํ๊ฒฝ ๋ณ์
๋คํธ์ํฌ ์ด๋ํฐ์ ๋ํ ๋๋ฝ๋๊ฑฐ๋ ์๋ชป๋ ํ๊ฒฝ ๋ณ์๋ ๋์ญํญ ํ์ฉ์ ์ฌ๊ฐํ๊ฒ ์ ํํ ์ ์๋ค. NCCL๊ณผ ๊ฐ์ ํต์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ ์ํ ๋ผ์ฐํ , GPU ์์ ์ ์ก ๋ฐ ์ ์ ํ ๋ฒํผ ํฌ๊ธฐ ์กฐ์ ๊ณผ ๊ฐ์ ์ต์ ์ ์ฑ๋ฅ ๊ธฐ๋ฅ์ ํ์ฑํํ๊ธฐ ์ํด ํน์ ๊ตฌ์ฑ ํ๋๊ทธ์ ์์กดํ๋ค.
์๋ฅผ ๋ค์ด, AWS EFA (Elastic Fabric Adapter)๋ฅผ ์ฌ์ฉํ ๋, ์ธ์คํด์ค ์ ํ์ ๋ํด ๊ถ์ฅ๋๋ NCCL ๋ฐ EFA ํ๊ฒฝ ๋ณ์๋ฅผ ์ค์ ํ๊ณ ์๋์ง ํ์ธํด์ผ ํ๋ค. AWS EFA ์นํธ์ํธ(https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/efa-cheatsheet.md)๋ ๋ค์ํ ์๋๋ฆฌ์ค์ ๋ํ ์ต์ ์ ํ๋๊ทธ ๊ตฌ์ฑ์ ๋ํ ํฌ๊ด์ ์ธ ์ง์นจ์ ์ ๊ณตํ๋ค.
์ปจํ ์ด๋๋ณ ๊ณ ๋ ค ์ฌํญ
์ปจํ ์ด๋ (Docker/Enroot)๋ฅผ ์ฌ์ฉํ ๋, ๋ช ๊ฐ์ง ๊ตฌ์ฑ ๋จ๊ณ๊ฐ ์ต์ ์ NCCL ์ฑ๋ฅ์ ์ค์ํ๋ค:
- ๊ณต์ ๋ฐ ๊ณ ์ ๋ฉ๋ชจ๋ฆฌ:ย Docker ์ปจํ
์ด๋๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ ํ๋ ๊ณต์ ๋ฐ ๊ณ ์ ๋ฉ๋ชจ๋ฆฌ ๋ฆฌ์์ค๋ก ์ค์ ๋๋ค. ์ด๊ธฐํ ์คํจ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํดย
-shm-size=1g --ulimit memlock=-1๋ก ์ปจํ ์ด๋๋ฅผ ์์ํด๋ผ. - NUMA ์ง์:ย Docker๋ ๊ธฐ๋ณธ์ ์ผ๋ก NUMA ์ง์์ ๋นํ์ฑํํ๋๋ฐ, ์ด๋ cuMem ํธ์คํธ ํ ๋น์ด ์ฌ๋ฐ๋ฅด๊ฒ ์๋ํ์ง ๋ชปํ๊ฒ ํ ์ ์๋ค.ย
-cap-add SYS_NICE๋ก Docker๋ฅผ ํธ์ถํ์ฌ NUMA ์ง์์ ํ์ฑํํด๋ผ. - PCI ํ ํด๋ก์ง ๋ฐ๊ฒฌ:ย NCCL์ด GPU ๋ฐ ๋คํธ์ํฌ ์นด๋์ PCI ํ ํด๋ก์ง๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋๋กย
/sys๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ๋ง์ดํธ๋์๋์ง ํ์ธํด๋ผ.ย/sys๊ฐ ๊ฐ์ PCI ํ ํด๋ก์ง๋ฅผ ๋ ธ์ถํ๊ฒ ํ๋ฉด ์ฐจ์ ์ ์ฑ๋ฅ์ด ๋ฐ์ํ ์ ์๋ค.
๐คย ์ปค๋ฎค๋ํฐ ๋ฌธ์ ํด๊ฒฐ
์ฐ๋ฆฌ๋ ์ปค๋ฎค๋ํฐ ๋ ธ๋ ฅ์ผ๋ก ๋ฌธ์ ํด๊ฒฐ ๊ฒฐ๊ณผ๋ฅผ ์ฌ๊ธฐ์ ๋ชจ์ผ๊ณ ์์ต๋๋ค. ์ฑ๋ฅ ๋ฌธ์ ์ ์ง๋ฉดํ๊ฑฐ๋ ํจ๊ณผ์ ์ธ ๋๋ฒ๊น ๋ฐฉ๋ฒ์ ๋ฐ๊ฒฌํ๋ค๋ฉด ํ ๋ก ํญ(https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook/discussions) ์ผ๋ก ์ด๋ํ์ฌ ๋ค๋ฅธ ์ฌ๋๋ค์ด ์ํธ ์ฐ๊ฒฐ ํ์ฉ์ ์ต์ ํํ๋๋ก ๋๊ธฐ ์ํด ๊ฒฝํ์ ๊ณต์ ํด์ฃผ์ธ์.
์ด์ GPU-CPU ๋ฐ GPU-GPU ํต์ ์์ ๋ณ๋ชฉ ํ์์ ๋๋ฒ๊น ํ๋ ๋ฐฉ๋ฒ์ ์์์ผ๋ฏ๋ก ์ผ๋ฐ์ ์ผ๋ก ๋ ์ฃผ๋ชฉ๋ฐ๋ GPU ํต์ ๋ถ๋ถ, ์ฆ ์คํ ๋ฆฌ์ง ๊ณ์ธต๊ณผ์ ํต์ ์ ์ดํด๋ณด์!
GPU ๋ ์คํ ๋ฆฌ์ง (GPU-to-Storage)
GPU์ ์คํ ๋ฆฌ์ง ์์คํ ๊ฐ์ ์ฐ๊ฒฐ์ ์ข ์ข ๊ฐ๊ณผ๋์ง๋ง ํ์ต ํจ์จ์ฑ์ ์๋นํ ์ํฅ์ ๋ฏธ์น ์ ์๋ค. ํ์ต ์ค, GPU๋ ์คํ ๋ฆฌ์ง์์ ์ง์์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์ผ ํ๋ฉฐ (๋ฐ์ดํฐ ๋ก๋ฉ, ํนํ ๋์ฉ๋ ์ด๋ฏธ์ง/๋น๋์ค ํ์ผ์ด ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ) ์ฃผ๊ธฐ์ ์ผ๋ก ๋ชจ๋ธ ์ํ๋ฅผ ์คํ ๋ฆฌ์ง์ ๋ค์ ์จ์ผ ํ๋ค (์ฆ, ์ฒดํฌํฌ์ธํ ). ํ๋ ๋๊ท๋ชจ ํ์ต ์คํ์ ๊ฒฝ์ฐ, ์ด๋ฌํ I/O ์์ ์ด ์ ์ ํ๊ฒ ์ต์ ํ๋์ง ์์ผ๋ฉด ๋ณ๋ชฉ ํ์์ด ๋ ์ ์๋ค.
์์ฝ:ย GPU-์คํ ๋ฆฌ์ง I/O๋ ๋ฐ์ดํฐ ๋ก๋ฉ ๋ฐ ์ฒดํฌํฌ์ธํ ์ ํตํด ํ์ต์ ์ํฅ์ ๋ฏธ์น๋ค. GPUDirect Storage (GDS)๋ ๋ ๋์ ์ฑ๋ฅ์ ์ํด CPU๋ฅผ ์ฐํํ์ฌ ์ง์ GPU ๋ ์คํ ๋ฆฌ์ง ์ ์ก์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ฐ๋ฆฌ ํด๋ฌ์คํฐ์์ GDS๊ฐ ํ์ฑํ๋์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ , ๋ก์ปฌ NVMe RAID (RAID 0์ 8ร3.5TB ๋๋ผ์ด๋ธ)๋ 26.59 GiB/s ๋ฐ 337K IOPS (๋คํธ์ํฌ ์คํ ๋ฆฌ์ง๋ณด๋ค 6.3๋ฐฐ ๋น ๋ฆ)๋ฅผ ์ ๊ณตํ์ฌ ์ฒดํฌํฌ์ธํธ์ ์ด์์ ์ด๋ค.
์คํ ๋ฆฌ์ง ํ ํด๋ก์ง ์ดํด
GPU์ ์คํ ๋ฆฌ์ง ์ฅ์น ๊ฐ์ ๋ฌผ๋ฆฌ์ ์ฐ๊ฒฐ์ GPU ์ํธ ์ฐ๊ฒฐ๊ณผ ์ ์ฌํ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅธ๋ค. ์คํ ๋ฆฌ์ง ์ฅ์น๋ PCIe ๋ธ๋ฆฌ์ง๋ฅผ ํตํด ์ฐ๊ฒฐ๋๋ฉฐ, ์ด ํ ํด๋ก์ง๋ฅผ ์ดํดํ๋ฉด ์ฑ๋ฅ ํน์ฑ๊ณผ ์ ์ฌ์ ๋ณ๋ชฉ ํ์์ ์ค๋ช ํ๋ ๋ฐ ๋์์ด ๋๋ค.
lstopo์ ์์คํ ํ ํด๋ก์ง๋ฅผ ๋ณด๋ฉด, NVMe ๋๋ผ์ด๋ธ๊ฐ ์์คํ ์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง ์ ์ ์๋ค. ์ฐ๋ฆฌ p5 ์ธ์คํด์ค์๋ GPU๋น 1๊ฐ์ NVMe SSD๊ฐ ์๋ค:
PCIBridge L#13 (busid=0000:46:01.5 id=1d0f:0200 class=0604(PCIBridge) link=15.75GB/s buses=0000:[54-54] PCIVendor="Amazon.com, Inc.")
PCI L#11 (busid=0000:54:00.0 id=1d0f:cd01 class=0108(NVMExp) link=15.75GB/s PCISlot=87-1 PCIVendor="Amazon.com, Inc." PCIDevice="NVMe SSD Controller")
Block(Disk) L#9 (Size=3710937500 SectorSize=512 LinuxDeviceID=259:2 Model="Amazon EC2 NVMe Instance Storage" Revision=0 SerialNumber=AWS110C9F44F9A530351) "nvme1n1"์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์ GPU๊ฐ CPU๋ฅผ ํฌํจํ์ง ์๊ณ NVMe ๋๋ผ์ด๋ธ์ ์ง์ ์ก์ธ์คํ ์ ์๋์ง ์ฌ๋ถ์ผ ๊ฒ์ด๋ค. ๋๋ต์ **GPUDirect Storage (GDS)**๋ฅผ ํตํด ๊ทธ๋ ๋ค, ์ด๋ค.
GPUDirect Storage๋ ์คํ ๋ฆฌ์ง (๋ก์ปฌ NVMe ๋๋ ์๊ฒฉ NVMe-oF)์ GPU ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ ์ง์ ๋ฐ์ดํฐ ๊ฒฝ๋ก๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ NVIDIA์ GPUDirect ๊ธฐ์ ์ ํ๊ตฐ์ ์ผ๋ถ์ด๋ค. ์คํ ๋ฆฌ์ง ์ปจํธ๋กค๋ฌ ๊ทผ์ฒ์ DMA ์์ง์ด ๋ฐ์ดํฐ๋ฅผ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ์ง์ ์ด๋์ํค๊ฑฐ๋ GPU ๋ฉ๋ชจ๋ฆฌ์์ ์ง์ ์ด๋์ํฌ ์ ์๋๋ก ํจ์ผ๋ก์จ CPU ๋ฐ์ด์ค ๋ฒํผ๋ฅผ ํตํ ๋ถํ์ํ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ฌ๋ฅผ ์ ๊ฑฐํ๋ค. ์ด๋ CPU ์ค๋ฒํค๋๋ฅผ ์ค์ด๊ณ , ์ง์ฐ ์๊ฐ์ ์ค์ด๋ฉฐ, ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํ ํ์ต๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ์ง์ฝ์ ์ํฌ๋ก๋์ ๋ํ I/O ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
GPUDirect Storage๊ฐ ์์คํ ์ ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌ์ฑ๋์ด ์๋์ง ํ์ธํ๋ ค๋ฉด, GDS ๊ตฌ์ฑ ํ์ผ์ ํ์ธํ๊ณ ์ ๊ณต๋ ์ง๋จ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ ์ ์๋ค:
$ /usr/local/cuda/gds/tools/gdscheck.py -p
=====================
DRIVER CONFIGURATION:
=====================
NVMe : Supported
NVMeOF : Unsupported
SCSI : Unsupported
ScaleFlux CSD : Unsupported
NVMesh : Unsupported
DDN EXAScaler : Unsupported
IBM Spectrum Scale : Unsupported
NFS : Unsupported
BeeGFS : Unsupported
WekaFS : Unsupported
Userspace RDMA : Unsupported
--Mellanox PeerDirect : Enabled
--rdma library : Not Loaded (libcufile_rdma.so)
--rdma devices : Not configured
--rdma_device_status : Up: 0 Down: 0
=====================NVMe: Supported ๋ฅผ ํตํด GDS๊ฐ ํ์ฌ NVMe ๋๋ผ์ด๋ธ์ ๋ํด ์๋ํ๋๋ก ๊ตฌ์ฑ๋์ด ์์์ ์ ์ ์์ผ๋ฉฐ,ย Unsupportedย ํ๋๊ทธ์์ ์ ์ ์๋ฏ์ด ๋ค๋ฅธ ๋ชจ๋ ์คํ ๋ฆฌ์ง ์ ํ์ ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌ์ฑ๋์ง ์์๋ค. GDS๊ฐ ์คํ ๋ฆฌ์ง ์ ํ์ ๋ํด ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌ์ฑ๋์ง ์์ ๊ฒฝ์ฐ,ย /etc/cufile.json์์ ๊ตฌ์ฑ ํ์ผ์ ์์ ํ๋ ์ง์นจ์ ๋ํด NVIDIA GPUDirect Storage ๊ตฌ์ฑ ๊ฐ์ด๋(https://docs.nvidia.com/gpudirect-storage/configuration-guide/index.html) ๋ฅผ ์ฐธ๊ณ ํด๋ผ.
๋ธ๋ก ์คํ ๋ฆฌ์ง ์ฅ์น
์์คํ
์์ ์ฌ์ฉ ๊ฐ๋ฅํ ์คํ ๋ฆฌ์ง ์ฅ์น๋ฅผ ์ดํดํ๊ธฐ ์ํด,ย lsblk๋ฅผ ์ฌ์ฉํ์ฌ ๋ธ๋ก ์ฅ์น ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํ์ํ ์ ์๋ค:
$ lsblk --fs -M
NAME FSTYPE LABEL UUID FSAVAIL FSUSE% MOUNTPOINT
...
nvme0n1
โโnvme0n1p1 ext4 cloudimg-rootfs 24ec7991-cb5c-4fab-99e5-52c45690ba30 189.7G 35% /
โโโถ nvme1n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme2n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme3n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme8n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme5n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme4n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโถ nvme6n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโฌโถ nvme7n1 linux_raid_member ip-26-0-164-236:MY_RAID d0795631-71f0-37e5-133b-e748befec126
โโโmd0 xfs dddb6849-e5b5-4828-9034-96da65da27f0 27.5T 1% /scratch์ด ์ถ๋ ฅ์ ์์คํ ์ ๋ธ๋ก ์ฅ์น ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋ค. ์ฃผ์ ๊ด์ฐฐ ์ฌํญ:
nvme0n1p1์ ์ ์ฒด ~300GB ์ฉ๋์ 35%๋ฅผ ์ฌ์ฉํ๋ย/์ ๋ง์ดํธ๋ ๋ฃจํธ Amazon EBS ํ์ผ ์์คํ ์ด๋ค.- 8๊ฐ์ NVMe ๋๋ผ์ด๋ธ (
nvme1n1๋ถํฐยnvme8n1)๊ฐยMY_RAID๋ผ๋ ์ด๋ฆ์ RAID ์ด๋ ์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ค. - RAID ์ด๋ ์ด๋ย
/dev/md0์ผ๋ก ๋ ธ์ถ๋๊ณ , XFS๋ก ํฌ๋งท๋์์ผ๋ฉฐ, 28TB (8x3.5TB) ์ฌ์ฉ ๊ฐ๋ฅ ๊ณต๊ฐ์ผ๋กย/scratch์ ๋ง์ดํธ๋๋ค. - ํ์ดํ (โโถ)๋ ์ฌ๋ฌ NVMe ์ฅ์น๊ฐ ๋์ผํ RAID ์ด๋ ์ด์ ๊ตฌ์ฑ์์ด๋ฉฐ, ๋จ์ผย md0ย ์ฅ์น๋ก ๊ฒฐํฉ๋จ์ ๋ํ๋ธ๋ค.
(Amazon Elastic Block Store (EBS)๋ Amazon EC2 ์ธ์คํด์ค์ ํจ๊ป ์ฌ์ฉํ๋๋ก ์ค๊ณ๋ ๊ณ ์ฑ๋ฅ, ํ์ฅ ๊ฐ๋ฅํ ๋ธ๋ก ์คํ ๋ฆฌ์ง ์๋น์ค์ด๋ค.)
๋คํธ์ํฌ ์คํ ๋ฆฌ์ง
๋ก์ปฌ NVMe ์คํ ๋ฆฌ์ง ์ธ์๋, ์์คํ ์ ๋คํธ์ํฌ ์ฐ๊ฒฐ ์คํ ๋ฆฌ์ง ์์คํ ์ ์ก์ธ์คํ ์ ์๋ค:
$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/root 291G 101G 190G 35% /
weka-hopper.hpc.internal.huggingface.tech/default 393T 263T 131T 67% /fsx
10.53.83.155@tcp:/fg7ntbev 4.5T 2.9T 1.7T 63% /admin
/dev/md0 28T 206G 28T 1% /scratch์ด ์ถ๋ ฅ์ ๋ค์์ ๋ณด์ฌ์ค๋ค:
/dev/rootย (291GB Amazon EBS)๋ 35% ์ฉ๋์ ๋ฃจํธ ํ์ผ ์์คํ ์ด๋ค./fsxย (393TB WekaFS)๋ 131TB ์ฌ์ฉ ๊ฐ๋ฅ ๊ณต๊ฐ์ผ๋ก 67% ์ฐจ ์๋ค./adminย (4.5TB FSx Lustre)๋ 1.7TB ์ฌ์ฉ ๊ฐ๋ฅ ๊ณต๊ฐ์ผ๋ก 63% ์ฐจ ์๋ค./dev/md0ย (28TB ๋ก์ปฌ NVMe RAID)๋ย/scratch์์ 28TB ์ฌ์ฉ ๊ฐ๋ฅ ๊ณต๊ฐ์ผ๋ก ๋จ 1% ์ฐจ ์๋ค. ์ด๊ฒ์ RAID์ ์๋ ์ฐ๋ฆฌ์ 8ร3.5TB SSD NVMe ์ธ์คํด์ค ์คํ ์ด ๋๋ผ์ด๋ธ์ด๋ค.
(์ฐธ๊ณ :ย /fsx๋ ์ค์ ๋ก Amazon FSx๊ฐ ์๋๋ผ WekaFS์ด๋ค. ์ฐ๋ฆฌ๋ FSx์์ WekaFS๋ก ๋ง์ด๊ทธ๋ ์ด์
ํ ๋ ํธ์๋ฅผ ์ํด ๋์ผํ ๋ง์ดํธ ํฌ์ธํธ ์ด๋ฆ์ ์ ์งํ๋ค.)
๋ก์ปฌ NVMe RAID ์ด๋ ์ด (/scratch)๋ ๊ฐ์ฅ ๋น ๋ฅธ I/O ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๋ฐ๋ฉด, ๋คํธ์ํฌ ํ์ผ ์์คํ
์ ๊ณต์ ๋ฐ์ดํฐ ์คํ ๋ฆฌ์ง๋ฅผ ์ํ ๋ ํฐ ์ฉ๋์ ์ ๊ณตํ๋ค.
๐พย ์คํ ๋ฆฌ์ง ๊ธฐ์ ์ ์ข ๋ฅ
RAID (Redundant Array of Independent Disks):ย ๋ฐ์ดํฐ ์คํธ๋ผ์ดํ, ํจ๋ฆฌํฐ, ๋๋ ๋ฏธ๋ฌ๋ง์ ํตํด ์ฑ๋ฅ ๋ฐ/๋๋ ์ ๋ขฐ์ฑ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๋ฌ ๋๋ผ์ด๋ธ๋ฅผ ๊ฒฐํฉํ๋ค.
NVMe (Non-Volatile Memory Express):ย PCIe์ ์ง์ ์ฐ๊ฒฐ๋๋ SSD์ฉ ๊ณ ์ฑ๋ฅ ์คํ ๋ฆฌ์ง ํ๋กํ ์ฝ๋ก, SATA/SAS๋ณด๋ค ๋์ ์ฒ๋ฆฌ๋๊ณผ ๋ฎ์ ์ง์ฐ ์๊ฐ์ ์ ๊ณตํ๋ค.
WekaFS:ย AI/ML ์ํฌ๋ก๋๋ฅผ ์ํด ์ค๊ณ๋ ๊ณ ์ฑ๋ฅ ๋ณ๋ ฌ ํ์ผ ์์คํ ์ผ๋ก, ์ฌ๋ฌ ๋ ธ๋์ ๊ฑธ์ณ ์ ์ง์ฐ ์ก์ธ์ค์ ๋์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ๋ค.
FSx Lustre:ย ๋ณ๋ ฌ ์ก์ธ์ค๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ๋ฉํ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ์๋น์ค๋ฅผ ๋ค๋ฅธ ์๋ฒ์ ๋ถ๋ฆฌํ๋ HPC์ฉ์ผ๋ก ์ค๊ณ๋ ๋ณ๋ ฌ ํ์ผ ์์คํ ์ด๋ค. ๋์ฉ๋ ํ์ผ์ ํจ๊ณผ์ ์ด์ง๋ง, ๋ง์ ์์ ํ์ผ์ ํฌํจํ๋ ๋ฉํ๋ฐ์ดํฐ ์ง์ฝ์ AI/ML ์ํฌ๋ก๋์์๋ ์ด๋ ค์์ ๊ฒช์ ์ ์๋ค.
์คํ ๋ฆฌ์ง ๋์ญํญ ๋ฒค์น๋งํน
๊ฐ ์คํ ๋ฆฌ์ง ์์คํ ์ ์ฑ๋ฅ ํน์ฑ์ ์ดํดํ๊ธฐ ์ํด, GPUDirect Storage (GDS)๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ๊ธฐ/์ฐ๊ธฐ ์๋๋ฅผ ๋ฒค์น๋งํนํ ์ ์๋ค. ๋ค์์ ๋ค์ํ ๊ตฌ์ฑ์ ํ ์คํธํ๋ ํฌ๊ด์ ์ธ ๋งค๊ฐ๋ณ์ ๋ฒค์น๋งํฌ ์คํฌ๋ฆฝํธ์ด๋ค:
gdsio -f /<disk_path>/gds_test.dat -d 0 -w <n_threads> -s 10G -i <io_size> -x 1 -I 1 -T 10๋ฒค์น๋งํฌ๋ ์ฒ๋ฆฌ๋, ์ง์ฐ ์๊ฐ, IOPS๋ฟ๋ง ์๋๋ผ ๋ค์ ํญ๋ชฉ๋ค์ ๊ฑธ์ณ ์คํ ๋ฆฌ์ง ์์คํ ์ฑ๋ฅ์ ํ๊ฐํ๋ค:
ํ์ฅ์ฑ:ย ๋ค๋ฅธ ์ค๋ ๋ ์์ I/O ํฌ๊ธฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง. ์ด๋ ๋ค์ํ ์ํฌ๋ก๋ ํจํด์ ๋ํ ์ต์ ์ ๊ตฌ์ฑ์ ๋ณด์ฌ์ค๋ค:
- ์์ I/O ํฌ๊ธฐ (64K ~ 256K)๋ ์ผ๋ฐ์ ์ผ๋ก IOPS๋ฅผ ์ต๋ํํ์ง๋ง ๋์ญํญ์ ํฌํ์ํค์ง ๋ชปํ ์ ์๋ค.
- ํฐ I/O ํฌ๊ธฐ (2M ~ 8M)๋ ์ผ๋ฐ์ ์ผ๋ก ์ฒ๋ฆฌ๋์ ์ต๋ํํ์ง๋ง IOPS๋ฅผ ์ค์ธ๋ค.
- ์ค๋ ๋ ์๋ ๋ ๋ค์ ์ํฅ์ ๋ฏธ์น๋ค: ๋ ๋ง์ ์ค๋ ๋๋ ํ๋์จ์ด ํ๊ณ๊น์ง ์ด IOPS์ ์ฒ๋ฆฌ๋์ ์ฆ๊ฐ์ํฌ ์ ์๋ค.
์ ์ก ๋ฐฉ๋ฒ ํจ์จ์ฑ:ย GPU_DIRECT ๋ CPU_GPU ๋ CPUONLY๋ฅผ ๋น๊ตํ๋ฉด CPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฐํํ๋ ๊ฒ์ ์ด์ ์ ๋ณด์ฌ์ค๋ค:
- GPU_DIRECT:ย RDMA๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ GPU ๋ฉ๋ชจ๋ฆฌ๋ก ์ง์ ์ ์กํ์ฌ CPU๋ฅผ ์์ ํ ์ฐํํ๋ค (๊ฐ์ฅ ๋ฎ์ ์ง์ฐ ์๊ฐ, ๊ฐ์ฅ ๋์ ํจ์จ์ฑ, ์์ ์์ ์ ๋ํ ์ต๊ณ ์ IOPS).
- CPU_GPU:ย ๋ฐ์ดํฐ๊ฐ ๋จผ์ CPU ๋ฉ๋ชจ๋ฆฌ๋ก ์ด๋ํ ๋ค์ GPU๋ก ๋ณต์ฌ๋๋ ์ ํต์ ์ธ ๊ฒฝ๋ก (CPU ์ค๋ฒํค๋ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๊ฒฝํฉ ์ถ๊ฐ, ์ ํจ IOPS ๊ฐ์).
- CPUONLY:ย GPU ๊ฐ์ ์๋ ๊ธฐ๋ณธ CPU ์ ์ฉ I/O.
๐ย IOPS (I/O Operations Per Second)
IOPS๋ ์ด๋น ์๋ฃ๋ ๊ฐ๋ณ I/O ์์ ์ ์์ด๋ค.ย gdsioย ์ถ๋ ฅ์์ย ops / total_time์ผ๋ก ๊ณ์ฐ๋๋ค. IOPS๋ ๋ค์์ ํนํ ์ค์ํ๋ค:
- ์์ I/O ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ๋๋ค ์ก์ธ์ค ํจํด
- ๋ง์ ์์ ํ์ผ์ด๋ ํฉ์ด์ง ๋ฐ์ดํฐ ์ก์ธ์ค๊ฐ ์๋ ์ํฌ๋ก๋
- ์์ ๋์ญํญ๋ณด๋ค ์์ ๋น ์ง์ฐ ์๊ฐ์ด ๋ ์ค์ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ์ฌ ์์
- ๋ ๋์ IOPS๋ ๋์, ์ธ๋ถํ๋ ๋ฐ์ดํฐ ์ก์ธ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ ๋์ ๋ฅ๋ ฅ์ ๋ํ๋ธ๋ค.






๋ฒค์น๋งํฌ๋ 4๊ฐ์ ์คํ ๋ฆฌ์ง ์์คํ ์ ๋ฐ์ ๊ฑธ์น ๊ทน์ ์ธ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋๋ฌ๋ธ๋ค:
**/scratchย (๋ก์ปฌ NVMe RAID)**๋ย 26.59 GiB/s ์ฒ๋ฆฌ๋ย ๋ฐย 337K IOPS๋ก ์ง๋ฐฐ์ ์ด๋ฉฐ, FSx๋ณด๋ค ์ฒ๋ฆฌ๋์ 6.3๋ฐฐ ๋น ๋ฅด๊ณ IOPS๋ 6.6๋ฐฐ ๋ ์ข๋ค. 8ร3.5TB NVMe ๋๋ผ์ด๋ธ์ ์ด ๋ก์ปฌ RAID ์ด๋ ์ด๋ ๊ฐ์ฅ ๋ฎ์ ์ง์ฐ ์๊ฐ (ํผํฌ IOPS์์ 190ฮผs)์ ์ ๊ณตํ๋ฉฐ ์ค๋ ๋ ์์ ๋ฐ๋ผ ๋งค์ฐ ์ ํ์ฅ๋์ด, ์ฒ๋ฆฌ๋์ ๊ฒฝ์ฐ 1M I/O ํฌ๊ธฐ, 64 ์ค๋ ๋์์ ํผํฌ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
**/fsxย (WekaFS)**๋ย 4.21 GiB/sย ๋ฐย 51K IOPS์ ๊ฒฌ๊ณ ํ ๋คํธ์ํฌ ์คํ ๋ฆฌ์ง ์ฑ๋ฅ์ ์ ๊ณตํ์ฌ, ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ด ํ์ํ ๊ณต์ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ํฉํ ์ ํ์ด๋ค. FSx๋ CPUONLY ์ ์ก์ ์ฌ์ฉํ์ฌ ์ต๊ณ ์ ์ฒ๋ฆฌ๋(4.21 GiB/s)์ ๋ฌ์ฑํ๋ ๋ฐ๋ฉด, ์ต๊ณ ์ IOPS(51K)๋ GPUD ์ ์ก ์ ํ์ ์ฌ์ฉํ๋ค.
/adminย (FSx Lustre)ย ๋ฐย /rootย (EBS)ย ํ์ผ ์์คํ
์ ์ฝ 1.1 GiB/s ์ฒ๋ฆฌ๋์ ์ ์ฌํ ์ ๋นํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง IOPS ๊ธฐ๋ฅ์์ ํฌ๊ฒ ๋ค๋ฅด๋ค. Admin์ GPUD ์ ์ก์ผ๋ก ํผํฌ ์ฒ๋ฆฌ๋(1.13 GiB/s)์ ๋ฌ์ฑํ๊ณ CPU_GPU ์ ์ก์ผ๋ก 17K IOPS์์ ํผํฌ๋ฅผ ์ฐ์ด(Root๋ณด๋ค 24๋ฐฐ ๋ ์ข์), ๋ง์ ์์ ์์
์ ํฌํจํ๋ ์ํฌ๋ก๋์ ๋ ์ ํฉํ๋ค. Root์ ์ด์
ํ IOPS ์ฑ๋ฅ(730)์ ๋๊ท๋ชจ ์์ฐจ ์์
์๋ง ๊ฐ์ฅ ์ ํฉํจ์ ํ์ธ์์ผ ์ค๋ค.
GPU_DIRECT ๊ฒฐ๊ณผ์ ๋ํ ์ฐธ๊ณ ์ฌํญ: GPUDirect Storage (GDS)๋ ํ์ฌ ์ฐ๋ฆฌ ํด๋ฌ์คํฐ์์ ํ์ฑํ๋์ง ์์์ผ๋ฏ๋ก, NVMe ์คํ ๋ฆฌ์ง (Scratch ๋ฐ Root)์ ๋ํ GPUD ๊ฒฐ๊ณผ๊ฐ CPUONLY ์ ์ก์ ๋นํด ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ด์ ๋ฅผ ์ค๋ช ํ๋ค. GDS๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ๊ตฌ์ฑ๋๋ฉด, ํนํ ๊ณ ์ฑ๋ฅ NVMe ์ด๋ ์ด์ ๋ํด ์ง์ GPU ๋ ์คํ ๋ฆฌ์ง ์ ์ก์ ๋ํด GPUD๊ฐ ์๋นํ ์ด์ ์ ๋ณด์ผ ๊ฒ์ผ๋ก ์์ํ๋ค.
์ต์ ์ ๊ตฌ์ฑ ํจํด:ย ๋ชจ๋ ์คํ ๋ฆฌ์ง ์ ํ์ ๊ฑธ์ณ, ์ต๋ ์ฒ๋ฆฌ๋์ 1M I/O ํฌ๊ธฐ์์ ๋ฐ์ํ๋ ๋ฐ๋ฉด, ์ต๋ IOPS๋ ํ ์คํธ๋ ๊ฐ์ฅ ์์ ํฌ๊ธฐ (64K)์์ ๋ฐ์ํ๋ค. ์ด ๊ณ ์ ์ ์ธ ํธ๋ ์ด๋์คํ๋ ์ํฌ๋ก๋ ํน์ฑ์ ๋ฐ๋ผ ์์ ๋์ญํญ(ํฐ I/O)๊ณผ ์์ ๋์์ฑ(์์ I/O) ์ค์์ ์ ํํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋์ฉ๋ ์ฒดํฌํฌ์ธํธ ํ์ผ์ด ์๋ ML ํ์ต์ ๊ฒฝ์ฐ, Scratch์ย 1M-8M ๋ฒ์๊ฐ ์ต์ ์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค.
์์ฝ
์ฌ๊ธฐ๊น์ง ์๋ค๋ฉด ์ถํํ๋ค! ์ด์ ์คํ ๋ฆฌ์ง ๊ณ์ธต ๊ตฌ์กฐ์ ํ์ต ์ธํ๋ผ์์ ์๋ก ๋ค๋ฅธ ๊ตฌ์ฑ ์์๊ฐ ์ํธ ์์ฉํ๋ ๋ฐฉ์์ ๋ํ ํฌ๊ด์ ์ธ ์ดํด๋ฅผ ๊ฐ๊ฒ ๋์๋ค. ํ์ง๋ง ๋น์ ์ด ์ด ํํธ๋ก๋ถํฐ ์ป์ด๊ฐ๊ธธ ๋ฐ๋ผ๋ ํต์ฌ ํต์ฐฐ๋ ฅ์ ์ด๊ฒ์ด๋ค:ย ๋ณ๋ชฉ ํ์์ ์๋ณํด๋ด๋ ๊ฒ์ด ์ด๋ก ์ ์ง์๊ณผ ์ค์ฉ์ ์ต์ ํ๊ฐ ๊ตฌ๋ถ๋๋ ์ง์ ์ด๋ค.
์ด ๊ฐ์ด๋ ์ ๋ฐ์ ๊ฑธ์ณ, ์ฐ๋ฆฌ๋ ์คํ์ ๋ชจ๋ ์์ค์์ ์ค์ ๋์ญํญ์ ์ธก์ ํ๋ค: ๋จ์ผ GPU ๋ด HBM3์ 3TB/s, ๋ ธ๋ ๋ด GPU ๊ฐ NVLink์ 786 GB/s, CPU-GPU ์ ์ก์ ์ํ PCIe Gen4 x8์ 14.2 GB/s, ์ง์ ๊ฐ ํต์ ์ ์ํ ๋ ธ๋ ๊ฐ ๋คํธ์ํฌ์ 42 GB/s, ๊ทธ๋ฆฌ๊ณ 26.59 GB/s (๋ก์ปฌ NVMe)์์ 1.1 GB/s (๊ณต์ ํ์ผ ์์คํ )์ ์ด๋ฅด๋ ์คํ ๋ฆฌ์ง ์์คํ ์ด๋ค. ์ด๋ฌํ ์ธก์ ์ ํ์ต ํ์ดํ๋ผ์ธ์ด ์ด๋์ ๋๋ ค์ง์ง ๋๋ฌ๋ด๋ฉฐ ๋์ ๋ชจ๋ธ FLOPs ํ์ฉ๋ฅ (MFU)์ ๋ฌ์ฑํ๋ ๋ฐ ํ์์ ์ด๋ค.
๊ทธ๋ฌ๋ ์์ ๋์ญํญ ์์น๋ง์ผ๋ก๋ ์ ์ฒด ์ด์ผ๊ธฐ๋ฅผ ์ ์ ์๋ค. ํ๋ ํ์ต ์์คํ ์ย ๊ณ์ฐ๊ณผ ํต์ ์ ์ค์ฒฉ์์ผ ํต์ ๋น์ฉ์ ๊ณ์ฐ ์์ ๋ค์ ํจ๊ณผ์ ์ผ๋ก ์จ๊ธธ ์ ์๋ค. ์ด ๋ณ๋ ฌํ๋ ์ํธ ์ฐ๊ฒฐ์ด ๋๋ฆด ๋์๋ ๋ณ๋ชฉ ํ์์ ์ํํ๋ ๋ฐ ๋์์ด ๋๋ค.ย ์ฒ๋ฆฌ๋์ ์ต๋ํํ๊ธฐ ์ํด ๊ณ์ฐ๊ณผ ํต์ ์ ์ค์ฒฉํ๋ ์์ธํ ์ ๋ต์ Ultra-Scale Playbook์ ์ฐธ์กฐํ๋ค.
์๋ ๋ค์ด์ด๊ทธ๋จ์ ๋ฒค์น๋งํน๋ ๋ชจ๋ ์ธก์ ๊ฐ์ ๋จ์ผ ๋ทฐ๋ก ์ข ํฉํ์ฌ GPU์์ ๋ฉ์ด์ง์๋ก ๋์ญํญ์ด ๊ทน์ ์ผ๋ก ๊ฐ์ํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค:

์ด์ ํ๋์จ์ด ๋ฐ ์ํํธ์จ์ด ์ค์ ์์ ๋ณ๋ชฉ ํ์์ ์๋ณํ๋ ๋ฐฉ๋ฒ์ ์์์ผ๋ฏ๋ก, ํ ๋จ๊ณ ๋ ๋์๊ฐ ๋ช ๋ฌ ๋์ ์์ ์ ์ผ๋ก ์คํํ ์ ์๋ ํ๋ ฅ์ ์ธ ์์คํ ์ ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณด์.
ํ๋ ฅ์ ์ธ ํ์ต ์์คํ ๊ตฌ์ถ
๋น ๋ฅธ ํ๋์จ์ด๋ฅผ ๊ฐ๋ ๊ฒ์ LLM ํ์ต์ ์ํ ์ข๊ณ ์์ ์ ์ธ ์ธํ๋ผ๋ฅผ ๊ฐ๊ธฐ ์ํ ์ ์ฅ๊ถ์ผ ๋ฟ์ด๋ค. ํ์ต ์๋ง์ถ์ด์์ ํ๋ก๋ก ๊ฐ๋ ค๋ฉด, ์ฐ๋ฆฌ๋ raw ํ ์์ค์ ์๋๋ฅผ ๋์ด ์ ์ฒด ํ์ต ๊ฒฝํ์ ๋ ์ํํ๊ฒ ๋ง๋ค๊ณ ๋ค์ดํ์์ ์ต์ํํ๋ ๋ ํ๋ คํ์ง๋ง ์ค์ํ ์ธํ๋ผ ์กฐ๊ฐ๋ค์ ์ง์คํด์ผ ํ๋ค.
์ด ์น์ ์์ ์ฐ๋ฆฌ๋ ํ๋์จ์ด ๋ฐ ์ํํธ์จ์ด ์ต์ ํ์์ **ํ๋ก๋์ ์ค๋น ์ํ(production readiness)**๋ก ๋์ด๊ฐ๋ ค ํ๋ค: ๋ถ๊ฐํผํ ์ฅ์ ์์ ์ด์๋จ์ ๋งํผ ์ถฉ๋ถํ ๊ฒฌ๊ณ ํ๊ณ , ์ง์์ ์ธ ๊ด๋ฆฌ ์์ด ์คํ๋ ๋งํผ ์ถฉ๋ถํ ์๋ํ๋์์ผ๋ฉฐ, ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๋ ์ ์ํ ๋งํผ ์ถฉ๋ถํ ์ ์ฐํ ์์คํ ์ ๊ตฌ์ถํ๋ ๊ฒ์ด๋ค.
๋ ธ๋ ์ํ ๋ชจ๋ํฐ๋ง ๋ฐ ๊ต์ฒด
์ถฉ๋ถํ ๋น ๋ฅธ GPU๋ฅผ ๊ฐ๋ ๊ฒ์ ํ์ต์ ์ค์ํ์ง๋ง, LLM ํ์ต์ ๋ฉฐ์น ์ด ์๋๋ผ ๋ช ์ฃผ ๋๋ ๋ช ๋ฌ ๋์ ์คํ๋๋ฏ๋ก ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ฅธ GPU ์ํ ์ถ์ ์ด ์ค์ํ๋ค. ์ด๊ธฐ ๋ฒค์น๋งํฌ๋ฅผ ํต๊ณผํ GPU๋ ์ฅ๊ธฐ๊ฐ์ ํ์ต ์คํ ์ค์ ์ด ์ค๋กํ๋ง, ๋ฉ๋ชจ๋ฆฌ ์ค๋ฅ, ๋๋ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช์ ์ ์๋ค. ์ด ์น์ ์์๋ ์ฐ๋ฆฌ๊ฐ ์ด ๋ฌธ์ ์ ์ ๊ทผํ๋ ๋ฐฉ๋ฒ๊ณผ ์ฌ์ฉํ๋ ๋๊ตฌ๋ฅผ ๊ณต์ ํ ๊ฒ์ด๋ค.
์ฌ์ ํ ์คํธ:ย SmolLM3๋ฅผ ์์ํ๊ธฐ ์ ์, ์ฐ๋ฆฌ๋ ์ฌ๋ฌ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ํฌ๊ด์ ์ธ GPU ์ง๋จ์ ์คํํ๋ค. ์ฐ๋ฆฌ๋ ์ด ์ค๋กํ๋ง, ๋ฉ๋ชจ๋ฆฌ ์ค๋ฅ, ๋ฐ ์ฑ๋ฅ ์ด์ ์งํ์ ๋ํด GPU๋ฅผ ์คํธ๋ ์ค ํ ์คํธํ๋ ๋ด๋ถ ๋๊ตฌ์ธย GPU Fryer๋ฅผ ์ฌ์ฉํ๋ค. ์ฐ๋ฆฌ๋ ๋ํ GPU ํ๋์จ์ด๋ฅผ ๊ฒ์ฆํ๊ณ , ์ฑ๋ฅ์ ๋ชจ๋ํฐ๋งํ๋ฉฐ, ์ปดํจํ , PCIe ์ฐ๊ฒฐ์ฑ, ๋ฉ๋ชจ๋ฆฌ ๋ฌด๊ฒฐ์ฑ, ๋ฐ ์ด ์์ ์ฑ์ ๋ค๋ฃจ๋ ์ฌ์ธต ์ง๋จ ํ ์คํธ๋ฅผ ํตํด ์ฅ์ ๋ ์ ๋ ฅ ์ด์์ ๊ทผ๋ณธ ์์ธ์ ์๋ณํ๋ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋๊ตฌ์ธ NVIDIA์ย DCGM ์ง๋จ์ ์คํํ๋ค. ์ด๋ฌํ ์ฌ์ ํ ์คํธ๋ ํ์ต ์ค ๋ฌธ์ ๋ฅผ ์ผ์ผ์ผฐ์ ๋ ๊ฐ์ ๋ฌธ์ ๊ฐ ์๋ GPU๋ฅผ ์ก์๋๋ค.
๋ค์ ํ์์ DCGM ์ง๋จ ๋๊ตฌ๋ก ํ ์คํธํ ์ ์๋ ๋ด์ฉ์ ๋ณผ ์ ์๋ค:
| ํ ์คํธ ์์ค | ๊ธฐ๊ฐ | ์ํํธ์จ์ด | PCIe + NVLink | GPU ๋ฉ๋ชจ๋ฆฌ | ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ | ์ง๋จ | ๋ชฉํ ์คํธ๋ ์ค | ๋ชฉํ ์ ๋ ฅ | NVBandwidth | ๋ฉ๋ชจ๋ฆฌ ์คํธ๋ ์ค | ์ ๋ ฅ EDPp |
|---|---|---|---|---|---|---|---|---|---|---|---|
| r1 (์งง์) | ์ด | โ | โ | โ | |||||||
| r2 (์ค๊ฐ) | < 2๋ถ | โ | โ | โ | โ | โ | |||||
| r3 (๊น) | < 30๋ถ | โ | โ | โ | โ | โ | โ | โ | โ | ||
| r4 (์์ฃผ ๊น) | 1-2์๊ฐ | โ | โ | โ | โ | โ | โ | โ | โ | โ | โ |
DCGM ์ง๋จ ์คํ ์์ค. ์ถ์ฒ: NVIDIA DCGM ๋ฌธ์
$ dcgmi diag -r 2 -v -d VERB
Successfully ran diagnostic for group.
+---------------------------+------------------------------------------------+
| Diagnostic | Result |
+===========================+================================================+
| ----- Metadata ----------+------------------------------------------------ |
| DCGM Version | 3.3.1 |
| Driver Version Detected | 575.57.08 |
| GPU Device IDs Detected | 2330,2330,2330,2330,2330,2330,2330,2330 |
| ----- Deployment --------+------------------------------------------------ |
| Denylist | Pass |
| NVML Library | Pass |
| CUDA Main Library | Pass |
| Permissions and OS Blocks | Pass |
| Persistence Mode | Pass |
| Environment Variables | Pass |
| Page Retirement/Row Remap | Pass |
| Graphics Processes | Pass |
| Inforom | Pass |
+----- Integration -------+------------------------------------------------+
| PCIe | Pass - All |
| Info | GPU 0 GPU to Host bandwidth: 14.26 GB/s, GPU |
| 0 Host to GPU bandwidth: 8.66 GB/s, GPU 0 b |
| idirectional bandwidth: 10.91 GB/s, GPU 0 GPU |
| to Host latency: 2.085 us, GPU 0 Host to GP |
| U latency: 2.484 us, GPU 0 bidirectional lat |
| ency: 3.813 us |
...
+----- Hardware ----------+------------------------------------------------+
| GPU Memory | Pass - All |
| Info | GPU 0 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 1 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 2 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 3 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 4 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 5 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 6 Allocated 83892938283 bytes (98.4%) |
| Info | GPU 7 Allocated 83892938283 bytes (98.4%) |
+----- Stress ------------+------------------------------------------------+๋ ธ๋ ์์ฝ:ย SmolLM3๋ Slurm ๊ด๋ฆฌ ํด๋ฌ์คํฐ์์ ํ์ต๋์์ผ๋ฏ๋ก, ์ฐ๋ฆฌ๋ ์ ์ฒด ์คํ์ ์ํด ๊ณ ์ ๋ 48๊ฐ ๋ ธ๋ ์์ฝ์ ์์ฝํ๋ค. ์ด ์ค์ ์ ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ฅธ ์ ํํ ๋์ผํ ๋ ธ๋์ ์ํ์ ์ฑ๋ฅ์ ์ถ์ ํ ์ ์๊ฒ ํด์ฃผ์์ผ๋ฉฐ, ์ฐ๋ฆฌ๊ฐ ๋ ผ์ํ ๋ฐ์ดํฐ ์คํ ๋ฆฌ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ์๋ ํ์ํ๋ค. ์ฐ๋ฆฌ๋ ๋ํย ์๋น ๋ ธ๋ย (์๋์ฐจ์ ์คํ์ด ํ์ด์ด์ฒ๋ผ)๋ฅผ ํ๋ณดํ์ฌ ํ๋๊ฐ ์คํจํ๋ฉด ์๋ฆฌ๋ฅผ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ์ฆ์ ๊ต์ฒดํ ์ ์๋๋ก ํ๋ค. ์ ํด ์ํ์ผ ๋, ์๋น ๋ ธ๋๋ ํ๊ฐ ์์ ์ด๋ ๊ฐ๋ฐ ์คํ์ ์คํํ๋ค.
์ง์์ ์ธ ๋ชจ๋ํฐ๋ง:ย ํ์ต ์ค, ์ฐ๋ฆฌ๋ ๋ชจ๋ ๋ ธ๋์์ GPU ์จ๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋, ์ปดํจํ ํ์ฉ๋ฅ ๋ฐ ์ฒ๋ฆฌ๋ ๋ณ๋๊ณผ ๊ฐ์ ์ฃผ์ ์งํ๋ฅผ ์ถ์ ํ๋ค. ์ฐ๋ฆฌ๋ Prometheus๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ GPU์์ DCGM ์งํ๋ฅผ ์์งํ๊ณ ์ค์๊ฐ ๋ชจ๋ํฐ๋ง์ ์ํด Grafana ๋์๋ณด๋์ ์๊ฐํํ๋ค.ย AWS ์ธํ๋ผ์์ GPU ๋ชจ๋ํฐ๋ง์ ์ํด Prometheus์ Grafana๋ฅผ ๋ฐฐํฌํ๋ ์์ธํ ์ค์ ์ง์นจ์ ์ด ์์ ์ค์ ๊ฐ์ด๋(https://github.com/aws-samples/awsome-distributed-training/tree/3ae961d022399021cc4053c3ba19b182ca6b8dc8/4.validation_and_observability/4.prometheus-grafana) ๋ฅผ ์ฐธ๊ณ ํด๋ผ.ย Slack ๋ด์ ๋ ธ๋๊ฐ ์์ฌ์ค๋ฌ์ด ๋์์ ๋ณด์ผ ๋ ์ฐ๋ฆฌ์๊ฒ ๊ฒฝ๊ณ ํ์ฌ ์ ์ฒด ํ์ต ์คํ์ ์ค๋จ์ํค๊ธฐ ์ ์ ์ฌ์ ์ ๊ณ ์ฅ ๋ ํ๋์จ์ด๋ฅผ ๊ต์ฒดํ ์ ์๊ฒ ํ๋ค.
์ด ๋ค์ธต ์ ๊ทผ ๋ฐฉ์์ ํ๋์จ์ด ๋ฌธ์ ๊ฐ ๊ด๋ฆฌ ๊ฐ๋ฅํ ์ค๋จ์ด ๋๋๋ก ํ๋ค.
์ด ํ์ค ์ ๊ฒ: GPU๊ฐ ๋๋ ค์ง ๋
๋ง์ผํ ์ฌ์์ ์๋ฒฝํ ๋๊ฐ์ ๊ฐ์ ํ์ง๋ง ํ์ค์ ๋ ์ง์ ๋ถํ๋ค. GPU๋ ๊ณผ์ด๋ ๋ ์๋์ผ๋ก ํด๋ญ ์๋๋ฅผ ์ค์ฌ ์ ์ค๊ณ๋ ์์คํ ์์๋ ์ด๋ก ์ ์ต๋์น ๋ฏธ๋ง์ผ๋ก ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆฐ๋ค.

์ด Grafana ๋์๋ณด๋๋ ์ฐ๋ฆฌ GPU ํด๋ฌ์คํฐ ์ ๋ฐ์ ์ด ์ค๋กํ๋ง ์ด๋ฒคํธ๋ฅผ ๋ณด์ฌ์ค๋ค. ์๋ ํจ๋์ ๋ง๋๋ ๊ณผ์ด๋ก ์ธํด GPU๊ฐ ์๋์ผ๋ก ํด๋ญ ์๋๋ฅผ ์ค์ธ ๋๋ฅผ ๋ํ๋ธ๋ค.
์ฐ๋ฆฌ๋ NVIDIA์ DCGM์์ย DCGM_FI_DEV_CLOCK_THROTTLE_REASONSย ์งํ๋ฅผ ๋ชจ๋ํฐ๋งํ์ฌ ์ด ์ค๋กํ๋ง์ ๊ฐ์งํ๋ค. ์ด ์งํ๊ฐ 0์ด ์๋ ๊ฐ์ ๋ณด์ด๋ฉด, GPU๋ ๊ณผ์ด๋ก ์ธํด ์๋์ผ๋ก ํด๋ญ ์๋๋ฅผ ์ค์ด๊ณ ์๋ ๊ฒ์ด๋ค. ์์ ๋์๋ณด๋๋ ์ด๋ฌํ ์ค๋กํ๋ง ์ด๋ฒคํธ๊ฐ ์ค์ ๋ก ์ด๋ป๊ฒ ๋ํ๋๋์ง ๋ณด์ฌ์ค๋ค.
์ด ์ค๋กํ๋ง์ ์ํฅ์ ๋ฐ๋ GPU๋ง ํด์น๋ ๊ฒ์ด ์๋๋ค; ์ ์ฒด ๋ถ์ฐ ํ์ต ์ค์ ์ ํ๊ธ ํจ๊ณผ๋ฅผ ๋ฏธ์น๋ค. ํ ์คํธ ์ค, ์ฐ๋ฆฌ๋ ๋จ์ผ ์ค๋กํ๋ง ๋ ธ๋๊ฐ ์งํฉ ํต์ ์ฑ๋ฅ์ ์ผ๋ง๋ ๊ทน์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์๋์ง ๊ด์ฐฐํ๋ค.

์คํธ๋ ์ค ํ ์คํธ ์ค ๋ ธ๋ ์ ๋ฐ์ AllReduce ๋์ญํญ ์ ํ. 14๊ฐ ๋ ธ๋ ์ดํ์ ๊ธ๊ฒฉํ ํ๋ฝ (350 GB/s์์ 100 GB/s๋ก)์ ๋จ์ผ ์ด ์ค๋กํ๋ง GPU์ ์ํด ๋ฐ์ํ์ผ๋ฉฐ, ํ๋์ ๋๋ฆฐ ๋ ธ๋๊ฐ ์ ์ฒด ๋ถ์ฐ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ณ๋ชฉ ํ์์ ๋น ๋จ๋ฆด ์ ์์์ ๋ณด์ฌ์ค๋ค.
์์ ์ฐจํธ๋ 1์์ 16๊ฐ ๋ ธ๋๋ก ํ์ฅํจ์ ๋ฐ๋ผ AllReduce ๋์ญํญ์ด ์ ํ๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. 14๊ฐ ๋ ธ๋ ์ดํ 350 GB/s์์ 100 GB/s๋ก ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๊ฒ์ ์ฃผ๋ชฉํด๋ผ (์ด์ ์๋ ๋์ญํญ์ด 300GB/s ์ด์ ์ ์ง๋ ๊ฒ์ผ๋ก ์์ํ๋ค). ์ด๊ฒ์ ๋คํธ์ํฌ ๋ฌธ์ ๊ฐ ์๋์๋ค: ์ด ์ค๋กํ๋ง์ด ์๋ ๋จ์ผ ๋ ธ๋๊ฐ ๋ณ๋ชฉ ํ์์ด ๋์ด ๊ธฐ์ธ๊ธฐ ๋๊ธฐํ ์ค์ ๋ค๋ฅธ ๋ชจ๋ ๋ ธ๋๊ฐ ๊ธฐ๋ค๋ฆฌ๊ฒ ๋ง๋ค์๋ค. ๋ถ์ฐ ํ์ต์์, ์ฌ๋ฌ๋ถ์ ๊ฐ์ฅ ๋๋ฆฐ ๋ ธ๋๋งํผ๋ง ๋น ๋ฅด๋ค.
๐ย ํต์ฌ ๊ตํ:ย ๊ธด ํ์ต ์คํ์ ์ ๋ ํ๊ธฐ ์ ์, ์์ ์ธ๊ธํ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋์จ์ด๋ฅผ ์คํธ๋ ์ค ํ ์คํธํ์ฌ ์ด ๋ฐ ์ ๋ ฅ ์ ํ์ ์๋ณํ๋ค. DCGM ์๊ฒฉ ์ธก์ ์ ์ฌ์ฉํ์ฌ ์จ๋๋ฅผ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๊ณ ์ค์ ์ด ์ ํ์ ๊ณํํ๋ค. GPU ํด๋ญ์ด ์ต๋ ์ฑ๋ฅ์ผ๋ก ์ค์ ๋์๋์ง ํ์ธํ๋ ๊ฒ๋ ์ข์ ๊ดํ์ด๋ค.ย ์ ๋ ฅ ์ ์ฝ์ผ๋ก ์ธํด GPU๊ฐ ๊ด๊ณ ๋ ์ฑ๋ฅ์ ์ ์งํ ์ ์๋ ์ด์ ์ ๋ํ ๋ ๊น์ ๋ด์ฉ์ ์ ๋ ฅ ์ค๋กํ๋ง์ ๋ํ ์ด ํ๋ฅญํ ๋ถ์(https://www.thonking.ai/p/strangely-matrix-multiplications)์ ์ฐธ๊ณ ํด๋ผ.
์ฒดํฌํฌ์ธํธ ๊ด๋ฆฌ
์ฒดํฌํฌ์ธํธ๋ ๊ธด ํ์ต ์คํ ์ค ์ฐ๋ฆฌ์ ์์ ๋ง์ด๋ค. ์ฐ๋ฆฌ๋ ์ธ ๊ฐ์ง ์ค์ฉ์ ์ธ ์ด์ ๋ก ์ด๋ฅผ ์ ๊ธฐ์ ์ผ๋ก ์ ์ฅํ๋ค: ์ฅ์ ๋ก๋ถํฐ์ ๋ณต๊ตฌ, ํ๊ฐ๋ฅผ ํตํ ํ์ต ์งํ ๋ชจ๋ํฐ๋ง, ๊ทธ๋ฆฌ๊ณ ์ฐ๊ตฌ๋ฅผ ์ํด ์ค๊ฐ ๋ชจ๋ธ์ ์ปค๋ฎค๋ํฐ์ ๊ณต์ ํ๋ ๊ฒ์ด๋ค. ๋ณต๊ตฌ ์ธก๋ฉด์ด ๊ฐ์ฅ ์ค์ํ๋ค. ์คํ์ด ์คํจํ๋ฉด, ์ฆ์ ์ฌ๊ฐํ ๊ฒฝ์ฐ ์ต๋ ์ ์ฅ ๊ฐ๊ฒฉ๋งํผ๋ง ์๋๋ก ์ต์ ์ ์ฅ๋ ์ฒดํฌํฌ์ธํธ์์ ๋ค์ ์์ํ๊ธฐ๋ฅผ ์ฐ๋ฆฌ๋ ์ํ๋ค (์: 4์๊ฐ๋ง๋ค ์ ์ฅํ๋ ๊ฒฝ์ฐ 4์๊ฐ์ ํ์ต).
๐กย ์ฌ๊ฐ ํ๋ก์ธ์ค ์๋ํ
์ฌ๊ฐ ํ๋ก์ธ์ค๋ฅผ ์๋ํํ๋ ค๊ณ ๋
ธ๋ ฅํด๋ผ. ์๋ฅผ ๋ค์ด Slurm์์๋ย SBATCH --requeue๋ฅผ ์ฌ์ฉํ์ฌ ์์
์ด ์ต์ ์ฒดํฌํฌ์ธํธ์์ ์๋์ผ๋ก ๋ค์ ์์๋๋๋ก ํ ์ ์๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋๊ตฐ๊ฐ ์คํจ๋ฅผ ์์์ฐจ๋ฆฌ๊ณ ์๋์ผ๋ก ๋ค์ ์์ํ๊ธฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ์๊ฐ์ ๋ญ๋นํ๋ ๊ฒ์ ํผํ ์ ์๋ค.
์ฌ๊ฐ ๋ฉ์ปค๋์ฆ์ ๊ตฌํํ ๋ ๋ช ์ฌํด์ผ ํ ๋ ๊ฐ์ง ์ค์ํ ์ธ๋ถ ์ฌํญ์ด ์๋ค:
- ์ฒดํฌํฌ์ธํธ ์ ์ฅ์ ํ์ต ์ฒ๋ฆฌ๋์ ์ํฅ์ ์ฃผ์ง ์์ผ๋ฉด์ ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค.
- ์คํ ๋ฆฌ์ง๋ฅผ ์ฃผ์ํ๋ค. 24์ผ ์คํ ๋์ 4์๊ฐ๋ง๋ค ์ ์ฅํ๋ฉด ~144๊ฐ์ ์ฒดํฌํฌ์ธํธ๊ฐ ๋๋ค. ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ ์ตํฐ๋ง์ด์ ์ํ์ ๊ฒฝ์ฐ, ์ด๊ฒ์ ๋น ๋ฅด๊ฒ ๋์ด๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฝ์ฐ, ํ ๋ฒ์ ํ๋์ ๋ก์ปฌ ์ฒดํฌํฌ์ธํธ (์ต์ ์ ์ฅ๋ ๊ฒ)๋ง ์ ์ฅํ๊ณ ๋๋จธ์ง๋ ํด๋ฌ์คํฐ ์คํ ๋ฆฌ์ง๋ฅผ ์ฑ์ฐ์ง ์๋๋ก S3๋ก ์คํ๋ก๋ํ๋ค.
๊ณผ๊ฑฐ์ ๊ณ ํต์ค๋ฌ์ด ๊ตํ:
์ฐ๋ฆฌ์ ์ฒซ ๋ฒ์งธ ๋๊ท๋ชจ ์คํ (StarCoder 15B) ๋์, ํ์ต์ ์ฌ๋ฌ ๋ฒ์ ์ฌ์์์ ํตํด ์์กฐ๋กญ๊ฒ ์งํ๋์๋ค. ๋ง์ง๋ง ๋ , ์ฐ๋ฆฌ๋ ์ด์ ์ฒ๋ฆฌ๋ ํ
์คํธ ์คํฌ๋ฆฝํธ์ ๋งจ ๋์ ๋จ์ ์๋ย rm -rf $CHECKPOINT_PATHย ๋ช
๋ น์ ์ํด ์ ์ฒด ์ฒดํฌํฌ์ธํธ ํด๋๊ฐ ์ญ์ ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ด ํ๊ดด์ ์ธ ๋ช
๋ น์ Slurm ์์
์ด ์ค์ ๋ก ์๋ฃ๋์์ ๋๋ง ํธ๋ฆฌ๊ฑฐ๋์๋๋ฐ, ์ด์ ์ฌ์์์์๋ ๋ฐ์ํ์ง ์์๋ค.
๋คํํ๋, ์ ๋ ์ ์ฒดํฌํฌ์ธํธ๊ฐ ์ ์ฅ๋์ด ์์ด์ ํ๋ฃจ์น ์ฌํ์ต ๋น์ฉ๋ง ๋ค์๋ค. ๊ตํ์ ๋ช ํํ๋ค: ํ๋ก๋์ ์คํฌ๋ฆฝํธ์ ํ๊ดด์ ์ธ ๋ช ๋ น์ ๋จ๊ฒจ๋์ง ๋ง๊ณ , ์๋ ๊ฐ์ ์ ์์กดํ๊ธฐ๋ณด๋ค ์ ์ฅ ์งํ ์ฒดํฌํฌ์ธํธ ๋ฐฑ์ ์ ์๋ํํด๋ผ.
์ฐ๋ฆฌ์ nanotron ํ์ต์์๋ ๋ก์ปฌ์ 2์๊ฐ๋ง๋ค ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ์ฅํ๊ณ , ์ฆ์ ๊ฐ ์ฒดํฌํฌ์ธํธ๋ฅผ S3์ ์ ๋ก๋ํ ๋ค์, ๋ฐฑ์ ์ด ํ์ธ๋๋ฉด ๋ก์ปฌ ๋ณต์ฌ๋ณธ์ ์ญ์ ํ๋ค. ์ฌ๊ฐ ์, ์ต์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ก์ปฌ์์ ์ฌ์ฉํ ์ ์๋ ๊ฒฝ์ฐ S3์์ ๊ฐ์ ธ์จ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์คํ ๋ฆฌ์ง๋ฅผ ์ ์ฝํ๊ณ , ๋ฐฑ์ ์ ๋ณด์ฅํ๋ฉฐ, ๋น ๋ฅธ ๋ณต๊ตฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์๋ํ๋ ํ๊ฐ
ํ๊ฐ๋ฅผ ์๋์ผ๋ก ์คํํ๋ ๊ฒ์ ๋น ๋ฅด๊ฒ ๋ณ๋ชฉ ํ์์ด ๋๋ค. ๋ฐ๋ณตํด์ ์ํํ๊ธฐ ์ ๊น์ง๋ ๊ฐ๋จํด ๋ณด์ธ๋ค. ๋ชจ๋ ์คํ์ ๋ํด ๋ฒค์น๋งํฌ๋ฅผ ์คํํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์ถ์ ํ๊ณ ํ๋กฏํ๋ ๊ฒ์ ์๋นํ ์ค๋ฒํค๋๊ฐ ๋๋ค. ํด๊ฒฐ์ฑ ์?ย ์ฒ์๋ถํฐ ๋ชจ๋ ๊ฒ์ ์๋ํํ๋ ๊ฒ์ด๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ LightEval์ ์ฌ์ฉํ์ฌ nanotron ์ฒดํฌํฌ์ธํธ์์ ํ๊ฐ๋ฅผ ์คํํ๋ค. ์ ์ฅ๋ ๋ชจ๋ ์ฒดํฌํฌ์ธํธ๋ ํด๋ฌ์คํฐ์์ ํ๊ฐ ์์ ์ ํธ๋ฆฌ๊ฑฐํ๋ค. ๊ฒฐ๊ณผ๋ Weights & Biases ๋๋ Trackio๋ก ์ง์ ํธ์๋๋ฏ๋ก, ์ฐ๋ฆฌ๋ ๋์๋ณด๋๋ฅผ ์ด๊ณ ๊ณก์ ์ด ์งํํ๋ ๊ฒ์ ์ง์ผ๋ณด๊ธฐ๋ง ํ๋ฉด ๋์๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์๊ฒ ๋ง๋ํ ์๊ฐ์ ์ ์ฝํด ์ฃผ์๊ณ ์คํ ๋ด๋ด ํ๊ฐ ์ถ์ ์ ์ผ๊ด๋๊ฒ ์ ์งํ๋ค.
ํ์ต ์ค์ ์์ ๋จ ํ๋๋ง ์๋ํํ ์ ์๋ค๋ฉด,ย ํ๊ฐ๋ฅผ ์๋ํํด๋ผ.
๋ง์ง๋ง์ผ๋ก, ์ฒ๋ฆฌ๋์ ๊ทน๋ํํ๊ธฐ ์ํด ํ์ต ๋ ์ด์์, ์ฆ ๋ชจ๋ธ์ด ์ฌ์ฉ ๊ฐ๋ฅํ GPU ์ ์ฒด์ ์ด๋ป๊ฒ ๋ถ์ฐ๋๋์ง ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณด์.
ํ์ต ์ฒ๋ฆฌ๋ ์ต์ ํ
์ผ๋ง๋ ๋ง์ GPU๊ฐ ํ์ํ๊ฐ?
์ข์ ์ง๋ฌธ์ด๋ค! ์ฌ์๊ณผ ๋ฒค์น๋งํฌ์ ๋ํ ๋ชจ๋ ์ด์ผ๊ธฐ ํ์, ์ฌ์ ํ ์ค์ฉ์ ์ธ ์ง๋ฌธ์ ํด๊ฒฐํด์ผ ํ๋ค: ์ค์ ๋ก ์ผ๋ง๋ ๋ง์ GPU๋ฅผ ๋น๋ฆฌ๊ฑฐ๋ ์ฌ์ผ ํ๋๊ฐ?
๊ธฐ๋ณธ ํฌ๊ธฐ ์กฐ์ ๊ณต์:
์ด ๊ณต์์ ๋ฌธ์ ๋ฅผ ์ธ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ก ๋๋๋ค:
- ํ์ํ ์ด FLOPs:ย ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐ ํ์ํ ๊ณ์ฐ ์์ (๋ชจ๋ธ ํฌ๊ธฐ, ํ์ต ํ ํฐ, ์ํคํ ์ฒ์ ๋ฐ๋ผ ๋ค๋ฆ)
- GPU๋น ์ฒ๋ฆฌ๋:ย ๊ฐ GPU๊ฐ ์ค์ ๋ก ์ ๊ณตํ ์ ์๋ ์ด๋น FLOPs ์ (์ด๋ก ์ ํผํฌ๊ฐ ์๋๋ค!)
- ๋ชฉํ ํ์ต ์๊ฐ:ย ํ์ต์ด ์๋ฃ๋ ๋๊น์ง ๊ธฐ๋ค๋ฆด ์ํฅ์ด ์๋ ๊ธฐ๊ฐ
ํต์ฌ์ ์ธ ์ธ์ฌ์ดํธ: ํผํฌ ์ฌ์์ด ์๋๋ผย ํ์ค์ ์ธ ์ฒ๋ฆฌ๋์ ์ถ์ ํด์ผ ํ๋ค. ์ด๋ ๋ชจ๋ธ FLOPs ํ์ฉ๋ฅ (MFU)์ ๊ณ ๋ คํ๋ ๊ฒ์ ์๋ฏธํ๋ค: ์ค์ ๋ก ๋ฌ์ฑํ๋ ๊ฒ์ ์ด๋ก ์ ํผํฌ ์ฑ๋ฅ์ ์ผ๋ถ๋ถ์ด๋ค.
SmolLM3์ ๊ฒฝ์ฐ, ๊ณ์ฐ์ ๋ค์๊ณผ ๊ฐ์๋ค:
- ๋ชจ๋ธ ํฌ๊ธฐ:ย 30์ต ๋งค๊ฐ๋ณ์
- ํ์ต ํ ํฐ:ย 11์กฐ ํ ํฐ
- ์์ MFU: 30% (์ ์ฌํ ๊ท๋ชจ์ ์คํ์ ๊ธฐ๋ฐ์ผ๋ก ํจ)
๋จผ์ , ํ์ค ํธ๋์คํฌ๋จธ ๊ทผ์ฌ์น์ธ ํ ํฐ๋น 6N FLOPs (์ฌ๊ธฐ์ N = ๋งค๊ฐ๋ณ์)๋ฅผ ์ฌ์ฉํ์ฌ ํ์ํ ์ด FLOPs๋ฅผ ๊ณ์ฐํ๋ค:
์์ MFU 30%๋ฅผ ์ฌ์ฉํ์ฌ ์ ํจ GPU๋น ์ฒ๋ฆฌ๋์ ๋ค์๊ณผ ๊ฐ๋ค:
์ด์ ํฌ๊ธฐ ์กฐ์ ๊ณต์์ ๋์ ํ๋ค:
์ด ๊ณ์ฐ์ ์ฐ๋ฆฌ์๊ฒ 375-400๊ฐ์ H100์ ๊ฐ๋ฆฌ์ผฐ๊ณ , ์ฐ๋ฆฌ๋ 384๊ฐ์ H100์ ํ๋ณดํ๋ค. ์ด๋ ์ฐ๋ฆฌ์ ๋ณ๋ ฌํ ์ ๋ต๊ณผ ์ ์ผ์นํ๊ณ ๋ ธ๋ ์ฅ์ ๋ฐ ์ฌ์์๊ณผ ๊ฐ์ ์์์น ๋ชปํ ๋ฌธ์ ์ ๋ํ ์ฝ๊ฐ์ ๋ฒํผ์ ํจ๊ป ํ์ค์ ์ธ 4์ฃผ ํ์๋ผ์ธ์ ์ ๊ณตํ ์ซ์์๋ค.
์ ๋ ๋ง์ GPU๊ฐ ํญ์ ๋ ๋์ ๊ฒ์ ์๋๊ฐ: ์๋ฌ์ ๋ฒ์น ์์ฉ
์ฌ๊ธฐ ์ง๊ด์ ๋ฐํ๋ ์ง์ค์ด ์๋ค:ย ๋ ๋ง์ GPU๋ฅผ ์ถ๊ฐํ๋ฉด ์ค์ ๋ก ํ์ต์ด ๋๋ ค์ง ์ ์๋ค. ์๋ฌ์ ๋ฒ์น(Amdahlโs Law, https://en.wikipedia.org/wiki/Amdahl%27s_law)์ด ์์ฉํ๊ฒ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
์๋ฌ์ ๋ฒ์น์ ๋ณ๋ ฌํ๋ก ์ธํ ์๋ ํฅ์์ด ๊ทผ๋ณธ์ ์ผ๋ก ์ํฌ๋ก๋์ ์ง๋ ฌ (๋ณ๋ ฌํํ ์ ์๋) ๋ถ๋ถ์ ์ํด ์ ํ๋๋ค๊ณ ๋ช ์ํ๋ค. LLM ํ์ต์์, ์ด โ์ง๋ ฌโ ๋ถ๋ถ์ ์ฃผ๋กย ํต์ ์ค๋ฒํค๋์ด๋ค: ๋ณ๋ ฌํ๋ ์ ์๋ GPU ๊ฐ์ ๊ธฐ์ธ๊ธฐ/๊ฐ์ค์น/ํ์ฑํ ๋๊ธฐํ์ ์๋น๋๋ ์๊ฐ์ด๋ค (์ฌ๊ธฐ(https://acenet-arc.github.io/ACENET_Summer_School_General/05-performance/index.html)์ ์์ธํ ์์๋ณผ ์ ์๋ค).
๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค:

SmolLM3์ 30์ต ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ํต์ ์ด ๊ฐ ํ์ต ๋จ๊ณ์ 10%๋ฅผ ์ฐจ์งํ๋ค๋ฉด, ์๋ฌด๋ฆฌ ๋ง์ GPU๋ฅผ ์ถ๊ฐํ๋๋ผ๋ 10๋ฐฐ ์ด์์ ์๋ ํฅ์์ ์ ๋ ์ป์ ์ ์๋ค. ๋ ๋์ ๊ฒ์, GPU๋ฅผ ์ถ๊ฐํจ์ ๋ฐ๋ผ ํต์ ๋น์จ์ด ์ข ์ข ย ์ฆ๊ฐํ๋ค๋ ๊ฒ์ด๋ค. ์๋ํ๋ฉด:
- ๋ ๋ง์ GPU = ๋ ๋ง์ AllReduce ์ฐธ๊ฐ์ = ๋ ๊ธด ๋๊ธฐํ
- ๋คํธ์ํฌ ์ง์ฐ ์๊ฐ/๋์ญํญ์ด ๋ณ๋ชฉ ํ์์ด ๋จ
- ์ํ ๋ชจ๋ธ์ ๊ณ์ฐ ๋ค์ ํต์ ์ ์จ๊ธธ ์ ์์
SmolLM3์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ ์ฝํ ํ์ฅ(weak scaling) ์์น์ ์ฌ์ฉํ๋ค: ์ ์ญ ๋ฐฐ์น ํฌ๊ธฐ๋ GPU ์์ ๋ฐ๋ผ ํ์ฅ๋์ด ์ ์ญ์ ์ผ๋ก GPU๋น ๋๋ต 8K ํ ํฐ์ ์ ์งํ๋ค. ์ด๊ฒ์ ์ฒ๋ฆฌ๋์ ๊ทน๋ํํ๋ฉด์ ํต์ ๋ ๊ณ์ฐ ๋น์จ์ ํฉ๋ฆฌ์ ์ผ๋ก ์ ์งํ๋ค.
์ต์ ์ ๋ณ๋ ฌํ ๊ตฌ์ฑ ์ฐพ๊ธฐ
GPU๋ฅผ ํ๋ณดํ๋ค๋ฉด, ๋ค์ ๊ณผ์ ๋ ์ค์ ๋ก ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ๊ตฌ์ฑํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด ๋ณ๋ ฌํ ์ ๋ต์ด ์ค์ํด์ง๋ค.
์ฐ๋ฆฌ๋ ์ต์ ์ ํ์ต ๊ตฌ์ฑ์ ์ฐพ๊ธฐ ์ํดย Ultra-Scale Playbook์ ์ ๊ทผ ๋ฐฉ์์ ๋ฐ๋ฅธ๋ค. ํ๋ ์ด๋ถ์ ๋ฌธ์ ๋ฅผ ์ธ ๊ฐ์ง ์์ฐจ์ ๋จ๊ณ๋ก ๋๋๋ค: ๋จผ์ ๋ชจ๋ธ์ด ๋ฉ๋ชจ๋ฆฌ์ ๋ง๋์ง ํ์ธํ๊ณ , ๋ชฉํ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋ฌ์ฑํ ๋ค์, ๋ง์ง๋ง์ผ๋ก ์ต๋ ์ฒ๋ฆฌ๋์ ์ํด ์ต์ ํํ๋ค. SmolLM3์ ์ด๊ฒ์ ์ด๋ป๊ฒ ์ ์ฉํ๋์ง ์ดํด๋ณด์.
(๋ค์ํ ๋ณ๋ ฌํ ์ ๋ต (๋ฐ์ดํฐ ๋ณ๋ ฌํ, ํ ์ ๋ณ๋ ฌํ, ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ, ZeRO ๋ฑ)์ ๋ํ ์์ธํ ์ค๋ช ์ ๋ค์ ํ ๋ฒ Ultra-Scale Playbook์ ํ์ธํ ๊ฒ์ ์ด๊ตฌํ๋ค.)
1๋จ๊ณ: ํ์ต ๋จ๊ณ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ๋ง์ถ๊ธฐ
์ฒซ ๋ฒ์งธ ์ง๋ฌธ์ ๊ฐ๋จํ๋ค: ์ฐ๋ฆฌ SmolLM3 30์ต ๋ชจ๋ธ์ด ๋จ์ผ H100์ 80GB ๋ฉ๋ชจ๋ฆฌ์ ๋ง๋๊ฐ? ์ด์ ๋ตํ๊ธฐ ์ํด, ๋ชจ๋ธ ๋งค๊ฐ๋ณ์, ์ตํฐ๋ง์ด์ ์ํ, ๊ธฐ์ธ๊ธฐ ๋ฐ ํ์ฑํ์ ๋ํ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ์ถ์ ํ๋ nanotron์ย predict_memoryย ๋๊ตฌ๋ฅผ ์ฌ์ฉํด๋ณธ๋ค.

nanotron์ย predict_memoryย ๋๊ตฌ์ ๋ฉ๋ชจ๋ฆฌ ํ์๋ผ์ธ์ SmolLM3 3B๊ฐ 74GB์์ ํผํฌ๋ฅผ ์ฐ์ด H100์ 80GB ํ๊ณ์ ์ ๊ทผํจ์ ๋ณด์ฌ์ค๋ค.
๊ฒฐ๊ณผ๋ ์ฐ๋ฆฌ๊ฐ 80GB ํ๊ณ์ ๊ฐ๊น๊ฒ ๋ฐ์ด๋ถ์ด๊ณ ์์์ ๋ณด์ฌ์ค๋ค. ์ด๋ ํ ์ ๋ณ๋ ฌํ (GPU ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๋ ์ด์ด ๋ถํ ), ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ (GPU ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๊น์ด ๋ถํ ), ๋๋ ZeRO ์ตํฐ๋ง์ด์ ์ค๋ฉ (์ตํฐ๋ง์ด์ ์ํ ๋ถ์ฐ) ๋ฑ GPU๋น ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ์ด๋ค ํํ์ ๋ณ๋ ฌํ๊ฐ ํ์ํจ์ ์๋ฏธํ๋ค. ์ด๋ฌํ ์ ๋ต ์ค ์ ์ด๋ ํ๋๊ฐ ์๋ค๋ฉด ํจ์จ์ ์ผ๋ก ๋๋ ์ ํ ํ์ตํ ์ ์์ ๊ฒ์ด๋ค.
2๋จ๊ณ: ๋ชฉํ ์ ์ญ ๋ฐฐ์น ํฌ๊ธฐ ๋ฌ์ฑ
์ด์ ๋ชจ๋ธ์ด ์ด๋ค ํํ์ ๋ณ๋ ฌํ๋ก ๋ฉ๋ชจ๋ฆฌ์ ๋ง๋๋ค๋ ๊ฒ์ ์์์ผ๋ฏ๋ก, ์ฝ 200๋ง ํ ํฐ์ ๋ชฉํ ์ ์ญ ๋ฐฐ์น ํฌ๊ธฐ(GBS)๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ๊ฒฐ์ ํด์ผ ํ๋ค. ์ด ์ ์ฝ ์กฐ๊ฑด์ ์ฐ๋ฆฌ์๊ฒ ์ฒซ ๋ฒ์งธ ๋ฐฉ์ ์์ ์ ๊ณตํ๋ค:
์ฌ๊ธฐ์:
- DP (Data Parallelism):ย ๋ฐ์ดํฐ ๋ณ๋ ฌ ๋ณต์ ๋ณธ ์
- MBS (Micro Batch Size):ย ๋ง์ดํฌ๋ก ๋ฐฐ์น๋น GPU๋น ์ฒ๋ฆฌ๋๋ ํ ํฐ ์
- GRAD_ACC (Gradient Accumulation):ย ์ตํฐ๋ง์ด์ ๋จ๊ณ ์ ์๋ฐฉํฅ-์ญ๋ฐฉํฅ ํ์
- SEQLEN (Sequence Length):ย ์ํ์ค๋น ํ ํฐ ์ (1์ฐจ ์ฌ์ ํ์ต ๋จ๊ณ์ ๊ฒฝ์ฐ 4096)
์ด๋ค.
์ฐ๋ฆฌ๋ ๋ํ 384๊ฐ์ H100์์ ํ๋์จ์ด ์ ์ฝ ์กฐ๊ฑด์ ๊ฐ์ง๊ณ ์๋ค:
์ฌ๊ธฐ์:
- TP (Tensor Parallelism):ย ๋ชจ๋ธ ๋ ์ด์ด๋น GPU ์ (๊ฐ์ค์น ํ๋ ฌ ๋ถํ )
- PP (Pipeline Parallelism):ย ๋ชจ๋ธ ๊น์ด๋น GPU ์ (๋ ์ด์ด๋ฅผ ์์ง์ผ๋ก ๋ถํ )
์ด๋ค.
์ด ๋ ๋ฐฉ์ ์์ ์ฐ๋ฆฌ์ ํ์ ๊ณต๊ฐ์ ์ ์ํ๋ค. ์ฐ๋ฆฌ๋ ํ์ต ์ฒ๋ฆฌ๋์ ์ต๋ํํ๋ฉด์ ๋ ์ ์ฝ ์กฐ๊ฑด์ ๋ชจ๋ ๋ง์กฑํ๋ ๊ฐ์ ์ฐพ์์ผ ํ๋ค.
3๋จ๊ณ: ํ์ต ์ฒ๋ฆฌ๋ ์ต์ ํ
์ ์ฝ ์กฐ๊ฑด์ด ํ๋ฆฝ๋์์ผ๋ฏ๋ก, ํ์ต ์ฒ๋ฆฌ๋์ ์ต๋ํํ๋ ๋ณ๋ ฌํ ๊ตฌ์ฑ์ ์ฐพ์์ผ ํ๋ค. ํ์ ๊ณต๊ฐ์ ํ๋์จ์ด ํ ํด๋ก์ง์ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ํด ์ ์๋๋ค.
์ฐ๋ฆฌ์ ํ๋์จ์ด ์ค์ ์ ์ ์น์ ์์ ๋ณธ ๊ฒ์ฒ๋ผ ๋ ๊ฐ์ง ๋ณ๊ฐ์ ์ํธ ์ฐ๊ฒฐ ์ ํ์ ์ ์ํ๋ค: ๋ ธ๋ ๋ด ํต์ ์ ์ํ NVLink (900 GB/s)์ ๋ ธ๋ ๊ฐ ํต์ ์ ์ํ EFA (~50 GB/s). ์ด ํ ํด๋ก์ง๋ ์์ฐ์ค๋ฝ๊ฒ ๋คํธ์ํฌ ํน์ฑ์ ๋ง์ถ๊ธฐ ์ํด ์ ์ด๋ ๋ ๊ฐ์ง ํํ์ ๋ณ๋ ฌํ๋ฅผ ์ฌ์ฉํ ๊ฒ์ ์ ์ํ๋ค. ์ด๋ฌํ ์ํธ ์ฐ๊ฒฐ ๊ฐ์ ๊ทน์ ์ธ ๋์ญํญ ์ฐจ์ด๋ ์ด๋ค ๋ณ๋ ฌํ ์ ๋ต์ด ๊ฐ์ฅ ์ ์๋ํ๋์ง์ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ด๋ค.
๋ชจ๋ธ ๊ด์ ์์, SmolLM3์ ์ํคํ ์ฒ๋ ์ต์ ์ ์ ํํ๋ค. ์ ๋ฌธ๊ฐ ํผํฉ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฏ๋ก **์ ๋ฌธ๊ฐ ๋ณ๋ ฌํ(Expert Parallelism)**๊ฐ ํ์ํ์ง ์๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ 4096 ์ํ์ค ๊ธธ์ด๋ก ํ์ตํ๋ค๋ ๊ฒ์ **์ปจํ ์คํธ ๋ณ๋ ฌํ(Context Parallelism)**๊ฐ ํ์ํ์ง ์์์ ์๋ฏธํ๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ์๊ฒ ํ์ํ ์ธ ๊ฐ์ง ์ฃผ์ ๋ณ๋ ฌํ ์ฐจ์, ์ฆ ๋ฐ์ดํฐ ๋ณ๋ ฌํ(DP), ํ ์ ๋ณ๋ ฌํ(TP), ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ(PP)๋ฅผ ๋จ๊ธด๋ค.
2๋จ๊ณ์ ์ ์ฝ ์กฐ๊ฑด์ ๊ณ ๋ คํ ๋, ์ฐ๋ฆฌ๋ ์ฌ๋ฌ ๋งค๊ฐ๋ณ์์ ๊ฑธ์ณ ์ค์ํด์ผ ํ๋ค:
- ZeRO ๋ณํ์ด ์๋ DP (ZeRO-0, ZeRO-1, ZeRO-3):ย 1์์ 384๊น์ง์ ๊ฐ, 2 ๋ฐ/๋๋ 3์ ๋ฐฐ์๋ก ์ ํ๋จ
- TP (1, 2, 3, 4, 6, 8):ย NVLink์ ๋์ ๋์ญํญ์ ์์ ํ ํ์ฉํ๊ธฐ ์ํด ๋จ์ผ ๋ ธ๋ ๋ด์ ์ ์ง
- PP (1..48):ย GPU ์ ๋ฐ์ ๊ฑธ์ณ ๋ชจ๋ธ ๊น์ด ๋ถํ
- MBS (2, 3, 4, 5):ย ๋ณ๋ ฌํ๋ก ์ธํ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ๋ฐ๋ผ, Tensor ์ฝ์ด๋ฅผ ๋ ์ ํ์ฉํ๊ธฐ ์ํด MBS๋ฅผ ๋๋ฆด ์ ์์
- ํ์ฑํ ์ฒดํฌํฌ์ธํ (์์, ์ ํ์ , ์ ์ฒด):ย ๋ฉ๋ชจ๋ฆฌ ๋ฐ ํต์ ๊ฐ์๋ฅผ ์ํด ์ถ๊ฐ ๊ณ์ฐ์ ํธ๋ ์ด๋ํจ
- ์ปค๋ ์ต์ ํ:ย ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒฝ์ฐ CUDA ๊ทธ๋ํ ๋ฐ ์ต์ ํ๋ ์ปค๋
์ด๊ฒ์ด ์๋์ ์ธ ์์ ์กฐํฉ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ์ค์ฉ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ ์ฐจ์์ ๋จผ์ ๋ ๋ฆฝ์ ์ผ๋ก ๋ฒค์น๋งํนํ ๋ค์ ์ฒ๋ฆฌ๋์ ํฌ๊ฒ ํด์น๋ ๊ตฌ์ฑ์ ์ ๊ฑฐํ๋ ๊ฒ์ด๋ค. ํต์ฌ ํต์ฐฐ๋ ฅ์ ๋ชจ๋ ๋ณ๋ ฌํ ์ ๋ต์ด ๋์ผํ๊ฒ ์์ฑ๋๋ ๊ฒ์ ์๋๋ผ๋ ๊ฒ์ด๋ค. ์ผ๋ถ๋ ํนํ ์ฐ๋ฆฌ ๊ท๋ชจ์์ ์ด์ ๋ณด๋ค ํจ์ฌ ํฐ ํต์ ์ค๋ฒํค๋๋ฅผ ๋์ ํ๋ค.
์ฐ๋ฆฌ์ ๊ฒฝ์ฐ, **ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ(PP)**๋ ๋์ ์ฑ๋ฅ ํน์ฑ์ ๋ณด์๋ค. PP๋ ๋ ธ๋ ์ ๋ฐ์ ๊ฑธ์ณ ๋น๋ฒํ ํ์ดํ๋ผ์ธ ๋ฒ๋ธ ๋๊ธฐํ๋ฅผ ์๊ตฌํ๋ฉฐ, ์๋์ ์ผ๋ก ์์ 30์ต ๋ชจ๋ธ์ ๊ฒฝ์ฐ ํต์ ์ค๋ฒํค๋๊ฐ ์ ์ฌ์ ์ด์ ์ ๋์ด์ฐ๋ค. ๋ํ ํ์ดํ๋ผ์ธ ๋ฒ๋ธ์ ์์ ํ ์ ๊ฑฐํ ์ ์๋ ๊ณ ๋๋ก ํจ์จ์ ์ธ PP ์ค์ผ์ค์ ์ก์ธ์คํ ์ ์์๊ธฐ ๋๋ฌธ์ PP์ ์คํ ๊ฐ๋ฅ์ฑ์ด ๋์ฑ ์ ํ๋์๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, 0๋ณด๋ค ๋์ ZeRO ์์ค์ ๋ฉ๋ชจ๋ฆฌ์ ๋์์ด ๋๋ ๊ฒ๋ณด๋ค ์ฒ๋ฆฌ๋์ ๋ ๋ง์ด ํด์น๋ ์๋นํ all-gather ๋ฐ reduce-scatter ์์ ์ ๋์ ํ๋ค. ์ด๋ฌํ ์ด๊ธฐ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ํ์ ๊ณต๊ฐ์ ๊ทน์ ์ผ๋ก ์ขํ ์ ์์๊ณ ,ย ๋ฐ์ดํฐ ๋ณ๋ ฌํ์ ์ ๋นํย ํ ์ ๋ณ๋ ฌํ๋ฅผ ๊ฒฐํฉํ ๊ตฌ์ฑ์ ์ง์คํ๋ค.
๐ ๊ฐ ๊ตฌ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด 5ํ ๋ฐ๋ณต์ ๋ํด ๋ฒค์น๋งํฌ๋ฅผ ์คํํ๊ณ **GPU๋น ์ด๋น ํ ํฐ (tok/s/gpu)**์ ๊ธฐ๋กํ๋๋ฐ, ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์ ๊ฒฝ ์ฐ๋ ์งํ์ด๋ค. ์ฐ๋ฆฌ๋ Weights & Biases์ Trackio๋ฅผ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌ๋๊ณผ ๊ตฌ์ฑ์ ๊ธฐ๋กํ์ฌ ๋ค์ํ ๋ณ๋ ฌํ ์ ๋ต์ ์ฝ๊ฒ ๋น๊ตํ ์ ์๋ค.
nanotron์์ ์ฌ์ฉ ๊ฐ๋ฅํ ์ต์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฒค์น๋งํนํ ํ, ์ฐ๋ฆฌ๋ย DP = 192์ ์ ์ฐฉํ๋๋ฐ, ์ด๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ๊ธฐ์ธ๊ธฐ ๋๊ธฐํ๋ฅผ ์ํด ๋ ธ๋ ๊ฐ EFA ๋์ญํญ์ ํ์ฉํ๋ค. ์ด๋ 192๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ ๋ณต์ ๋ณธ์ด ๊ฐ๊ฐ ๋ค๋ฅธ ๋ฐ์ดํฐ ๋ฐฐ์น๋ฅผ ์ฒ๋ฆฌํจ์ ์๋ฏธํ๋ค. ํ ์ ๋ณ๋ ฌํ์ ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ย TP = 2๋ฅผ ์ ํํ์ฌ ํ ์ ๋ณ๋ ฌ ํต์ ์ ๋จ์ผ ๋ ธ๋ ๋ด์ ์ ์งํ์ฌ NVLink์ ๋์ ๋์ญํญ์ ์์ ํ ํ์ฉํ๋ค. ์ด๊ฒ์ ๊ฐ ๋ ์ด์ด์ ๊ฐ์ค์น ํ๋ ฌ์ ๋ ๊ฐ์ GPU์ ๋ถํ ํ์ฌ ์๋ฐฉํฅ ๋ฐ ์ญ๋ฐฉํฅ ํจ์ค๋ฅผ ์ํ ๋น ๋ฅธ ํต์ ์ ์๊ตฌํ๋ค.
์ฐ๋ฆฌ์ย ๋ง์ดํฌ๋ก ๋ฐฐ์น ํฌ๊ธฐ = 3์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ํจ์จ์ฑ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ค. ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ๋ Tensor ์ฝ์ด๋ฅผ ๋ ์ ํ์ฉํ๊ฒ ์ง๋ง, ์ฐ๋ฆฌ๋ ์ด๋ฏธ ๋ฉ๋ชจ๋ฆฌ ํ๊ณ์ ๊ฐ๊น๊ฒ ๋ฐ์ด๋ถ์ด๊ณ ์๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ๋ย ZeRO-0์ ์ ํํ๋๋ฐ, ์ด๋ ์ตํฐ๋ง์ด์ ์ํ ์ค๋ฉ์ด ์์์ ์๋ฏธํ๋ค. ZeRO-1์ด๋ ZeRO-3์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ผ ์ ์์ง๋ง, 384๊ฐ์ GPU์ ๊ฑธ์ณ ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ์์งํ๊ณ ๋ถ์ฐํ๋ ํต์ ์ค๋ฒํค๋๋ ์ฒ๋ฆฌ๋์ ํฌ๊ฒ ํด์น ๊ฒ์ด๋ค.
(์ด๋ฌํ ๋ณ๋ ฌํ ๊ฒฐ์ ์ค ๋ค์๋ ์คํ ๋น์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ํ์ ์ํฅ์ ๋ฐ์๋ค. ์๋ฅผ ๋ค์ด nanotron์ ์์ง ZeRO-3์ ์ง์ํ์ง ์์๊ณ , ์ฐ๋ฆฌ๋ ํ์ดํ๋ผ์ธ ๋ฒ๋ธ์ ์ ๊ฑฐํ ์ ์๋ ๊ณ ๋๋ก ์ต์ ํ๋ ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ ์ค์ผ์ค์ด ๋ถ์กฑํ๋ค. ํ๋ ์์ํฌ๊ฐ ๋ฐ์ ํจ์ ๋ฐ๋ผ ์ด๋ฌํ ํธ๋ ์ด๋์คํ ์ค ์ผ๋ถ๊ฐ ๋ฐ๋ ์ ์๋ค. ๊ธฐ์ฌ๋ ์ธ์ ๋ ํ์ํ๋ค!)
์ด ๊ตฌ์ฑ์ ์ฐ๋ฆฌ์ 384 H100 ํด๋ฌ์คํฐ์์ ์ฒ๋ฆฌ๋์ ์ต๋ํํ๋ฉด์ ์ฝ 200๋ง ํ ํฐ ( 192ร3ร1ร4096โ2.3M)์ ๋ชฉํ ์ ์ญ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋ฌ์ฑํ๋ค.ย stage1_8T.yaml (https://github.com/huggingface/smollm/blob/main/text/pretraining/smollm3/stage1_8T.yaml)์์ ์ ์ฒด ํ์ต ๊ตฌ์ฑ์ ๋ณผ ์ ์๋ค.
Conclusion
์ฐ๋ฆฌ๋ ๊ฐ๋จํ ์ง๋ฌธ์ผ๋ก ์ด ์ฌ์ ์ ์์ํ๋ค:ย 2025๋ ์ ๊ณ ์ฑ๋ฅ LLM์ ํ์ต์ํค๊ธฐ ์ํด ์ค์ ๋ก ๋ฌด์์ด ํ์ํ๊ฐ?ย ์ฌ์ ํ์ต์์ ์ฌํ ํ์ต์ ์ด๋ฅด๋ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์๋ดํ ํ, ์ฐ๋ฆฌ๋ ๊ธฐ์ ๋ฟ๋ง ์๋๋ผ ๊ทธ๊ฒ๋ค์ ์๋์ํค๋ย ๋ฐฉ๋ฒ๋ก ์ ๋ณด์ฌ์ฃผ์๋ค.
๋๊ท๋ชจ ์ฌ์ ํ์ต.ย ์ฐ๋ฆฌ๋ ํ์ต ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํ ํ์ต ๋์นจ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์๋ดํ ๋ค์, ๋ชฉํ๋ฅผ ๊ตฌ์ฒด์ ์ธ ์ํคํ ์ฒ ๊ฒฐ์ ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ์๋ค. ์ ๋ขฐํ ์ ์๋ ์ ๊ฑฐ ์คํ ํ์ดํ๋ผ์ธ์ ์ค์ ํ๊ณ , ๋ณ๊ฒฝ ์ฌํญ์ ๊ฐ๋ณ์ ์ผ๋ก ํ ์คํธํ๊ณ , ์์ญ์ต ํ ํฐ ์คํ์์ ์์กฐ ํ ํฐ ์คํ์ผ๋ก ํ์ฅํ๋ ๋ฐฉ๋ฒ์ ๋ณด์๋ค. ์ฐ๋ฆฌ๋ ๋๊ท๋ชจ์์ ๋ํ๋ ์ ์๋ ์ธํ๋ผ ๋ฌธ์ (์ฒ๋ฆฌ๋ ๋ถ๊ดด, ๋ฐ์ดํฐ๋ก๋ ๋ณ๋ชฉ ํ์, ๋ฏธ๋ฌํ ๋ฒ๊ทธ)์ ๋ชจ๋ํฐ๋ง ๋ฐ ์ฒด๊ณ์ ์ธ ์ํ ์ ๊ฑฐ๊ฐ ์ด๋ป๊ฒ ๊ทธ๊ฒ๋ค์ ์กฐ๊ธฐ์ ํฌ์ฐฉํ๊ณ ๋น ๋ฅด๊ฒ ๋๋ฒ๊น ํ๋ ๋ฐ ๋์์ด ๋๋์ง ๋ฌธ์ํํ๋ค.
์ค์ ์ฌํ ํ์ต.ย ์ฐ๋ฆฌ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์์ ํ๋ก๋์ ์ด์์คํดํธ๋ก ๊ฐ๋ ๊ฒ์ด ์์ฒด์ ์ธ ์ฒด๊ณ์ ์ ๊ทผ ๋ฐฉ์์ ์๊ตฌํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค: ์ด๋ค ๊ฒ์ ํ์ตํ๊ธฐ ์ ์ ํ๊ฐ๋ฅผ ์๋ฆฝํ๊ณ , SFT ๋ฐ์ดํฐ ํผํฉ์ ๋ฐ๋ณตํ๊ณ , ์ ํธ๋ ์ต์ ํ๋ฅผ ์ ์ฉํ๊ณ , ์ ํ์ ์ผ๋ก RL๋ก ๋ ๋ฐ์ด๋ถ์ด๋ ๊ฒ์ด๋ค. ๋ฐ์ด๋ธ ํ ์คํธ๊ฐ ์งํ๊ฐ ๋์น ๋ฒ๊ทธ๋ฅผ ์ด๋ป๊ฒ ์ก๋์ง, ์ฑํ ํ ํ๋ฆฟ์ด ์ด๋ป๊ฒ ์กฐ์ฉํ ์ง์นจ ๋ฐ๋ฅด๊ธฐ๋ฅผ ๊นจ๋จ๋ฆด ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ํผํฉ ๊ท ํ์ด ์ฌ์ ํ์ต๋งํผ ์ฌํ ํ์ต์์ ์ ์ค์ํ์ง ๋ณด์๋ค.
๋ ๋จ๊ณ ๋ชจ๋์์, ์ฐ๋ฆฌ๋ ๋์ผํ ํต์ฌ ํต์ฐฐ๋ ฅ์ผ๋ก ๊ณ์ ๋์์๋ค:ย ์คํ์ ํตํด ๋ชจ๋ ๊ฒ์ ๊ฒ์ฆํ๊ณ , ํ ๋ฒ์ ํ๋์ฉ ๋ณ๊ฒฝํ๊ณ , ๊ท๋ชจ๊ฐ ์๋ก์ด ๋ฐฉ์์ผ๋ก ๋ฌผ๊ฑด์ ๋ถ์ ๊ฒ์ด๋ผ๊ณ ์์ํ๊ณ , ๋ชจ๋ ์๋ก์ด ๋ ผ๋ฌธ์ ์ซ๋ ๋์ ์ฌ์ฉ ์ฌ๋ก๊ฐ ๊ฒฐ์ ์ ์ฃผ๋ํ๊ฒ ํ๋ผ.ย ์ด ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ SmolLM3๋ฅผ ํ์ต์์ผฐ๋ค: ๊ธด ์ปจํ ์คํธ๋ฅผ ๊ฐ์ง ๊ฒฝ์๋ ฅ ์๋ 30์ต ๋ค๊ตญ์ด ์ถ๋ก ๋ชจ๋ธ์ด๋ค. ๊ทธ ๊ณผ์ ์์, ์ฐ๋ฆฌ๋ ๋ฌด์์ด ์๋ํ๊ณ , ๋ฌด์์ด ๊นจ์ง๊ณ , ์ํฉ์ด ์๋ชป๋ ๋ ๋๋ฒ๊น ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ง์ ๊ฒ์ ๋ฐฐ์ ๋ค. ์ฐ๋ฆฌ๋ ์ฑ๊ณต๊ณผ ์คํจ ๋ชจ๋๋ฅผ ๋ฌธ์ํํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ค.
๋ค์์ ๋ฌด์์ธ๊ฐ?
์ด ๋ธ๋ก๊ทธ๋ ํ๋ LLM ํ์ต์ ๊ธฐ์ด๋ฅผ ๋ค๋ฃจ์ง๋ง, ์ด ๋ถ์ผ๋ ๋น ๋ฅด๊ฒ ์งํํ๋ค. ๋ ๊น์ด ๋ค์ด๊ฐ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์ง์ ์คํ์ ์คํํ๋ค.ย ์ ๊ฑฐ ์คํ์ ๋ํด ์ฝ๋ ๊ฒ์ ์ ์ฉํ์ง๋ง, ์ง์ ์คํํด ๋ณด๋ ๊ฒ์ ์ค์ ๋ก ๋ฌด์์ด ์ค์ํ์ง ๊ฐ๋ฅด์ณ์ค๋ค. ์ํ ๋ชจ๋ธ์ ์ ํํ๊ณ , ํ๊ฐ๋ฅผ ์ค์ ํ๊ณ , ์คํ์ ์์ํ๋ค.
- ์์ค ์ฝ๋๋ฅผ ์ฝ๋๋ค.ย nanotron, TRL ๋ฑ๊ณผ ๊ฐ์ ํ์ต ํ๋ ์์ํฌ๋ ์คํ ์์ค์ด๋ค. ๊ทธ๋ค์ ๊ตฌํ์ ์ดํดํ๋ฉด ๋ ผ๋ฌธ์ด ์ผ๋ฒ๋ฌด๋ฆฌ๋ ์ธ๋ถ ์ฌํญ์ด ๋๋ฌ๋๋ค.
- ์ต๊ทผ ์์ ์ ํ๋ก์ฐํ๋ค.ย ์ต๊ทผ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๋ ผ๋ฌธ์ ์ด ๋ถ์ผ๊ฐ ์ด๋๋ก ํฅํ๊ณ ์๋์ง ๋ณด์ฌ์ค๋ค. ์ฐธ์กฐ ์น์ ์๋ ์ํฅ๋ ฅ ์๋ ๋ ผ๋ฌธ ๋ฐ ๋ฆฌ์์ค์ ํ๋ ์ด์ ๋ ๋ชฉ๋ก์ด ํฌํจ๋์ด ์๋ค.
์ฐ๋ฆฌ๋ ์ด ๋ธ๋ก๊ทธ๊ฐ ์ฌ๋ฌ๋ถ์ด ํ๋ฐํฐ์ด๋ฅผ ์ถ์งํ๋ ๋ํ ์ฐ๊ตฌ์์ ์๋ ํน์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๊ท๋ชจ ํ์ ์๋ ์๊ด์์ด ๋ช ํ์ฑ๊ณผ ์์ ๊ฐ์ ๊ฐ์ง๊ณ ๋ค์ ํ์ต ํ๋ก์ ํธ์ ์ ๊ทผํ๋ ๋ฐ ๋์์ด ๋๊ธฐ๋ฅผ ํฌ๋งํ๋ค.
์ด์ ๊ฐ์ ๋ฌด์ธ๊ฐ๋ฅผ ํ์ต์ํค์. ๊ทธ๋ฆฌ๊ณ ์๋ฒฝ 2์์ ์์ค์ด ๋ฏธ์คํฐ๋ฆฌํ๊ฒ ๊ธ๋ฑํ ๋ ๊ธฐ์ตํด๋ผ:ย ๋ชจ๋ ํ๋ฅญํ ๋ชจ๋ธ ๋ค์๋ ๋๋ฒ๊น ์ด์ผ๊ธฐ๊ฐ ์๋ค.ย ์คํ ์์ค์ ์คํ ์ฌ์ด์ธ์ค์ ํฌ์ค๊ฐ ํญ์ ํจ๊ป ํ๊ธฐ๋ฅผ!
๊ฐ์ฌ์ ๋ง
๊ท์คํ ํผ๋๋ฐฑ์ ์ฃผ์ Guilherme, Hugo, Mario์ Trackio์ ๋์์ ์ค Abubakar์๊ฒ ๊ฐ์ฌ๋๋ฆฝ๋๋ค.
Below is a curated list of papers, books, and blog posts that have informed us the most on our LLM training journey.
LLM Architecture
- Dense models:ย Llama3,ย Olmo2,ย MobileLLM
- MoEs:ย DeepSeek V2,ย DeepSeek V3,ย Scaling Laws of Efficient MoEs
- Hybrid:ย MiniMax-01,ย Mamba2
Optimisers & training parameters
- Muon is Scalable for LLM Training,ย Fantastic pretraining optimisers
- Large Batch Training,ย DeepSeekLLM
Data curation
- Web:ย FineWeb & FineWeb-Edu,ย FineWeb2,ย DCLM
- Code:ย The Stack v2,ย To Code or Not to Code
- Math:ย DeepSeekMath,ย FineMath,ย MegaMath
- Data mixtures:ย SmolLM2,ย Does your data spark joy
Scaling laws
Post-training
- InstructGPT:ย OpenAIโs foundational paper to turn base models into helpful assistants. The precursor to ChatGPT and a key step on humanityโs path up the Kardashev scale.
- Llama 2ย &ย 3: Extremely detailed tech reports from Meta on the training behind their Llama models (may they rest in peace). They each contain many insights into human data collection, both for human preferences and model evaluation.
- Secrets of RLHF in LLMs,ย Part Iย &ย II: these papers contain lots of goodies on the nuts and bolts for RLHF, specifically on how to train strong reward models.
- Direct Preference Optimisation:ย the breakthrough paper from 2023 that convinced everyone to stop doing RL with LLMs.
- DeepSeek-R1: the breakthrough paper from 2025 that convinced everyone to start doing RL with LLMs.
- Dr. GRPO:ย one of the most important papers on understanding the baked-in biases with GRPO and how to fix them.
- DAPO:ย Bytedance shares many implementation details to unlock stable R1-Zero-like training for the community.
- ScaleRL:ย a massive flex from Meta to derive scaling laws for RL. Burns over 400k GPU hours to establish a training recipe that scales reliably over many orders of compute.
- LoRA without Regret:ย a beautifully written blog post which finds that RL with low-rank LoRA can match full-finetuning (a most surprising result).
- Command A:ย a remarkably detailed tech report from Cohere on various strategies to post-train LLMs effectively.