Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
Paper
•
2506.01939
•
Published
•
187
Note 主要内容:RL训练中,高熵 token 构成了关键分叉点,引导模型朝向不同的推理路径;低熵 token主要承担语言结构的补全功能。仅训练高熵token可以达到一样的效果。 方法上:在DAPO loss里面设置高熵token训练 从里面可学习的:通过计算熵看训练前后的变化,哪些熵起关键作用;各种xPO
Note 主要内容:在1.5B的模型上使用DAPO+重置优化器/复制附近的ckpt,在混合数据集上得到了较大的提高 方法上:DAPO+参考策略重置,在有数学,编程,stem,指令遵从,文本逻辑的混合数据集上训练 从里面可学习的:文章的一些观点,训练数据/过程 缺点:1.5B模型,在更大模型上效果不确定