两篇关于小样本SFT慢思考的工作

s1: Simple test-time scaling

https://arxiv.org/pdf/2501.19393

几个Feature:

  1. 完全SFT(1000条数据)

  2. 在qwen2.5-32B-Instruct上做的

  3. 主要是挑选数据的工作,并且验证了long-cot的TTS作用

  4. 提出的TTS方法比较简单

具体实现:

首先找到了初始的59K的数据,主要是下面几个:

  • NuminaMATH (LI et al., 2024) with 30,660 mathematical problems from online websites

https://huggingface.co/datasets/AI-MO/NuminaMath-CoT

  • Historical AIME problems (1983-2021)

  • OlympicArena (4250) https://huggingface.co/datasets/GAIR/OlympicArena

  • OmniMath (4,238) https://huggingface.co/datasets/KbsdJames/Omni-MATH

  • AGIEval (2,385)

  • 他们还从斯坦福的概率学专业PHD考试中找了一些数据:To complement these existing datasets, we create two original datasets. s1-prob consists of 182 questions from the probability section of Stanford University’s Statistics Department’s PhD Qualifying Exams

数据过滤:

1)质量:数据初筛:就是用一些规则的方法将数据里面包含有图片的,或者ascii art diagram的,还有一些其他的脏数据的。

2)难度:当qwen2-7B和qwen2-32B都做对的数据,我们认为这个数据比较简单,把他去掉。(这一步最后只剩下25K)

3)多样性:用的是分类体系将数据按照 Mathematics Subject Classification (MSC) system,然后用claude来分类每条数据

注意多样性的时候不是每种类别选,而是先随机选一个domain,然后从这个domain里面按照思维链的长度选一条数据,重复这个过程直到都选出来了。最后50个domain。

训练方法

既然是主打小数据好效果,所以作者用了一个budget来定义怎么算是test time scaling: 思考的越长,越能说明Scaling。

所以:

1)限制长度:强制在模型输出到具体长度的tokens的时候加一个 Final Answer,来停止思考。

2)  增加长度:在模型输出的时候,如果结束的token(end-of-thinking)概率很大,则用一个wait替代这个token继续输出。

实验

有两种scaling的方法:

  • sequential scaling: 即现在正常人理解的scaling,就是不断输出更多tokens

  • parallel:其实就是SC,where computations run independently (e.g., majority voting)

也对比了提出的数据的效果:

LIMO: Less is More for Reasoning

https://arxiv.org/pdf/2502.03387v1

跟刚才的工作差不多,但是主要有几个特点:

1)数据更少了 817条

2)验证了泛化性能(即除了数学的哪些榜单还有别的任务的,比如考试)

3)文章花了很大的篇幅介绍了为什么只用SFT就可以:核心还是预训练已经把所有知识都囊括了,后面只是Induce

数据源:也是从一些开源的数据出发开始构造,跟S1差不多

过滤:只要qwen2.5-7B-Math做对的就去掉,或者其他的大模型的准确率(应该是SC)低于一定的程度

CoT产生:是用多个模型采样产生的,最后人工校验。。。(all the authors conducted a comprehensive analysis of these filtered solutions through collaborative examination)

他们还对好的数据进行了定义:

最后的效果:

他们还对着817条数据定义了不同的类别1-5,5是最高

不过最新的发现他们这个在AIME2025的比赛中效果还挺好的

留下您的评论

回复列表:

By王炳宁 on March 10, 2025 | 类别 ML

关于本站