这是阶跃星辰 Step 系列模型家族的首个推理模型。
类似 OpenAI o1 的推理模型在国内终于卷起来了。
刚刚,国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini(简称「Step R-mini」)。这是阶跃星辰 Step 系列模型家族的首个推理模型。体验地址:https://yuewen.cn
新模型擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。
而且,它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。
根据阶跃星辰公布的基准测试数据,Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平,其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不错:在 LiveCodeBench 代码任务上超过了 o1-preview。这一切是怎么做到的呢?机器之心从阶跃星辰相关人士了解到,新模型的「RL」含量很高,因此泛化性比较好。此外,他们还在数据质量、测试时计算、模型大小等多个方面进行了 scaling,再次验证了 Scaling Law 的有效性。
除了语言推理模型,他们也在打造能够进行多模态推理的视觉推理模型。而且相关人士强调说,这个多模态推理模型「是真的在视觉领域的推理」,即在图上进行推理,「而不仅仅是看着图却只在文字领域的推理」。
看来,阶跃星辰在自己的路线图上又往前迈了一步。
Step Reasoner mini 是如何炼成的?
根据阶跃星辰的介绍,Step R-mini 的设计与开发遵循了当前主流的推理模型开发范式。具体来说,它通过在推理阶段增加计算量,并结合思维链等技术,实现了「慢思考」。该系统能够根据任务的复杂性进行主动规划、尝试和反思,从而通过反复验证的逻辑机制,提供准确且可靠的反馈。
阶跃星辰表示,Step Reasoner mini 最大的亮点之一是实现了「文理兼修」。具体来说,Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。这一切是通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法来实现的。
此外,模型推理能力的提升也离不开阶跃星辰对 Scaling Law 原则的坚持。这包括以下几点:
Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。
Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。
Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。
Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。