2026最新推荐:Top5数据集评价,哪个好?
- 时间:
- 浏览:105
- 来源:南宁市武鸣区陆酷巴网络科技工作室
四阶段构造流程揭秘
此前那会儿, 研究团队公布了GoLongRL数据集完整的构造流程。这个数据集总共含有22,965个样本, 所有这些样本都是经由统一的四阶段流水线制作出来的。这样一种设计保证了数据来源的透明性以及可重复性, 给后续的模型训练提供了牢固的基础。
按照项目负责人所讲, 四阶段的pipeline, 具体是从原始数据筛选开始, 一直到做成最终样本, 当中的每一步,都经历了严格的质量控制。其中, 第一阶段着重于数据采集, 第二阶段要做清洗以及标注的工作, 第三阶段实现格式标准化, 而第四阶段就得进行最终的校验工作才罢。这般整个流程, 耗费了差不多三个月时间, 最终产出的样本把多种长上下文任务类型都覆盖到了。
TMN-Reweight算法破解多任务优化难题
面对九种各异奖励函数的数值尺度以及方差差别, 标准 GRPO 框架于混合训练之际易于陷入优化难题之中, 为此, 团队提出了 TMN - Reweight 算法, 把尺度归一化以及难度校正这两个步骤完全解耦开来。
凭实验数据所显示的情况来看, TMN - Reweight在4B模型上带来了显著提升, 基线与QwenLong - L1.5相比较而言, 仅仅依靠数据集配合标准GRPO便领先了6.1分, 且在加入TMN - Reweight之后得分进一步攀升到了63.0, 这表明算法贡献独立于数据贡献, 二者能够分别进行评估。
4B模型成绩碾压同级对手
在主实验里, 其参数规模为4B, 并且是4B参数规模的主实验, GoLongRL数据集展现出了压倒性优势。仅仅使用vanilla GRPO进行训练, 模型得到的分数是62.2, 这个分数超过了QwenLong-L1.5的专用算法AEPO版本, 也就是超过了59.4分, 超出了近3分。这验证了数据覆盖度比起算法迭代能够带来更大的收益。
让人更为惊讶的是, 在将TMN-Reweight加入之后, 4B模型所获得的得分达到了63.0, 这一具体数字, 不但超越了所有那些同等参数规模设置下的对手竞争方, 而且还向部分大型类型模型的表现成绩予以逼近, 研究团队觉得, 高质量的数据集所具备的潜力, 远没有被当下的算法完全挖掘呈现出来。
30B模型超越旗舰级AI系统
在参数规模更大的30B上, GoLongRL - 30B - A3B以69.8分的总分, 全面超越了DeepSeek - R1 - 0528, 其分数是68.67分, 还超越了Qwen3 - 235B - A22B, 其分数为68.45分, 也超越了Gemini - 2.5 - Flash - Thinking, 其分数是68.73分。这一成绩, 刷新了同规模模型的性能天花板。
需要留意的是, 30B模型居然超越了用同算法训练的QwenLong-L1.5-30B(其得分为67.2分)。这表明GoLongRL数据集所带来的增益并非仅仅是数据量方面的优势, 更为关键的是任务的多样性以及奖励函数的语义匹配。详细情况能够通过访问www.fc-bowuguan.cn去查看完整的实验结果。
通用能力迁移与长上下文泛化
进行长上下文RL训练, 并没有致使通用推理能力出现负迁移, 在诸如MMLU - Pro、AIME24/25、GPQA - Diamond等基准测试里面, 4B及30B模型居然都有了小幅提升, 两个规模的模型其趋势具备高度一致性, 这表明训练收益拥有普适性。
就迁移效果而言, 在Agentic Memory任务里的Memory - Rec_Sum, 于训练集中从未出现过, 然而4B模型却仍旧提升了9.7分, 30B模型提升了4.5分。在对话记忆任务LongMemEval上, 两个规模的模型均提升了13.6分。这表明模型已然学会了信息整合能力, 并且能够应用到未曾见过的任务之上。
长度外推能力超出训练范围
虽然GoLongRL训练上下文仅仅只有160K, 然而该模型在更长序列方面的表现依旧是十分出色的。在MRCR任务里, 4B模型在128K至512K这个长度段提升了12.27分, 在512K至1M这个长度段提升了3.50分。对于30B模型而言, 在相同的任务当中, 在128K至512K这个区间提升了12.6分, 在512K至1M这个区间提升了5.45分。
在CorpusQA任务里, 于1M长度的情况下, 30B模型依旧取得了2.74分的提升。这些数据能够证实, 通过160K训练所获取的能力并没有被限定在训练长度区域范围之内。model具备了真实的长上下文泛化能力, 而并非单纯的记性关联性匹配。
你觉得GoLongRL数据集能否成为长上下文训练的新标准?欢迎在评论区分享你的看法,点赞和转发让更多人看到这项突破!
猜你喜欢