2026最新推荐:Top5数据集评价,哪个好?

  • 时间:
  • 浏览:105
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

四阶段构造流程揭秘

此前那会儿, 研究团队公布了GoLongRL数据集完整的构造流程。这个数据集总共含有22,965个样本, 所有这些样本都是经由统一的四阶段流水线制作出来的。这样一种设计保证了数据来源的透明性以及可重复性, 给后续的模型训练提供了牢固的基础。

按照项目负责人所讲, 四阶段的pipeline, 具体是从原始数据筛选开始, 一直到做成最终样本, 当中的每一步,都经历了严格的质量控制。其中, 第一阶段着重于数据采集, 第二阶段要做清洗以及标注的工作, 第三阶段实现格式标准化, 而第四阶段就得进行最终的校验工作才罢。这般整个流程, 耗费了差不多三个月时间, 最终产出的样本把多种长上下文任务类型都覆盖到了。

TMN-Reweight算法破解多任务优化难题

面对九种各异奖励函数的数值尺度以及方差差别, 标准 GRPO 框架于混合训练之际易于陷入优化难题之中, 为此, 团队提出了 TMN - Reweight 算法, 把尺度归一化以及难度校正这两个步骤完全解耦开来。

凭实验数据所显示的情况来看, TMN - Reweight在4B模型上带来了显著提升, 基线与QwenLong - L1.5相比较而言, 仅仅依靠数据集配合标准GRPO便领先了6.1分, 且在加入TMN - Reweight之后得分进一步攀升到了63.0, 这表明算法贡献独立于数据贡献, 二者能够分别进行评估。

4B模型成绩碾压同级对手

在主实验里, 其参数规模为4B, 并且是4B参数规模的主实验, GoLongRL数据集展现出了压倒性优势。仅仅使用vanilla GRPO进行训练, 模型得到的分数是62.2, 这个分数超过了QwenLong-L1.5的专用算法AEPO版本, 也就是超过了59.4分, 超出了近3分。这验证了数据覆盖度比起算法迭代能够带来更大的收益。

让人更为惊讶的是, 在将TMN-Reweight加入之后, 4B模型所获得的得分达到了63.0, 这一具体数字, 不但超越了所有那些同等参数规模设置下的对手竞争方, 而且还向部分大型类型模型的表现成绩予以逼近, 研究团队觉得, 高质量的数据集所具备的潜力, 远没有被当下的算法完全挖掘呈现出来。

30B模型超越旗舰级AI系统

在参数规模更大的30B上, GoLongRL - 30B - A3B以69.8分的总分, 全面超越了DeepSeek - R1 - 0528, 其分数是68.67分, 还超越了Qwen3 - 235B - A22B, 其分数为68.45分, 也超越了Gemini - 2.5 - Flash - Thinking, 其分数是68.73分。这一成绩, 刷新了同规模模型的性能天花板。

需要留意的是, 30B模型居然超越了用同算法训练的QwenLong-L1.5-30B(其得分为67.2分)。这表明GoLongRL数据集所带来的增益并非仅仅是数据量方面的优势, 更为关键的是任务的多样性以及奖励函数的语义匹配。详细情况能够通过访问www.fc-bowuguan.cn去查看完整的实验结果。

通用能力迁移与长上下文泛化

进行长上下文RL训练, 并没有致使通用推理能力出现负迁移, 在诸如MMLU - Pro、AIME24/25、GPQA - Diamond等基准测试里面, 4B及30B模型居然都有了小幅提升, 两个规模的模型其趋势具备高度一致性, 这表明训练收益拥有普适性。

就迁移效果而言, 在Agentic Memory任务里的Memory - Rec_Sum, 于训练集中从未出现过, 然而4B模型却仍旧提升了9.7分, 30B模型提升了4.5分。在对话记忆任务LongMemEval上, 两个规模的模型均提升了13.6分。这表明模型已然学会了信息整合能力, 并且能够应用到未曾见过的任务之上。

长度外推能力超出训练范围

虽然GoLongRL训练上下文仅仅只有160K, 然而该模型在更长序列方面的表现依旧是十分出色的。在MRCR任务里, 4B模型在128K至512K这个长度段提升了12.27分, 在512K至1M这个长度段提升了3.50分。对于30B模型而言, 在相同的任务当中, 在128K至512K这个区间提升了12.6分, 在512K至1M这个区间提升了5.45分。

在CorpusQA任务里, 于1M长度的情况下, 30B模型依旧取得了2.74分的提升。这些数据能够证实, 通过160K训练所获取的能力并没有被限定在训练长度区域范围之内。model具备了真实的长上下文泛化能力, 而并非单纯的记性关联性匹配。

你觉得GoLongRL数据集能否成为长上下文训练的新标准?欢迎在评论区分享你的看法,点赞和转发让更多人看到这项突破!

猜你喜欢

2026年6月电车销量Top10:外资暴涨51%,国产车真的顶住了吗?

今年1月份、2月份国内市场的电车销量下跌的时候,诸多车企的销量也跟着下跌,显示出车企的销量无法摆脱整体大势的影响,而近几个月诸多车企则连连公布喜报--销量连连上涨,与之相映成趣,这进一步增加了业界的疑虑。

2026-06-22

2026年5月国产SUV销量Top20:零跑A10夺冠,理想i6第二,谁最值得买?

可以看到,排名第一位的车型是零跑A10,5月零售销量达到22306辆,讲真,这款国产SUV算是榜单上的“黑马”,直接冲到NO.1的位置上,它的两大特点是价格亲民与配置越级。PLUS排名第十四位,5月零售销量达到10103辆,主打放心靠谱。

2026-06-22

端午首日试驾!2026年全新理想L8产品如何定义?

端午假期的第一天,全新理想L8正式开启全国门店动态试驾。2025款理想L8第三排座椅以全新理想L8为例,它给到了全车四个零重力座椅。现在它们出现在五座SUV的配置表里,不是选装彩蛋,是行业首发的核心卖点。我们原先其实写过很多关于零重力座椅的文章,这也不是什么新概念。

2026-06-22

6月22日推荐!蔚来ET9地平线特别版怎么样?

“高科技爱好者”,保证不会让你失望的.6月21日,蔚来ET9地平线特别版全新主题“极境逐光”正式上市。不过小爱建议,买之前一定要算清楚这些权益自己到底用不用得上。小爱觉得,这台车最大的问题还是价格门槛高。如果你追求限量身份、行政舒适性、换电体验和独特设计,蔚来ET9地平线特别版值得去店里看看。

2026-06-22

2026年MPV垫高变SUV?高山7与蓝山优缺点Top1榜单

这款车的定位非常“神奇”,主要变化就是将普通版高山7底盘整体抬高了30mm。与此同时,卖得最好的MPV之一岚图梦想家,却特别像SUV。如果说理想i6卖得好是因为像MPV,那岚图梦想家卖得好,很大程度就是因为像SUV。

2026-06-22