2026年6月三大开源模型排行:Ling-2.6与Ring-2.6谁更推荐?

  • 时间:
  • 浏览:222
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

闪电注意力架构解决长上下文瓶颈

百灵2.6系列于近日发布了技术报告, 该报告透露了其在万亿参数规模情形下的系统优化方案, 报告表明, 之前的模型是基于GTA分组查询注意力架构的, 在所涉及的上下文长度超过32K tokens以后, 注意力计算已然成为主要瓶颈, 为了去解决这一问题, 团队引进了Lightning Attention与MLA低秩隐空间压缩技术。

将序列维度计算复杂度从O(n²)降至O(n)的是Lightning Attention, 通过压缩KV Cache减少内存占用的是MLA。两项技术结合以后, 模型在长上下文训练这方面, 在长输出这方面, 以及在长链路Agent任务这方面, 表现更为优良。报告数据表明, 相较于Ling-2.0-1T, 百灵2.6在reasoning workloads上达成了大约4倍的token效率提升。

架构迁移四阶段实现低成本升级

并非从零开始去训练万亿参数模型的百灵2.6, 是在Ling - 2.0的基础之上开展架构迁移, 报告作出解释, Ling - 2.0 - 1T先前已经有大约20T tokens的训练投入, 直接再次培训成本过高, 所以团队选择于已有checkpoint上达成升级, 这一决定有效地削减了研发和碳排放。

它被划分成了那么四个阶段, 架构迁移, 其一阶段乃是闪电注意力转换, 把一部分原本的GQA层给替换成Lightning Attention, 其二阶段称作线性预热, 主要是为着新增的相关参数进行训练以及对齐, 其三阶段是MLA转换, 这里面涵盖一些操作, 去除QK归一化, 并且也要适配部分旋转位置编码, 最终阶段是MLA预热, 借助小规模持续训练把loss恢复到迁移之前的水平, 完成了迁移之后, 模型才能够进入大规模全参数训练。

预训练9.6T tokens覆盖31个评测基准

报告里提及, Ling - 2.6预训练总共处理了大约9.6T tokens, 它分为迁移预训练、继续预训练以及中期训练这三个阶段, 这样一种渐进式训练策略保障了模型在不同阶段都能够稳定地提升性能, 团队在base model评测当中运用了覆盖数学、代码、通用推理等领域的31个benchmark。

从评测得出的结果来看, Ling - 2.6 - 1T - base在世界知识方面, 在长上下文建模方面, 以及在推理能力方面取得了较为稳定的提升, 与此同时还保持了数学能力和代码能力。这些数据表明了架构迁移策略具有有效性, 特别是在没有牺牲原有能力的前提条件下实现了长上下文处理的突破。该模型在多个标准测试当中表现得要优于前代产品。

专家驱动后训练减少200到300个token

百灵2.6的后续训练, 是沿着即时响应以及高频调用去开展的, 运用的是专家驱动的训练路线。有报告表明, Ling - 2.6并未采用相对统一的后训练流程, 而是先借助强化学习对专家模型予以优化, 接着把能力蒸馏回统一模型。这样的分层训练策略, 致使模型平均输出长度减少了大约200到300个token。

于强化学习的阶段之时, Ling - 2.6于Evo - CoT的基础之上, 增添了动态长度惩罚以及语义冗余惩罚。何为动态长度惩罚呢, 它能够让模型于难题之上, 留存下所需的推理空间, 与此同时, 还会压缩简单任务里过长的输出。这样精细化的训练控制, 显著地提高了响应效率, 致使模型在维持准确性的前提条件之下, 变得更为简洁。

Ring-2.6面向长程Agent强化工具使用

Ring - 2.6的后训练目标面向复杂的事物, 指向长程运行的情况, 属于工具密集型的Agent任务范畴。它的构建依托于Ling - 2.6 - 1T Base, 在经历了cold - start SFT的过程之后, 进而步入由KPop算法所推动的推理以及Agent专家训练阶段。报告当中有所提及, KPop舍弃了固定比例约束转而采用对称二元KL散度, 达成了更为稳定的MoE模型Agentic RL训练活动。

在工具使用数据方面, Ring - 2.6着重对仓库级代码任务进行重点覆盖, 对移动端和网页搜索任务也进行重点覆盖, 对那种需要多步规划以及错误恢复的通用工具工作流同样进行重点覆盖, 针对SWE类长程任务, 最终训练数据集含有大概2500个实例, 这些实例来自1550个仓库, 所覆盖包含Python、Java、C等30多种编程语言, 这样的广度确保了模型在实际应用里的实用性!

基础设施优化实现80%性能提升

百灵2.6进行基础设施优化, 其围绕长上下文训练展开, 围绕大规模异步Agentic RL展开, 围绕推理serving展开。团队提出了AllGather-based CP, 这使得Lightning Attention在256K上下文长度时带来了约68%的端到端加速。这意味着当用户处理超长文档或者复杂任务时, 等待时间被大幅缩短啦。

RL基础设施ASystem针对长序列rollout调度做了优化, ARouter同样如此, 在长序列场景里带来超八成的端到端性能提升。就推理而言, 团队把训练阶段积累的融合算子适配到真实部署场景, 还让训练与推理阶段的数值行为保持一致。这些底层的这些优化致使百灵2.6在实际运行时愈发稳定高效。

对于2026年AI模型效率得以提升这件事, 你觉得它会给普通用户带来怎样的实际影响呢? 欢迎在评论区把你的看法分享出来, 给本文点赞并且转发, 从而让更多的人知晓百灵2.6的技术突破。

猜你喜欢

2026年新世代i3首发版:加速与续航双优,优缺点深度评测Top1

xDrive首发版在欧洲市场开启预售,宝马终于公布了新世代i3的完整技术参数。在加速性能方面,新世代i3的表现更优异,其0-100km/h加速时间4.7秒,比iX3快0.2秒。新世代i3首发版续航里程906公里,等今年秋季普通版i3上市后,续航能力还将再度提升,最高续航可达912公里。

2026-06-22

2026年6月推荐!新款梅赛德斯 - AMG GLE 63 S怎么样?

新车还提供哑光车漆选项,以强化运动属性,V8双涡轮增压的专属标识进一步彰显身份。轮圈方面,新车标配最大22英寸的AMG合金轮圈,并配备专属红色卡钳和陶瓷刹车盘。据官方介绍,这款V8动力车型还配备了全新开发的AMG高性能排气系统,排气声浪可从低调内敛切换至澎湃激昂。

2026-06-22

2026最新大众品牌评价:优缺点与Top1排名

根据官方公布的数据显示,大众汽车在全球拥有111座生产基地。毫不夸张的说,以大众汽车目前的现状来看,仍然是全球数一数二的汽车巨头。按照规划大众将会在2026年底前在德国本土削减1.9万个岗位。销量方面,相比去年同期大众汽车同样也下降了4%,累计销量还不到205万辆。

2026-06-22

2026年最新!155款新能源汽车下乡榜单,推荐哪款好?

6月18日,工信部、商务部等五部门公布2026年新能源汽车下乡车型名单,155款车型入选。所以今年名单里不再只是低价小车,而是从几万元代步车到二三十万元热门新能源车全部覆盖。汽车下乡已经不是“便宜车下乡”,而是新能源产品体系下沉。这说明新能源下乡最大的障碍不是车价,而是使用环境。

2026-06-22

2026年6月电车销量Top10:外资暴涨51%,国产车真的顶住了吗?

今年1月份、2月份国内市场的电车销量下跌的时候,诸多车企的销量也跟着下跌,显示出车企的销量无法摆脱整体大势的影响,而近几个月诸多车企则连连公布喜报--销量连连上涨,与之相映成趣,这进一步增加了业界的疑虑。

2026-06-22