效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?

  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百...

  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百万GPU小时资源。随着DeepSeek等公司开源热潮兴起,更多大模型玩家也纷纷跟进,以扩大市场份额、构建生态系统并提升品牌形象。

  每经记者 杨昕怡    每经实习编辑 余婷婷    

  训练大模型的成本之高一直是行业痛点,各路玩家都在思考如何用技术创新把成本“打”下来。

  3月10日,字节跳动豆包大模型团队发布了针对MoE(混合专家模型)架构的通信优化系统COMET,该方案通过细粒度计算-通信重叠技术,助力大模型训练优化。据豆包大模型团队介绍,COMET已实际应用于万卡级生产集群,累计节省了数百万GPU(图形处理器)小时资源。此外,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。 

  “在万卡集群上做测试的这个经验,国内很少能有。”一位头部大模型算法工程师在接受《每日经济新闻》记者采访时表示,“目前很可能只有字节有这一经验,而且还分享出来了。虽然现在国内大部分公司都没有万卡,但随着行业往后发展,这一技术和先行经验是很重要的。”

  可以看到的是,自DeepSeek的开源模型R1在全球范围内“爆红”以来,国内更多大模型玩家以更高的频率进行着技术开源。对此,北京市社会科学院副研究员王鹏向《每日经济新闻》记者表示,大模型公司选择优秀技术开源,对于扩大市场份额、吸引合作伙伴构建生态、提升公司的品牌形象和知名度等方面均有帮助。

  MoE训练效率提升1.71倍,字节开源COMET技术

  3月1日,DeepSeek在知乎发布了“开源周”后的“彩蛋”,首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。

  DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“671B的模型,在处理每个问题时,被调用激活的专家模型参数仅约37B,算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。

  而豆包团队注意到,MoE架构的稀疏特性导致计算和通信间的依赖动态且复杂,其分布式训练仍面临着跨设备通信开销巨大的成本挑战。

  3月10日,豆包大模型团队发布了针对MoE模型的通信优化系统COMET。据介绍,COMET具体通过共享张量依赖解析机制,将共享张量沿Token维度或隐层维度切割,使通信与计算的最小单元对齐;同时通过动态负载分配算法,根据输入规模和硬件环境实时调整线程块分配,消除跨设备通信带来的等待延迟。

  一位豆包大模型的技术人员告诉《每日经济新闻》记者,COMET和DeepSeek的DualPipe(双向并行流水线技术)都用于降低MoE的通信开销,但方法不同。记者了解到,DualPipe通过创新的双向流水线并行技术,大幅提高模型的训练效率。

  豆包大模型团队称,COMET这一创新在大规模MoE模型上可达到单层1.96倍加速,端到端平均1.71倍效率提升。目前,COMET已实际应用于万卡级生产集群,助力MoE模型高效训练,并已累计节省了数百万GPU小时资源。

  “用100张卡测试的波动可能很少,因为(显卡)出问题的概率较小,但1万张卡的波动就会大很多。”一位头部大模型算法工程师向《每日经济新闻》记者表示,此次字节将这一成果开源,为整个行业提供了不可多得的万卡集群实验经验,“国内有1万张卡的企业也就几家。”此外,豆包大模型还表示,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。

  《每日经济新闻》记者2月11日从豆包大模型团队了解到,团队已经提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。

效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?

  争夺“源神”,为何AI玩家接二连三开源最新技术?

  从在全球范围内引起热议的DeepSeek-R1到开源周的“大放送”,DeepSeek因持续开源核心技术被业内称为“源神”。基于DeepSeek的动作,国内大模型厂商纷纷跟进并加速了开源行动。

  2月18日,阶跃星辰首次开源其Step系列基座模型。该模型分别是目前全球范围内参数量最大的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。MiniMax也在1月15日发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

  除了头部的AI初创公司外,重投大模型的多家互联网巨头也在紧跟开源这股热潮,其中阿里一直是坚定的“开源派”。3月3日,开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。3月6日凌晨,阿里再度抛出新的开源成果。阿里云通义千问官微宣布发布并开源最新的推理模型QwQ-32B。据介绍,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。

  “开源优秀技术可以获得更多声量,也可以吸引更多企业、开发者进行二次开发,有助于生态构建。”一位豆包大模型的技术人员向《每日经济新闻》记者表示。

  同样,王鹏也认为,开源模式能促进技术发展、创新,既可帮助大模型公司扩大其在全球AI市场的影响力和份额,也可以吸引到更多参与者加入到生态系统的共建中,从而降低自身研发成本。

  不过,也有不同的声音,大模型公司选择开源模式究竟是为了名还是利?“如果开源的技术比闭源的更好用,免费的技术比收费的更好用,那么谁还用闭源和收费的?”工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示,“实际上是以DeepSeek为代表的开源应用,在性能上追平了竞争对手。这导致很多大模型选择了开源的路径来应对。开源对于企业来说,并不能创造利润,但能带来用户,互联网流量为王,利润次之。”

本文来自作者[元雪]投稿,不代表酷展号立场,如若转载,请注明出处:https://iosku.vip/sjzx/2025sop04-4749.html

(22)

文章推荐

  • 风吹半夏里5万吨的废铁生意是真的的吗-

    网上科普有关“风吹半夏里5万吨的废铁生意是真的的吗?”话题很是火热,小编也是针对风吹半夏里5万吨的废铁生意是真的的吗?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。不是。根据查询风吹半夏相关资料得知,风吹半夏里5万吨的废铁生意不是真的。在这次钢铁交易会上,吴

    2025年01月27日
    900
  • 短期健康险赔付整体上升!泰康养老、中意人寿、太保寿险、人保健康连续三年处于“合理区间”

      原标题:排行榜丨短期健康险赔付整体上升!泰康养老、中意人寿、太保寿险、人保健康连续三年处于“合理区间”  来源:观潮财经  超半数险企短期健康险综合赔付率同比上升。  据观潮财经统计,截至目前132家险企公布其2024年短期健康险综合赔付率情况。其中,68家赔付率同比上升,占比52%。 

    2025年03月13日
    23
  • 中金:维持腾讯控股“跑赢行业”评级 上调目标价至600港元

      中金发布研报称,基于腾讯控股(00700)广告和云计算的收入增长,分别上调2025/2026年收入1%/2%至7,172/7,576亿元,基本维持2025/2026年Non-IFRS净利润预测不变,维持“跑赢行业”评级。由于市场估值中枢上移,上调目标价8.5%至600港元,对应20.6x/17

    2025年03月20日
    22
  • 电话卡挂失(手机丢了真崩溃别慌)

    现如今,大部分人可以说是手机不离手,很多事情都可通过手机办理。所以,一旦手机丢失,那绝对是大型“真崩溃”现场,会给我们带来很多麻烦。前不久,有黑龙江读者致电本报,询问一旦手机丢失,该如何办理手机卡挂失?记者分别致电中国移动、中国电信、中国联通的黑龙江客服电话,为广大用户详解挂失过程。01中国电信可致

    2025年03月21日
    20
  • 新冠病毒奥密克戎变异毒株新冠病毒奥密克戎变异毒株症状

    大家好,今天小编关注到一个比较有意思的话题,就是关于新冠病毒奥密克戎变异毒株的问题,于是小编就整理了2个相关介绍新冠病毒奥密克戎变异毒株的解答,让我们一起看看吧。新冠病毒变异多次,现在是奥密克戎,原始毒株哪里去了?消失了?新冠病毒在人群中传播时,会不断发生变异。这些变异可能会导致病毒在人体内的潜伏期

    2025年03月26日
    25
  • 广东东莞市最新疫情广东东莞市最新疫情消息

    大家好,今天小编关注到一个比较有意思的话题,就是关于广东东莞市最新疫情的问题,于是小编就整理了4个相关介绍广东东莞市最新疫情的解答,让我们一起看看吧。湖南永州市去广东东莞寮步需要隔离吗最新?湖南永州市去广东东莞寮步不需要进行隔离。因为根据国家新冠疫情防控措施,从中高风险地区流入的人,必须进行相关隔离

    2025年03月29日
    25
  • 民无信不立的意思(信则立)

      “信则立,不信则废。”  ——引自习近平在伊朗媒体发表署名文章(2016年1月21日)  ——典出《论语·颜渊》  讲话原文:增强政治互信,筑牢合作之基。“信则立,不信则废。”人与人、国与国的交往概莫能外。古丝绸之路沿线国家在2000多年交往中积累了信任,深化了友谊,促进了合作。建交45年来,中

    2025年04月12日
    18
  • 建党100周年素材文字(收藏庆祝建党100周年报道)

    来源丨新闻与写作(ID:bj_xwyxz)小编特地整理了一些写作素材,包括优秀标题、典型人物事迹、名人名言、精彩语段等,希望可以为大家提供一些参考。今年是中国共产党成立100周年,想必大家都会写一些相关的主题文章。小编特地整理了一些写作素材,包括优秀标题、典型人物事迹、名人名言、精彩语段等,希望可以

    2025年04月18日
    19
  • 阳光保险想变的是什么?!董事长张维功领衔,与人力、科技员工代表座谈至凌晨……

      来源:险企高参  这次座谈会搞得很透彻,凌晨两点大家还意犹未尽…  保险行业再“卷”出新花样。4月21日,“阳光保险董事长拉员工开会到凌晨”话题冲上热搜。  据媒体报道,4月9日,阳光保险董事长张维功与人力、科技板块员工代表进行了一场座谈会。员工们围绕公司人力资源科学管理体系、机器人建

    2025年04月23日
    11
  • 大单品U8增速放缓,燕京啤酒押注饮料赛道

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  来源:国际金融报  近日,燕京啤酒(000729.SZ)披露2024年年报。  2024年,燕京啤酒实现啤酒销量400.44万千升,同比增长1.57%;营业收入为146.67亿元,同比增长3.2%;归母净利润首次突

    2025年04月24日
    8

发表回复

本站作者后才能评论

评论列表(4条)

  • 元雪
    元雪 2025年04月26日

    我是酷展号的签约作者“元雪”!

  • 元雪
    元雪 2025年04月26日

    希望本篇文章《效率跃升1.71倍,字节再降MoE训练成本, 为何AI玩家接连开源最新技术?》能对你有所帮助!

  • 元雪
    元雪 2025年04月26日

    本站[酷展号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 元雪
    元雪 2025年04月26日

    本文概览:  3月10日,字节跳动豆包大模型团队发布针对MoE架构的通信优化系统COMET,旨在通过细粒度计算-通信重叠技术优化大模型训练。COMET已应用于万卡级生产集群,累计节省数百...

    联系我们

    邮件:酷展号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们