新闻中心

中国院士: 大模型绝不能靠堆芯片来实现, 那只是外国技术的跟随者

2025-02-23 16:46:13

来源:

中"国院士: "大模型绝不能靠堆芯片来实现, 那只、是外国技术、的跟随者

前沿导读

在中国算力研讨会当中,中科院陈润生院士对于现在中国AI领域的发展表明了看法,大模型系统绝对不是靠着我们现在越堆芯片越多来实现的。一定会是向人的大脑一样去学习,把空间复杂度和时间复杂度压缩的更小,能耗降的更低。

所以我自己觉得,目前最基本的问题是要研究空间复杂度来完成计算的基础理论。如果我们能在基础理论上有所发展的话,那我们就是根本和原始的创新。否则的话,目前国内的大模型,都只是海外技术的跟随者。

发展路线

AI技术的发展路线,通过堆叠性能更强、数量更多的GPU芯片是最简单,也是思路最清晰的发展方案。但是这种方案极其依靠硬件层面的水平,性能更强的AI芯片就需要更高的制造和使用成本,并且过于密集的芯片堆叠,虽然可以有效提升算力性能,但是其散热难度也会成倍的增加。

先进AI芯片的技术发展,已经度过了追逐先进制造工艺的阶段,来到了封装技术的比拼上面。

对比传统的2D和2.5D芯片技术,3D芯片封装可以实现真正的三维晶体管集成技术。通过将多个芯片进行垂直放置,然后通过TSV硅通孔的技术实现芯片之间的互相连接。3D封装可以将多个高性能芯片贴合在一起,极大提升芯片的性能上限。

2.5D芯片虽然也可以集成多个芯片的封装,但是由于其添加了硅中介层,导致堆叠数量和芯片密度降低,性能也会比3D封装技术差不少。

但是2.5D封装技术的成本更低,可以通过堆叠成熟制程的芯片实现性能更强、传输延迟更低的芯片技术。比如台积电的第一代CoWoS技术,就是采用了两块16nm工艺的芯片进行封装,实现了性能上面的跨越。但是由于其对于散热效率的要求,这种封装技术的芯片被应用在了服务器上面。

在AI时代到来之后,芯片算力的迭代速度明显加快。

英伟达作为全球AI领域的顶级硬件供应商,其推出的高性能计算芯片成为了AI领域的抢手货。尤其是以H100、H200为代表的GPU芯片,被大量发展AI技术的企业所采购。

这两款AI芯片是基于英伟达的Hopper架构制造,针对大规模的AI语言训练进行了单独优化。并且依靠这两款芯片,可以建设AI算力集群,通过英伟达的CUDA技术,将AI芯片直接应用到大数据运算当中。

通过堆叠大量的AI芯片,建设高性能的算力集群,这是行业内公认的一条主流发展路线。包括华为的昇腾芯片,也是采用了3D封装技术外加上芯片堆叠的方法,建设了昇腾AI集群,进行大模型语言的技术训练。

美国的open AI、微软等企业推出的大模型技术,都是依靠英伟达提供的专业AI芯片进行大模型计算。包括英伟达第一代AI芯片上市之后,英伟达CEO黄仁勋就将芯片亲自交付给了open AI团队,让其开发性能更强的推理大模型。

open AI团队开发的Chat GPT,尤其是最新的GPT-4、GPT-5,其开发成本是非常高昂的,需要涉及到由数千个高性能芯片堆叠起来的AI集群进行训练,其训练成本以百万美元起步,具体的成本价格将会跟训练规模和训练时间有关系。

由于训练成本高,GPT通过API付费的方式进行盈利。对于企业用户来说,GPT也可以通过定制化服务、大批量购买等方法实现更强性能的理论推断。

但是中国AI企业DeepSeek的出现,对美国AI企业的产业链进行了冲击,并且造成了一系列的连锁反应。

技术优化

DeepSeek推出了V3和R1两款大模型,这两款大模型在硬件上面都是基于英伟达H800芯片进行训练。H800芯片是英伟达针对于中国市场推出的专供芯片,在性能上面要低于完全体的H100。

虽然DeepSeek使用的训练芯片在性能和数量上面远远不及open AI,但是其推出的两款大模型,在性能上面却与open AI推出的GPT模型不相上下,甚至DeepSeek团队的训练成本还非常低。

DeepSeek-V3的训练成本为557.6万美元,使用了2048块英伟达H800 GPU集群。而open AI的GPT-4o的训练成本约为1亿美元,使用性能更强的H100 GPU集群。

DeepSeek-R1大模型在AIME 2024数学基准测试中,得分率为79.8%,略高于OpenAI o1的79.2%。

在推理成本上面,R1大模型每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元。GPT大模型每百万输入tokens成本为15美元,每百万输出tokens成本为60美元。

在硬件和训练成本存在劣势的情况下,DeepSeek通过混合专家架构的优化方法,整合多个小型模型的预测方法来提升整体的性能水平,在不大幅度增加计算成本的情况下,提升了模型容量。

V3大模型拥有6710亿参数,但是在实际的训练与推算当中,会根据情况选择激活参数的数量,以此来平衡计算资源的消耗。V3还支持FP8的混合精度训练,这种训练方法可以显著降低计算和存储需求,在更少GPU资源的加持下完成大模型的训练,同时还能保持较高的训练性能。

并且DeepSeek在推出了两款高性价比的大模型语言之后,选择以技术开源的方式允许行业内其他企业进行使用。这对于硬件水平强、训练成本高并且在部分推理上面需要付费的GPT来说,DeepSeek开创了一个新局面。

孙颖莎淘汰张本美和 全场大喊你最棒深圳女子报警:“我举报我自己”重庆将建迪士尼乐园?谣言四川5人清理化粪池遇险 4人中毒身亡难哄恶趣味AI救场 阿里重回牌桌黄友政vs吴晙诚哪吒很火 我们距离影史第一还有多远因奥特曼被索赔百万小曹动画热梗魔性合集

(内容来源:河南日报)

作者: 编辑:常梓轩

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com