(资料图)

自去年年底大模型“热潮”席卷而来,半导体业内对于大模型需要什么样的硬件的问题众说纷纭。当前国内外大模型的数量已发展到以百千计,大模型参数量也发展到千亿级。在这种趋势下,算力芯片究竟该如何适应大模型不断增长的算力需求?从集群的角度看问题:提高带宽与存储“大模型时代,从单卡效率看问题的视角已经落伍了,对硬件设备的审视要更多地从集群的角度去看。” 燧原科技产品市场总经理高平在接受《中国电子报》采访时说道。在当前计算机采用的冯·诺依曼的体系架构下,计算和存储是分离的。一项任务的完成,既需要高算力,又需要大存储量和高效互联作为支持。长期以来,厂商对于处理器效率提升的关注点都放在算力上。而大模型训练,动辄需要上千张甚至上万张算力芯片组成的集群。这使得原本没有特别受到重视的存储量和带宽一下子成为制约集群效率的瓶颈,也成为各厂商最为关注的技术指标。沐曦集成电路(上海)有限公司联合创始人、CMO孙尔俊在接受《中国电子报》记者采访时表示,大模型需要缓存上千亿的参数量,单个芯片的存储量越大,整个集群所需要的芯片数量就越少,片间花费的传输时间就相应地会更低,从而更有利于提高整个集群的计算效率。这意味着,如果单卡存储容量不够,原本用1000张卡就能完成加速的工作,需要扩展到更多的芯片上完成,卡间互联所需要的时间会被拉长,整个系统的效率也由此降低。

片间带宽是另一个备受关注的指标。芯片存储量和片间互联带宽,就像是支撑大模型硬件基础的一体两面。如果把大模型训练比作货物运输的过程,存储量就像是每辆卡车的装载量,而带宽就像是高速公路的并行车道数。二者共同决定了整个训练任务多久才能完成。由此,如何提高算力芯片的单片存储和片间带宽,成为算力芯片厂商需要考虑的问题。在提高芯片存储量方面,业界采取的依然是提升晶体管密度和加大存储面积两种思路。一方面采用更先进的工艺,另一方面采用3D封装,将存储贴在芯片上。相比之下,带宽提升更困难一些。高平表示:“带宽提升在很长时间内都是芯片设计领域的难点。相比于算力成倍数的提升,带宽的提升一直不大。工艺功耗等因素限制了数据传输的时钟频率,成本与芯片面积限制了传输的通道数量。”因此,业界出现了许多另辟蹊径的讨论,例如通过使存储与计算模块靠得更近以缩短传输距离,或者采取改变计算与存储排列方式的存算一体的架构等。天数智芯副总裁邹翾分享了天数的经验——通过优化算法、片间通讯协议和通讯物理层来系统化的缓解带宽瓶颈:“流行的大模型算法在硬件工程化中还有很多的调优空间,框架层有多种拓扑结构可以平衡单点计算与传输速度,有效降低带宽需求;互联技术方面,我们在协议层也采用了私有的协议,可以提高有效数据传输的效率;在物理层未来可供选择的非电技术也有进一步提升带宽的空间。”他还提到,未来应用的性能需要在系统架构上优化。一来大模型的工作负载可以结合节点配置的情况和传输能力进行调整,二来传输方式可以不仅限于电互联,还可以利用光互联等其他技术。软硬件系统级联合调优还有很大的空间,可以进一步压缩对于芯片硬件带宽的需求。提升“软”实力:优化工具与云服务“对于很多客户来说,硬件就是个黑盒子,他们并不关心芯片内部的架构是什么样的。他们直接接触的,是产品的软件。”一位算力芯片领域资深专家告诉《中国电子报》记者,“与全球算力芯片领军企业相比,算力芯片的后起之秀们在硬件上实现赶超相对容易,软件反而是短板。”“好用”,是大模型对算力芯片软件栈最基础的要求。这个要求在大模型出现之前便已经存在。大模型的“遍地开花”对于软件的要求并没有根本性的变化,仍需要相适配的软件持续调优。软件的优化,最需要客户与算力芯片企业的协同。作为算力芯片软件配套方面的“老大哥”,英伟达CUDA的制胜秘诀,就是拥有相当数量的客户群体,并充分了解客户需求。通过与客户沟通,持续进行软件调优,使产品更好用、更易用。而对于国内算力芯片企业而言,不少企业接到的单个订单量比较大,足够维持企业的正常运转,但客户数量较少,这对于发展企业自己的软件栈并不是一件好事。“从软件的角度来说,一个客户无论买100张卡还是买10张卡,能够给我们带来的反馈是一样的。我们希望有更多的企业给我们具体的反馈,这样软件迭代优化的速度也会更快。” 某算力芯片企业表示。能不能做得像英伟达CUDA一样?这是算力芯片企业最常被问到的问题。对于独立开发软件的企业而言,由于客户已经形成了使用CUDA的习惯,为了帮助客户尽快适应从CUDA软件向新环境的迁移,在自研软件的界面设计上,会主动选择贴合客户使用习惯的设计,从而帮助客户更轻松地完成迁移。“加大在软件上的投入,已经是一个共识。几乎所有AI芯片公司软件团队一定比硬件团队人更多、投入更大。芯片公司越来越像软件公司,将研发的重点放在软件栈上面。”业界专家表示。此外,提供云服务也是算力芯片企业提升影响力、拓展客户面的重要实现方式。成本低是云服务的核心优势。对于一些初创企业或者是规模较小的团队而言,购买算力芯片需要的成本较高,而通过云租赁的方式获得算力资源,可以以较低的成本缓解算力不足的问题。当前,谷歌、英伟达、阿里云、金山云等都已经具备为大模型提供云端算力的能力。

大算力芯片的核心能力:通用、通用,还是通用

1、系统越来越大,对通用灵活性的要求远高于对性能的要求在云和边缘数据中心,都是清一色的服务器。这些服务器,可以服务各行各业、各种不同类型的场景的服务端工作任务的处理。CSP每年投入数以亿计资金,上架数以万计的各种型号、各种配置的服务器的时候,严格来说,它并不知道,具体的某台服务器最终会售卖给哪个用户,这个用户到底会在服务器上面跑什么应用。并且,未来,这个用户的服务器资源回收之后再卖个下一个用户,下一个用户又用来干什么,也是不知道的。因此,对CSP来说,最理想的状态是,存在一种服务器,足够通用,即不管是哪种用户哪种应用运行其上,都足够高效快捷并且低成本。只有这样,系统才够简单而稳定,运维才能简单并且高效。然后要做的,就是把这种服务器大规模复制(大规模复制意味着单服务器成本的更快速下降)。云和边缘服务器场景,对系统的灵活性的要求远高于对性能的要求,需要提供的是综合性的通用解决方案。最直接的例子就是以CPU为核心的服务器:CPU通用灵活性是最好的,如果CPU的性能够用,大家绝对不喜欢用各种加速;如今是CPU性能不够,逼迫着大家不得不去使用各种硬件加速。数据中心硬件加速最大的教训是:在提升性能的同时,最好不要损失系统的灵活性。其言下之意就是:目前各类加速芯片的优化方案损失了灵活性,从而使得芯片的落地很困难。这是目前全行业的痛点所在。2、集群计算,对芯片的弹性可扩展能力提出了更高的要求传统的情况下,一个芯片对应一个系统。我们关注业务常见的需求,并把它实现在芯片的功能和特征里。但在集群计算,特别是目前云网边端不断融合的超大集群计算形式下,则需要关注的是“以不变应万变”,即足够通用的、数以万计的计算设备组成的大规模计算集群,如何去覆盖数以百万计的众多计算场景的问题。这样,对芯片内的资源弹性和芯片的可扩展性就提出了很高的要求,我们需要把数以万计的计算芯片的计算资源合并到一个计算资源池,然后还可以非常方便的快速切分和重组,供不同规格计算任务的使用。3、芯片研发成本越来越高,需要芯片的大规模落地,来摊薄研发成本摩尔定律预示了:芯片工艺的发展,会使得晶体管数量大约每两年提升一倍。虽然工艺的进步逐步进入瓶颈,但Chiplet越来越成为行业发展的重点,这使得芯片的晶体管数量可以再一次数量级的提升。

在先进工艺的设计成本方面,知名半导体研究机构Semiengingeering统计了不同工艺下芯片所需费用(费用包括了):28nm节点开发芯片只需要5130万美元;16nm节点则需要1亿美元;7nm节点需要2.97亿美元;到了5nm节点,费用高达5.42亿美元;3nm节点的研发费用,预计将接近10亿美元。就意味着,大芯片需要足够通用,足够大范围落地,才能在商业逻辑上成立。做一个保守的估算:终端场景,(大)芯片的销售量至少需要达到数千万级才能有效摊薄一次性的研发成本;在数据中心场景,则需要50万甚至100万以上的销售量,才能有效摊薄研发成本。最后全新的AI时代正呼啸而来,海量数据洪流和大模型应用需求爆发将继续拉动算力规模成倍增长。尽管目前主流的算力方案仍是英伟达一骑绝尘,但从长远计,我国通用GPU企业大有可为。对算力需求的激增提供了一个巨大市场,此时国外计算芯片供应紧张和出口限制,又将为国内芯片公司提供更多的机会。这对于国产芯努力构建自主创新架构、满足市场对性价比和能效比的多元需求,无疑是一个极佳的时间窗口。谁能率先拿出完善的国产化替代方案,谁便能从庞大的AI算力市场分一杯羹。

相关文章 深度分析:工业机器人国产化率提升 企业如何突破发展瓶颈?(图)05-062022年中国通信行业经济运行月度报告(附全文)03-13

推荐内容