行业新闻

关注搜芯易,了解最新资讯

自研AI芯片困难重重,AI芯片行业的未来如何?

根据Counterpoint的数据显示,2022年全球数据中心CPU市场收入中,Intel和AMD两家公司合计占据了92.45%的份额。Intel和AMD在CPU领域拥有长期的技术积累和丰富的经验,能够提供高性能、高稳定性的产品。

根据Precedence Research的数据,2022年全球AI芯片市场规模为168.6亿美元,预计到2032年将达到约2274.8亿美元,从2023年到2032年,市场以29.72%的复年增长率扩张。而从地理上看,北美主导着全球AI芯片市场。

图源:alamy.com

 

AI技术在IT行业的不断部署被认为是北美市场增长的一个主要驱动因素。美国和加拿大的重要技术公司的存在,推动了该地区AI芯片市场的增长。

 

搜芯易此前发布了人工智能(AI)芯片市场概况,相关阅读:报告:ChatGPT带动AI芯片市场热潮(一)报告:ChatGPT带动AI芯片市场热潮(二)

 

AI芯片的主要供应商

 

当前市场上的AI芯片主要分为通用AI芯片(GPU和FPGA等)和专用AI芯片(ASIC和NPU等)。

 

根据Counterpoint的数据显示,2022年全球数据中心CPU市场收入中,Intel和AMD两家公司合计占据了92.45%的份额。Intel和AMD在CPU领域拥有长期的技术积累和丰富的经验,能够提供高性能、高稳定性的产品。

 

而NVIDIA在GPU领域拥有强大的技术实力,并通过其CUDA®工具为开发者提供了高效的编程接口。根据New Street Research的数据,NVIDIA占据了可用于机器学习的GPU市场的95%。随着国内AI产业的快速发展和技术水平的提高,越来越多的中国企业开始涉足AI芯片领域。

 

NVIDIA

 

OpenAI在2022年11月30日发布的ChatGPT将AI服务推向了爆炸性普及,对相关处理器的需求量激增,要求它们可以具备处理并运行相关服务所需的巨大算力。NVIDIA 的A100、H100系列芯片可以满足算力需求,是ChatGPT大型语言模型背后的算力来源,目前占据相关服务的金字塔尖位置。

 

AMD

 

AMD在CPU领域的优势让其选择在APU上重点发力,并且通过对FPGA厂商Xilinx补充在AI开发和应用生态上的不足。此外,AMD更愿意与云服务供应商合作,不仅可以避开生态上的壁垒,还能提高加速卡的购买量,提高产销。

 

NVIDIA的CUDA® 工具在过去十年中大力推进AI技术进展。尽管AMD是NVIDIA在游戏硬件行业的主要竞争对手,但该公司在大规模机器学习部署方面并没有能替代CUDA®生态系统的产品。

 

对于此,AMD的CEO Lisa Su在此前的财报电话会议上表示,AMD正处于AI计算时代的早期,且这项技术从普及到发展的速度快于任何其他技术。因此在AI技术研发方面,AMD采取继续投资的策略,希望能赶超NVIDIA。对于即将推出的Instinct MI300加速芯片,AMD相信其可以适应生成式AI工作负载。CEO Lisa Su表示,MI300非常适合高性能计算(HPC)或超级计算负载,为了扩展(pipleline)MI300公司投入了相当多的资源。

 

Intel

 

据路透社5月23日消息,Intel在本周一提供了一份有关2025年推出下一代Max系列GPU芯片“Falcon Shores”的计划,转变战略正式开启与NVIDIA和AMD在AI处理器市场的竞争。据悉,新一代Falcon Shores芯片支持8bit浮点运算,高带宽HBM3内存规格达288GB,总带宽将达到9.8TB/秒。

 

而在今年年初Intel发布的Max 1550的HBM2e内存规格为128G,但市场份额远低于NVIDIA。早在2021年Intel就展示了代号为“Ponte Vecchio”的旗舰数据心GPU,实际交付情况并不理想而因此错过去年年底AI大爆发的机遇。但Intel在本周一表示,美国阿贡国家实验室(ANL)基于Intel Ponte Vecchio GPU的Aurora超级计算机的发货已快完成。完整的Aurora包含63744个GPU和21248个CPU,还有1024个DAOS存储节点。Intel强调这款超级计算机的性能优于H100。

 

Intel副总裁兼超级计算事业部总经理Jeff McVeigh在周一表示,公司放弃CPU和GPU结合的策略后,需要花时间重新设计芯片,公司希望能拥有独立的竞争力产品并在同平台中展示竞争优势。

 

但纠结的是,Falcon Shores 后续芯片要到2025年才会上市,届时 NVIDIA和AMD都会推出更强的芯片。届时市场的主导者还未知。

 

科技大厂入局AI芯片

 

NVIDIA的A100能够同时执行许多计算,非常适合为ChatGPT、Bing AI或Stable Diffusion等工具提供机器学习模型。因此,市场对A100的需求巨大,一众互联网公司纷纷竭力获取NVIDIA的A100 GPU。而一块A100并不能支撑一家AI公司的需求,许多数据中心需要多个A100协同工作系统,也就是NVIDIA的DGX A100,售价199,000 美元。

 

在New Street Research的一项评估指出,Bing搜索和ChatGPT的模型可能需要8个A100 GPU才能满足一秒内响应用户问题。也就是说,按DGX的费用计算,微软至少需要2万个DGX系统,在AI基础设置建设上的支出将高达40亿美元。同样地,谷歌需要在DGX上支出800亿美元。

 

微软

 

对于没有适合的NVIDIA替代品这项议题,据此前彭博社的一份报告中指出,微软向AMD提供工程资源以支持其发展,目的是与市占率80%的NVIDIA抗衡。微软通过此合作来支持AMD向AI处理器的扩张,进而帮助其Azure云计算提供各种运载AI服务的动力。

 

彭博社的消息还称,AMD正在帮助微软开发内部AI芯片,代号为“Athena”。据报道,微软为此开发投资约20亿美元,并任其芯片部门的几百名员工着手该项目。然而,微软发言人Frank Shaw对外否认了AMD参与Athena项目的说法。

 

因为拥有在OpenAI49%的战略股份,微软在互联网搜索和办公生产工具方面将持续与谷歌抗衡。与此同时,微软为了获取更多服务器,并没有放弃和NVIDIA开展密切合作。

 

谷歌

 

无独有偶,谷歌早已研发了自己的张量处理单元(TPU)用于内部训练其AI模型,也可以通过Google Cloud出售客户。其芯片设计团队位于谷歌的核心系统组内,负责运营关键的软硬件,例如搜索功能和YouTube。该团队还开发了运行芯片的软件TensorFlow,支持Web搜索和广告定位。

 

亚马逊

 

此外亚马逊也创造了AI芯片Trainium来训练机器学习计算模型。在过去十年,亚马逊在云计算服务方面,通过提供更先进的技术和更低的价格,保持着对微软和谷歌的竞争优势。根据官网描述,亚马逊最新的推理芯片Inferentia2加速器在性能和功能方面实现了重大飞跃,与 Inferentia 相比,Inferentia2 的吞吐量提高了4倍,延迟低至前者的 1/10。后期,公司又发布了用于AI训练的Trainium芯片。

 

咨询公司Forrester主管Glenn O'Donnell认为,如果一家公司可以制造出针对AI进行优化的芯片,那么它将取得巨大的胜利。据美国技术媒体The Information报道,亚马逊、微软、谷歌等科技大厂相继发布8款CPU芯片和云端AI芯片,用于内部产品开发、云服务器租赁业务,研芯片集中采用5nm工艺节点。

 

在科技大厂中,根据咨询机构Gartner发布的报告,亚马逊云科技已经连续11年在领导力象限排名第一。相比之下,亚马逊自研芯片的脚步跨得比同行更大。

 

META入局AI芯片

 

相对来说,Facebook在入局AI方面的脚步还是落后了。Facebook的母公司Meta Platforms Inc.(Meta)在上周18日发布的多篇文章中披露其自制AI芯片的计划,将在其数据中心使用。

 

根据官方消息,Meta 在 2020 年为其 AI 模型构建了第一代硅芯片MTIA,是同名MTIA项目的部分工作,采用台积电7nm工艺制造。第一代MTIA芯片的运行频率为800MHz,在 INT8 精度下提供 102.4TOPS 算力,在 FP16 精度下提供51.2TFLOPS 算力。

 

而新的内部定制训练和推理加速器Meta Training and Inference Accelerator(MTIA)将于2025年推出。MTIA是一种ASIC,也就是将不同电路集成在一块板上的芯片,可以将它进行编程,执行一项或多项任务。Meta声称通过部署MTIA芯片和GPU来确保为每项工作负载提供更好的性能,更低的延迟率。

 

而关于MTIA 项目最新进展的细节显示,MTIA采用开源芯片架构RISC-V,它的功耗仅有 25 瓦,远低于NVIDIA等主流芯片厂商的产品功耗。Meta 表示,芯片在内存和网络领域的工作还未完成,随着 AI 模型发展,在这些工作中会出现瓶颈。相当于间接承认,要想让MTIA达到A100的水平,尚有差距。

 

目前,MTIA 的重点放在 Meta 应用家族的推理,而不是训练,也就是利用已经训练好的AI模型做出预测或采取行动。

 

Meta 工程副总裁 Aparna Ramani 表示,该公司的新硬件是为了与其自主开发的 PyTorch 软件高效配合,而后者已经成为第三方开发者开发人工智能应用时最常用的工具之一。这款新硬件最终可以用于执行与元宇宙相关的任务,比如虚拟现实和增强现实,还能用于新兴的生成式AI技术。

 

MTIA 芯片专供 Meta 内部使用,具体配置时间表在上周四暂未透露,也未说明具体有什么计划开发可能训练模型的芯片。

 

然而Meta并未放弃NVIDIA芯片。

 

几个月前Meta在内部成立了生成式AI团队,据说扎克伯格和CTO Andrew Bosworth 花费大量时间与团队讨论Meta在AI领域的发展可能性。上周团队还推出了针对广告客户的内容设计工具。过去,Meta在AI领域的发展集中在审核过滤和广告推荐算法,并使用CPU组合加上定制的专用加速AI芯片运行。

 

Meta 基础设施副总裁Alexis Bjorlin在一次采访中表示,自研芯片是构建对“堆栈所有层面的控制能力”,Meta试图通过对自身AI全链条资源的整合来超越竞争对手。

 

但Meta仍然在AI爆发式增长的节点采购了大量的NVIDIA芯片并放弃原来的芯片方案。Meta目前训练大模型所使用的是名为 AI Research SuperCluster(人工智能研究超级集群 ;RSC)的超级计算机,它内置了2000个NVIDIA的DGX A100系统,包括16000块NVIDIA的A100 GPU。

 

AI芯片的竞争局势

 

科技公司对于AI芯片的高需求,一度提升了NVIDIA的AI芯片售价,并造成其库存的问题。据悉, NVIDIA最先进的显卡在eBay网上的售价高达4万美元。

 

A100芯片采取台积电的7nm制程,H100是4nm制程,而让一众芯片厂商和互联网公司不敢懈怠的是,NVIDIA据说已经开始量产下一代H100。

 

来自互联网大厂的持续竞争力

 

谷歌和微软虽然不对外出售芯片,但可以通过AI算力云服务消化一部分NVIDIA的潜在客户。诸如AI绘图公司Midjourney和由OpenAI前成员创始的AI初创公司Authropic,们都选择谷歌的算力服务。未来也可能会有更多这样的小企业选择谷歌或微软的云服务。

 

全球云计算市场的集中度很高,其中亚马逊、微软、谷歌、阿里云和IBM占比超过60%,都在各自研发AI芯片。其中微软给行业带来的冲击最大,谷歌的进度最快。

   

此外,高通中国也在此前发布消息,确定与微软达成合作关系,将面向消费级和企业级终端和工业设备,规模化扩展AI能力。高通表示,未来几个月内,包括大语言模型(LLM)在内的参数高达100亿的模型将有望在终端侧运行。

 

来自初创AI芯片公司的竞争力

 

除了大厂外,一些中小公司也在试图切分NVIDIA的蛋糕,包括估值一度达到28亿美金的Graphcore,国内的寒武纪公司。

 

下面列举了一些不错的海外AI芯片初创公司:

 

Cerebras – 2015年成立,美国,产品为:晶圆级引擎:WSE-1、WSE-2

Graphcore – 2016年成立,英国,产品为:Graphcore IPU

Habana Labs – 2016年成立,以色列,产品为:云端AI训练芯片Gaudi

Mythic – 2012年成立,美国,产品为:M1108 AMP

LightMatter – 2017年成立,美国,产品为:Envise

NeuReality – 2018年成立,以色列,产品为:NR1

Espernato – 2014年成立,美国,产品为:ET-SoC-1

 

但对AI初创公司而言,竞争力稍显不足的原因之一在于没有大厂一样雄厚的财务投入支撑,也不能自产自销,除非另辟蹊径或者发挥某一优势,否则在与NVIDIA短兵相接时基本没有胜算。

 

来自终端客户的压力

 

尽管互联网大厂开始自产自销,但依旧离不开NVIDIA的GPU支持。比如谷歌仍然需要大批量采购NVIDIA的GPU来跟自产的TPU协同工作。而Tesla尽管拥有自产的Dojo超算,马斯克投资的新的AI公司仍离不开NVIDIA的GPU。

 

但大厂在节省成本方面向来很果决。比如在PC机时代,厂商需要标榜Intel Inside来卖给B端客户,但在算力云时代,底层硬件信息可以屏蔽,消费者是无法获悉芯片来源,同样在未来购买100TFlops算力,消费者也无法获悉哪些是GPU哪些是TPU。

 

因此,随着技术的迭代,NVIDIA的GPU是否是AI的唯一解并不可断言。如果AI开始渗透人类生活的方方面面,像手机那样普及的程度,算力成本如不再下降,NVIDIA的GPU高昂的费用可能会成为一个棘手的问题。

 

国产AI芯片的发展情况

 

据了解,我国的AI算力发展迅速,符合全球的算力发展趋势。衡量 AI 芯片算力大小的常用单位为 TOPS,代表芯片每秒能进行多少万亿次定点运算和浮点运算,运算数据的类型通常有整型 8 比特(INT8)、单精度 32 比特(FP32)等。AI 芯片的算力越高,代表它的运算速度越快、性能越强。

 

图:国内AI芯片公司概况

来源:民生证券研究院

 

可以看到,国产AI芯片的整体水平比较均衡,产品类型主要以训练、推理或两者结合为主,算力水平在25~2000TOPS不等。随着数字中国建设对 AI 芯片国产化的投入,相信国产AI芯片的自主化水平会越来越高。

 

信息及配图主要来源:Investors,NFT中文社区,华尔街见闻,AIGC

版权归属:作者/译者/原载

 

AI芯片