跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 卖家故事 > AI芯片行业深度:发展现状、竞争格局、市场空间及相关公司深度梳理

AI芯片行业深度:发展现状、竞争格局、市场空间及相关公司深度梳理

时间:2024-05-01 11:15:34 来源:网络cs 作者:亙句 栏目:卖家故事 阅读:

标签: 深度  空间  市场  相关  格局  梳理  竞争  行业  发展 
阅读本书更多章节>>>>

从广义上讲只要能够运行人工智能算法的芯片都叫作AI芯片,但通常意义上的AI芯片指的是针对人工智能算法做了特殊加速设计的芯片。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。

下面我们从AIGC产业链出发了解AI芯片在产业链中的地位及作用,分析不同类别的AI芯片的作用及特性都有哪些,我国AI芯片行业现状及竞争格局是怎样的,目前全球AI芯片的四大技术路线都有哪些?chatGPT及“文心一言”的出现对于AI芯片市场又怎样的影响,市场空间有多大,相关公司都有哪些,未来有怎样的发展趋势?对于这些问题我们下面一一解答。

一、AI芯片概述

1、AIGC产业链

AIGC产业链主要分为上游算力硬件层、中游数据/算法软件层和下游行业应用层。硬件层依靠高性能AI芯片、服务器和数据中心为AIGC模型的训练提供算力支持,是承载行业发展的基础设施;数据/算法层软件层主要负责AI数据的采集、清洗、标注及模型的开发与训练,多方厂商入局自然语言处理、计算机视觉、多模态模型等领域;行业应用层目前主要涉及搜索、对话、推荐等场景,未来有望在多个行业呈现井喷式革新。位于算力硬件层的AI芯片是人工智能的底层基石。

3、训练芯片及推理芯片

根据机器学习算法步骤,AI芯片分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理,即将在云端训练好的算法模型进行裁剪优化变“轻”之后,进入“实战”阶段,输入数据直接得出准确的识别结果。

不同用途(训练or推理)、不同应用场景(端-边-云)对AI芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。其次,“端-边-云”三个环节对AI芯片的有不同的要求——其中端和边上进行的大部分是AI“推理”,因此用于端和边的AI芯片性能要求和上述推理芯片一致;大部分的训练过程是在云和数据中心进行,训练过程对时延没有什么要求,因此需要保证AI芯片在尽可能保证较高算力的情况下,功耗尽可能低,另外许多推理过程也是在云端进行。

4、终端芯片及云端芯片

根据部署场景,AI芯片可用于端、边、云三种场景,具体而言:1)终端AI芯片追求以低功耗完成推理任务,以实际落地场景需求为导向,在能耗/算力/时延/成本等方面存在差异;2)边缘AI芯片介于终端与云端之间,承接低时延/高隐私要求/高网络带宽占用的推理或训练任务;3)云端AI芯片以高算力/完成训练任务为目标,包括CPU/GPU/FPGA/ASIC等多种类型。

5、GPU、FPGA、ASIC及CPU

从技术架构来看,AI芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、中央处理器(CPU)四大类。其中,GPU是较为成熟的通用型人工智能芯片,FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。

目前AI芯片主要被国际厂商垄断,根据Counterpoint、IDC数据,Intel和AMD共计占2022年全球数据中心CPU市场收入的92.45%,Nvidia占2021年中国加速卡市场份额的80%以上。

二、AI芯片分类解读

1、CPU:底层核心算力芯片

CPU(Central Processing Unit)中央处理器:是计算机的运算和控制核心(ControlUnit),是信息处理、程序运行的最终执行单元,主要功能是完成计算机的数据运算以及系统控制功能。

CPU擅长逻辑控制,在深度学习中可用于推理/预测。在深度学习中,模型的训练和推理是两个不同的过程:在训练过程中,模型需要进行大量的矩阵运算,因此通常使用GPU等擅长并行计算的芯片进行处理;在推理过程中,需要对大量的已经训练好的模型进行实时的推理/预测操作,而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度,这正是CPU所擅长的。

3、FPGA:可编程芯片加速替代

FPGA(Field Programmable Gate Array)现场可编程门阵列:FPGA最大的特点在于其现场可编程的特性,无论是CPU、GPU还是ASIC,在芯片制造完成后功能会被固定,用户无法对硬件功能做出更改,而FPGA在制造完成后仍可使用配套软件对芯片进行功能配置,将芯片上空白的模块转化为自身所需的具备特定功能的模块。

(1)可编程性、高并行性、低延迟、低功耗等特点,使得FPGA在AI推断领域潜力巨大

FPGA可以在运行时根据需要进行动态配置和优化功耗,同时拥有流水线并行和数据并行能力,既可以使用数据并行来处理大量数据,也能够凭借流水线并行来提高计算的吞吐量和降低延迟。根据与非网数据,FPGA(Stratix10)在计算密集型任务的吞吐量约为CPU的10倍,延迟与功耗均为GPU的1/10。

云端推断:在面对推断环节的小批量数据处理时,GPU的并行计算优势不明显,FPGA可以凭借流水线并行,达到高并行+低延迟的效果。根据IDC数据,2020年中国云端推理芯片占比已超过50%,预计2025年将达到60.8%,云端推断市场广阔。边缘推断:受延迟、隐私和带宽限制的驱动,FPGA逐渐被布署于IoT设备当中,以满足低功耗+灵活推理+快速响应的需求。

(2)FPGA是AI时代下解决暗硅效应的有效途径

暗硅效应(DarkSilicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部分区域可以同时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。在AI计算领域,由于摩尔定律的限制和散热问题,先进高效的硬件设计会更容易导致暗硅效应,限制了芯片的计算能力和应用范围。据相关论文,在22nm制程下,暗硅面积将达21%。在8nm制程下,暗硅面积将提升至50%以上。由于暗硅效应,预计到2024年平均只能实现7.9倍的加速比,与每代性能翻倍的目标相比差距将近24倍。

FPGA的可编程性和可重构性使其能够灵活地部署和优化计算任务,从而在一定程度上缓解了暗硅效应的影响。简单来说,FPGA减少暗硅效应的方法有两个方向,一是通过优化电路结构,尽可能减少不活跃区域的数量;二是通过动态重构电路,使得不活跃区域可以被重用。

三、我国AI芯片现状

1、算力精度门槛下,ASIC和GPGPU是最适合大模型的架构

大模型云端训练多数情况下都在FP32计算精度上,推理端则以FP16和混合精度为主。算力越强,模型效率越高。FPGA和GPU对比,虽然FPGA吞吐率、性能功耗比优于GPU,但是FPGA存在两个天然缺陷,FPGA只适合做定点运算,不适合做浮点运算,如果用来做浮点运算耗费逻辑很大,而且有些FPGA不能直接对浮点数进行操作的,只能采用定点数进行数值运算。其二,FPGA可以理解成某种“芯片半成品”,需要开发人员做大量二次开发设计芯片,因此开发使用门槛较高。ASIC和GPU则能够满足大模型的入门门槛。

国内视角下,华为、百度昆仑芯、阿里、寒武纪、海光信息及一众初创企业(燧原、天数、壁仞、沐曦)均推出云端训练和推理芯片。架构选择上,华为、百度、阿里、寒武纪选择ASIC路线。华为、百度、阿里自家业务场景对AI芯片存在天然需求,选择ASIC在量产制造供应链上的难度显著低于GPU。初创企业则押注通用型GPGPU架构,壁仞、沐曦等初创企业多创立于2018年前后,团队一般来自出走英伟达、AMD的技术专家,因此技术路线多选择他们所熟悉的通用型GPU。

2、AI大模型让ASIC和GPU之间的边界愈发模糊,国内GPU初创企业或在竞争中落后

英伟达在过去很长的一段时间内坚持用统一的硬件,即通用型GPU同时支持DeepLearning和图像需求。但高性能计算迭代到H100产品后,其计算卡和图像卡分开,在技术路线上也愈发靠近ASIC。初创企业为了实现通用性,选择了在芯片设计和制造供应链存在较多困难的GPU路线,暂未推出真正具备量产成熟度的产品。

3、国产ASIC厂商中,寒武纪是为数不多能够较为开放支持中游AI算法和模型商

1)华为选择部署端到端的完整生态,例如使用昇腾910必须搭配华为的大模型支持框架MindSpore、盘古大模型。第三方开源模型无法在华为上运行,若要运营必须依赖华为提供的工具做深度定制和优化,开放程度低。2)阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台中,对外输出服务。3)百度昆仑芯主要在自身智算集群和服务器上用,以及国内企业、研究所、政府中使用。且由于百度自身AI算法商的商业定位,与其他AI厂商之间存在竞争关系,昆仑芯未必能够在其他AI算法商中铺开。

英伟达A800、H800对国产厂商存在一定的威胁,但在大模型趋势下,英伟达的优势有所弱化。过去,机器学习训练时间的主导因素是计算时间,等待矩阵乘法,通过张量核心和降低浮点精度,这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在NvidiaA100GPU,如果不进行大量优化,A100往往具有非常低的FLOPS利用率。而800系列降低了数据传输速率,弱化了英伟达高算力的优势。此外,大模型AI芯片更需要片间互联、HBM,英伟达CUDA这种标准化平台的优势同样有所弱化。

寒武纪的优势在于各种深度学习框架,合作经验丰富。寒武纪思元系列产品适配TensorFlow、Pytorch、Caffe深度学习框架。2019年开始适配海康,峰值时刻合作开发团队有70-80人(公司派出20-30人),思元290与商汤在CV层面深度合作,NLP领域在讯飞、百度语音都有出货。

寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片。目前华为昇腾910性能超越英伟达V100,但未达到A100水平,壁仞科技7nm通用GPU芯片BR100称其可与被禁售的英伟达H100一较高下,但尚未量产上市。寒武纪思源590芯片面积800mm^2,和A100一样。内存带宽2.7T,是A1001.8T的1.5倍。HBM2使用海力士,功耗达350W-550W,FP32算力到80TFLops,目前已经客户送样测试阶段,在高性能国产AI芯片中进程最快,最有机会承接国内AI算法商对英伟达A100、H100的需求。

四、AI芯片竞争格局

在不同的应用场景之下,已经形成了不同的AI芯片竞争格局。

1、云和数据中心AI芯片市场

在云和数据中心AI芯片市场,“训练”和“推理”两个环节都是英伟达GPU一家独大,几乎占据90%以上份额,包括AWS、微软Azure、谷歌云、阿里云、华为云、腾讯云在内的大部分公有云厂商上线的AI加速计算公有云服务绝大部分都是基于英伟达Tesla系列GPU。

(1)云端训练

云端训练用的几乎全部是英伟达GPU,公有云厂商中仅谷歌云一家除了提供以英伟达GPU为主的云计算加速服务之外,还推出了基于自研AI芯片TPU的深度学习训练服务;

(2)云端推理

云端推理目前出现了基于GPU、FPGA、ASIC三种不同芯片云计算服务,但是市场份额仍然以英伟达GPU为主,其中AWS、阿里云、腾讯云、华为云等公有云厂商均推出了FPGA加速计算云服务,另外AWS推出了基于自研AI芯片Inferentia的ASIC加速计算服务,华为云推出了基于自研AI芯片昇腾310的ASIC加速计算服务。

2、设备端和边缘计算“推理”市场

在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现——手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、安防IPC领域英伟达暂时领先。

(1)手机

高通从骁龙820开始,就已经具备第一代人工智能引擎AIEngine;高通从第三代AIEngine开始引入异构计算CPU、GPU和DSP的异构并行计算;目前高通已经迭代至第四代,骁龙855是第一个搭载第四代AIEngine的SoC。华为麒麟970、980分别引入寒武纪IP(1A/1H),使得手机SoC开始具备AI能力,在2019年6月华为发布麒麟810,华为与寒武纪合作终止,华为采用了自研AI芯片达芬奇架构(华为在2018年推出了达芬奇架构,对标寒武纪智能处理器IP——Cambricon-1A/1H/1M)。苹果2017年发布的A11芯片也具备了AI能力,附带NeuralEngine和开发平台CoreML用于机器学习。

(2)安防IPC

仍然以采用英伟达Jetson系列GPU为主。例如海康采用了英伟达JetsonTX1,大华睿智系列人脸网络摄像机采用的是英伟达TeslaP4GPU。另外国内三大安防厂商也在陆续采用ASIC芯片,例如海康、大华、宇视在前端智能化摄像机中采用Movidious的Myriad系列芯片,大华自研AI芯片用于新款睿智人脸摄像机。

(3)智能驾驶

L3级别以上自动驾驶芯片以英伟达Drive平台为主(包括Xavier和Orin两款SoC);华为将昇腾310用于自动驾驶域控制器MDC上,2020年已经通过车规级认证;英特尔Mobileye的EyeQ4-5被用在L3-5智能驾驶。但是目前整车厂和Tier1实际采用得最多仍然是以英伟达GPU为主。(在低级别的L1-L2辅助驾驶上,采用的是NXP、瑞萨等厂商的MCU芯片,不涉及深度学习。)

(4)智能音箱

目前智能音箱的语音语义识别均在云端完成推理计算,终端上没有AI专用处理单元。

五、AI芯片四大技术路线

由于AIGC、类GPT应用有鲶鱼效应,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈,因此国产AI芯片有逻辑上需求弹性,AI服务器也有空间。根据IDC数据,2021年全球AI服务器市场规模为156亿美元,预计到2025年全球AI服务器市场将达到318亿美元,预计21-25年CAGR仅仅19.5%。AI服务器的增长和规模总额恐怕无法满足类GPT类应用的百倍需求(例如生产地域、供应商产能、工人等限制),因此AI芯片可能会大量爆发,其次是AI服务器。

近期的行业领袖创业潮,会加速这种趋势。2012-2014年AI创业潮,造就2015-2017年AI机会。2022H2-2023新一轮AI大模型创业潮。

目前AI芯片主要玩家应对英伟达塑造的AI生态壁垒,选取了不同的商业策略:1)英伟达AI芯片依然是AI训练和推理最佳选择;2)寒武纪在走英伟达的路线;3)AMD在走部分兼容CUDA的路线;4)谷歌、华为、百度走的是“深度学习框架+AI芯片”自研路线。

1、英伟达:通用芯片GPU

英伟达目前在深度学习训练芯片市场占据绝对垄断地位,凭借的是:

(1)CUDA及cuDNN、TensorRT等一系列专为深度学习打造的软件工具链

CUDA是实现CPU和GPU分工的编程工具;cuDNN针对深度学习训练,将深度学习模型中对各层(Layer)的常见的操作(例如卷积convolution、池化pooling)以方便理解和使用的接口暴露给开发人员,从而使得开发人员可以快速搭建training的库;TensorRT针对推理环节,帮助模型自动减值和优化;由于开发者对于这些工具已经非常熟悉,由于学习成本的存在不会轻易迁移;

(2)深度学习框架和英伟达AI芯片的高度耦合

由于各家AI芯片厂商编程语言无法兼容,而深度学习框架厂商仅支持一家AI芯片就要投入巨大工程量,因此导致其最终只选择市占率最大的1-2家进行深度支持,英伟达在AI训练和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒。

3、AMD:部分兼容英伟达CUDA

AMD选择了部分兼容英伟达CUDA,借力英伟达生态的路线。AMD在2016年全球超算大会上推出了ROCm,也就是对标英伟达CUDA一样的智能编程语言,ROCm软件堆栈的结构设计与CUDA相似度很高;对标英伟达深度学习库cuDNN,AMD推出了MIOpen;对标英伟达深度学习推理框架TensorRT,AMD推出了Tensile;对标英伟达编译器NVCC,AMD推出了HCC。ROCm中包含的HIPify工具,可以把CUDA代码一键转换成ROCm栈的API,减少用户移植成本。

走兼容英伟达CUDA的路线其难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容。1)迭代永远慢一步:英伟达GPU在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新;但是AMD不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如AMD有可能刚宣布支持了CUDA11,但是英伟达已经推出CUDA12了)。2)难以完全兼容反而会增加开发者的工作量:像CUDA这样的大型软件本身架构很复杂,AMD需要投入大量人力物力用几年甚至十几年才能追赶上;因为难免存在功能差异,如果兼容做不好反而会影响性能(虽然99%相似了,但是解决剩下来的1%不同之处可能会消耗开发者99%的时间)。

六、AI芯片市场预期

1、ChatGPT快速渗透,AI产业迎发展新机

ChatGPT是由OpenAI公司开发的人工智能聊天机器人程序,于2022年11月发布,推出不久便在全球范围内爆火。从用户体验来看,ChatGPT不仅能实现流畅的文字聊天,还可以胜任翻译、作诗、写新闻、做报表、编代码等相对复杂的语言工作。ChatGPT爆火的背后是人工智能算法的迭代升级。

2、全球AI芯片有望达到726亿美元规模

随着AI应用的普及和算力需求的不断扩大,AI芯片需求有望率先扩张。根据IDC预测,中国AI算力规模将保持高速增长,预计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。在此背景下,IDC预测异构计算将成为主流趋势,未来18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升,2025年人工智能芯片市场规模将达726亿美元。

3、预测“文心一言”等LLM模型的推出将给国内GPU市场带来28.51亿美元的增量

据百度官方数据,“文心一言”基于文心大模型,参数规模为100亿,目前已经向公众开放,并将与搜索引擎业务整合。假设短期国内将出现5家与百度“文心一言”相似的企业,模型参数量与训练算力需求成比例。根据OpenAI公布的GPT3系列参数量及训练算力需求数据,可推算出文心大模型的单次训练算力需求为208.48PFlop/s-day。据Similarweb数据,2023年1月百度搜索引擎的访问量为4.9亿次,假设“文心一言”将整合到百度搜索引擎中,单日运营算力需求为125.08PFlop/sday。

根据NVIDIA数据,A100的FP64TensorCore算力为19.5TFlops,单价为1万美元。根据经验假设日常算力利用率为30%,则短期LLM模型将给国内GPU市场带来28.51亿美元的增量。长期LLM模型有望与搜索引擎结合,为GPU带来447.51亿美元的增量空间。假设未来ChatGPT将与搜索引擎结合,日活跃用户数量参考Google。根据Similarweb数据,2023年1月Google访问量为883亿。假设其他数据与测算方式不变,则ChatGPT与搜索引擎结合能够给GPU市场带来447.51亿美元的增量空间。

七、相关公司

九、参考资料

民生证券-电子行业专题研究:国产AI算力芯片全景图信达证券-电子行业:方向明确投资热情重燃,AI芯片上游机遇凸显华泰证券-电子行业专题研究:海外AI芯片公司3Q22业绩观察民生证券-电子行业周报:Chiplet,AI芯片算力跨越的破局之路中金公司-通信设备行业2023年展望:新基建守正出奇,新应用行稳致远东海证券-电子行业周报:百度发布类ChatGPT产品文心一言,关注AI芯片领域机遇上海证券-电子行业周报:国产Chiplet架构AI芯片发布,继续看好先进封装细分赛道申万宏源-计算机行业AIGC系列之七:国产AI芯片的百倍算力需求!中泰证券-电子行业:从ChatGPT看芯片产业机遇,ChatGPT引发算力革命,AI芯片产业链有望率先受益浙商证券-寒武纪-688256-深度报告:GPT算力系列深度·寒武纪(688256),中国AI芯片先行者华西证券-电子行业走进“芯”时代系列深度之四十九“AI芯片”:AI领强算力时代,GPU启新场景落地

摘自:https://zhuanlan.zhihu.com/p/646333922

阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/gushi/2024-05-01/163956.html,文章来源:网络cs,作者:亙句,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论