国产AI服务器调研报告
时间:2024-04-18 07:05:20 来源:网络cs 作者:胡椒 栏目:卖家故事 阅读:
国产AI服务器调研报告
国产AI服务器调研报告需求分析AI服务器简介AI服务器与普通服务器的区别AI服务器的分类及其特点国内AI服务器产商和产品介绍浪潮信息华为联想新华三 国产GPU选型华为昇腾寒武纪炬力 国产CPU选型海光信息:兆芯:龙芯中科:华为鲲鹏:飞腾信息:申威科技: 五、总结引用
国产AI服务器调研报告
数据、算法和计算力是深度学习的三大要素。其中,数据是基础,算法是工具,计算力是助推器。计算力的提高推动着深度学习的发展。计算力的重要支撑是通用的AI服务器或GPU服务器(以下简称AI服务器)。
需求分析
因业务需要,需部署国产化AI服务器,包括训练服务器和推理服务器。接下来,从国产化自研自控、生态兼容性、价格以及性能几个方面进行调研。
AI服务器简介
AI服务器是一种硬件平台,主要用于为人工智能提供计算力。
从数据存储角度看,AI服务器主要有两种架构,一种是混合架构,可以将数据存储在本地,另一种是基于云平台的架构,使用远程存储技术和混合云存储(一种联合本地存储和云存储的技术)进行数据存储。
从硬件架构来看,AI服务器是采用异构形式的服务器,在异构方式上可以根据应用的范围采用不同的组合方式,如CPU+GPU、CPU+TPU、CPU+其他的加速卡等。
现在市面上的 AI 服务器普遍采用 CPU+GPU 的形式,因为 GPU 与 CPU 不同,采用的是并行计算的模式,擅长梳理密集型的数据运算,如图形渲染、机器学习等。在 GPU 上,NVIDIA 具有明显优势,GPU 的单卡核心数能达到近千个,如配置 16 颗 NVIDIA Tesla V100 Tensor Core 32GB GPUs 的核心数可过 10240 个,计算性能高达每秒 2 千万亿次。且经过市场这些年的发展,也都已经证实 CPU+GPU 的异构服务器在当前环境下确实能有很大的发展空间。
AI服务器与普通服务器的区别
我们都知道普通的服务器是以 CPU 为算力的提供者,采用的是串行架构,在逻辑计算、浮点型计算等方面很擅长。因为在进行逻辑判断时需要大量的分支跳转处理,使得 CPU 的结构复杂,而算力的提升主要依靠堆砌更多的CPU核心数来实现。
但是在大数据、云计算、人工智能及物联网等网络技术的应用,充斥在互联网中的数据呈现几何倍数的增长,这对以 CPU 为主要算力来源的传统服务提出了严重的考验,并且在目前 CPU 的制程工艺、单个 CPU 的核心数已经接近极限,但数据的增加却还在持续,因此必须提升服务器的数据处理能力。因此在这种大环境下,AI服务器应运而生。
1、从服务器的硬件架构来看,AI 服务器是采用异构形式的服务器,在异构方式上可以根据应用的范围采用不同的组合方式,如 CPU+GPU、CPU+TPU、CPU+其他的加速卡等。与普通的服务器相比较,在内存、存储、网络方面没有什么差别,主要在是大数据及云计算、人工智能等方面需要更大的内外存,满足各种数据的收集与整理。
2、卡的数量不一致:普通的 GPU 服务器一般是单卡或者双卡,AI 服务器需要承担大量的计算,一般配置四块 GPU 卡以上,甚至要搭建 AI 服务器集群。
3、 独特设计:AI 服务器由于有了多个 GPU 卡,需要针对性的对于系统结构、散热、拓扑等做专门的设计,才能满足 AI 服务器长期稳定运行的要求。
AI服务器的分类及其特点
AI服务器主要有两种架构:训练型和推理型。训练型服务器需要提供高密度算力支持,而推理型服务器对算力要求较低[1]。
训练型服务器主要用于训练深度学习模型,需要进行大规模的并行计算,以便在大量数据中训练出一个复杂的神经网络模型。训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。训练型服务器通常采用GPU架构,相较CPU更适合进行大规模并行计算。
推理型服务器主要用于推理深度学习模型,需要进行大量的数据处理,以便使用训练好的模型进行推理预测。推理过程不需要像训练过程那样进行大规模的并行计算,因此对算力的要求较低。推理型服务器通常采用CPU架构,也可以采用FPGA、ASIC等其他架构,以便在不同的应用场景下提供更好的性能[2]。
国内AI服务器产商和产品介绍
浪潮信息、联想、华为、中科曙光、新华三等国产厂商在全球AI服务器市场占据领先地位。全球市场来看,AI服务器市场份额TOP10厂商中,国产厂商占据4席,累计市场份额超35%,其中浪潮信息以20.2%的份额排名第一。国内市场来看,AI服务器市场集中度较高,排名前三的供应商为浪潮信息、宁畅和华为,CR3(指业务规模前三名的公司或业务规模前三名的公司所占的市场份额,又称行业前3总量)达70.40%。
这些厂商的AI服务器产品都具有高性能、低能耗、高可靠性等特点,适用于各种应用场景。
浪潮信息
AI服务器产品矩阵丰富,产品力获国际认可。目前公司AI服务器主要产品型号包括NF5688M6、NF5488A5等,据公司官网,2021年上述两款AI服务器在国际权威AI基准测试MLPerf榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军,可满足包括自然语言理解等在内的多项AI训练需求。此外,公司在AI领域的积累还包括AI资源平台、AI算法平台等,具备大量算力解决方案实施经验。
NF5688M6:该服务器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合,据英伟达官网,每颗A800售价104000元,故该服务器芯片成本约96万元。该服务器在国际权威AI基准测试MLPerf榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军[3]。
DCG-6000:该服务器采用英特尔至强处理器和英伟达GPU,支持多种深度学习框架,如TensorFlow、Caffe、MXNet等。该服务器可提供高达16个GPU插槽,支持多GPU卡并行计算,适用于深度学习训练[3]。
DCG-9000:该服务器采用英特尔至强处理器和英伟达GPU,支持多种深度学习框架,如TensorFlow、Caffe、MXNet等。该服务器可提供高达32个GPU插槽,支持多GPU卡并行计算,适用于深度学习训练[3]。
浪潮信息是一家中国国内自主研发的企业,其自主研发的AI服务器采用了英特尔至强处理器和英伟达GPU。虽然,浪潮信息并没有自主研发的CPU或GPU芯片制作的AI服务器。但是,浪潮信息的NF5688M6服务器采用了英伟达A800 GPU,该服务器在国际权威AI基准测试MLPerf榜单中获得了训练冠军。
华为
华为AI服务器产品主要包括昇腾AI云服务器和Atlas AI服务器两大系列,分别适用于云端和边缘场景,基于华为自研的昇腾AI处理器,提供高性能、高效率、高兼容性的AI计算能力。
昇腾AI云服务器是一种可随时自助获取、可弹性伸缩、应用于AI训练/AI推理加速的云服务器,可为多种AI应用场景提供高效算力。昇腾AI云服务器支持Python接口和MindStudio图形接口,支持Tensorflow,Caffe,Mindspore等主流框架,支持25Gbps的高性能智能网卡,支持8*100Gbps RDMA网络的大规模训练集群[4]。
Atlas AI服务器是一种面向边缘场景的AI计算平台,支持实时、低延迟、高并发的AI应用,可应用于智慧城市、智慧零售、智慧园区、泛金融认证等领域。Atlas AI服务器包括模块、板卡、小站、服务器、集群等多种产品形态,可满足不同场景的需求。
华为AI服务器产品的核心优势是基于华为自研的昇腾AI处理器,该处理器采用Da Vinci架构,具有高性能、低功耗、高集成度、高可靠性等特点,可实现端、边、云的全场景AI计算。华为目前已推出Ascend 310和Ascend 910两款昇腾AI处理器,分别针对边缘和云端场景,提供8TOPS和256TOPS的计算性能。
华为服务器产品介绍:
产品 | 介绍 |
---|---|
Atlas 800训练服务器 | Atlas 800训练服务器是基于华为鲲鹏或Intel处理器+华为昇腾处理器的AI训练服务器,具有超强算力密度、高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域[5][6]。 |
Atlas 900训练集群 | Atlas 900训练集群是由128台Atlas 800训练服务器(型号:9000)构成的AI训练集群,拥有超强的算力和能效比,能够在59.8秒内完成ResNet-50模型的训练,刷新了世界纪录。该集群适用于大规模数据集和复杂模型的训练,支持天文探索、气候变化、生命科学等领域的科学研究[7][8]。 |
Atlas 300推理板卡 | Atlas 300推理板卡是基于华为昇腾310或昇腾910处理器的AI推理板卡,具有高性能、低功耗、高可靠等特点。该板卡支持多种AI场景的推理和视频分析,如检索聚类、OCR识别、语音分析、视频分析等[7]。 |
Atlas 500推理小站 | Atlas 500推理小站是基于华为昇腾310处理器的AI推理小站,具有小巧便携、高性价比等特点。该小站支持边缘场景的AI推理和视频分析,如智慧交通、智慧园区、智慧零售等[7][9]。 |
训练与推理服务器是一个生态系统,华为的整个生态系统介绍:https://zhuanlan.zhihu.com/p/637918406?utm_id=0
联想
联想ai服务器是一系列支持人工智能应用的基础设施产品,包括服务器、存储等。联想有两个ai服务器品牌,分别是联想问天和联想ThinkSystem。
联想问天是联想服务器的首个本地化品牌,专注于提供高性能、高效率、高可靠的ai算力解决方案。2 联想问天有多款ai服务器产品,例如:
联想问天WA7780 G3 AI大模型训练服务器: 可支持超大模型训练,如百亿级参数的GPT-3模型。采用Intel Xeon Scalable第三代处理器,可支持8块NVIDIA A800 GPU,每块GPU拥有40GB显存和1.6TB/s显存带宽,服务器总算力高达2PFLOPS。
联想问天WA5480 G3 AI训推一体服务器: 可满足中小模型训练和推理的需求,如图像识别、语音识别等。采用Intel Xeon Scalable第三代处理器,可支持4块NVIDIA A800 GPU或者8块NVIDIA A30 GPU,每块A800 GPU拥有40GB显存和1.6TB/s显存带宽,每块A30 GPU拥有24GB显存和1.2TB/s显存带宽,服务器总算力分别为1PFLOPS和0.5PFLOPS。
联想问天WR5220 G3 AI推理服务器: 可支持高并发、低延迟的ai推理应用,如智能视频分析、智能客服等。采用Intel Xeon Scalable第三代处理器,可支持8块NVIDIA A10 GPU或者16块NVIDIA T4 GPU,每块A10 GPU拥有24GB显存和600GB/s显存带宽,每块T4 GPU拥有16GB显存和320GB/s显存带宽,服务器总算力分别为0.32PFLOPS和0.13PFLOPS。
联想ThinkSystem 是联想的全球化品牌,提供广泛的ai场景解决方案,包括ai训练与推理、3D设计与可视化、视频处理以及工业数字化等。13 联想ThinkSystem也有多款ai服务器产品,例如:
联想ThinkSystemSR650 V3 AI训练与推理服务器:可支持多种类型的GPU和加速卡,适用于各种规模的ai应用。采用Intel Xeon Scalable第三代处理器,可支持多种类型的GPU和加速卡,如NVIDIA A100、A40、A30、A10、T4等以及寒武纪MLU270、MLU290等。
联想ThinkSystemSR670 V2 AI训练与推理服务器: 可支持高密度的GPU配置,适用于计算密集型的ai应用。采用Intel Xeon Scalable第二代处理器,可支持高密度的GPU配置,如8块NVIDIA A100或者16块NVIDIA T4等。
联想ThinkSystemSR675 V3 AI计算系统服务器: 可支持NVIDIA OVX计算系统,适用于元宇宙等复杂应用。采用AMD EPYC 7003系列处理器,可支持NVIDIA OVX计算系统,包括4块NVIDIA A100 GPU和1块NVIDIA BlueField-2 DPU。每个OVX计算系统拥有160GB显存和6.4TB/s显存带宽,服务器总算力高达2PFLOPS。
新华三
产品 | 介绍 |
---|---|
智能算力旗舰 | H3C UniServer R5500 G6,专为大模型训练而生,支持8颗NVIDIA A800 GPU,单机算力高达5PFLOPS,可实现超大规模的AI模型训练,如GPT-4等。 |
混合算力引擎 | H3C UniServer R5300 G6,适用于大规模推理/训练场景,支持多种类型的GPU和加速卡,如NVIDIA A100、A40、A30、A10、T4等,可满足不同的AI应用需求。 |
通用服务器 | H3C UniServer R4900 G6、R4700 G6、R6900 G6等,支持两路或四路Intel Xeon Scalable第三代处理器,提供高性能、高可靠、高扩展的计算平台,可应用于云计算、大数据、数据库等场景。 |
GPU优化服务器 | H3C UniServer R5500 G5、R5300 G5等,支持高密度的GPU配置,如8颗NVIDIA A100或16颗NVIDIA T4等,提供高性能、高能效的AI计算能力,可应用于元宇宙、图形视频处理等场景。 |
存储优化服务器 | H3C UniServer R4300 G5、R4300 G3等,支持大容量的存储设备,如SATA/SAS/NVMe SSD等,提供高速、高可靠的数据存储能力,可应用于数据分析、数据备份等场景。 |
国产GPU选型
目前,国内的AI服务器市场还是英伟达的GPU占据主导地位,但也有一些国产的AI芯片正在崛起,比如华为的昇腾系列,寒武纪的MLU系列,以及炬力的JL系列。这些芯片都有各自的特点和优势,可以满足不同的AI场景和需求。您可以根据您的具体应用和预算来选择合适的国产AI服务器。
华为昇腾
华为昇腾芯片(HUAWEI Ascend)是华为公司发布的一系列人工智能处理器,采用自家的达芬奇架构,支持全场景AI应用。目前,华为昇腾芯片包括以下几款产品:
型号 | 描述 |
---|---|
昇腾910 | 云端智能处理器,采用7nm工艺,集成了32颗达芬奇AI核心,支持高达256Tops的AI性能[10] |
昇腾310 | 边缘端智能处理器,采用12nm工艺,集成了2颗达芬奇AI核心,支持高达16Tops的AI性能[10] |
昇腾710 | 云端智能处理器,采用16nm工艺,集成了8颗达芬奇AI核心,支持高达64Tops的AI性能[7] |
昇腾610 | 边缘端智能处理器,采用16nm工艺,集成了1颗达芬奇AI核心,支持高达8Tops的AI性能[7] |
华为基于这些芯片,推出了多款Atlas人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态。这些解决方案可以与主机CPU通过PCIe接口进行通信,并支持华为CANN异构计算架构实现多芯多卡的互联和扩展[4]。为还提供了丰富的AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链[4]。
寒武纪
寒武纪的MLU系列是一系列面向云端和边缘端的AI芯片和加速卡,基于寒武纪自主研发的MLUarch架构,支持多种精度和算法,可用于AI训练和推理。目前,寒武纪的MLU系列包括以下几款产品:
型号 | 描述 |
---|---|
MLU370 | 云端智能芯片,采用先进的chiplet技术,集成了4颗思元370核心芯片和1颗MLU-Link互联芯片,支持高达1.5Tops/W的AI性能 |
MLU290 | 云端智能芯片,采用7nm工艺,集成了2颗思元290核心芯片和1颗MLU-Link互联芯片,支持高达1.3Tops/W的AI性能 |
MLU220 | 边缘端智能芯片,采用12nm工艺,集成了1颗思元220核心芯片,支持高达0.5Tops/W的AI性能 |
寒武纪基于这些芯片,推出了多款AI加速卡,如MLU370-X8、MLU370-S4、MLU290-M5、MLU220-M.2等。这些加速卡可以与主机CPU通过PCIe接口进行通信,并支持寒武纪MLU-Link技术实现多芯多卡的互联和扩展15。寒武纪还提供了Cambricon NeuWare平台,支持TensorFlow、PyTorch等主流框架,并提供了丰富的算子库、工具包和优化器。目前,寒武纪MLU系列已经与多家服务器厂商合作,提供了多款AI服务器产品,例如:
富士通PRIMERGY GX2570 M5:搭载4张寒武纪MLU290-M5加速卡,支持高达128Tops的AI性能。
炬力
炬力AI加速卡是一款基于炬力集成的无线物联网SoC芯片的AI加速卡,可以用于智能家居、智能穿戴、智能安防等领域的AI应用。炬力AI加速卡的性能数据暂时没有找到,但是根据其他国产AI加速卡的数据1,可以推测炬力AI加速卡的算力和显存应该不会太高,可能比不上英伟达的T42或者华为的Atlas 300T Pro。
国产CPU选型
纵观全球,Intel、AMD两大巨头领跑通用CPU(桌面与服务器CPU)市场;国内,国产CPU正处于奋力追赶的关键时期,以飞腾、鲲鹏、海光、龙芯、兆芯、申威等为代表的厂商正全力打造“中国芯”[11][12][13]。这些企业的产品涵盖了x86、Arm、MIPS、Alpha四大架构[13]。
海光信息:
成立于2014年,总部位于上海。海光信息的产品线涵盖了x86、Arm、MIPS架构,其产品包括海光1号、海光2号和海光3号等,分别应用于不同领域的高端计算和数据中心建设。海光CPU是基于AMD的x86指令集进行自主研发的,具有高性能、低功耗、安全可靠等优点[11]。在AI领域,海光信息推出了多款适用于AI应用的处理器产品,如海光7000系列和海光5000系列等。这些处理器具有高性能、低功耗、安全可靠等优点,可以满足AI应用对于计算性能、内存带宽、I/O接口等方面的要求。海光信息与国内一家知名互联网企业合作,推出了基于海光CPU的AI服务器。这款服务器采用了海光7000系列处理器,具有高性能、低功耗、安全可靠等优点,适用于各种AI应用场景。这款AI服务器在图像识别、语音识别、自然语言处理等应用场景中表现优异,得到了用户的高度认可。
兆芯:
成立于2014年,总部位于北京。兆芯的产品线涵盖了x86、Arm、MIPS架构,其产品性能优异,广泛应用于服务器、超级计算机、云计算、大数据等领域。兆芯与北京百度网讯科技有限公司达成了产品兼容互认证明。百度飞桨(PaddlePaddle)在兆芯系列国产处理器平台上功能、性能、兼容性、可靠性、稳定性等均可满足用户应用需求。这种互认证明的达成将为AI开发者提供基于国产化环境的深度学习平台。
龙芯中科:
成立于2002年,总部位于北京。龙芯中科的产品线涵盖了MIPS架构,其产品性能优异,广泛应用于服务器、超级计算机、云计算、大数据等领域。龙芯中科通过自主研发的LoongArch指令集,实现了完全自主的CPU设计,并且在通用计算、网络安全、数据中心等领域得到了广泛应用。在AI领域,龙芯中科推出了多款适用于AI应用的处理器产品,如龙芯3A1000、龙芯3B1500等,这些处理器在AI计算、图像识别、语音识别等方面具有高性能表现。
华为鲲鹏:
华为鲲鹏系列CPU采用自家的达芬奇架构,搭载华为自主研发的鲲鹏系列AI处理器,支持全场景人工智能应用,性能强劲[11]。鲲鹏系列CPU基于ARM V8架构,处理器核、微架构和芯片均由华为自主研发设计。其产品广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。
飞腾信息:
飞腾CPU由国防科技大学研究团队创造,起步于1999年。飞腾信息的产品线涵盖了x86、Arm、SPARC架构,其产品性能优异,广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。飞腾信息国产CPU在AI服务器上也有一些应用。飞腾信息专注于国产CPU的研发和生产,其产品广泛应用于政府、金融、能源等领域。在AI领域,飞腾信息推出了多款适用于AI应用的处理器产品,如飞腾1000、飞腾2000等。飞腾与百度合作推出了基于飞腾1000系列国产CPU的AI服务器,这款服务器可以应用于百度云、百度大脑等场景,为人工智能应用提供强大的计算支持。
申威科技:
成立于1990年,总部位于江苏无锡。申威科技的产品线涵盖了Alpha架构,其产品性能优异,广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。在AI领域,申威科技推出了多款适用于AI应用的处理器产品,如申威1600、申威1700等。这些处理器具有高性能、低功耗、安全可靠等优点,可以满足AI应用对于计算性能、内存带宽、I/O接口等方面的要求。申威科技与国内一家知名互联网企业合作,推出了基于申威SW-6401和SW-6402处理器的AI服务器。这款服务器采用了100G PaddlePaddle飞桨深度学习框架,支持2个2.6GHz核心的处理器,适用于高吞吐量的计算密集型工作负载。这款AI服务器在图像识别、语音识别、自然语言处理等应用场景中表现优异,得到了用户的高度认可。
五、总结
目前,国内的AI服务器市场还是英伟达的GPU占据主导地位,综合考虑服务器厂商、国产化加速卡和国内自研CPU以及当前的需求,当前选择华为的Atlas中的鲲鹏+昇腾是当前最优选择,原因有如下几点:
华为AI服务器搭载了自研的昇腾系列AI处理器,具有高性能、高能效、高集成度等优势。华为AI服务器支持端、边、云的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程。华为AI服务器提供了丰富的产品形态,包括模块、板卡、小站、服务器、集群等,可以满足不同的业务需求和场景。华为AI服务器可以对接华为云的AI开发平台ModelArts,提供端到端的模型生产线、监控工具、MLOps能力、AI加速套件等,实现AI高效开发、运行和迁移。引用
阅读本书更多章节>>>>[1]. AI服务器是什么意思?AI服务器和普通服务器的区别 - 知乎 (zhihu.com)
[2]. 国产AI服务器分类、技术及产品(2023) - 知乎 (zhihu.com)
[3]. 性能提升超越摩尔定律!浪潮AI服务器再创MLPerf V2.0训练评测最佳成绩 - 知乎 (zhihu.com)
[4]. 昇腾AI云服务器_ECS-华为云 (huaweicloud.com) [5]. Atlas
800-AI服务器-训练服务器(型号:9000)-华为企业业务 (huawei.com) [6]. Atlas
800-AI服务器-训练服务器(型号:9010)-华为企业业务 (huawei.com)
[7]. 昇腾计算-华为Ascend-AI计算-华为企业业务 (huawei.com) [8]. 昇腾软硬件全栈简介 - 知乎
(zhihu.com) [9]. 华为 Atlas 人工智能平台-昇腾社区 (hiascend.com) [10]. 昇腾(HUAWEI
Ascend) 芯片 | 海思官网 (hisilicon.com) [11]. 详解六大国产CPU处理器 - 知乎 (zhihu.com)
[12]. 16nm工艺、自研32核心!国产x86 CPU来了_腾讯新闻 (qq.com) [13]. 你知道的国产cpu有哪些? - 知乎
(zhihu.com)
本文链接:https://www.kjpai.cn/gushi/2024-04-18/159898.html,文章来源:网络cs,作者:胡椒,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!
下一篇:返回列表