来源:计算机 牛骨挖掘机股票杠杆怎么弄
天风计算机团队
作者 | 缪欣君
摘要
大模型时代来临,加速计算需求大幅增加
以Transformer结构为主的生成式带动了加速计算的需求突破式增长,随着Scaling law的进一步拓展,Nvidia数据中心的收入从2024财年Q1的43亿美金增加至2025财年一季度的226亿美金,同期超威电脑和DELL的AI服务器收入也大幅增加。我们预计未来针对训练和推理的AI算力需求有望长时间高景气,据IDC及TheNextPlatform统计,2023年全球AI服务器市场规模预计将超500亿美元,2027年预计将超946亿美元。在这一场科技盛宴中,Nvidia凭借前瞻的布局、CUDA生态的壁垒、从P100到未来R100芯片的快速迭代以及完善的集群产品占据了主要的市场地位。
美国限制叠加对AI算力的需求,自主可控的AI芯片公司有望重新占领部分国内市场,寒武纪凭借优秀的软硬件能力有望脱颖而出
美国从2022年开始逐步加强对国产AI芯片的限制,从将国内AI芯片企业列入实体清单到限制Nvidia的芯片出口,国内企业获取海外算力的难度日渐加大,同时从2024年开始,运营商和地方政府不断加强对算力基础设施的建设力度,政策上也在不断扶持自主算力,在此背景下针对自主可控的AI算力的需求呼之欲出。参考海外市场,在这一广阔的市场机遇中,市场份额有望相对集中但难以一家独大,除去英伟达,我们看到Google和AMD都在努力提升自身芯片的能力。
寒武纪是AI芯片的元老,自2016年成立至今,从AI芯片授权走向自研云端AI芯片并形成了完整的软硬件产品与生态
寒武纪成立于2016年,创始人兼董事长陈天石博士在中科院时就参与到AI芯片的学术前沿研究并发表多篇论文,Google在随后发表的论文中也参考了陈天石博士的研究成果。公司从芯片IP授权起步,逐步设计并自研了包括边缘产品线、云端产品线在内的多款芯片,并从底层自建了完善的软件体系,包括底层Runtime、构建算子的编程语言BANG和较为完备的算子库。目前,智能计算集群系统业务和云端芯片构成了主要的收入来源,2023年公司实现营业收入7.09亿元。作为领先的国产AI芯片企业,寒武纪拥有较强的产品研发能力和较高的市占率,在AI算力需求高速增长、自主可控的AI算力需求不断加速、算力基础设施有望加速建设的背景下,寒武纪有望成为国内自主AI算力供应商中的主要参与者。
建议关注:
自主AI算力的国内企业:寒武纪
风险提示:AI算力景气度下降的风险、公司产品供应端的风险、AI芯片竞争加剧的风险、客户集中度较高的风险
01
大模型时代来临,加速计算需求突破式增长
1.1. 生成式AI带动训练和推理的AI芯片需求快速上升
Transformer对AI芯片需求快速上升,算力缺口持续扩大。GPT和Sora等基于Transformer架构的生成式模型遵循规模效应(ScalingLaw)。ScalingLaw由OpenAI于2020年提出,他们认为基于Transformer的自然语言和其他模态的模型,其模型性能与模型参数量存在幂律关系。而模型参数量也与实施大模型训练及部署硬件的计算存储能力直接相关。OpenAI公司在2018年对AI计算的趋势与硬件发展趋势做了分析,基于Transformer的AI模型的算力需求增速远大于传统的CNN模型,并远超依据摩尔定律的演进速度,硬件算力的增长速度与大模型所需的算力水平之间的差距越来越大。
全球AI服务器出货加速,预计26年AI服务器占比达15%。据IDC及TheNextPlatform统计,2023年全球AI服务器市场规模预计将超500亿美元,2027年预计将超946亿美元,2023年-2027年CAGR达17.41%。出货量方面,根据TrendForce数据,2023年AI服务器出货量约120万台,占据服务器总出货量的近9%,年增长达38.4%。预计2026年,AI服务器出货量为237万台,占比达15%,复合年增长率预计保持25%。
1.1.1. Nvidia数据中心与AI服务器厂商收入突破式增长
自FY24Q2起,英伟达数据中心收入加速增长,从FY24Q1的43亿美元增长至FY24Q2的103亿美元,FY24Q2同比增长率达171%,主要系生成式AI竞争已经展开,各大云服务提供商发布了大型NVIDIAH100AI基础架构,以及领先的企业IT系统和软件提供商宣布与英伟达合作,将其AI技术引入各行各业。此后,在FY24Q3、FY24Q4和FY25Q1的同比增长率分别达到282%、408%和426%,使其在FY25Q1的收入达到226亿美元。同时,超微电脑(Supermicro)服务器与存储系统的营收显著增长,从FY24Q1的19.67亿美元激增至Q3FY24的36.99亿美元,同比增长率高达217.82%。此外,戴尔的AI服务器收入在FY24达到16.20亿美元,同比增长率达625.48%,并在FY25Q1单季度营收高达17亿美元,进一步表明了AI服务器市场的强劲需求。
1.1.2. 互联网公司资本支出因AI逐步增加
自2023年Q2起,以微软、谷歌、亚马逊、Meta为首的头部互联网公司资本支出整体呈上升趋势,多数投向AI及云服务基础设施。其中微软、谷歌资本支大幅增长,创下新高,微软资本支出由2022年Q2的69亿美元增长至2024年Q1的110亿美元,近两年CAGR达26.26%,主要用于通过融资租赁收购的资产来满足云和AI产品的需求;谷歌资本支出由2022年Q2的68亿美元增长至2024年Q1的120亿美元,近两年CAGR达32.84%,主要系其在云计算和AI模型算力需求上的大力投资,以保持技术基础设施领域的领先地位;2024Q1亚马逊资本支出为139亿美元,位居四大头部互联网公司第一,且公司宣布计划在2024年大幅增加资本支出,以推进AWS云服务和生成式AI技术。
1.2. Nvidia软硬件体系生态紧耦合,占据AI芯片主要份额
1.2.1 从P100到R100,英伟达8年期间多次迭代AI芯片
P100到B100,英伟达GPU性能实现超千倍性能增长。英伟达数据中心产业从PascalP100到BlackwellB100历经8年演进,GPU性能实现了1053倍的增长。性能增长部分得益于浮点精度的降低,从PascalP100、VoltaV100和AmpereA100GPU的FP16性能下降了四倍,转变为BlackwellB100所使用的FP4格式。但对于大型语言模型训练,精度的降低影响较小,主要得益于数据格式的优化、软件处理的改进以及硬件中应用的复杂数学技术。
B100发布投产,预计2024年H2发货。2024年3月,英伟达发布了BlackwellGPU架构平台,6月2日,英伟达CEO黄仁勋在COMPUTEX2024宣布,英伟达Blackwell芯片现已开始投产。预计BlackwellB100将在24年H2开始发货,并持续供应至2025年,或将成为英伟达24-25年营收重要驱动。
多年积累卡间互联技术为集群搭建打造全面解决方案。NVLink是世界首项高速GPU 互连技术,与传统的PCIe 系统解决方案相比,能为多GPU 系统提供更快速的替代方案。NVLink技术通过连接两块NVIDIA显卡,能够实现显存和性能扩展,从而满足最大视觉计算工作负载的需求。
Nvlink经历了5次迭代,卡间带宽增长多倍。2018年,NVLink首次亮相被用于连接两台超级计算机——Summit和Sierra的GPU和CPU,成为了高性能计算领域的焦点。2020年,第三代NVLink将每个GPU的最大带宽翻倍提高至600GB/s,每个NvidiaA100 Tensor Core GPU中都有十几条互连通道。如今一个NVIDIA H100 Tensor Core GPU中包含18条第四代NVLink互联通道,这项技术已承担了一项新的战略任务——帮助打造全球领先的CPU和加速器。第五代NVLink大幅度提高了大型多GPU系统的可扩展性。单个NVDIA BlackwellTensor Core GPU支持多达18个NVLink100GB/s连接,总带宽可达1.8TB/s,比上一代产品提高了两倍,是PCle5.0带宽的14倍之多。
英伟达在服务器互联上推出NVSwitch,为组网提供卓越的性能。通过连接多个NVLink,NVSwitch在单个节点内和节点之间以全NVLink速度提供All-to-AllGPU通信,凭借NVLink与NVSwitch的结合,英伟达赢得了MLPerf1.1,这是第一个全行业范围内的AI基准测试。前三代NVSwitch可在一个NVLink域内直连多达8个GPU的数量,最大带宽可达900GB/s。
最新的NVLinkSwitch是首款ASIC芯片技术机架级交换机,能够在无阻塞计算结构中支持多达576个全连接GPU,以惊人的1800GB/s的速度互连每对GPU。它还支持完整的多对多通信。NVLink和NVLinkSwitch是整个NVIDIA数据中心解决方案的必要基础模组,该解决方案融合了来自NVIDIAAI Enterprise软件套件和NVIDIANGC目录中的硬件、网络、软件、库以及优化的AI模型和应用。
InfiniBand和Spectrum解决方案为组网通信提供卓越优势。InfiniBand是一种高性能通信技术协议,起源于21世纪初,旨在解决传统PCI总线在数据传输中的瓶颈问题。2000年,InfiniBand架构规范1.0版本发布,引入RDMA协议,提供低延迟和高带宽的I/O性能。Mellanox公司是InfiniBand技术的关键推动者,自2001年推出首款产品后,逐渐成为市场领导者。尽管面临英特尔和微软的退出,InfiniBand仍成功应用于高性能计算和存储设备连接。2004年成立的OFA组织与IBTA协同推进InfiniBand标准。到2009年,InfiniBand在TOP500超级计算机中广泛应用。2015年,InfiniBand在超级计算机内部连接技术上首次超过以太网。2019年,Nvidia以69亿美元收购Mellanox,进一步巩固了其在高性能计算领域的领导地位。
2022年3月22日,英伟达发布新一代的以太网平台Spectrum-4,将为大规模数据中心基础设施提供所需的超高网络性能和强大安全性。作为全球首个400Gbps端到端网络平台,NVIDIASpectrum-4的交换吞吐量比前几代产品高出4倍,达到51.2Tbps。2023年5月29日,英伟达宣布推出NVIDIASpectrum-X网络平台,是业界第一款专为AI打造的以太网网络平台,凭借NVIDIASpectrum-4以太网交换机与NVIDIA BlueField-3SuperNIC紧密耦合,将AI性能和能效提升至传统以太网的1.6倍,可为AI、机器学习、自然语言处理以及各种行业应用带来卓越性能,在英伟达的所有软、硬件端到端平台上得到了全面优化和验证。
1.2.2 CUDA生态,强大的生态造就高壁垒
CUDA生态在AI时代造就高壁垒。2007年CUDA1.0诞生,这一版本首次向开发者开放了GPU的通用计算潜能,为开发者打开了进入GPU编程领域的大门;随后在2008年,CUDA2.0的推出加入了对双精度浮点运算的功能,对于科学研究和工程模拟等高精度计算任务具有重大意义;2010年,CUDA3.0进一步增强了GPU处理并行任务的能力,为执行更为复杂的计算工作提供了强有力的支持;2012年,CUDA5.0的问世带来了动态并行性的特性,GPU能够在运行时自我复制内核从而显著提高了程序的适应性和执行效率。这些版本不仅促进了CUDA自身的技术演进,同时也在GPU并行计算的历史上占据了重要的位置。
02
自主可控带来国产AI芯片历史机遇,寒武纪有望脱颖而出
2.1. 国内AI芯片与智算中心急速增长
生成式AI对中国AI市场的发展带来了明显的拉动作用,丰富的应用场景和对技术创新迭代的热忱,让中国市场对于AI服务器的关注度和需求量均明显增长。根据IDC的数据,2023年上半年中国加速服务器市场规模达到31亿美元,同比2022年上半年增长54%,且IDC预测,到2027年中国加速服务器市场规模将达到164亿美元。随着生成式AI任务的不断增加,市场对于高性能和高能效的AI服务器需求将持续增长,未来的AI服务器将注重提高计算能力和处理效率,适应更复杂、更大规模的AI应用。
NVIDIA的财务数据进一步验证2023年中国AI芯片的市场规模高速增长。英伟达在2024财年(截止2024年1月28日)的数据中心收入中大约14%来自于中国,23财年则有19%来自于中国,而其数据中心在2024财年的营业收入约为475亿美元,我们计算出英伟达在2024财年(接近2023年自然年)向中国销售了66.5亿美元的数据中心芯片,而2023财年中国区数据中心的收入为28.5亿美金,同比增长约134%。
大模型兴起促进训练市场增长,且未来预计推理占比将攀升,到2027年推理占比将达72.6%。从工作负载来看,2023年,大模型的兴起推动了训练服务器的增长速度,IDC数据显示,中国2023上半年训练工作负载的服务器占比达到49.4%,预计全年的占比将达到58.7%,但随着训练模型的完善与成熟,模型和应用产品逐步进入投产模式,处理推理工作负载的AI服务器占比将随之攀升。IDC预计,到2027年,用于推理的工作负载将达到72.6%。
2024年以来,政府与运营商也在积极部署构建算力基础设施。首先三大运营商陆续发布大额招标,中国移动2024-2025年新型智算中心集采项目计划采购7994台人工智能服务器及配套产品;2024年中国联通发布《2024年中国联通人工智能服务器集中采购项目资格预审公告》,计划采购人工智能服务器2503台。中国电信AI算力服务器(2023-2024年)集中采购规模预计达到4175台,项目总额有望超80亿元。国内各地方政府的智算中心招标也逐步开启,包括佛山、山东省、襄阳市、宜昌、武汉等地方均开始了招标,其中不乏有投资额超过10亿的大项目规划。
2.2. 美国芯片禁令政策,自主算力政策扶持
美国从2022年以来逐步收紧对中国的AI算力供应,行动措施包括将AI芯片厂商列入“实体清单”和禁止向中国出口高性能芯片。最早在2022年8月26日,美国要求英伟达将需要获得许可才能向中国出口任何基于最新架构的 A100 GPU 或 DGX/HGX等系统,随后2022年12月15日,美国商务部将包括寒武纪在内的36家企业列入实体清单。2023年10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可,限制条款已于10月23日生效。2024年1月美国商务部开始要求美国IaaS提供商验证外国客户的身份,并制定措施防止中国使用美国IaaS产品进行AI训练。我们认为针对中国的AI芯片禁令可能拖慢中国在这次生成式AI的步伐,但同时也给予了自主AI芯片供应商广阔的市场机遇。
与此同时,国内顶层不断强调AI产业发展的重要性,从中央到地方不断发布支持算力基础设施的政策文件。《2024年政府工作报告》提出,在人工智能方面,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群;算力建设方面,适度超前建设数字基础设施,加快形成全国一体化算力体系,随后北京、上海、深圳等地也陆续发布指导性文件,对当地的算力基础设施建设进行规划。
2.3. 对比海外,AI芯片市场份额集中但难以一家独大
在海外市场,英伟达占据芯片市场主导地位,但Google与AMD等公司依然有望在AI浪潮中占据一定市场份额。根据TechInsights的数据,2023年,英伟达的GPU出货量达到了3.8百万颗,位居第二名的是Google的TPU,其出货量达到200万颗,其他厂商的出货量约为50万颗左右。自2015年推出自研的TPU以来,Google在2023年自用的TPU芯片量已经突破了200万颗大关,就出货量来看,Google在AI加速器市场的份额约31.7%,此外,AMD的数据中心业务部门在2024财年Q1营收23.37亿美元,同比增长80%,远高于去年四季度的38%的同比增幅,这反应了其第四代EPYCCPU以及InstinctGPU(主要MI300系列AI芯片)出货的快速增长,在24财年Q1的财报会议上,AMD今年的AI芯片目标收入将提高到40亿美金,MI300系列GPU市场表现良好,已锁定微软、Meta和Oracle的采购订单。我们认为AI加速芯片在数据中心芯片的份额快速提升,Nvidia依靠完善的软硬件生态成为全球AI芯片的领导者,但仍然有包括Google和AMD等厂商有望占据一定市场份额。
03
AI芯片元老,从IP到芯片
3.1. 从IP到自研芯片,寒武纪为AI芯片而生
中科寒武纪是AI芯片的元老级公司,成立于2016年3月。同年公司推出终端智能处理器产品,包括寒武纪1A、寒武纪1H和寒武纪1M系列智能处理器,以IP形式进行销售,快速实现了技术的产业化输出,其中寒武纪智能处理器IP产品已集成于超过1亿台智能手机及其他智能终端设备中。
2018年公司开始自研芯片,推出思元100云端智能芯片,2019年推出思元270云端智能芯片及加速卡。2019年11月,公司推出思元220边缘智能芯片及加速卡,实现了终端、云端、边缘端产品的完整布局。
2020年公司上市,同年公司推出思元290训练芯片和玄思1000智能加速器,补足人工智能训练产品线,标志着寒武纪已初步建立“云边端一体、软硬件协同、训练推理融合”的新生态。2021年,公司发布训推一体的思元370智能芯片及加速卡,同年设立子公司行歌科技,开展智能驾驶芯片的研发和产品化。
2022年,公司基于思元370推出智能加速卡MLU370-X8/M8和训练整机玄思1001智能加速器。年末公司及部分子公司被美国商务部列入“实体清单”。2023年,公司持续重点迭代优化新一代智能处理器微架构和指令集,针对自然语言处理大模型、视频图像生成大模型以及推荐系统大模型的训练推理等场景进行重点优化,将在编程灵活性、易用性、性能、功耗、面积等方面提升产品竞争力。例如,与智象未来达成了算力产品的合作以及视觉多模态大模型的深度适配,在语言大模型领域与百川智能等头部客户进行了大模型适配,并获得了产品兼容性认证,产品性能达到国际主流产品水平。
3.2. 核心团队出自中科院,董事长长期耕耘AI芯片,引领产业方向
公司董事长陈天石持股28.69%,为公司最大股东。公司董事包括陈天石、刘新宇、刘少礼、王在和叶淏尹。其中刘少礼和王在兼任副总经理,分别毕业于中科院计算所和中国科学技术大学。叶淏尹兼任副总经理、财务负责人和董事会秘书。
董事长陈天石多年从事人工智能领域基础科研工作,理论功底坚实,研发经验丰富。陈天石博士毕业于中国科学技术大学计算机软件与理论专业,曾在中科院计算所担任研究员、博士生导师,在人工智能和处理器芯片等相关领域从事基础科研工作十余年,积累了坚实的理论功底和丰富的研发经验,创办并领导公司在智能芯片方向快速跻身全球初创公司前列。陈天石博士是寒武纪系列商用智能芯片的奠基人之一,负责把控公司整体的技术方向、业务进程以及战略发展方向,并牵头开展学术研究和产业化工作。
陈天石博士是AI芯片的开创者之一,在14年就提出产业进展中成果得到同行认可。陈天石等研究人员在2013年提出了全球首个深度学习处理器,围绕DianNao的研究《Diannao: A Small-Footprint High-Throughput Accelerator for UbiquitousMachine-Learning》获得ASPLOS在2014年的最佳论文且是亚洲首份获得计算机硬件顶会的最佳论文。接着在2014年、2015年、2016年,寒武纪又通过论文宣布了对全球首个多核深度学习处理器、摄像头上的智能识别IP、全球首个神经网络指令集的研究。Google发布的TPU论文,全文共引用了寒武纪团队成员前期发表的6篇论文(表2第2~第7篇论文),并有专门的段落回顾寒武纪团队这一系列工作,并且在提到DaDianNao/PuDianNao/ShiDianNao时还专门用英文注释这几个名字的含义(Bigcomputer, general computer, vision computer),对其前期工作显示了相当的尊重;在世界范围内,很少有其他工作能受到Google同行如此程度的关注,足以看出陈天石博士在AI芯片中的前瞻性和贡献度。
公司技术团队配备齐全,如今更加聚焦于云端AI芯片领域。公司在技术研发、供应链、产品销售等方面均建立了成熟团队,核心骨干均有多年从业经验。公司核心研发人员大多拥有计算机、微电子等相关专业的学历背景,毕业于国内外著名的高校和研究所;多名骨干成员拥有知名半导体公司多年的工作经历。数量上,2019-2021公司研发人员数量持续提升,2023年有所下降主要系业务战略规划调整,但我们认为公司目前更加聚焦在云端AI芯片领域。从占比来看,研发团队中本科及以下学历占比21.54%,73.01%的研发人员为硕士学历,5.45%为博士学历。2023年公司研发费用由2022年的15.23亿元缩减至11.18亿元,但人均研发费用由2022年的126.39万元提升至148.67万元,保持了2020-2022年的增长趋势。
股权激励目标进一步彰显了公司的业绩增长信心。2023年11月18日,公司发布了《中科寒武纪科技股份有限公司2023年限制性股票激励计划(草案)》,股权激励针对收入提出了要求,目标值上,在2024年营业收入不低于11亿元,第二个归属期上24-25年累计收入不低于26亿元,第三个归属期24-26年累计收入不低于46亿元。结合公司2023年收入仅7.09亿元,此次股权激励彰显了公司未来充足的业绩增长信心。
04
寒武纪技术能力优秀,具备AI芯片完整软硬件技术栈
4.1. 通用智能芯片系统复杂,寒武纪具备软硬件全栈技术
通用智能芯片技术复杂、覆盖面广,而寒武纪是业内少数系统掌握相关技术的企业之一。通用型智能芯片及其基础系统软件的研发需要全面掌握核心芯片与系统软件的大量关键技术,技术难度大、涉及方向广,是一个极端复杂的系统工程,其中处理器微架构与指令集两大类技术属于最底层的核心技术。寒武纪在智能芯片领域掌握了智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等七大类核心技术;在基础系统软件技术领域掌握了编程框架适配与优化、智能芯片编程语言、智能芯片编译器、智能芯片高性能数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境等七大类核心技术。
4.2. 产品体系从IP到端侧再到云端,软硬件深度耦合
从IP授权到端侧芯片再到云端芯片,伴随AI浪潮快速变迁。2016年,公司推出的首款智能处理器IP寒武纪1A,随后于2017年、2018年分别推出了升级版本寒武纪1H和寒武纪1M,该等处理器IP已累计应用于过亿台终端设备中。2018年和2019年,公司相继发布云端推理芯片思元100和思元270,目前已成功部署在包括联想、浪潮在内多个厂商的服务器中。2019年11月,随着边缘AI系列产品思元220芯片及加速卡产品的发布,标志着公司在云、边、端实现了全方位覆盖,形成了完整的智能芯片产品群。2021年,公司发布基于第四代智能处理器微架构MLUarch03的推训一体思元370智能芯片及加速卡。思元370是寒武纪首款采用Chiplet技术的人工智能芯片,其算力是寒武纪第二代云端推理产品思元270算力的2倍。2022年,公司基于思元370云端智能芯片,推出了新款智能加速卡MLU370-X8/M8、训练整机玄思1001智能加速器(MLU-X1001)。2023年,公司的新一代智能处理器微架构和指令集正在研发中。
软件栈方面,寒武纪拥有全面的基础软件系统平台,专门针对其云、边、端的智能处理器产品打造的软件开发平台,采用端云一体、训推一体架构,可同时支持寒武纪云、边、端的全系列产品。寒武纪基础软件系统平台包括BANG异构计算平台、计算库和工具、AI框架和开源组件。其中,BANG异构计算平台由3部分构成,包括编译、运行和调试。计算库和工具包括4个部分,分别是推理引擎、通信、云工具集和实用工具。在AI框架方面,寒武纪提供了MagicMind等推理引擎,支持Pytorch、TensorFlow框架,同时提供TorchDump作为网络精度调试工具。此外,寒武纪可在一定程度上兼容DALI、Triton等开源组件。寒武纪基础软件栈可为包括互联网、金融、能源、运营商在内的行业服务提供有效支撑。
4.2.1 硬件覆盖IP和云边端一体化产品,单芯片最大算力高达256TOPS
(1)寒武纪初代处理器IP陆续推出1A、1H和1M,累计出货量过亿。2016年底,公司推出了全球首款商用终端智能处理器IP产品寒武纪1A。此后,公司推出1H、1M处理器IP。其中,Cambricon-1M系列作为寒武纪第三代架构,具备了更优性能、更低功耗和更强的完备性,混合支持fp32/fp16/int32/int16/int8/int4位宽,增加了压缩解压缩模块。在上代产品的基础上,可支持个性化人工智能应用,也可使用于多路视频实时处理和自动驾驶等领域。该系列高、中、低产品分别是Cambricon-1M-4K、Cambricon-1M-2K和Cambricon-1M-1K,在1GHz主频下,进行8位定点人工智能运算的峰值速度分别为8/4/2Tops,进行16位定点人工智能运算的峰值速度分别为4/2/1Tops,进行32位定点人工智能运算的峰值速度分别为1/0.5/0.25Tops。
(2)寒武纪边缘产品MLU220发布于2019,2023年累计销量过百万。边缘计算是近年来兴起的一种新型计算范式,在终端和云端之间的设备上配备适度的计算能力,一方面可有效弥补终端设备计算能力不足的劣势,另一方面可缓解云计算场景下数据隐私、带宽与延时等潜在问题。边缘计算范式和人工智能技术的结合将推动智能制造、智能零售、智能教育、智能家居、智能电网等众多领域的高速发展。公司的边缘智能芯片为思元220,MLU220是一款专门用于边缘计算应用场景的AI加速产品,产品集成4核ARMCORTEXA55,LPDDR4x内存及丰富的外围接口。用户既可以使用MLU220作为AI加速协处理器,也可以使用其实现SoC方案。该产品和相应的M.2加速卡于2019年11月发布。2020年底MLU220实现规模化出货,发布至2023年,累计销量过百万。
(3)云端产品线覆盖芯片、加速卡和整机,第三代加速卡已与主流互联网厂商开展深入适配。云端产品线目前包括云端智能芯片、加速卡及训练整机。其中,云端智能芯片及加速卡是云服务器、数据中心等进行人工智能处理的核心器件,其主要作用是为云计算和数据中心场景下的人工智能应用程序提供高计算密度、高能效的硬件计算资源,支撑该类场景下复杂度和数据吞吐量高速增长的人工智能处理任务。公司的训练整机是由公司自研云端智能芯片及加速卡提供核心计算能力,且整机亦由公司自研的训练服务器产品。思元370是寒武纪第三代云端产品,最大算力高达256TOPS(INT8),是寒武纪第二代云端推理产品思元270算力的2倍。同时,思元370芯片支持LPDDR5内存,内存带宽是思元270的3倍,可在板卡有限的功耗范围内给人工智能芯片分配更多的能源,输出更高的算力。思元370智能芯片采用了先进的Chiplet芯粒技术,支持芯粒间的灵活组合,仅用单次流片就达成了多款智能加速卡产品的商用。公司已推出3款加速卡:MLU370-S4、MLU370-X4、MLU370-X8,已与国内主流互联网厂商开展深入的应用适配。
(4)结合自研软硬件形成智能计算集群系统业务,服务AI数据中心。公司智能计算集群系统业务是将公司自研的加速卡或训练整机产品与合作伙伴提供的服务器设备、网络设备与存储设备结合,并配备公司的集群管理软件组成的数据中心集群,其核心算力来源是公司自研的云端智能芯片。智能计算集群主要聚焦人工智能技术在数据中心的应用,为人工智能应用部署技术能力相对较弱的客户提供软硬件整体解决方案,以科学地配置和管理集群的软硬件、提升运行效率。
4.2.2 Cambricon Neuware:从底层自建适配硬件的软件生态
Cambricon Neuware是寒武纪专门针对其云、边、端得智能处理器产品打造的软件开发平台,采用云边端一体、训推一体架构,可同时支持寒武纪云、边、端的全系列产品,其包括行业应用层、AI框架层、寒武纪开发工具层、寒武纪硬件层。
Cambricon Neuware全面支持各类主流编程框架(如TensorFlow,Caffe,Caffe2,MXNet和ONNX等)。NeuWare还提供了包括应用开发、功能调试、性能调优等在内得一些列工具。其中应用开发工具包括机器学习库、运行时库、编译器、模型重训练工具和特定领域(如视频分析领域)SDK等;功能调试工具可以满足编程框架、函数库等不同层次得调试需求;性能调优工具包括性能刨析工具和系统监控工具等。
寒武纪训练软件平台支持基于主流开源框架原生分布式通信方式,同时也支持Horovod开源分布式通信框架,可实现单卡到集群得分布式训练任务。平台支持多种网络拓扑组织方式,并完整支持数据并行、模型并行和混合并行的训练方法。
训练软件平台支持丰富的图形图像、语音、推荐以及NLP训练任务。通过底层算子库CNNL和通信库CNCL,在实际训练业务中达到业界领先的硬件计算效率和通信效率。同时提供模型快速迁移方法,帮助用户快速完成现有业务模型的迁移。
MagicMind是寒武纪全新打造的推理加速引擎,也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎。借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
4.2.3 Cambricon Neuware:从底层自建适配硬件的软件生态
多芯互联提供跨芯片直接通讯能力,提高并行效率,MLU370-X8带宽达到PCIe4.0的3.1倍。MLU-Link多芯互联技术,搭载于寒武纪思元370芯片,为每颗芯片提供200GB/s的额外跨芯片直接通讯能力。在思元370应对多卡多芯并行任务时,提供更高效的并行效率。例如,MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe4.0的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
4.3. 智能计算集群贡献主要收入,研发上更加聚焦,费用率逐步下降
2023年实现营业收入7.09亿元,其中智能计算集群系统业务收入为6.05亿元。2018年公司收入增长至1.17亿元,2019、2020年,公司收入达到4.4、4.59亿元,2021-2023年,公司收入维持在7亿元以上,2023年公司凭借人工智能芯片产品的核心优势,拓展算力基础设施项目,深耕行业客户,实现营业收入7.09亿元,同比减少2.74%。分业务来看,2021-2023年,公司收入主要来自智能计算系统、云端智能芯片及加速卡。2023年,基于智能计算集群系统业务的竞争优势和前期落地项目的良好经验,公司积极参与台州、沈阳两地的算力基础设施建设项目,以公司的训练整机产品作为核心计算设备,集成配套的软硬件,最终形成智能计算集群系统交付给客户,共实现收入6.05亿元;依托于智能芯片产品的技术领先优势,公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续落地,并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步,2023年,公司的智能芯片及加速卡实现收入1.01亿元。
2023年亏损收窄32.47%,战略重点集中于技术创新。2023年公司毛利率为69.16%,较上年同期提升3.4pct;实现归属于上市公司股东的净利润-8.48亿元,较上年同期亏损收窄4.08亿元,亏损收窄32.47%。公司尚未实现盈利,主要系行业特性及公司战略规划两方面原因导致:芯片行业是一项高投入、长周期的行业,持续的研发投入对于企业的发展至关重要。只有通过不断的研发投入,才能推动技术创新和产品升级,提升核心竞争力,从而在激烈的市场竞争中取得优势地位。尽管受到“实体清单”的影响,寒武纪始终把技术创新作为公司的战略重点,持续进行研发投入,以打造优质的产品及易用的软件生态平台,确保在中国人工智能芯片领域的领先地位。
2023年公司研发和管理费用率均同比下降,进入“实体清单”后暂停部分研发项目缩减费用率。期间费用率方面,公司销售费用率基本维持不变,管理费用率从2022年的40.74%减少至2023年21.72%。公司按归属期分摊的股份支付费用较上年同期减少,从而使2023年管理费用较上年同期有所减少。就研发费用而言,2019-2022年,公司研发投入持续提升,由5.43亿元提升至15.23亿元。2023年,公司研发费用为11.18亿元,占营业收入的比例为158%,较上年同期减少近51个百分点。2022年12月15日,美国商务部工业和安全局(BIS)以国家安全和外交利益为由,将公司及部分子公司列入“实体清单”,受此影响,公司调整战略,陆续暂停部分预期毛利率较低的研发项目。
公司经营净现金流有显著正向增量,2023年现金流情况良好。2023年经营活动产生的现金流量净额变动主要系本期销售回款较上年同期增加3.76亿元,以及采购支出减少2.92亿元所致。公司目前现金流状况良好,截至2023年底,货币资金为39.54亿元,公司的现金流状况可以在未来一段时间内为公司研发投入及日常运营提供有效支撑。公司将持续拓展市场份额、加速场景落地、聚焦技术创新、持续构建生态和品牌,提升公司的核心竞争力。
2023年公司存货为0.99亿元,预付款项为1.48亿元。2023年,公司存货为0.99亿元,同比减少65.51%,主要系存货账面余额较上年期末减少,累计计提的存货跌价准备增加所致;公司预付款项为1.48亿元,同比增加1750%。主要系上年预付款项余额较少。
4.4. 寒武纪在软/硬件生态综合能力强,研发针对大模型实现多点突破
报道提到,政治对话是2000年6月生效的欧盟和以色列之间一项协议的一部分,该协议内容包括建立广泛的贸易关系。
吉利汽车财报显示,第三季度实现营业收入604亿元,同比增长20.5%,单季收入创历史最高水平;1—9月,吉利汽车实现营业收入1677亿元,同比增长36%。
寒武纪自主研发多项智能芯片技术,覆盖云边端和推理训练产品。公司能为云端、边缘端、终端提供全品类系列化智能芯片和处理器产品,是同时具备人工智能推理和训练智能芯片产品的企业,也是国内少数具有先进集成电路工艺(如7nm)下复杂芯片设计经验的企业之一。在智能芯片技术领域,寒武纪掌握智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试和硬件系统设计技术均为自主研发,且成熟稳定。累计已经取得专利829项,其中境外专利259项,2023年内增加207项。
寒武纪自研系统软件打破平台壁垒,兼具灵活性和可扩展性。公司能为自研云端、边缘端、终端全系列智能芯片与处理器产品提供统一的平台级基础系统软件和编程接口,公司自研的基础系统软件平台彻底打破了云边端之间的开发壁垒,兼具灵活性和可扩展性的优势,仅需简单移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片/处理器产品之上。在系统软件技术领域,公司掌握编程框架适配与优化、智能芯片编程语言、
智能芯片编译器、智能芯片数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境七大类核心技术,技术均来自自主研发,且成熟稳定。累计已经取得专利281项,其中境外专利81项,2023年内增加83项。
2023年研发成果领先,对大模型挑战实现的多点核心技术突破。寒武纪持续进行大模型的优化和适配工作,在芯片能力、核心IP能力、芯片间互联能力、并行计算能力、存储优化能力和通信优化能力均实现技术突破。2023年,公司先后开发了BangTransformer大模型分布式推理加速引擎,CNDeepspeed/Megatron-LM大模型分布式训练加速引擎,大模型推理与训练性能预估工具、分析工具以及精度分析工具等大模型相关软件栈,同时基于思元370等系列产品,与LLaMa系列、BLOOM系列、GLM系列、StableDiffusion、T5,以及国内的百川、千象等大模型进行了广泛的适配和验证,性能优异,并可支持自然语言处理、视觉、多模态等多种场景的大模型应用。
05
风险提示
(1)AI算力景气度下降的风险
算力支出与下游应用息息相关,若AI应用需要更长期才能突破,则算力支出的高景气可能不可持续
(2)公司产品供应端的风险
寒武纪收到美国制裁,同时采用Fabless的商业模式,在供应端可能受到国际政治风险
(3)AI芯片竞争加剧的风险
AI芯片领域有较多参与者,未来市场竞争可能加剧
(4)客户集中度较高的风险
寒武纪现阶段客户集中度较高,单个客户可能对收入利润产生较大影响,若某下游大客户订单开展不及预期有可能影响公司的收入与现金流
海量资讯、精准解读,尽在新浪财经APP责任编辑:王若云 股票杠杆怎么弄