AI芯片产业发展分析报告

 AI芯片产业发展分析报告 AI 芯片,谁与争锋?

 人工智能革命将引起芯片业格局重新调整 我们在《寻找 AI+淘金热中的卖水人》报告中已经指出,人工智能革命将引起芯片业格局重新调整。近期,谷歌推出第二代 TPU, 英伟达推出 V100,AMD 推出 Vega Frontier Edition,我们对 AI 芯片市场进行再次审视。

 就市场规模而言,目前数据中心服务器中只有 7%用于人工智能 (其中

 3% 使用

 GPGPU , 95% 使用

 CPU ),但英特尔估计,到

 2020年,人工智能计算量将增加 12 倍,运行人工智能工作负载的服务器将超过其他所有服务器。英伟达估计数据中心人工智能相关芯片的市场空间到 2020 年有 260 亿美元,包含训练 110 亿和推理 150 亿,AMD 估计 50 亿美元,只含训练。

 短期内,GPU 仍将主导训练,FPGA 争夺推理市场 GPU 强大的并行计算能力在深度学习训练环节的优势已是市场共识。英伟达经过多年努力形成的生态系统(Cuda 已到第 9 代,开发者 51.1 万,支持 TensorFlow/Caffe2/MXNet 等多个主流框架, 扶持创业企业 1300 家,开源 Xavier DLA)已形成了较好的先发优势。谷歌 TPU 暂时还难以撼动英伟达 GPU 的市场地位(专门适用于 TensorFlow,单片 TPU 45 teraflops,低于单片英伟达 V100 的120

 teraflops )。而在推理环节,目前主要由

 CPU

 兼任,但需要低延迟的实时推理,或者需要低功耗的场景,将逐渐由 FPGA 替代(平均每瓦特的性能在图片 CNN 算法推理、语音 LSTM 算法推理上, 比 CPU 分别提高 30/81 倍)。英特尔和赛灵思的 FPGA 已分别被微软 Azure 和 AWS 采用。

 长期来看,训练和推理、云和终端都将更多采用 ASIC 然而,CPU、GPU 和 FPGA 都属于通用芯片,并非专门为人工智能开发。我们相信,随着市场需求的扩大,各类专用芯片将最终占据主流地位,不论是在训练还是推理环节,不论是云数据中心还是移动终端。除了谷歌这样的云服务商外,英特尔( Lake

 Crest )、英伟达( Xavier )、高通等芯片商,以及

 Groq (原

 TPU

 开发者离职创立)、Wave Computing、Graphcore 等创业公司(参见图表13-16)都在积极研发 AI 专用芯片。当前面临的主要困难(特别是对创业公司)是芯片研发的高成本和市场培育。

 股票标的:英伟达、博通、赛灵思 当前我们依然看好英伟达,来自 TPU 和 AMD 的竞争,不影响我们对英伟达数据中心收入未来 3 年年均增长 90%的假设。博通是谷歌 TPU 的 ODM 伙伴,不仅合作设计,也通过分包商帮忙谷歌完成芯片的制造、测试和封装。此外,公司还与另外至少 2 家客户定制人工智能方面的芯片。就公司整体而言,我们还看好其在高端射频方面的增长前景,以及利润率和红利现金回报的提高(参见报告《5G 黎明》)。就赛灵思而言,虽然管理层谨慎有加,未能就数据中心业务给出更高的收入指引,使股价催化剂延迟,但因其估值与其他高质量半导体公司相当,公司市场份额持续提高, 股价下行风险也相对有限。

 图表 1: 人工智能革命将引起芯片行业格局重新调整

 资料来源:英特尔公司披露,谷歌 I/O 大会 2017

 图表 2: 数据中心 AI 芯片市场空间到 2020 年可达 260 亿美元

  资料来源:英伟达投资者日、 AMD 投资者日

 图表 3: CPU 、 GPU 、 FPGA 和 ASIC 将各司其职,异构计算重要性提高

 资料来源:微软 Build 大会,谷歌 I/O 大会

 图表 4: 训练环节目前已大量使用 GPU

 用 Caffe2 来训练 CNN,8 个 V100 只需不到 10 小时(8 个 P100 需要 20 小时);用 Microsoft Cognitive Toolkit 来训练 NCCL 2.0,8 个 V100 只需 7 小时,64 个 V100 只需几小时(8 个 P100 需要 20 小时);用 MXNET 训练 LTSM,V100 也只需几个小时

 资料来源:英伟达 GTC 大会

 Cloud TPU

  Cloud TPU

 图表 5: 推理环节目前以 CPU 为主,但将过渡到 FPGA ,特别是需要低延迟的实时推理 …

 微软 Azure 最早采用 FPGAs 加速云数据中心

 运行某个 API,1 个 CPU 延迟 442ms,9 个 CPU 延迟 56ms,9 个 FPGAs 延迟 15ms

 资料来源:微软 Build 大会

 图表 6: … 或者需要低功耗的场景

 FPGAs 平均每瓦特的性能在 SQL 查询、视频转码、图片 CNN(卷积神经网络)算法推理、语音 LSTM(长短期记忆网络)算法推理上,比 CPU 分别提高 33/18/30/81 倍。而相比 GPU,还能进行存储和联网。

 资料来源:赛灵思投资者日

 图表 7: 但长远来看,训练和推理都可由类似谷歌 TPU 的 ASIC 取代

 第二代 TPU 可进行训练和推理,4 片 TPU 单机可进行 180 teraflops 浮点运算(单个英伟达 V100 可对 TensorFlow 进行 120 teraflops 浮点运算)。64 个 TPU 组成的 TPU Pod 可进行 11.5 petaflops 浮点运算

 资料来源:谷歌 I/O 大会 2017

 图表 8: 英伟达 V100 是目前最先进的数据中心 GPU ,相比 Pascal ,训练速度提高 12 倍,推理速度提高 6 倍

 Tesla Product Tesla K40 Tesla M40 Tesla P100 Tesla V100 GPU

  GK110 (Kepler)

 GM 200 (Maxwell)

 GP100 (Pascal)

 GV100 (Volta)

 SMs

  15 24 56 80 TPCs

  15 24 28 40 FP32 Cores / SM

  192 128 64 64 FP32 Cores / GPU

  2880 3072 3584 5120 FP64 Cores / SM

  64 4

 32 32 FP64 Cores / GPU

  960 96 1792 2560 Tensor Cores / SM

  NA NA NA 8

 Tensor Cores / GPU

  NA NA NA 640 GPU Boost Clock

  810/875 MHz

 1114 MHz

 1480 MHz

 1455 MHz

 Peak FP32 TFLOP/s *

  5.04 6.8 10.6 15 Peak FP64 TFLOP/s *

  1.68 2.1 5.3 7.5 Peak Tensor Core TFLOP/s *

  NA NA NA 120 Texture Units

  240 192 224 320 Memory Interface

  384-bit GDDR5

 384-bit GDDR5

 4096-bit HBM 2

 4096-bit HBM 2

 Memory Size

  Up to 12 GB

 Up to 24 GB

 16 GB

 16 GB

 L2 Cache Size

  1536 KB

 3072 KB

 4096 KB

 6144 KB

 Shared Memory Size / SM

 16

 KB/32 KB/48 KB

 96 KB

 64 KB

 Configurable up to 96 KB

 Register File Size / SM

  256 KB

 256 KB

 256 KB

 256KB Register File Size / GPU

  3840 KB

 6144 KB

 14336 KB

 20480 KB

 TDP

  235 Watts

 250 Watts

 300 Watts

 300 Watts

 Transistors

  7.1 billion

 8 billion

 15.3 billion

 21.1 billion

 GPU Die Size

  551 mm²

 601 mm²

 610 mm²

 815 mm²

 Manufacturing Process

  28 nm

 28 nm

 16 nm FinFET+

 12 nm FFN

 资料来源:英伟达公司博客

 图表 9: 公司还想借 V100 进入推理环节

 V100 在推理环节的通量达 5000 张图片每秒,延迟 7ms,速度比英特尔 Skylake(300 张图片每秒/延迟 10ms)提高 15-25 倍。而为得到同样通量, 成本可节约 90%(实现每秒 5 万次推理,需要 230 万美元、12 racks 的 CPU,却只需 24 万美元、1 rack 的 GPU)

 资料来源:英伟达 GTC 大会,英伟达投资者日

 图表

 10:

 英特尔即将推出可并行计算的

 CPU ( Knights

 Mill )、 FPGA

 与

 CPU

 整合( Skylake

 +

 Arria

 10 )和

 ASIC

 ( Lake Crest )

 资料来源:英特尔公司披露

 图表 11: AMD 计划 6 月推出 Radeon™ Vega Frontier Edition ,尝试进入深度学习训练领域,并希望实现 CPU ( Naples/EPYC )与 GPU 的交叉销售

 资料来源:

 AMD 投资者日

 图表 12: 赛灵思部署于 AWS 的 F1 实例,今年 4 月开始公众开放,目前累计被调用 2000 次

 资料来源:赛灵思投资者日

 图表 13: 正在研发 ASIC 的创业公司包括 Wave Computing…

 Wave Computing 于 2010 年 12 月成立于加州,今年 4 月刚获得 D 轮融资。公司正在研制专门用于深度学习训练和推理的芯片 DPU(Dataflow Processing Unit),达到高度并行计算,高存储带宽和低计算精度。单片峰值处理能力达 2.9 PetaOPS/秒,且无需 CPU 来管理工作流。公司计划未来几个月内向其早期客户发货。

  资料来源:

 Wave Computing 公司网站, Crunchbase

 图表 14: …Graphcore…

 Graphcore 成立于 2016 年,总部位于英国,其团队成员来自 Altera(被英特尔收购)和 Icera(被英伟达收购)。公司的产品主要是 IPU(Intelligent Processing Unit)处理器,该处理器经过优化,可以高效的处理机器学习领域中极其复杂的高维模型。IPU 强调大规模并行运算和低精度浮点运算, 与其他解决方案相比,IPU 拥有更高的计算密度以及超过 100 倍的内存带宽,可以完全在内部处理机器学习模型,拥有更低的能耗与性能。IPU 产品包括 IPU 设备与 IPU 加速器,前者旨在为云和企业数据中心服务,帮助加速 AI 应用并降低成本,并将训练和推理环节提速 10x 和 100x;后者是一个 PCle 卡,能够插入服务器中以加速机器学习应用。公司还为主流机器学习框架例如 TensorFlow 和 MXNet 提供无缝界面。为了支持该界面, Graphcore 推出了灵活的开源图形编程软件框架 Poplar,其中包含工具、驱动及应用库,使用 C++或 Python 界面,允许开发人员修改和扩展库, 从而更快更方便的使用 IPU 系统。公司表示,其产品可以让客户在同一芯片上进行训练和推理,例如白天进行推理(算法执行),夜间利用当日获得的新数据对算法进行再训练。公司计划今年之内向早期客户发货。截至目前仅在成立时进行了一笔 A 轮融资,融资额 3200 万美元,Robert Bosch Venture Capital 和 Samsung Strategy and Innovation Center 领投。

 资料来源:

 Graphcore 公司网站, Crunchbase

 图表 15: …Cerebras Systems…

 资料来源:

 Graphcore 公司网站, Crunchbase Cerebras Systems 成立于 2016 年,总部位于加州 Los Altos,目前正在研制下一代用于深度学习训练的芯片。Cerebras 的官网上将自己描述为一家低调的初创企业,敢于解决别人无法解决的问题。该公司的 CEO Andrew Feldman 和 CTO Gary Lauterbach 此前都是SeaMicro 的联合创始人,在 SeaMicro 被收购后加入了 AMD。去年 12 月,Cerebras 获得了来自 Benchmark 的 2500 万美元的融资。

 图表 16: …Groq 、 Mythic 、 Tenstorrent 等

  Groq

 Mythic

  Tenstorrent

  资料来源:

 Crunchbase

 图表 17: 可比估值表

  Name

 Price YTD

  Market Cap ($mn)

  PE0

  PE1

  PEG1

  P/B0

  P/S0

  EV/S0

  P/CF0 Free Cash Flow Field Trailing

 EV/EBIT DA0

 EV/EBIT DA1

 EPS Grow th (past 3yrs)

 Revenue Grow th (past 3yrs)

  ROA ROE NVIDIA CORP 28.58 81,661 38.60 33.24 3.48 13.30 10.09 9.43 46.12 1.94 28.95 24.27 60.14 19.43 23.70 37.90 ADV MICRO DEVICE -3.85 10,304 178.75 40.09 8.02 25.11 2.12 2.23 N/A -2.50 29.24 19.78 N/A -5.52 -14.68 N/A XILINX INC 8.45 16,240 25.90 23.37 2.73 6.47 7.01 5.76 17.63 5.24 18.16 16.52 1.39 -0.33 13.02 24.36 INTEL CORP 0.10 170,971 12.72 12.24 1.56 2.52 2.84 2.87 7.93 6.58 6.98 6.64 3.96 4.12 10.16 17.31 BROADCOM LTD 35.77 96,327 16.11 15.01 0.96 5.05 6.10 6.42 22.21 3.55 12.10 11.23 N/A 74.43 -6.22 -15.54 MICRON TECH 34.58 32,636 6.90 5.75 0.58 2.28 2.12 2.12 8.17 -7.27 4.42 4.05 N/A 18.62 2.41 5.18 MARVELL TECH GRP 21.95 8,486 16.68 14.49 1.06 2.13 3.60 2.87 N/A -4.68 10.67 9.76 -48.00 -10.72 0.42 0.52 CAVIUM INC 20.52 5,108 27.30 21.27 0.74 7.10 6.63 5.78 58.11 0.42 16.31 13.14 N/A 26.51 -19.67 -35.66 MELLANOX TECHNOL 17.91 2,396 20.25 15.10 0.86 2.41 2.76 2.59 12.84 5.63 9.48 7.52 N/A 30.33 0.93 1.43 INPHI CORP -9.55 1,702 24.39 17.01 0.75 3.69 5.42 4.65 24.18 2.53 17.72 12.72 N/A 37.89 11.79 23.17

  资料来源:

 Bloomberg 盈利预测来自 Bloomberg 一致预期

推荐访问:产业发展 分析报告 芯片