人工智能:新型存储,算力之光
存储发展面临瓶颈,新型存储应运而生
1.1 发展瓶颈之一:“存储墙”问题日益严重
经典冯诺依曼架构下,存储系统难以平衡容量与速度。我们知道,当前的计算设 备,无论是智能手机、PC,还是服务器集群,其计算架构都是传统的冯诺依曼架 构,即程序存储在存储器中,计算之前需要先从存储器中读取数据,再搬运到处 理器中进行计算,所以数据的存储和计算是分开的。因此,为了满足速度和容量 的需求,现代计算系统通常采取高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储结构,其中:
1)SRAM:静态随机存取存储器,属于易失性存 储,响应时间通常在纳秒级,但是需要浪费大量晶体管来存储数据,所以大多被 整合到 SoC 核里做成缓存;
2)DRAM:动态随机存取存储器,也属于易失性存储, 响应时间通常在 100 纳秒量级,但存储容量比 SRAM 更高;
3)NAND Flash:闪存, 属于非易失性存储,能永久保存各类数据,存储容量也更大,但响应时间高达 100 微秒级。可以看到,存储器越靠近运算单元,其响应速度越快,但受功耗、散热、 芯片面积的制约,相应的存储容量也就越小。
我们注意到,在过去二十年,处理器性能大概每年以 55%的速度提升,但存储性 能每年的提升速度只有 10%左右,这种存储性能的发展落后便是所熟知的“存储 墙”问题。由于在冯诺依曼计算架构下,数据要经历从 NAND Flash 到 DRAM 再到 SRAM 三级存储间的传输,因此“存储墙”问题也体现在两方面:
1)一是在 DRAM 与处理器的缓存 SRAM 之间:在冯诺依曼架构下,计算单元和存储单元是独立分开的,因此两者之间的数据搬 运会消耗大量的时间和能量,并且由于存储器的工艺路线不同于处理器,其性能 发展已远远落后于处理器,由此带来的数据处理速度和能效比等问题愈发严重。在此背景下,存算一体技术(Computing in Memory,CIM)应运而生,该技术是 在存储器中嵌入了计算能力,直接利用存储器进行数据处理,从而把数据存储与 计算融合在芯片的同一片区,从本质上消除了不必要的数据搬运,因此可以大幅 提升计算效率并降低功耗,适用于深度学习等大规模并行计算的应用场景,是在 冯诺依曼架构之外的一种全新芯片计算架构。
2)二是在 NAND Flash 与 DRAM 之间:a)针对 DRAM 的提速,目前主要是采取 HBM(High Bandwidth Memory,高带宽内 存)技术,通过将多颗 DRAM 颗粒进行堆叠以提供更高的传输速度和带宽,因此 HBM 技术严格意义上并不属于新型存储技术,更多是对原有内存技术的一次升级;b)针对 NAND Flash 的提速,才是新型存储技术的诞生之地,新型存储器的特点 在于其同时具备 DRAM 的读写速率与寿命,以及 NAND Flash 的非易失特性,因此 新型存储器理论上可以将当前的内存和外存合并为持久内存,简化存储架构,从 而有望缩小或消除内存与外存之间的“存储墙”,目前的新型存储技术主要包括 PCM、MRAM、RRAM、FRAM 等诸多新兴技术。
新型存储器天然具备存算融合优势,赋能存算一体技术加速落地。此外,就存算 一体技术而言,目前既有使用 DRAM、SRAM、NAND 等传统存储器的方案,也有使用PCM、MRAM、RRAM 等新型存储器的方案。但是我们看到,传统存储器由于其制造 工艺不同于逻辑计算单元,因此无法实现良好的融合,目前只能实现近存计算, 所以“存储墙”问题仍然存在,并且 DRAM 和 SRAM 作为易失性存储器,需要持续 供电来保存数据,这会进一步带来功耗和可靠性的问题。但是,新型存储器具备 非易失性,这使得设计者可以利用欧姆定律和基尔霍夫定律在阵列内完成矩阵乘 法运算,而无需向芯片内移入和移出权重。因为新型存储器通过阻值变化来存储 数据,而存储器加载的电压等于电阻和电流的乘积,相当于每个单元可以实现一 个乘法运算,再汇总相加便可以实现矩阵乘法,所以新型存储器天然具备存储和 计算的属性。在这种情况下,同一单元就可以完成数据存储和计算,消除了数据 访存带来的延迟和功耗,可以实现真正意义上的存算一体。
新型存储:HBM、存算一体需求迫切,PCM 有望成未来之星
2.1 HBM:算力带动需求井喷,技术迭代加速
HBM(High Bandwidth Memory)即高带宽存储器,按照 JEDEC 的分类,HBM 属于 图形 DDR 内存的一种,通过使用先进的封装方法(如 TSV 硅通孔技术)垂直堆叠 多个 DRAM,与 GPU 通过中介层互联封装在一起,在较小的物理空间里实现高容 量、高带宽、低延时与低功耗,已成为数据中心新一代内存解决方案。
历经多次迭代,性能多维提升。HBM 通过系统级封装(SIP)和硅通孔(TSV)技 术,拥有多达 1024 个数据引脚,显著提升数据传输能力。自 2014 年首款硅通孔 HBM 产品问世至今,HBM 技术已经发展至第四代,最新的 HBM3 带宽、堆叠高度、 容量、I/O 速率等较初代均有多倍提升。
高性能计算驱动 HBM 加速迭代,HBM3 升级,HBM3E 已在路上。高性能计算驱动数 据中心 HBM 需求井喷,HBM 升级速度近年明显加快。SK 海力士于 2021 年 10 月宣 布成功开发出容量为 16GB 的 HBM3 DRAM,2022 年 6 月初即宣布量产。仅过去 10 个月,SK 海力士官网再次宣布已成功开发出垂直堆叠 12 个颗 DRAM 芯片、容量高 达 24GB 的 HBM3 新品,并正在接受客户公司的性能验证。与此同时,海力士第五 代 HBM 内存 HBM3E 已在路上。英伟达于 2023 年 8 月 8 日发布的最新 GH200 预计 将搭载 HBM3E 内存,并将于 2024 年 Q2 出货。根据公开信息披露,该 HBM3E 芯片 单 pin 最大带宽达 8Gb/s,单栈最大带宽达 1Tb/s,较上一代 HBM3 提升 25%。
对比 GDDR,为何是 HBM?
GDDR 和 HBM 均为针对 AI 和图形运算等高吞吐量应用的存储器架构。但图形芯片 性能的日益增长,使其对高带宽的需求也不断增加。随着芯片制程及技术工艺达到极限,GDDR 满足高带宽需求的能力开始减弱,且单位时间传输带宽功耗也显著 增加,预计将逐步成为阻碍图形芯片性能的重要因素。以 GDDR5 为例,从单片封装性能对比,HBM 在总线位宽、时钟速率、带宽及工作 电压各个性能参数较GDDR5均更具优势。从带宽功耗比的角度来看,相同功率下, HBM 带宽是 GDDR5 的 3 倍以上。而从性能面积比的角度量化,1GB HBM 较 1GB GDDR5 的面积节省多达 94%。
高性能计算功耗问题突出。最开始数据中心通过提高 CPU、GPU 的性能进而提高 算力,但处理器与存储器的工艺、封装、需求不同,导致二者之间的性能差距逐 步加大。英伟达创始人黄仁勋曾表示计算性能扩展的最大弱点就是内存带宽。以 谷歌第一代 TPU 为例,其理论算力值为 90TFOPS,但最差真实值仅 1/9,即 10TFOPS 算力,因为其相应内存带宽仅 34GB/s。此外,在传统架构下,数据从内存到计算 单元的传输功耗是计算本身能耗的约200倍,而用于计算的能耗和时间占比很低, 数据在内存与处理器之间的频繁迁移带来严重的功耗问题。
HBM 打破内存带宽及功耗瓶颈。HBM 不同于传统的内存与处理器基于 PCB 互联的 形式,而是基于与处理器相同的“Interposer”中介层互联实现近存计算,显著 减少数据传输时间,且节省了布线空间。而基于 TSV 工艺的 DRAM 堆叠技术则显 著提升了带宽,并降低功耗和封装尺寸。根据 SAMSUNG,3D TSV 工艺较传统 POP 封装形式节省了 35%的封装尺寸,降低了 50%的功耗,并且对比带来了 8 倍的带 宽提升。
HBM 正成为 HPC 军备竞赛的核心。英伟达早在 2019 年便已推出针对数据中心和 HPC 场景的专业级 GPU Tesla P100,当时号称“地表最强”的并行计算处理器, DGX-1 服务器就是基于单机 8 卡 Tesla P100 GPU 互连构成。得益于采用搭载 16GB 的 HBM2 内存,Tesla P100 带宽达到 720GB/s,而同一时间推出的同样基于 Pascal 架构的 GTX 1080 则使用 GDDR5X 内存,带宽为 320GB/s。此后英伟达数据中心加 速计算 GPU V100、A100、H100 均搭载 HBM 显存。最新的 H100 GPU 搭载 HBM3 内 存,容量 80Gb,带宽超 3Tb/s,为上一代基于 HBM2 内存 A100 GPU 的两倍。而作 为加速计算领域追赶者的 AMD 对于 HBM 的使用更为激进,其最新发布的 MI300X GPU 搭载容量高达 192GB 的 HBM3 显存,为 H100 的 2.4 倍,其内存带宽达 5.2TB/s, 为 H100 的 1.6 倍,HBM 正成为 HPC 军备竞赛的核心。
此前,推理环节多数搭载 GDDR6 内存,内存瓶颈更甚于训练环节,HBM 升级替代 需求迫切,市场规模将持续增长。目前大多数项目的 LLM 推理都是作为实时助手 运行,这意味着它必须实现足够高的吞吐量,以便于用户实际使用。人类平均每 分钟阅读约 250 个单词,但有些人的阅读速度高达每分钟约 1000 个单词。在 1 万亿参数密集模型中,由于内存带宽限制,即使 8 颗 H100 也无法满足每分钟 1000 个单词对应标识符的极端吞吐量。
CPU 搭配 HBM 先河已开,配合 DDR 提供灵活计算方案。通常认为 CPU 处理的任务 类型更多,且更具随机性,对速率及延迟更为敏感,HBM 特性更适合搭配 GPU 进 行密集数据的处理运算。2022 年底,英特尔正式推出全球首款配备 HBM 内存的 x86 CPU:Intel Xeon Max 系列。该 CPU 具有 64GB 的 HBM2e 内存,分为 4 个 16GB 的集群,总内存带宽达 1TB/s。在 MLPerfDeepCAM 训练中,XeonMax 系列 CPU 的 AI 性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。Xeon Max 系列支持三种不同的运算模式:仅 HBM 模式、HBM 平面(1LM)模式和 HBM 缓存模 式,其中 HBM 平面模式和 HBM 缓存模式为搭配 DDR5 的方案。考虑到 HBM 的内存 带宽大但容量相对小,而 DDR 一般容量相对大但内存带宽小,根据不同场景将 DDR 和 HBM 搭配使用,可提供更为灵活的内存运算形式。
大模型本地化解决数据安全性等重要问题。终端 AI 的应用十分广泛,科技巨头 对用户的数据控制引发广泛的安全和隐私担忧,人工智能领域的领导者包括谷歌、 Meta、百度和字节跳动等公司目前的盈利能力均不同程度来源于基于用户数据肖 像的广告定位,终端算力安全优势不言而喻。此外,本地模型还具备实现移动设 备脱网使用、减少延时等优势,有望成为未来移动终端设备的标配。
终端硬件存力限制本地模型参数规模,HBM 或是答案。不同于云端算力搭配专用 GPU 工作,本地模型推理的算力更多依赖于终端硬件 SoC,算力瓶颈可以依靠未 来的芯片架构升级(Chiplet)以及制程升级(3nm/2nm 工艺)解决,存力优化才 是大模型终端应用的重中之重。即使保守假设正常的非 AI 应用程序以及缓存唤 醒等消耗带宽的一半,iPhone14 上最大的可运行模型大小仅为约 10 亿个 FP16 参数。
可以说,存力是未来 LLM 终端化应用的最大障碍。但考虑到 AMD 早前便已 推出消费端应用的 HBM 产品,英特尔也已推出搭配 CPU 的 HBM 产品,meta 和高通 也已于近日宣布大语言模型 Llama 2 将在手机和 PC 上的高通芯片上运行。未来 最先进的移动端设备或有望率先搭载 HBM 突破客户端大模型的存力障碍。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
本报告共计:46页。受篇幅限制,仅列举部分内容。
本报告已上传到幻影视界行业报告资源库,扫描下方二维码加入后,直接下载,更多的历史报告随时查看、随意下载。免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如 涉 侵 权 , 请 联 系 我 们 及 时 删 除 ;内容为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系。戳“阅读原文”下载报告。相关文章
- 2月23日克来机电涨停分析:自动刹车,人形机器人,机器人概念热股
- 机器人公司Figure融资6.75亿美元:贝索斯微软英伟达OpenAI联合投资
- 优必选人形机器人“入职”车企
- 格力电器公布国际专利申请:“机器人脱困方法及装置、处理器和机器人”
- 光大证券:英伟达将发布的机器人领域成果 有望带来人形机器人板块催化终于有老板接得住00后的离职信了,霸气回应尽显格局,网友:牛!
- 黄强主持召开研究人工智能和机器人产业发展专题会议 加快抢占人工智能和机器人产业发展新赛道她是孙红雷亲妹妹,孙俪都恭敬她3分,演技高却永远捧不红!
- 国泰君安:国内外人形机器人厂商纷纷推出各自产品 推动产业化进程周润发赵雅芝时隔40年再同框!许文强已白发苍苍,冯程程依旧甜
- 贝佐斯和英伟达将加入OpenAI投资人形机器人初创公司Figure明星最想删除的艺考照片:娜扎发际线高,杨幂土气,看到周冬雨笑了
- 硅谷大佬们都向这家初创投了钱!类人型机器人是下一个风口?她因长得太漂亮2岁出道,演“小芈月”红遍全国,如今长成厌世脸
- 人形机器人,上班了!
发表评论
评论列表
- 这篇文章还没有收到评论,赶紧来抢沙发吧~