
在AI模子范围,范围至关进军。
尽管部分AI巨匠警戒称,合手续扩大大言语模子的范围正在遭受性能收益递减的瓶颈,各大公司仍在束缚推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。
跟着模子范围的扩大,其本领也在增强,但随之而来的是更高的能耗需乞降更长的运行时辰,进而加重了碳排放问题。为了缓解这些问题,业界开动转向范围较小、本领相对有限的模子,并尽可能遴荐低精度数值来暗意模子参数。
然而,还有另一条旅途,有望在保留超大模子高性能的同期,缩小运行时辰、降板滞耗。这一步调的中枢,便是充分欺骗大型AI模子里面多数存在的零值。
关于很多模子而言,大多数参数——包括权重和激活值——本色上齐是零,或者异常接近于零,整个不错在不失掉精度的前提下将其视为零经管。这种特质被称为寥落性。寥落性为检朴野心资源提供了强大契机:与其奢靡时辰和能量对零进行加法或乘法运算,不如径直跳过这些野心;与其在内存中存储多数零值,不如只保存非零参数。
缺憾的是,现时主流硬件(如多核CPU和GPU)并不成自然充分欺骗寥落性。要着实证据寥落性的上风,筹商东说念主员和工程师需要再行想考并重构通盘设计架构,涵盖硬件、底层固件和应用软件各个层面。
在斯坦福大学的筹商团队中,咱们拓荒出了(据咱们所知)首款简略高效经管千般寥落和传统责任负载的硬件芯片。在不同责任负载下,能耗检朴幅度各异显赫,但平均而言,咱们的芯片能耗仅为CPU的七十分之一,野心速率平均晋升至CPU的八倍。为罢了这一主意,咱们从底层开动,对硬件、固件和软件进行了全面的针对寥落性的工程设计。咱们但愿这只是硬件与模子协同发展的起初,最终罢了更高能效的AI。
数组与寥落暗意
神经聚积偏激输入数据以数字数组的格式暗意,这些数组不错是一维(向量)、二维(矩阵)或更高维度(张量)。寥落向量、矩阵或张量中大多数元素为零。寥落进度因情况而异,但当零值占比跳跃50%时,就不错从有益针对寥落性的野心步调中获益。与之相对的是"密集"对象——即零值数目联系于元素总额较少的情况。
寥落性不错自然存在,也不错通过东说念主工方式引入。举例,酬酢聚积图自然便是寥落的。联想一个图,其中每个节点代表一个东说念主,每条边代表一段友谊干系。由于大多数东说念主互相并不彊壮,暗意整个可能汇注干系的矩阵中绝大多数元素齐是零。其他AI应用场景,如图学习和推选模子,一样存在自然的寥落性。
平庸情况下,一个4×4的矩阵岂论包含若干个零值,在内存中齐会占用16个存储空间。若矩阵是寥落的,即多数元素为零,则不错更高效地用"纤维树"结构暗意:领先是包含非零元素所在行坐标的"纤维",汇注至包含非零元素列坐标的纤维,最终流通到对应的非零值本人。在野神思内存中存储纤维树时,每条纤维的端点(即"段")会与坐标和数值一同保存。
除自然存在的寥落性外,还不错通过多种方式在AI模子中主动引入寥落性。两年前,Cerebras的筹商团队解释,不错将大言语模子中多达70%至80%的参数设立为零,而不失掉任何精度。Cerebras在Meta开源的Llama 7B模子上考证了这一论断,筹商想路一样适用于ChatGPT、Claude等其他大言语模子。
寥落野心的上风
寥落野心的高效性源于两个基本特质:压缩零值的本领,以及零的特殊数学性质。寥落野心算法和专用硬件齐充分欺骗了这两个中枢想路。
领先,寥落数据不错被压缩,从而以"寥落数据类型"的格式更检朴内存地进行存储。压缩还能在经管多数数据时贬低数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例:传统方式会将其完满存储,占用16个内存空间;而压缩为寥落数据类型后,只需保留非零元素,仅占用3个存储空间,相较于正本的16个大幅检朴。跟着寥落进度和矩阵范围的增大,这种检朴效果将更加显赫。
除本色数据值外,压缩数据还需要存储元数据,即非零元素的行诸君置信息。这平庸以"纤维树"的方式抒发:列出包含非零元素的行标签,并与对应的列标签承接,进而流通到存储在这些位置的数值。
在内存层面,情况更加复杂:每个非零值的行列标签,以及记号标签数目的"段"信息,齐需要一并存储,以便了了分辨元数据和本色数据。
在密集、未压缩的矩阵数据类型中,不错一一或并行侦探数值,且其位置可通过简便公式径直野心。但在寥落压缩数据中,侦探数值需要先查找行索引坐标,再"障碍"查找列索引坐标,最终才能定位到主意值。由于寥落数据的位置具有赶快性,这些障碍查找操作可能极为赶快,导致野心历程依赖于数据本人,并需要动态分拨内存侦探。
其次,零的两个数学特质使软件和硬件不错多数跳过野心:任何数乘以零等于零,因此无需本色实际乘法;任何数加零等于其本人,因此加法也不错径直跳过。
在矩阵-向量乘法这一AI最常见的运算中,除波及两个非零元素的野心除外,其余野心均可跳过。往日述4×4矩阵与一个四元素向量的乘法为例:在密集野心中,需要16次乘法和16次加法;而在寥落野心中,只需经管向量中的非零元素,通过障碍查找定位矩阵中对应的非零元素,仅对这部分进行乘加运算——在示例中,只需实际两次乘法,而非16次。
现存硬件的局限
缺憾的是,当代硬件并不擅长加速寥落野心。以矩阵-向量乘法为例,在单核CPU中,向量中的每个元素需一一相乘后写入内存,效能低下。因此,本色使用中往往借助相沿向量运算的CPU或GPU,将整个元素并行经管,大幅晋升速率。但当矩阵和向量齐极为寥落时,向量化CPU和GPU的大部分算力齐奢靡在了与零的乘法运算上,产生多数无效野心。
新一代GPU简略对一种特定类型的寥落性——结构化寥落性——进行一定进度的硬件加速。结构化寥落性假定每四个相邻参数中有两个为零。然而,部分模子更符合非结构化寥落性——即允许自便参数(权重或激活值)为零并被压缩,岂论其位置如何。GPU不错通过软件方式(如cuSparse库)相沿非结构化寥落野心,但这种相沿往往十分有限,GPU硬件欺骗率偏低,多数算力滥用在罕见支出上。
在通过软件进行寥落野心时,当代CPU只怕比GPU更具上风,因为CPU具备更好的天真性。但CPU在寥落野心中常受限于障碍查找操作带来的性能瓶颈。CPU平庸会证据预期需求对数据进行"预取",但关于赶快寥落数据,这一机制往往失效,导致CPU不得不奢靡时钟周期恭候正确数据加载。
苹果公司率先通过在A14和M1芯片的预取器中相沿"指针数组"侦探模式,加速了障碍查找速率。尽管预取技巧的立异使苹果CPU在寥落野心方面更具竞争力,但CPU架构仍存在专用寥落野心架构所不具备的根人道支出,因为CPU需要兼顾通用野心需求。
其他公司也在拓荒加速寥落机器学习的硬件,包括Cerebras的晶圆级引擎(Wafer Scale Engine)和Meta的检察与推理加速器(MTIA)。Cerebras的晶圆级引擎偏激配套寥落编程框架,在大言语模子上罢了了高达70%的寥落度,后果超卓。但其硬件和软件决策仅相沿权重寥落性,不相沿对很多应用至关进军的激活值寥落性。MTIA第二版声称在寥落野心肠能上较初版晋升七倍,但现在公开久了的寥落性相沿信息仅限于矩阵乘法,尚未遮蔽向量或张量运算。
尽管矩阵乘法占据了大多数当代机器学习模子的主要野心时辰,但为其他运算提供寥落性相沿一样至关进军。为幸免在寥落与密集数据类型之间时时切换,整个操作齐应原生相沿寥落经管。
Onyx:从底层相沿寥落野心的硬件加速器
针对上述千般折中决策的不及,斯坦福大学团队研发了一款硬件加速器——Onyx,简略从底层充分欺骗寥落性,岂论是结构化还狠恶结构化寥落性均可相沿。Onyx是首款可编程加速器,同期相沿寥落和密集野心,简略对两种模式下的关节操作进行加速。
CPU、粗粒度可重构阵列(CGRA)和现场可编程门阵列(FPGA)代表了效能与天真性之间的不同量度。CPU的每个逻辑单位针对特定功能高效设计;FPGA的每个比特均可竖立,极具天真性但效能较低;CGRA则旨在兼顾FPGA的天真性与CPU的效能。
CGRA由针对特定应用范围优化的可竖立内存和野心单位组成,武艺员不错在高等次上对其里面进行再行竖立,使其比FPGA更高效,同期比CPU更天真。
Onyx基于CGRA架构构建,由天真可编程的经管单位(PE)模块和内存(MEM)模块组成。内存模块慎重存储压缩矩阵和其他数据神态,经管单位模块则径直对压缩矩阵进走运算,摒除整个无须要的无效野心。
Onyx的编译器慎重将软件辅导调遣为CGRA竖立。领先,输入抒发式(如寥落向量乘法)被编削为抽象内存节点和野心节点组成的图;编译器将这些抽象节点映射到CGRA的内存模块和经管单位上,并规画数据传输旅途;最毕生成竖立CGRA所需的辅导集。
由于Onyx具备可编程性,工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。
性能评估
咱们遴荐"能量蔓延积"(EDP,即能耗与野心时辰的乘积)来评估硬件的效能晋升,该方针抽象响应了速率与能耗之间的量度干系。
Onyx的能量蔓延积最高可达使用专用寥落库的CPU(12核Intel至强经管器)的565倍。此外,Onyx还可竖立为加速惯例密集野心应用,雷同GPU或TPU的责任方式:当野心为寥落类型时,Onyx切换至寥落野心模式;当野心为密集类型时,则切换至并行加速模式。这一架构为在归拢芯片上同期加速寥落与密集野心迈出了进军一步。
一样值得温雅的是,Onyx开启了算法层面的新想路。寥落加速硬件不仅能晋升AI的性能效能和动力效能,还将引发筹商东说念主员和工程师探索具有冲破性后劲的新式算法。
异日磋议
咱们的团队已在Onyx基础上入辖下手拓荒下一代芯片。除矩阵乘法外,机器学习模子还波及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器偏激编译器添加对完满野心类型的相沿。由于寥落机器学习模子可能同期包含寥落层和密集层,咱们也在筹商如何更高效地将密集与寥落加速架构集成于归拢芯片,以罢了不同数据类型之间的快速调遣。此外,咱们还在探索通过更有用地拆分寥落数据来冲破内存物化,从而在多个寥落加速芯片上协同运行野心任务。
与此同期,咱们正在研发简略预测寥落加速器性能的系统,以提拔更优硬件的设计责任。从长久来看,咱们但愿不雅察高度寥落性是否会在更多模子类型中获得普及,以及寥落加速器是否会在更大范围上获得应用。
为非结构化寥落性构建硬件、充分欺骗零值的后劲,只是是个开动。有了这么的硬件,AI筹商东说念主员和工程师将有契机探索以全新、阔气创意的方式欺骗寥落性的模子与算法。咱们折服,这是应付AI束缚增长的运行时辰、资本和环境影响的关节筹商场所。
Q&A
Q1:什么是寥落野心?它对AI有什么意旨?
A:寥落野心是一种欺骗AI模子中多数参数为零这一特质来跳过无效运算、压缩存储的野心方式。由于模子中70%以上的参数可能为零或接近零,寥落野心不错径直跳过与零筹商的乘法和加法,从而显赫降板滞耗、加速运算速率,在束缚送模子精度的前提下晋升合座效能。
Q2:现存的GPU和CPU为什么不成很好地相沿寥落野心?
A:GPU主要相沿一种叫作念"结构化寥落性"的特定模式,对更天简直非结构化寥落性相沿有限,导致多数算力被奢靡在无效的零值运算上。CPU自然更天真,但在寥落野心中常受限于赶快内存侦探导致的预取失败问题,一样存在效能瓶颈。两者齐辛勤从底层针对寥落野心有益设计的架构相沿。
Q3:Onyx芯片比较平方CPU能晋升若干性能?
A:Onyx在能量蔓延积(速率与能耗的抽象方针)上,最高可达12核Intel至强CPU的565倍。平均而言,Onyx的能耗仅为CPU的七十分之一九游会体育,野心速率则平均晋升至CPU的八倍。Onyx同期相沿寥落和密集野心,简略证据任务类型自动切换野心模式,是现在已知首款兼顾两种野心模式的可编程加速器。
上一篇:九玩游戏中心官网目下社会对女性的条款也日益擢升-九游下载中心_九游游戏中心官网
下一篇:没有了
