什么是NPU,它如何帮助AI魔法发生?
2024/11/28 03:00:15
现代智能手机的SoC(系统级芯片)集成了CPU、GPU、音频和视频处理、无线通信和电源管理等功能。最近,SoC中加入了NPU(神经处理单元),以支持AI功能。NPU加速了与人工智能和机器学习应用相关的任务,如图像和文本识别、语音转文本、实时翻译等。NPU的优势在于其高效的能耗和在设备上执行AI操作的能力,从而减少对云计算的依赖。虽然NPU和TPU(张量处理单元)都加速了AI计算,但NPU更适合移动设备。TOPS(每秒万亿次操作)是衡量AI处理器性能的指标,Snapdragon 8 Elite芯片的AI性能比前代产品高出45%。随着AI的集成,NPU将在智能手机中发挥重要作用。

任何现代智能手机的“大脑”是其SoC(系统级芯片),一个极其复杂的微机器。它将CPU和GPU、音频和视频处理、无线通信和电源管理集于一块指甲大小的硅片上。SoCs正在变得更加复杂。最近的一项添加是NPU,它促进了AI功能。你的手机很可能有NPU,特别是如果是新款的话。即使是低端的三星Galaxy A25,这款预算最好的Android手机之一,其Exynos 1280芯片也包含一个NPU。但NPU到底是什么,它能带来什么区别?让我们来探索一下。NPU代表神经处理单元。它是一个智能手机SoC(系统级芯片)中的计算模块,类似于CPU(中央处理单元)和GPU(图形处理单元)。最近的Snapdragon、Exynos、Dimensity、Apple A系列型号SoC以及一些由Intel、AMD和Apple生产的桌面和移动PC处理器都配备了NPU。手机SoC已经有一段时间配备了NPUs。Qualcomm自2015年以来在其Snapdragon 820上配备了AI Engine(PDF),这是一种结合硬件和软件的AI任务解决方案。Apple在2017年随A11 Bionic芯片推出了其Neural Engine NPU。尽管它们可能尚未完善,但由于人工智能的炒作以及它带来的功能,它们现在更加相关。关闭NPU的任务是加速与人工智能和机器学习应用相关的任务。例如(如上图所示),包括在图像和文本中识别人员和物体,文本和图像生成,语音转文本,实时翻译,以及预测你可能想要输入的下一个单词。无需NPU即可执行这些功能,但它可以使过程更快、更节能、对云计算的依赖性更小。由于AI任务所需的计算非常具体,因此为这些任务优化处理单元是有意义的。如果你对数学感兴趣,A.C.C. Coolen在伦敦国王学院深入探讨了神经网络的数学原理。此外,Vsauce的Michael Stevens在YouTube视频中演示了一个工作中的神经网络。注意,尽管操作非常基础,但它们同时执行以使网络正常工作。CPU是一个通用单元,可以快速且高精度地执行一个或几个复杂的数学运算。然而,AI任务需要许多计算可以并行运行,而精度并不是很重要。由于其并行性质,GPU比CPU更适合这项任务。不过,NPU因其效率而表现出色,正如IBM所指出的。NPU可以在使用极小部分能量的情况下提供类似AI的性能,使其成为移动、电池供电设备的理想选择。另一个优势是,将NPU集成到SoC中,可以在设备上执行一些AI操作,而不是在云端,这可能会更慢。这适用于像语音转文本转换这样的轻负载。当涉及到传感器输入并且期望立即得到结果时,也非常理想,例如在相机应用中检测场景中的对象。AI模型是处理输入的代码,并存储在本地。像Google Pixel Studio图像生成器这样的应用程序使用混合方法,结合本地和云端的AI模型。在设备上运行的AI也有助于保护隐私。你提供的个人数据(以语音、文本或视频形式)不需要离开你的手机。这消除了恶意行为者在数据泄露中访问它的可能性。如果你查看Google Pixel 9的规格页面,一款强调了大量人工智能特性的手机,你不会找到任何关于NPU(神经处理单元)的提及。这是因为它使用的是TPU(张量处理单元)。像NPU一样,TPU加速了AI计算。不同之处在于,TPU和TPU芯片是由谷歌定制设计的。你只能在谷歌硬件和公司的数据中心找到它们。张量处理单元针对由谷歌开发并用于机器学习和AI应用的开源软件库TensorFlow进行了优化。虽然大多数新手机都配备了NPU,但有些手机在进行AI计算时速度更快。TOPS(每秒万亿次操作)是衡量AI处理器性能的常见指标。Qualcomm解释说,决定NPU TOPS的两个因素是其运行频率(时钟速度)以及可用的MAC操作单元数量。最近宣布的Snapdragon 8 Elite芯片被宣传为比其前代产品Snapdragon 8 Gen 3的AI性能高出45%。后者最高性能为45 TOPS,这与顶级Nvidia RTX 4090桌面显卡提供的1,300+ TOPS相比相形见绌。不过,手机并不像Nvidia的怪物那样消耗450瓦的电力。由于AI任务的TOPS需求很少被提及,很难将数字放在上下文中。然而,微软的Copilot+ AI聊天机器人需要至少40 TOPS。由于其高度专业化的特点,神经处理单元不太可能取代CPU或GPU。相反,它们旨在通过承担AI任务来提高移动SoC的效率,同时节省电池电量。随着AI被集成到智能手机中,我们将来会听到更多关于NPUs的消息。目前,不妨查看我们最喜欢的三星Galaxy AI功能,以探索AI今天能为你做什么。