AI 年代芯片面对哪些新应战来袭 ,手机

本文翻译自。 年Semiengineering。代袭


边际。手机AI 。芯片新、面对生成式AI(GenAI)以及下一代。 年通讯技能。代袭正为本已面临高功用与低功耗压力的手机。手机。芯片新带来更多核算负载。面对

抢先的 年 。智能手机  。代袭厂商正尽力应对本地化生成式AI 、手机惯例手机功用以及与云之间日益添加的芯片新数据传输需求所带来的核算与功耗应战。

除了人脸辨认等边际功用以及各种本地使用,面对手机还有必要继续适配新的。通讯  。协议以及体系和使用更新 。更重要的是 ,这全部都要在单次电池充电下完结,一起保证设备在用户手中或接近面部时坚持低温。

ad989bcc-4592-11f0-986f-92fbcf53809c.png

图1:移动电话主板 ,右上为SoC(体系级芯片) ,包含。Arm。CPU。及其他组件。

图片来历:Arm。

“假如你检查任何一款高端手机的装备 ,你会发现全部的SoC都选用异构架构  ,不同的模块处理不同的使命,一起又协同作业。”。Imagina。ti 。on 。 Te 。chnologies细分商场战略与产品办理高档总监Vitali Liouti表明。,“从体系视点来看  ,全部移动SoC厂商都会以渠道的方法一起考虑硬件和软件的协同规划 。” 。

Cadence。公司硅处理方案事业部Tensilica 。 DSP 。产品办理与商场营销总监Amol Borkar表明 ,AI网络的快速演进和模型需求的多样化使得移动SoC规划变得日益杂乱  。“与传统作业负载不同 ,AI模型——特别是大言语模型(LLMs)和变换器(Transformer)变体——在架构 、规划和核算需求上都在不断改变 。这对芯片规划者来说是一个移动靶,由于芯片一旦投片就无法更改 ,但他们仍需预置未来AI才能的支撑  。更杂乱的是,芯片还有必要统筹云端的大型模型与本地推理的小型高效模型(如TinyLlama)。这些小型LLM关于移动和。嵌入式。设备至关重要 ,由于它们需求在极低功耗与存储约束下完结 。智能 。功用 。”。

除了从体系视点全体规划外,AI也正在推进单个 。处理器  。架构和使命分配的革新。

“当时的改变首要体现在两个方向 。”Synaptics。物联网 。与边际AI处理器部分副总裁兼总经理John Weil表明 ,“一是Arm和 。RISC-V。生态体系中的CPU架构继续增强,人们正在为Transformer模型添加矢量数学单元以加快各类数学运算;二是神经处理器(NPU)的改善,它们相似 。GPU。 ,但专用于边际AI模型加快,基本上也是矢量核算单元 ,用于加快模型内部的各种算子。假如检查Arm的TOSA(Tensor Operator Set Architecture)规范,里边界说了各种AI操作,开发者 。也在为其编写相似GPU的OpenGL加快程序。”。

adb9cbda-4592-11f0-986f-92fbcf53809c.png

图2 :移动SoC规划示意图 ,AI加快器可所以GPU 、NPU或高端。ASIC。。图片来历  :Synopsys 。

曩昔几年 ,GPU和NPU的规划都阅历了快速演进以习惯新使用场景。Imagination的Liouti指出,在高端手机中  ,GPU一般占芯片面积的约25%,而NPU的体积也继续扩展以承当更多作业负载 。“详细在哪个模块上运转使命取决于模型 。例如某些层合适NPU履行 ,而有些则需求GPU协作 。NPU已成为低功耗使命的要害,特别适用于‘一直在线’(Always-On)的场景。一起 ,还有必要调配高功用CPU ,由于它承当初始加载和使命办理。假如CPU功用缺乏,再强壮的GPU或NPU也难以发挥作用  。” 。

在全部并行处理使命(图形、通用核算或AI)中,功耗功率一直是中心。“咱们对标量单元(ALU)进行了全面重构和调优,以完结更高的能效  。”Imagination产品办理副总裁Kristof Beets表明 ,“接下来咱们要将更多NPU技能引进GPU,例如更专用的数据类型和处理管线,以在坚持可扩展性的一起供给更强功用 。当然,咱们也不能忽视开发者社区 ,怎么完结开箱即用、怎么进行高效优化与调试,这是咱们要点重视的方向。”。

现在,将AI集成进芯片的难度已大幅下降。“五年前咱们还在问AI究竟该怎么做 ,是不是得雇一整个数据科学家团队?现在彻底不是这样了。”Infineon 。 IoT 。、消费及工业 。MCU  。部分高档副总裁Steve Tateosian说 ,“咱们具有一整个DSP博士。工程师。团队,他们在调试音频前端,开发工程师经过AI东西来建模即可。开发流程也变得极为顺利:数据收集 、标示、建模、测验、优化——东西链已大幅提高 ,许多专业知识已内嵌其间,让更多工程师都能上手 。”。


视觉化 、无线化与触控应战 。

跟着AI使用添加,界面也趋于视觉化 ,对处理才能的要求更高。

“曩昔是核算机或根据文本的界面 ,现在全部都变成了。视频。或全图形界面,而这类界面的核算需求要高得多。”Ansys产品营销总监Marc Swinnen表明,“无论是屏幕输入仍是1080p等格局的视频输出 ,视频的输入输出办理都需求很多核算资源。”。

此外  ,现在手机中的全部功用简直都是无线的,因而。模仿。电路的份额大幅上升 。“现在的手机大约配有六根。天线。——这太张狂了。”Swinnen说,“全部这些高频通讯功用 ,包含。Wi-Fi 。 、 。5G。 、。蓝牙。 、AirDrop等,都有各自的频段、芯片和天线。”  。

通讯规范不断演进的实践 ,也为SoC规划者带来了额定应战  。

“当时的要害在于推进AI使用落地  ,并加快UFS(通用闪存存储)的规范推进。”Synopsys移动 、轿车和消费类IP产品办理履行总监、MI 。PI。联盟主席Hezi Saar表明 ,“MIPI联盟成功将推进时刻提早了一年,这大大下降了危险 。职业现在正在界说这个规范。SoC和IP厂商需求在规范没有彻底定稿时就开端开发自己的IP 。他们需求在规范尚不完好时完结流片 、拿到开端的硅片 ,一起还要为下一版规范做规划 ,提早考虑互操作性以及生态体系的构建  。这在曩昔是不行幻想的。曾经规范的更新是有节奏的,比方每两年一个版别。但现在节奏被大大紧缩,由于AI更倾向软件范畴 ,而它对硬件的影响巨大。硬件毕竟不是软件 。”。

adcf1e2c-4592-11f0-986f-92fbcf53809c.png

图3 :智能手机中的LLM或AI引擎依靠高效存储拜访 。

图片来历 :Synopsys。

“当你发动设备时 ,大部分模型需求加载到 。DRAM。中 ,这意味着从UFS存储设备到SoC的读取链路有必要十分高效。”Saar表明,“这关乎推迟——你不能按下按钮发问,然后等两秒钟。当然 ,也有其他处理方法 ,比方你不用读取整个模型 ,能够进行部分读取 。但这些体系的中心使命便是将数据快速传输到DRAM。我已经在芯片上运转了LLM,比方经过某个加快器 ,但它需求和DRAM高效衔接以完结核算,然后再将成果回来给用户 ,比方。音频。输出。在移动设备中,这个流程有必要十分高效 ,功耗尤为要害。因而厂商会尽或许削减传输次数,并将UFS存储尽或许多地置于休眠状况。我估计未来存储 。接口。和DRAM接口都会开展得十分十分快——远快于以往。”。

多模态模型和像Stable Diffusion这样的生成式AI东西也加大了体系的杂乱性 。这类模型将文本 、图画 ,乃至音频处理集成到一致架构中。Cadence的Borkar表明 :“这些模型需求一种灵敏高效的核算架构 ,能够处理多样的数据类型和履行形式。为了在快速演进的AI环境中坚持耐性 ,AI子体系在规划时有必要具有面向未来的可扩展性。这一般意味着在NPU周围集成可。编程。IP块,使SoC能在芯片量产后仍能适配新模型和新负载。支撑如此广泛的AI使用场景 ,要求SoC不只功用强壮、能效高 ,还要具有高度的架构灵敏性,这也让AI。中心 。化芯片规划成为移动核算范畴最具应战性的前沿方向之一 。”。

算法。在手机上的另一个典型使用是判别哪些触控是有用的,哪些不是,无论是传统的“糖块机”仍是折叠屏手机。后者由于屏幕极薄,应战更大  。

“屏幕变得很薄时 ,触控层有必要贴得十分挨近带噪声的显现层 。”Synaptics产品营销总监Sam Toba表明,“咱们需求处理来自单个像素的很多显现噪声。这在超薄显现器中是个问题 。布景层越薄 ,电容。板之间越挨近,全体电容就越高  。而触控自身依靠检测十分细小的电容改变,在布景电容极高的状况下 ,辨认出有用手指 。信号。就变得愈加困难 。” 。

这种超低功耗芯片有必要在本地判别哪些信号是有用的 ,只要在确认是有用触控后才唤醒主SoC 。“假如由主控芯片来辨认触控信号,它就有必要继续运转 ,这将导致巨大的功耗。因而 ,大部分无效触控有必要在本地就被过滤掉。” 。


本地AI处理与模型布置 。

手机中集成了很多AI使用 ,且数量还在继续添加  。Ansys的Swinnen指出 ,在或许的状况下,AI推理应尽量在本地完结 ,仅将精简过的信息上传至云端  。例如,人脸辨认或图画处理等。机器学习。功用应接近摄像头完结处理。

即便是像ChatGPT或具有智能署理功用的GenAI模型,其推理进程也可本地完结。Synopsys的Saar表明,AI模型现在更高效也更紧凑 ,巨细从几兆到几十兆不等,彻底能够布置在设备本地,视详细模型与设备而定。

在本地处理AI带来许多优势。Siemens Digital Industries Software的网络处理方案专家Ron Squie 。rs。指出:“将AI硬件集成到移动设备中 ,能够直接在本地运转大言语模型的推理,不再需求将数据发回云端处理 。这带来的优点是两层的:推迟更低,呼应更及时,闭环控制功用更好;一起还可提高数据隐私 ,由于数据不会脱离设备。”。

Infineon的Tateosian也表明附和  :“数据不再上传云端,这下降了功耗和本钱 。有些边际AI使用乃至能够在不引进衔接本钱的前提下提高智能水平  ,或许削减对衔接的依靠——这意味着削减云端通讯和终端设备的全体功耗。”。

Imagination的Liouti指出,现在是一个“极致优化(hyper-optimization)”的年代  ,规划者有必要消除全部“技能债款”,然后剥削设备更多功用:“数据搬移耗费了约78%的功耗。咱们作业的要点是怎么削减这些数据移动。这能够经过GPU完结,也是咱们首要发力的当地 ,但也能够在渠道级或SoC层面优化 。咱们需求开发十分先进的技能来处理这个问题。而关于。神经网络。特别是大型模型而言 ,数据转移的应战会更大。”。

虽然本地AI推理正在快速开展 ,但由于电池和功耗的约束 ,仍有部分使命需求依靠云端。“你总要有所取舍。”Liouti说,“这仅仅一个旅程的开端 ,几年后状况会天壤之别。咱们现在还仅仅刚刚起步。我以为transformer是未来更大体系的根底模块 。现在 ,咱们需求将炒作和实践区分隔 。以本地运转图画生成模型为例  ,虽然现在手机上也能跑,但功用远不如你在PC上用Midjourney生成的图画 。不过几年后,状况就会变了。” 。

更强壮的GPU也将成为处理方案的一部分 。“在移动渠道上,咱们能够把省下来的功耗转化为更高的主频和更强的功用 ,一起仍然坚持在同一个功耗与热预算范围内 。”Imagination的Kristof表明  。

不过Infineon的Tateosian也指出,虽然设备每一代的功用和内存都在添加 ,但用户实践体会改变不大。“由于软件的添加彻底吞噬了这些功用提高  。”。


结语 。

移动SoC规划正遭到多项要害趋势的驱动。

“模仿部分的添加 、全部内容视频化与AI化,再加上当今使用对高功用核算(HPC)的需求 ,使得芯片有必要具有极强的算力 。”Ansys的Swinnen表明,“这些要素正在推进SoC的演进,但手机制造商面临的约束在于,他们有必要坚持低功耗和小尺度规划,一起比较于像NVIDIA这样的GPU公司 ,他们在本钱上遭到更严厉的约束 。NVIDIA能够优先考虑功用 ,即便本钱略高也不妨  。但手机芯片不一样 ,它有必要能以极低本钱大规划量产 。”。

芯片规划者有必要从。软硬件协同。的视点出发来规划SoC 。“任何忽视这点的人 ,终究都会失利。”Imagination的Liouti着重 ,“咱们有必要将言语模型的层级、操作类型等问题归入考虑。听起来简略,但实践上并不简单 。你有必要找到一种方法,最大化使用硬件来完结数学运算,然后保证你的处理方案在竞赛中锋芒毕露,由于咱们面临的是职业巨子。有必要进行软硬件协同规划,而这绝非一个工程师就能独立完结的使命 ,而是需求多个学科布景的专家一起协作 ,其间有些范畴乃至看起来毫不相关  。”。

原文链接:https://semiengineering.com/mobile-chip-challenges-in-the-ai-era/ 。

Add a Comment

邮箱地址不会被公开。 必填项已用*标注