机器人端侧模型的十字路口 [复制链接]

amtbbs · 发表于 2024-12-26 20:36:04

访谈丨陈彩娴、吴华秀、高允毅

作者丨朱可轩

编辑丨陈彩娴

自 2023 年以来，以大模型为代表的人工智能与以具身智能为代表的机器人成为科技发展的两股重要力量。与此同时，将人工智能算法、尤其是大模型应用于进一步提升机器人智能水平也成为一个自然而然的趋势。

在这个背景下，“机器人学习”、“具身大脑”成为炙手可热的名词。

据 AI 科技评论与多位业者的交流，我们发现诸如“具身大脑”的定义并不单一，更通俗广泛来说，凡是将人工智能算法与机器人相结合，用于提升机器人在交互、感知与控制上的技术派系都能被列入具身大脑或机器人学习的范畴。

从当前情况来看，国内专攻机器人模型的厂商大约可以分为身体控制派和交互感知派，而按技术源头则可以粗略分为几类：

一类是视觉感知派，如穹彻智能、有鹿、若愚科技；一类是强化学习派，如 Physical Intelligence；一类是语言模型派，如面壁智能、岩芯数智、自变量等等。

在解决机器人大脑问题上，不同技术派别有不同的路径之分与观点差异。单纯从过去一年的行业实践而言，研究基础模型出身的大模型派在机器人领域的落地最为焦虑。

除去激烈的市场竞争，更本质的原因是：端侧模型在机器人终端的落地，中间还隔着芯片的开发，由此机器人厂商、大模型厂商与芯片厂商之间形成了一段三角拉力关系。

而从目前来看，这段三角关系正在进入胶着的负增强反馈：

首先，端侧模型应用在机器人上需要适配芯片，但芯片的迭代是基于市场需求的：当前机器人还没有从专业级产品走向消费级产品，出货量远不如手机、PC 等硬件设备，因此适配机器人端侧模型的芯片姗姗来迟；

其次，机器人消费市场的扩大，极大依赖智能水平的提升，即 AI 模型的迭代，但 AI 模型的升级需要大量真实世界的高质量数据，依赖于其能搭载在机器人产品上与用户进行交互；

最终，具身 VLA 的实际效果离消费级可用的精度要求和准确率还相差甚远，机器人的智能水平迭代变缓，出货量更少，又反过来影响芯片的研发与出货成本。由此三者难舍难分。要打破这个“不可能三角”、走入正反馈增强，需要一方主动打破僵局。

模型厂商期望是芯片厂商，芯片厂商希望是机器人厂商，而机器人厂商或又寄希望于模型厂商……那么，谁会是最终的破局者？

大模型在机器人终端的落地是端侧 AI 的一个缩影，至少在短期内，将大模型商业化寄希望于机器人领域或困难重重。

1

大模型能为机器人做什么？

大模型在提升机器人智能水平过程中扮演着「大脑」的角色，主要体现在泛化与规划能力上，但目前在一些大模型接到机器人的具体操作中，大模型更多是帮助机器人进行简单的任务理解与拆分。

具体来看，一方面，目前机器人依然在执行逐个任务，更多停留在交互层面，没有看到学习能力的增强，多模态任务的实现；另一方面，机器人也更多在执行短期动作（叠衣服、做菜、打开微波炉），很少用到大模型的规划能力，如能一次做几十上百步。

例如，面壁智能目前聚焦的目标是让机器人能够完成更加多样复杂的、长线的、多步操作的任务，执行准确率更高、纠错能力更好，当下正在逐个击破。

事实上，前述目标往往是需要在长程规划、工具调用、模型协同等全方位能力上具备极高专业性的，这是大模型厂商所擅长的领域。相比之下，机器人公司在这些方面的积累和突破可能会较为困难，因此，通过合作引入端侧模型，也能够更高效地解决问题。

就泛化性而言，大模型掌握世界知识、常识知识以及物理建模的能力，帮助机器人实现泛化能力的提升十分关键，但从前沿成果上来看，泛化性这一部分也还属于初期摸索阶段。

RockAI 所选择的路径便是如此，其旗下 Yan 架构大模型的技术路线是，将文本、语音、视频以及机体参数做一个整体对齐，然后一起输入给大模型。

VLA 大脑模型则通过提升物理建模能力来增强泛化性的，如操纵未见过的东西、理解每个物体的重量等等。不过，在业内看来，VLA 的实际效果离消费级可用的精度和准确率要求都还相差较远。

整体看来，大模型原有的能力暂未在机器人侧发挥出来，大模型的泛化、规划、纠错等能力在机器人侧的应用都还比较初步。此前，字节跳动 GR-2 就曾将文生视频的尝试加入到 default 的 policy model 里，但机器人做若干具体的任务这方面也还在探索中。

字节 GR-2 通用机器人

而大模型能力无法发挥、智能化难以提升的背后，其一是行业还没摸索到真正适合机器人的模型框架：目前有的工作基于多模态大模型，也有的工作基于Diffusion Policy的（如RDT 1B），也有两者结合各自负责大小脑建模的，但还没有像 LLM 一般走向统一的架构。

此外，不同形态的机器人对大模型会有不同的要求，短时间内可能实现的设备泛化是形态一致，但不同参数的机器人，形态可能还是相对比较一致的。

不同的输入方式对于大模型也存在挑战，如四足机器人和双足机器人的行走控制方式差异非常大，在大脑层面，向前走可以统一，但底下细致的操控方面差异很大。

这意味着，并没有哪种机器人形态更有利于大模型快速实现设备泛化。当下，大模型的大脑派与机器人的肢体派的融合情况，存在知识壁垒，正在摸索互相打通。

除前述以外，其中最大的难点当属数据——模型厂商很难获取到大量的、多元化（从视觉、语言到动作）的预训练数据，还处在 case by case 的阶段，很难提升模型执行任务的泛化性，以及在这基础上去探索更难的场景。

举例来看，目前的机器人还无法做到精确控制手部动作，就是因为缺乏多元指令微调数据集：

大模型精准控制机器人用手拿东西，要先输出目标物的坐标，而如果是一个五指灵巧手，还要输出五个手指握东西的点位。而模型先通过视觉与传感器判断坐标，然后握住再拿起来，这样的操作在理论上可行，但现在的模型水平甚至无法达到这种程度。

RockAI CMO 邹佳思告诉 AI 科技评论，「目前，手部控制还是交给机器人厂商的小脑来做，我们只需要告诉机器人要执行的动作，比如挥手，我们核心解决的问题是对指令尤其是模糊指令的识别。」

过往指挥机器人得要用特别精确的指令，而且很多指令都是写死的。今年的 WAIC 在进行机器人直播时，有的机器人翻车就是因为指令说得不对，更本质是机器人无法理解自然语言，端侧模型则能提高机器人对自然语言的理解能力。

2

「机器人大脑」的三角关系

再回到数据不足本身，当中的关键问题其实在于机器人厂商暂未实现量产，还无法从专业级转变为消费级产品。

从此前无人驾驶的演进历程来看，特斯拉起初也并非依靠自动驾驶获取第一批用户，而是靠车机本身的性能，之后随着用户数量增多，产生的数据也愈发变多，这样才有了数据训练模型，进而改进无人驾驶，形成所谓正循环。

但反观机器人当下的实际应用场景，现如今机器人的购买对象主要还是研究人员和偏业务的团队，并且还要先交钱再生产，实际应用场景显然不够多。

针对这一情况下，也有业者向曾向 AI 科技评论分析过破局的关键：依赖所有数据都采集自用户不太现实，如果有团队能够标注出第一版数据，可能可以解决这一问题。

不过，要做到这一点并不容易，因为机器人的数据采集并不像大模型一样从互联网下载语料就可以，而是需要真机采集后做标注，而且机器人所需的数据是多元化的，除了语言外还包括触觉、声音、力等信息，这一系列过程会非常艰难且昂贵。

不仅如此，在训练方式上也面临挑战。由于机器人训练需要真实场景，相比于以往的大模型，在强化学习、机器人的稳定性等方面，实际训练成本都要更高，目前学术界也还在探索解法。

换言之，机器人大模型本身的数据标注会比文本类、识别类模型更困难，需要一台真实的设备才能完成，这也是需要研究攻克的难点，真机采集数据比仿真数据更好、更真实，仿真数据则有些像大模型在做数据合成。

在训练具身大脑的问题上，从预训练数据去学习物理世界、学习普适的操控能力以及学习具身场景普适的规划能力，其实仿真数据也可以行得通，但没有真机数据那么真，前提是要足够多样到能适配各种设备、场景。

同时，具身场景的机器人数据和文本大模型的数据存在些许差异：从数据角度前者会多一维，如景深、3D 点云，但如果从多模态的角度，并没有太多区别，只是模态维度会更多一点。

这意味着，大模型在机器人的环境适用性确实起到一个比较大的作用，但大模型是否会帮助机器人数据采集，业内也仍持观望态度。

数据之外，算力也是现阶段机器人端模型发展的关键瓶颈之一。

目前，国内研究基础大模型的主力军虽然也陆续在发力「端侧小模型」，但起步比较晚、技术进展较缓慢，其当下重点仍旧放置在云端大模型上，如智谱 GLM-130B、百川、腾讯混元、零一万物 Yi 等。

这些大模型的参数规模动辄上千亿，需要大量的算力支持，而机器人搭载的板卡算力往往是非常小的，如若要跑上千亿的大模型，机器人就需要部署非常高算力的板卡，如此一来，成本高、功耗高、散热等都会成问题，当下最先进的联发科 9400 芯片或许都跑不起来。

所以，这些云端模型没法在机器人本体上离线部署，这也是面壁智能、RockAI 这些厂商存在市场价值的原因之一。

而如若联网调用的话，执行任务时机器人会存在延时长的情况。据 AI 科技评论了解，一款国产机器人曾与一家云端大模型厂商合作，在机器人上搭载云端大模型、让机器人去完成取水的操作时，就曾面对类似问题。

在业内看来，端侧 3B 小模型在任务泛化、智能理解等任务上肯定没有云端千亿、万亿大模型强，但 3B 模型也能拥有基础的图像理解、自然语言交互与知识库问答等能力，这就已经能解决机器人的大部分智能需求。

另外，也有观点认为，实际上，机器人的本体构型差异不影响模型研发，而研究机器人大模型主要考虑两个因素：

一是算力环境，比如一般来说，机器人的算力模组主要用 Orin，然后使用 Intel 做运控，也有小型机器人会搭载 ARM 芯片，那么模型厂商需要将模型与不同的芯片适配；二是机器人肢体参数不同，也需要做一些简单的适配，但适配成本也不高。

肢体参数不同具体来讲就是，同样是机器人，但身高分别是一米六和一米八，这两个机器人的臂展、臂长和手臂能旋转的角度也是不一样的，这就需要机器人大模型的算法指令与本体高度适配。

这也是云端模型在机器人本体上跑的 Bug 之一——云端模型与机器人本体无法完成高度的适配。

而对于模型厂商来说，机器人的肢体参数相当于「模态」。以 RockAI 为例，其只关心模型输入的模态、以及模型跑在什么样的环境上。模态包括视觉、语音、语言等输入，也包括机器人自身搭载的传感器所收集的信息，以及机器人本体零部件的参数，这些对机器人而言全是输入。

只要输入不一样，机器人都需要做一些简单的适配，不过，一般适配成本都不高，最大的成本还是芯片适配，当前，受制于算力，大模型朝两端升级的难度较高，中间则相对较低。

一方面往大了做，由于需要大量数据和算力，万亿参数模型会非常难做，模型本身并非难点，主要难在资金投入上。不仅要有万卡集群，而且集群中途不出差错是难度系数非常高的事。

另一方面往小了做。如若大模型基于 GPU 只跑在云端，其实是相对容易的；但要做小、跑在手机、机器人等终端上，则不是易事。

目前，端侧模型 3B 模型的难点主要在底层卡的运维和构建上，除了 3B 外，4B-8B 的模型也都可以应用在机器人上，关键是设备搭载的芯片大小，4090、A100 都可以搭载。

许多业者对于机器人端侧的算力也保持乐观态度，在他们看来，机器人端的算力限制其实没有手机那么强，能搭载的算力选择更多，随着芯片的进一步发展，或许千亿级别的模型也能够在端侧落地。

不过，需要看到的是，机器人厂商普遍倾向于用低功耗芯片，现在很多机器人厂商都还在用骁龙 6，而骁龙 6 每年的出货量上千万台，相当于在近五六年里，中低端芯片占据了芯片市场的主流。

其不愿意选择高算力的 GPU 的原因在于，从实践中来看，一般情况下，人形机器人脱离电源后能坚持一个小时，一旦加了高算力板卡，可能 20 分钟就会没电。

但是，端侧模型要跑在较低功耗的 CPU 上是非常难的，因为算力不够：

业内基于 Transformer 架构跑 3B 大小的模型，在骁龙 7 上跑不了，在骁龙 8 上跑起来则需要做量化和压缩，一旦如此操作，多模态能力便会出现大幅下降，需要在能力和算力需求之间寻求平衡点，这会进一步阻止机器人厂商采购模型的动力。

从当前情况来看，许多模型厂商正在做这方面的权衡取舍，在此之中关键则在于推理优化水平的高低：模型做小、落在端侧上，需要工程人员将模型优化，使其在量化后仍能保持性能、速度和对算力的要求。

有机器人领域从业者向 AI 科技评论透露，像智谱、百川这样的大模型基座，不是不考虑端侧，而是做不了的问题，现在手机厂商与机器人的厂商，基本在 RockAI、面壁与通义三者中选择。

回到芯片的问题，就算是机器人厂商愿意用高算力 CPU 或者 GPU，也会面临成本问题：

从手机厂商的例子中来看，小米使用高通 8 的手机都是售价 5000 块以上，如果叠加大模型，价格或许会接近一万，而高端机的消费人群也是少数。要等到联发科 9400 或者骁龙 8 占领市场，还有三至五年的时间窗口。

值得一提的是，机器人端大模型还面临着本体的挑战，业内研究有发现本体是一个特别大的瓶颈，更有观点认为，整个行业可能还没到模型、数据挑战阶段。

3

如何跳出「死循环」？

机器人大模型要向前迈进需要倚靠三方合力，不能只是大模型厂商的一厢情愿，而是要同机器人厂商、芯片厂商联合起来，共同凿开一条光明之路。

当前，也有不少大模型厂商给出了解决方案，比如以智源、智谱等为代表的单位就设计了一个端云协作的大小模型协同训练和部署的方式：

首先在云端训练大模型，然后通过知识蒸馏、模型量化等方式得到一个小模型，再把这个轻量化的小模型部署在终端上，如果终端搭载一个英伟达的板卡，就可以部署一个小如 1B 的模型。目前理想汽车就已经能够在英伟达的板卡上部署 2B 的模型。

这种做法既能保持住大模型的能力，也可以更高效地部署。

也有像 RockAI 这样的厂商，基于非 Transformer 架构在一些搭载了纯 CPU 或 CPU+NPU（低端芯片）的机器人上跑起来，来降低算力要求和功耗。（关于非 Transformer 架构的更多内容，可以阅读 AI 科技评论往期报道：《谁将替代 Transformer？》）

另外，由于芯片有迭代周期，需要三年、五年甚至更长的时间。虽然有说法认为，小模型跑在端侧上的壁垒是芯片，但并不是说芯片厂商研发出了最新的芯片，第二年所有设备厂商就会更新换代。

基于此，市场的机遇则在于存量市场，换言之就是，有没有大模型厂商能在现有算力的基础上满足机器人的智能需求。

RockAI 也在做这方面的布局，邹佳思告诉 AI 科技评论，「我们现在做端侧和高通、联发科、英特尔、ARM、华为的芯片都有适配过，用了四个月时间完成了华为昇腾 910 和 310 系列芯片的适配工作，包括训练卡和推理卡。」

「乐聚之所以选择与我们合作，也是因为我们能做他们的存量市场。这意味着他们不需要等高通或英特尔发布更高性能的芯片才能跑模型，这样是有问题的，因为相当于还得等硬件先发展。」

所谓芯片适配，其实是现阶段为了对芯片的 AI 算力进行充分利用，让模型运行更加高效，必须针对模型架构、依托芯片计算单元特点，对推理框架进行优化。

这项优化工作不仅需要对芯片计算单元、推理算子有足够的理解，还需要对模型结构有足够的认知，因此需要芯片厂商与模型公司共同协作才能快速推进。

也有观点认为，现在很多端侧模型无法落地，不是因为机器人的硬件不行或需求不足，而是大模型的技术还不够成熟和完善，所以无法触及到那么大的市场。

不过，虽然通过现有芯片也能做许多图像、音频等处理，但有些任务还是需要突破芯片困局后才能进一步实现，比如实时捕捉视频、识别实时视频流这一点，依靠现阶段的芯片性能便无法实现。

举例来看，让机器人描述在环境里看到了什么，它实际上看到的是一张照片，如果在它面前做一个打叉的手势，因为这个手势是连贯的动作，机器人可能捕捉不到（因为只能识别图片），只能捕捉到其中一个动作，那么它也许就无法理解这个动作的意思。

而要想识别视频流、捕捉中间动作过程，则对算力有着极高的要求。

「视觉这块我们现在做不上去，有更高算力芯片后就会好办了。哪怕是基于 9400 芯片，当前的大模型厂商都很难把视频能力放上去。」有机器人领域从业者告诉 AI 科技评论。

所以，芯片厂商实现高端芯片的突破，将芯片做到高算力、低功耗并行也是当下所需，芯片的跃升会给模型带来更多机会。

值得一提的是，电池厂商辅助延长续航也十分关键，但遗憾的是，如今的电池厂商在机器人市场还未发力，这归根到底是机器人市场不够广阔所致。

有业者向 AI 科技评论透露，「目前发展较好的机器人厂商一年出货量能有几百台已经算很高了，但对于电池厂商而言，这种程度的出货量远远不够，在他们看来不值得投入大量金钱与人力去做技术突破。」

最终，回归到出货量的破局，这方面还得靠机器人厂商自身拿主意，首先就是要本体做得足够更好，稳定性高，能克服各种复杂恶劣地形，覆盖多种场景等。

目前，PC、手机端也有端侧模型，但后者的出货量很显然远大于机器人，数据量也会更大。

如此来看，端侧芯片的迭代会更多放在手机、PC 等硬件设备上，机器人侧的芯片迭代速度会更慢，无法支撑模型需求，模型的迭代也会受险阻，而算法迭代减缓，机器人智能水平迭代减缓，出货量就更小。

在业内的构想中，如果能解决出货量的问题，之后量产得到提升，随之场景也能增多，如若一年能量产上千上万台，自然而然会有上游厂商找过来，资源也会跟着涌进来。

不过，值得一提的是，PC、手机端的竞争正逐步走向白热化，因为其端侧模型已经走向自研。据 AI 科技评论了解，vivo 的云端模型是基于智谱做的，但本地是完全自研的。

这也意味着机器人侧大模型的创业空间会比较大：在对于端侧模型的需求上，机器人最主要的交互方式是语音和视觉，核心诉求是实现拟人化，即整个交互下来机器人更像是个人，手机则无需特别拟人，主要是完成日常工作，目前发力点在于打通系统应用。

长期来看，模型厂商、芯片厂商与机器人厂商都还有很大的探索提升空间，面对当下存在的量产不足、芯片困境以及数据量不足，以至于难以提升智能水平的闭环问题上，亟需三方积极向彼此靠拢，并有一方跳出来主动破局。

版权声明

“特别声明：以上作品内容(包括在内的视频、图片或音频)为用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user , the platform merely provides information storage space services.”

本文地址: https://amtbbs.org/thread-17700-1-1.html

机器人端侧模型的十字路口 [复制链接]

版权声明

相关帖子

主题推荐

浏览过的版块

具身/人形机器人