人形机器人,怎样又行了?
在刚刚曩昔的WAIC 2023上,没到现场的马斯克,把“擎天柱”派到了现场……
虽然这台人形机器人被放在了罩子,在现场也没有做什么扮演或动作展现,但在会场中仍然被几度围观。
再结合马斯克在开幕式视频讲演中宣布了的观念:
“在将来某个时刻,地球上机器人与人类的份额或许会超越1:1,这意味着机器人的数量将超越人类,甚至会多许多。”
人形机器人无疑成了WAIC 2023上重视度最高的一个论题。
实践上,咱们发现,WAIC 2023上,只是是关于人形机器人的主题论坛就有不下五个,参展机器人厂商更是超越了20家。
此外,据锌工业了解,现在国内凡是机器人做得还不错的团队,不少都现已开端进入人形机器人范畴。
除了恢复机器人范畴独角兽企业傅利叶智能在WAIC 2023期间首发人形机器人外,本年下半年咱们将会看到有更多人形机器人面世。
好像,一夜之间,人形机器人犹如漫山遍野般,从各地相继冒出。
为什么圈内人都觉得,人形机器人真得又行了呢?
01
暴力美学造就通用AI
咱们之所以会觉得人形机器人又行了,相同和现在科技圈最火爆的大模型不无关系。
2022年11月30日,ChatGPT正式面世,随后,ChatGPT只是用了两个月,就具有了1亿用户。
一个比照数据是,增长到1亿用户量,Facebook用了4.5年,Instagram用了2.5年,即便是现在仍属新鲜事物的TikTok也用了9个月。
之所以列出这么一组数据,是为了更直观地表现ChatGPT其时在全球的火爆程度,而一般这样全球性的现象级产品,必有其颠覆性地点。
ChatGPT的颠覆性在于它的“通用性”,精确地说,应该是人工智能的通用性。
ChatGPT的背面,是一家从前少有人知(至少在国内是),现在却无人不知的AI创业团队OpenAI,这个创业团队最早是由特斯拉创始人马斯克、PayPal创始人彼得·蒂尔、YC创始人利文斯顿,以及现在OpenAI的掌舵人奥特曼等硅谷大佬兴办,意图便是为了研讨人工智能技能。
当然,据马斯克从前泄漏,创建OpenAI其实还有另一个原因,是几位大佬为了联合对立谷歌的AI霸权。
这样的硅谷最强天团,既不缺钱,也不缺资源,所以他们走了一条他人敢想不敢干的路——用巨量算力资源练习一个巨量参数的通用人工智能大模型,也便是LLM,通用大言语模型。
这儿咱们再罗列两个数据来看一下,LLM练习终究有多耗费资源:
GPT-3运用1万块V100 GPU,花了30 天才练习完了1750 亿参数,练习一非必须耗费19万度电,全体练习本钱约为140万美元;
GPT-4参数规划更是到达了1.76万亿个,理论上来说,耗费资源量至少是GPT-3的10倍。
咱们彻底有理由以为,这是一群科学疯子,在经过巨量资源测验引发一次AI突变,他们信仰的是暴力美学。
走运的是,他们成功地练习出了通用大言语模型,这从ChatGPT面世后的运用作用和科技巨子的追捧热度就能有一个直观感触。
那么,通用大言语模型,能为人形机器人带来什么呢?
02
人形机器人的逝世圈套
人形机器人一向被以为是机器人的*形状。
之所以如此,是因为,人形机器人理论上能够完结一切人类在做的非标使命。
因此,简直每个机器人创业团队,或多或少都有过搞人形机器人的想法。
在之前很长一段时刻里,大概是早稻田大学搞出WABOT后,人形机器人一向处于一个在硬件才干上寻求打破的阶段。其时咱们都是在想,怎么经过工程结构、制作才干、体系动力学来让人形机器人像人相同地动起来。
所以,在曩昔几十年里,跟着机器人的电机、控制器、减速器等中心器材的工艺、功能不断提高,以及机器人体系才干逐步完善,人形机器人终究如愿逐步能够走了起来。
咱们看到,本田在1972年搞出了阿西莫(ASIMO)震动职业,波士顿动力在2016年亮出了Atlas秀翻全网。
就在波士顿动力Atlas在网上又是扮演后空翻,又是扮演踩梅花桩时,一个一向未能处理的问题——商业化问题,让波士顿动力一向困于银幕之上、网络之中。
咱们看到,无法很好地完结商业化的波士顿动力,在最近十年里相继被最喜欢工程师的谷歌、最喜欢机器人的软银先后收买后,终究又易手给了现代轿车。
轿车工业是自动化、信息化最高一个场景,也被以为是军工之外最有或许首要用上波士顿动力四足机器人,甚至人形机器人的当地。
2021年6月,波士顿动力正式归于现代轿车门下,而这很有或许将是他们最终一站,假如这一站商业化再没什么效果,人形机器人很有或许会再次掉入逝世曲线中的又一个低谷,沉寂再所不免。
或许有人会问,为什么人形机器人这么难商业化?
这是因为人形机器人是彻底仿照人的外形研制的一种机器人,因此天然需求面临更杂乱的、不确定的场景。
这有点相似人工智能技能的开展,会下棋的AlphaGo只能算是专用人工智能,这种专用人工智能算法研制只需求瞄着一个使用场景,用很多数据一向进行练习,总有修成神功的一天。
对应到机器人范畴,面向各类工业环境研制的专用机械臂现已非常老练,尤其在轿车工业的冲压、焊接、喷涂、总装等环节中早已有了广泛使用,这也便是为什么工业机器人在全球能有超越1400亿产量规划的主要原因。
人形机器人要处理的不是这些问题,或者说人们希望作为机器人*形状的人形机器人要处理的,不是这类问题,而是实在国际中更杂乱的问题,这就需求处理机器人的通用性问题。
咱们这儿先说一下人工智能的实质,我的简略了解是:
人工智能的实质便是算法。
算法使用到软件上,就构成了有智能引荐体系的搜索引擎、有智能客服体系的电商渠道;
算法使用到硬件上,就构成了有智能语音体系的音箱、有智能规划体系的扫地机器人。
所以,当通用大言语模型这样的通用人工智能算法呈现后,苦苦寻觅提高人形机器人通用性的机器人团队,就振奋了起来。
人形机器人 通用大言语模型,不就有了通用人形机器人了吗?
03
具身智能,一次机器人的才干泛化
在评论具身智能之前,咱们先要做一个假定:
假定人形机器人所需求的电机的扭矩密度、电池的能量密度都现已足以支撑人形机器人进行各种高强度运动,控制器、减速器也都现已不是问题。
这时候,软实力就变得尤为重要,而以ChatGPT为代表的通用大言语模型,明显现已为人形机器人打了一个样儿。
ChatGPT当然能够直接使用到人形机器人上,这就能让人形机器人在对咱们这个实在国际的认知上,有一个极大的提高,人机交互才干也会有一个阶跃式提高。
这也是为什么本年上半年,阿里、百度分别将通用大言语模型首要加载到了旗下天猫精灵、小度智能音箱上,这也或将是咱们真实走出弱人工智能的*步。
不过,人形机器人,现在燃眉之急,仍是将运动才干提上去,假如以人类运动才干为规范的话,至少要让人形机器人能先到达及格线以上。
是的,现在市面上咱们能看到的人形机器人,即便是最基本的运动才干,仍处在及格线以下(不是说人形机器人的运动才干差,实在是人类运动才干太强了),这是当下职业的一个遍及一致。
而据锌工业了解,现在现已有机器人公司在经过ChatGPT提高人形机器人运动才干,例如优必选就现已在用类ChatGPT大模型做运动规划,经过大模型做长序列、长周期的动作序列拆解。
经过大模型做人形机器人的运动规划的优点是,能够提高机器人在动作履行过程中的决议计划和规划才干。
这其间表现大模型通用性的,是一个被称作「泛化」的才干。
我是在清华大学穿插信息研讨院助理教授许华哲的讲演中了解的这个概念,他用机器人切豆腐为例解说了泛化才干关于具身智能的重要性:
一台机器人学会用一把刀切豆腐后,当这把刀的色彩、姿势、方位不管怎样改变,这台机器人都能识别出这把刀,并完结切豆腐这个使命,这便是泛化才干的表现。
假如人形机器人在运动规划上也有了这样的泛化才干,那么,理论上,人形机器人只需学会在一种地势上走路,就能够自己学会在全地势场景下自在行走。
也便是说,走路就成了人形机器人的一个方针,人形机器人只需在一个环境下完结了这个方针,就能够在一切环境中自适应完结方针。
这时,机器人就从程序履行导向,转向为方针完结导向。
这样的人形机器人也就有了感知运动智能,甚至有了必定的认知才干,人形机器人由此也就完结了一次高维进化。
具有泛化才干,正是人形机器人成为通用机器人的*步。
04
人形机器人的N种或许
首要说一个我自己的判别:
不管是否有被冠以“通用”二字,人形机器人实质上便是一类具有通用才干的机器人。
假如不是为了做通用机器人,彻底没有必要做成人形。
在自动化才干更高的仓储体系中,AGV功率本就更高;在轿车总装车间里,机械臂功率也现已很高。
假如寻求*高效,使用于这些场景中的机器人彻底没有必要做成人形。
所以,这几年连续呈现的人形机器人,某种意义上,都能够被以为是通用人形机器人。
但人形机器人在实践使用时,会首要在哪些场景落地?
咱们现在能够看到的是,特斯拉正在测验将人形机器人使用于工厂中,前不久发布了人形机器人的傅利叶智能本便是医疗康养机器人范畴的明星企业,养老、助老也就成了人形机器人落地场景之一。
明显,制作工厂、医疗康养,现已成了现在人形机器人两个黄金赛道。
假如再往久远来看,就像大模型在各个职业中都现已裂变出了职业大模型相同,搭载职业大模型的人形机器人,也会随之进入各个职业。
不过,这其间还有两个要害难题需求处理:
一个是硬件难题,要害零部件的技能打破,将成为具有优异的运动才干的渠道级人形机器人成形的要害;
咱们看到,国内越来越多硬科技团队涌入人形机器人这一赛道中,可是人形机器人的要害零部件仍需进一步打破,才干支撑起一个通用人形机器人渠道的成形。
以电机为例,现在,电机扭矩密度做得最高的是MIT和UCLA做的电机,现已能完结38N.m/kg的扭矩密度,但这尚不足以支撑一台规范体重的成年男人自在弹跳或奔驰。
一个是软件难题,人形机器人现在还没有满足的场景数据,来在某个场景中练习出一个通用人工智能大模型,让人形机器人基于此进行自我进化。
前文说到,以ChatGPT为代表的通用人工智能自身寻求的是暴力美学,需求很多样本数据来练习,才干构成具有通用常识的了解、剖析、决议计划才干的通用人工智能大模型。
关于人形机器人而言,因为姑且没有得到批量化使用的场景,也就没有这么多直接的场景数据。
例如在工业场景中,因为此前并没有人形机器人直接参与,相应的运转数据天然也就无从谈起,能够用于人形机器人练习的场景数据,更多是来自空间方位数据、机械臂及制作设备的运转数据,以及工人的作业日志等。
不过,清华大学邓志东教授也指出,大模型 思想链等提示词工程,能够完结零样本学习,这将推进智能机器人的工业落地。
整体而言,人形机器人开展道路上仍然有诸多困难。
不同的是,咱们现在现已明晰地看到了一条路,一条在三年、五年内有或许跑出通用人形机器人渠道,甚至在某些特定场景中跑出人形机器人产品的路。
就在五年前,整个职业的判别仍是要十年、二十年,甚至更长时刻才干到来。
这便是当下这个年代,一个让机器人团队再次振奋起来的年代。