21世纪经济报道记者林典驰深圳报道

  12月19日,无人机在清华大学深圳国际研究生院徐徐降落,送来了一杯鲜榨果汁,这是机器人进入大众生活的案例之一。据了解,这也是美团首条高校航线,起飞点设置在2.6公里外的益田假日里商圈,餐品打包后到送达一般仅需约6分钟。

  2023年,机器人正由原先工业走入服务场景,人们已对酒店的送餐机器人司空见惯,扫地机器人走进千家万户,无人机配送在部分城市率先落地。

  美团提供的数据显示,截至2023年11月,已在深圳等城市8个商圈开通22条航线,服务覆盖社区写字楼、景区、医院等多种场景,累计完成用户订单超21万单。

  另一方面,随着AI技术的进展,ChatGPT等大语言模型出现,人机交流比以往任何时候都更加流畅和无缝。另外,若赋予机器人传感器,在人工智能加持下,或许机器人能够实现像人类一样感知和互动学习,这便是时下火热的“具身智能”。

  现在:机遇与挑战并存

  近期,特斯拉CEO马斯克发布人形机器人Optimus的最新视频,视频中透露,Optimus第二代机器人(Gen 2)步行速度提升30%,平衡感和身体控制能力有所改善,并且由于Optimus十指均搭载了手指触觉传感器,机器人已可以两指捏起鸡蛋。

  在当天同期举行的机器人圆桌论坛上,与会专家均认为,今年人形机器人进展引人注目,国内外均涌现人形机器人高完成度的产品。

  落地应用方面,“今年工业领域的协作机器人,物流领域的AGV机器人进展可观。”中国工程院外籍院士张建伟表示。

  另外,亿欧智库统计数据显示,2023年,服务机器人产量同比增长47.6%,结束了连续12个月的同比下滑。

  在视觉传感器、SLAM系统、AI机器人芯片、机器人操作系统等核心零部件的研发和生产方面取得了重大突破。这些核心零部件的国产化不仅降低了服务机器人的制造成本,还有利于推动中国服务机器人在全球市场上的竞争力。

  例如,普渡科技在机器人操作系统和SLAM系统等关键领域实现了行业领先的技术突破,大大提升了服务机器人的部署能力和自主导航能力。

  据了解,过去一年,美团在自动配送车等机器人领域的探索取得进展。如自动配送车配送服务自2018年3月落地后,目前在雄安新区等国内多地完成了技术测试和试运营,并在北京、深圳等城市为100多个社区服务,自动驾驶里程占比超过99%。

  不过,服务型机器人在商业应用过程仍旧面临挑战。美团无人机业务负责人、美团机器人研究院理事长毛一年则谈到,首先是购买机器人需要承担高昂的初始投资成本以及机器人实际利用率并不高。另外,运维费用和维修带来机器人无法被正常利用的时间成本都比较高;并且,机器人往往只擅长做一件事情,单个机器人多场景的应用比较少,任何一个部件或者任何一个链条出现问题,用户体验和观感都会下降。

  挑战往往伴随着机遇,关键是市场需求能否被有效挖掘。加拿大工程院院士张宏表示,评判机器人发展应该从商业模式和技术进步两个维度出发。例如,大疆因为航拍受到市场认可,进而在无人机领域取得成功;美团在外卖配送已经占据一席之地,借助平台推广无人机配送也正好契合市场需求。

  未来:具身智能突破人机边界

  尽管大语言模型有望变革机器人领域,但在理解力、联想力和交互能力等方面,仍然未能完全满足公众对机器人的期望。

  1950年,“人工智能之父”艾伦·图灵首次提出“具身智能”概念。其基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式习得。

  “具身智能不仅仅在于双足机器人,更在于对世界的理解能力,形态只是一个载体。”清华大学具身智能实验室负责人许华哲表示。

  伴随机器人的发展,业界普遍认为具身智能将是机器人发展的未来方向。不过,如何弥补其与人类智能之间的差距,机器人在逻辑性、感知力、人机交互等方面仍具有无法忽视的鸿沟。

  人工智能指数型增长,给机器人发展带来强劲动力,下一步则是要将多模态的具身智能作为未来发展的实践主体。

  张宏表示,不客气地讲,过去40年机器人并没有发生质的变化,解决机器人难题的关键之一是如何将现有知识灌输到机器人当中,大模型将会是一个很好的切入点。

  早期的具身智能研究发现即便要使智能体泛化到与训练数据非常相似的任务都是异常困难的事情。

  例如,将“把物体从桌子中间推到右上角”指令得到的策略并不适用于“把物体从桌子中间推到右下角”这个任务,这是因为桌子的右上角和右下角在图像识别层面并不相通,因而在机器人“眼里”并不一样。

  在采用具身智能大模型预训练之后,则有望比直接训练取得显著提高的效果。

  许华哲表示,具身智能的生成式仿真仍比较期待,利用这种训练方式,模型学到了“将A放入B”这样一个抽象的概念,有望形成系统性泛化到新任务的能力。

  与会专家认为,未来三年,具身智能将取得突破性进展。具身智能最先落地会是服务场景,其次是工业刚需高频而且高度依赖工程师的场景。