近日,高通用性具身智能技术研发公司「跨维智能」完成战略轮融资,融资资金将主要用于产品研发、团队扩充和市场拓展等方面。
跨维智能成立于2021年6月,是一家以Sim2Real为核心,研发高通用性具身智能技术的国家高新技术企业。跨维智能凭借在3D生成式AI、多模态大模型及三维成像方面的长期技术积累,基于Sim2Real打造软硬一体产品矩阵,且已在多场景中实现商业化落地,是具身智能规模化商业落地的引领者。联想集团高级副总裁、联想创投集团总裁贺志强介绍:具身智能作为AI与物理世界交互的载体,具有高度通用性和泛化性的核心特点。传统机器人为单一或固定任务设计,泛化性较差,难以完成复杂或未知任务,并且需要大量的编程、示教,部署复杂、时间成本高。而具身智能具有高通用性,可在各类场景完成复杂任务。联想创投作为联想集团旗下的全球科技产业基金,十年来坚持投资AI机器人领域,不仅是基于对具身智能的信仰,也是作为联想的CVC和科技瞭望塔的定位与使命。此次对跨维智能的投资,也是联想创投长期看好跨维智能在具身智能路径的选择以及商业化落地的领先性。具身智能宏观地讲包含“具身”与“智能”的结合,智能是为不同具身形态的机器人/物理智能体服务的。这些具身形态可以包含主要应用于非结构化场景下(例如商业、家庭等)的人形机器人,也可以包含人形上肢、灵巧手,甚至是应用于各种半结构化场景下(例如工业、物流等)的传统形态机械臂/协作臂与特种机器人,以及更广义的无人车、无人机等。跨维智能认为后者应该是当前具身智能技术发展和落地的重点考虑对象。为服务于不同形态的物理智能体,智能技术本身也应该不同于以人为服务目标的当前的大模型技术(例如ChatGPT、Sora等服务于知识搜索和分享,内容创作等)。跨维智能创始人贾奎认为:随着操作对象、环境和任务复杂性逐渐增强,通用具身智能将会经历L1-L5五个阶段。从半结构化场景和特定机器人形态处理特定任务,逐步升级到对任意/未知场景,以自适应的通用机器人形态,完成任意任务。
贾奎对具身智能发展阶段的定义。
具身智能学习需要海量的带标注数据,而真正实现具身智能的落地,更需要海量的高精度高质量和丰富标注类型的数据。不同于LLM/VLM等大模型的训练,训练具身智能大模型的数据是与物理智能体相关的,是在物理世界绝对坐标系下的精确测量数据,在数据获取难度、数据获取成本、标注周期等因素都会存在多重掣肘,极大影响具身智能落地的周期及成本。因而通过仿真获取合成数据成为了一个必然的选择。02 跨维智能的进阶之路:自研仿真引擎、3D大模型、AnyGrasp跨维智能创始人贾奎表示:Sim2Real是通过物理仿真机器人操作场景,并引入各种与任务相关的真实世界的干扰(视觉的、物理的、任务描述的干扰,环境distractors等),再通过渲染、轨迹数据记录、关节数据记录等方式形成海量的带绝对精确标准的合成数据,用这样的合成数据训练具身智能大模型。跨维智能以Sim2Real为核心,持续打造底层技术核心能力。打造了独有的DexVerse™数据与具身智能仿真引擎,用于数据生成与大模型训练。该引擎基于概率建模的程序化生成仿真方案与生成式AI技术相结合,解决现有技术无法合成形式多样的高质量三维仿真数据资产、以及难以人为介入控制所导致生成不遵循现实物理约束的缺陷,实现高效零成本且更加真实可靠的仿真数据生成引擎,具备低成本获取海量丰富数字资产的能力,为持续低成本生成数据打造了坚实的数据资产基础。同时,结合在具身智能多模态大模型上的长期积累,跨维智能打造了基于3D VLA (3D Vision Language Action) 大模型的成像感知套件,从而逐阶段支撑各行业趋近实现AnyGrasp/AnyManipulation,而不是针对不同的操作对象进行定制的任务编程。
跨维智能应用场景。
03 由半结构化启程,迈向全场景非结构化通用智能
如前所述,跨维智能优先将技术应用在大规模的半结构化场景:如工业制造领域。通过赋能较为成熟的机械臂/机器人,在半导体、汽车、光伏等行业均已有较好的落地应用,跨维方案对比传统技术能有效地节省大量部署时间,降低成本,提升稳定性及通用性,支撑柔性化生产。
跨维智能创始人贾奎透露:公司未来会根据通用性本身的技术发展轨迹,依次覆盖从半结构化到非结构化场景。如典型的工业/协作机械臂场景,逐步实现支撑(接近)任意物体与场景抓取/操作的具身智能成像、感知与控制系统、支撑在各类机器人上快速自动完成新任务部署的机器人控制器、能够自主完成单轮及多轮任务的自主机器人系统。以上实现后,也将开启通用/人形机器人在包括家庭在内的更广泛场景落地的可能性。