当前位置：首页 > 综合 >

MIT提出掩码逆强化学习算法利用大模型赋能机器人

时间：2026-06-09 15:17:41 来源: 盖世汽车阅读量：7401

盖世汽车讯设想在不久的将来，工作人员在仓库或办公室带一名新员工熟悉岗位，而这名新人是一台机器人。想要教会它工作，工作人员可以采用“边演示边讲解”的教学方式:实操演示多种作业方式，同步口述操作要点。

举例来说，工作人员让机器人把咖啡放到桌上，不能打扰正在线上开会的同事。工作人员希望机器人远离自己和笔记本电脑，避免打断会议。想要实现该效果，需要用完整任务数据训练机器人。以往科研人员要么录制大量实操演示，要么撰写详尽操作说明来教会机器人完成抓取作业；一旦缺少足量演示样本或详细文字指引，机器人极易误解任务要求。

对人类而言，这种“演示加讲解”的过程相当费时费力。据外媒报道，麻省理工学院计算机科学与人工智能实验室的研究团队实现了一种机器人教学自动化方案，这套方案可自动完善模糊指令，且所需演示数据减少了近五分之四。

研究提出掩码逆强化学习算法:依托首个大语言模型，结合人工演示数据补全语义含糊的指令；再由另一套大模型筛选关键信息，敲定需要写入运动规划的细节，让机器人能够在家庭、办公室、工厂环境中安全完成各类作业。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。