当前所在位置: 首页>聚焦>

仅需千分之一数据量!国产视频模型即可实现物理操作

时间:2025-07-26 20:07:50 来源:新华网-北京 阅读量:18452
分享到:

我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据,使虚拟世界中的“视频指令”变成真实世界的“执行操作”,真正实现机器人的“指哪打哪”。

“仅用20分钟的机器人真机数据,即可快速泛化到机器人,所需数据量约为行业均值的千分之一,显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍,模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持高性能的同时,展现出显著的少样本学习优势。

Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集,然而数据收集费时费力且成本高昂。”朱军说。

而Vidar的核心突破在于其通过解构具身任务的执行范式,充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”,以实现“更少数据、更高效能”。

为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境,研发团队还创新性地研发出一种全新的具身预训练方法,进一步增强对物理世界控制的精准度。

为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈,团队创新构建了高精度预测逆动力学模型,实现了低成本、高效率、高精度的机器人动作预测。

“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说,一方面,我们通过打造新一代数字内容创作引擎,使AI成为人类创意的延伸;另一方面,我们通过高效训练具身视频基座模型,实现虚拟与现实的深度互动。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

  • 广州成立2000亿母基金,重点投资半导体、新能源等领域

    广州成立2000亿母基金,

  • 布局中国市场外商独资公募产品“上新”提速

    布局中国市场外商独资公募产

  • “物联网+健身”为群众体育提供更多便利:拓展健身空间拉动体育消费

    “物联网+健身”为群众体育

  • 美股异动能链智电NAAS.US盘前涨超9.5%专家称新能源汽车市场增长趋

    美股异动能链智电NAAS.

  • 董事长突然离职,金种子酒去年亏了近2亿,被古井贡酒和口子窖碾压

    董事长突然离职,金种子酒去

  • 松下将对部分镜头产品降价,最高降20%

    松下将对部分镜头产品降价,

  • 泰国“麻辣”“火锅”有多流行?大众点评搜索量上涨700%

    泰国“麻辣”“火锅”有多流

  • 小摩调查:超五成交易员押注AI 未来三年金融市场或重塑

    小摩调查:超五成交易员押注

Copyright © 2007- tz.chinaqiyenews.cn. All Rights Reserved    网站地图  备案号:沪ICP备2022019539号

本站所有资源来源于互联网网友交流,只供网交流所用、所有权归原权利人,如有关侵犯了你的权益,请联系告之,我们将于第一时间删除! 邮箱:bgm1231@sina.com