DearFlow采用了另一场比赛,北京大学为机器人学习
作者:365bet官网 发布时间:2025-07-27 12:50
作者的简介:北京大学博士生Sheng Juyi。北京大学硕士学生Wang Ziyi和Li Peiming拥有研究和视频分析研究指示。 Li Yong是Zhijiang大学控制科学与工程系的教授,该领域的自主机器人和智能系统的研究领域。 Demi深圳大学毕业生的助理教授Liu Mengyuan是研究领域的峰大学毕业生,以了解人类行为和学习机器人技能。在当前的VLA模型中,“一个”动作生成模型决定了动作的质量和速度。具体而言,生成模型在推理速度和任务成功率之间具有“基本补偿”。其中,扩散模型(例如扩散策略和DP3)通过多个乘客的迭代产生高质量的动作,但是推理速率很慢,很难mEET真实的时间控制要求。基于流量的模型(例如流动电池)需要额外的架构限制或一致性丧失。这是为了提高设计复杂性并确保轨迹的有效性可以限制性能和概括能力。此外,机器人技术面临另一个挑战:有效的数据概括。标准的模仿学习策略往往“以崩溃为特征”。换句话说,需要不同行动的关键状态错误地分配给了类似的潜在表示,并且该模型无法准确响应新情况。因此,提高模型区分不同状态的能力是改善构成物的概括的关键。为了应对以前的挑战,北京大学的研究团队提出了一个新的机器人学习框架,称为MP1。该框架提出了jyleflow范式,该范式最近在图像生成领域中进步Ation,实现机器人学习,在毫秒级的推理速度,并为VLA动作生成模型建立了基础。文档标题:MP1:机器人控制文档阶段的平均流量策略学习链接:https://arxiv.org/abs/2507.10543代码链接:https://githsub.com/logssim/mp1传统流量偶然速度领域。当推断必须求解通常的微分方程(ODE)以整合轨道时。这个过程不仅需要时间,而且还会呈现并累积数值错误。相比之下,MP1直接从目标运动的初始NALTO学习,并使用平均间隔速度场。从技术上讲,MP1使用“中间流ID”。这允许模型在推断期间不使用质量分解的情况下直接对平均速度场进行建模。该设计提供了两个核的优势。真正的单步生成(1-nfe):模型仅需要网络转发的传播才能直接生成perf从随机噪声中进行操作轨迹,从而消除了完全迭代的ODE溶液的依赖性。无限制的简单性:由于其数学形式的完整性,MP1自然保证了轨道的质量,而无需引入基于流奇偶校验等方法的外部一致性的局限性,并使模型设计更简洁,更优雅。 MP1不仅实现了速度的跃升,而且还意识到了其唯一的进步末端主义传播过程,而不是依赖于工程技巧来修补,而不是解决数学原理的问题,从而确保了推理时间的高稳定性,并保证了机器人操作任务的实时性能。解决轨迹产生的动态问题后,分布式损失提高了概括小样本的能力,MP1在学习机器人学习中改善了“表示崩溃”的问题。这个问题是指策略网络需要在可能的空间位置需要错误不同的行动的关键状态,从而减少了样本中小型培训中模型的概括。 MP1从差异领域(表示领域学习领域)引入现代方法。这是一个光标准化术语,仅在训练阶段可用,旨在直接优化策略网络的内部表示空间。核心思想是在每个由迷你批次训练的迷你批次的潜在表示中使用“排斥力”,并迫使它们在特征空间中相互分配。这种损失是“没有正样本的对比”,可以理解为“损失”。战略网络回归的主要目的是从相应专家的行动中“减去”每个状态的负责可识别的特征。差异丧失的重要优点是,他是一个只有在训练期间生效的普通人。该模型的模型以区分微妙的场景差异,这些差异完全保留了MP1 s Signaturein增加推断过载的毫秒的速度响应速度。在数据收集昂贵的机器人领域中,这种从非常重要的教育(例如,5-10)有效学习的能力极为重要。 MP1仿真测试表明,MP1的性能优势已通过ADROIT和META-WORLD参考点验证,涵盖了37个复杂的操作任务。就任务的成功率而言,任务和稳定性的出色成功率,与当前的高级流动模型流动策略相比,MP1的平均成功率达到了78.9%(71.6%)。 DP3扩散模型(68.7%)的显着提高分别为7.3%和10.2%。特殊的小鬼Ortance是MP1的好处在更大的困难任务中变得越来越突出。在“媒体”,“硬”,“非常困难”的元世界任务集中,MP1的成功率分别增加了9.8%,17.9%和15.0%,而流量政策则分别增加了。此外,MP1表现出极高的性能稳定性。多个随机种子实验的成功率的平均标准偏差为±2.1%,远低于其他参考方法,表明结果的高可靠性和可重复性。我们还为MP1推理速度建立了新的记录,同时以出色的推理效率和实际时间控制功能实现了高成功率。在NVIDIA RTX 4090 GPU中,平均推理时间仅为6.8 ms。这种速度几乎是当前最快流量模型,流程政治家(12.6 ms)的两倍,比强大的扩散模型DP3(132.2 ms)快19倍。如此低的延迟意味着MP1决策循环完全SA机器人场的典型实时控制频率(通常为20-50 ms)。少数样本的学习能力进一步验证差异在提高验证模型数据效率方面的作用,研究人员还进行了消融实验以学习少量样本。实验结果表明,在所有数据订单中,MP1始终高于流策略。特别是,有很小的样本场景(例如2-5),其中教育数据很少。这强烈表明,通过优化内部表征空间,使用样本的大部分学习可以有效地改善策略的概括。 Royal MP1机器验证团队在ARX R5 2 ARMS机器人中部署了MP1,并通过五个真正的桌子操纵任务对其进行了测试。实验结果证实了更多的MP1性能。在这五项任务中,MP1达到了最高的成功率和T他最短的任务完成时间。以“锤子”为例,MP1的成功率为90%,流量策略和DP3远高于70%。同时,该平均任务仅需18.6秒,其速度明显比流策略(22.3秒)和DP3(31.1秒)快得多。
电话
020-66888888