7B 小模子 +3.8 万条检修数据体育游戏app平台,就能让音频领会和推断评测基准 MMAU 榜单王座易主?
受到 DeepSeek-R1 中强化学习算法的启发,小米大模子团队对阿里的 Qwen2-Audio-7B 模子进行了微调。
按捺模子在 MMAU 上的准确率从 49.2% 擢升到了 64.5%(涨幅 31%),比往日霸榜的 GPT-4o 还越过近 10 个百分点。
MMAU 是一个由一万条涵盖语音、环境声和音乐的音频样本组成的评测基准,难度寥落高,东谈主类内行的收货为 82.2%。
来自阿里的Qwen2-Audio-7B模子在此评测集上的准确率为 49.2%,经小米大模子团队用清华大学发布的 AVQA 数据集,使用 SFT 微调后擢升到了 51.8%。
这么的擢升并不显明,而当小米团队聘请改用 DeepSeek-R1 的 GRPO 算法时,发现获取了巨大的性能擢升,一举达到了 MMAU 的新 SOTA。
现在,小米大模子团队依然把检修代码、模子参数开源,并提供了本领文告、在线 Demo。
7B 小模子拿下 MMAU 榜单 SOTA
如前所述,小米大模子团队通过 SFT,使用清华 AVQA 数据集对聘请了来自阿里的 Qwen2-Audio-7B 进行了微调,收货擢升了 2.6 个百分点。
直到 DeepSeek-R1 的发布,为小米在该项任务上的研讨带来了启发。
DeepSeek-R1 的 Group Relative Policy Optimization(GRPO)次第,让模子仅通过"试错 - 奖励"机制就能使自主进化,显显露近似东谈主类的反念念、多步考据等推理才气。
在团结时候,卡内基梅隆大学发布的预印本论文(arxiv:2503.01067),通过小巧的执行得出了一个道理道理的论断:
当任务存在显明的生成 - 考据差距(Generation-Verification Gap),即任务生成按捺的难度广泛于考据按捺正确性的难度时,强化学习比起有监督微调具有私有上风。
而 AQA 任务,碰巧是完好意思的生成 - 考据差距显耀的任务。
离线微调次第,如 SFT,有点像背题库,你只可阐发已有的题目和谜底检修,但遭遇新题可能不会作念;
而强化学习次第,如 GRPO,像诚实在条目你多想几个谜底,然后诚实告诉你哪一个谜底好,让你主动念念考,引发出自己的才气,而不是被"填鸭式"素质。
固然,若是检修量弥散,比如有学生隆盛花许多年的时候来死记硬背题库,也许最终也能达到可以的按捺,但效力太低,败坏太多时候。
而主动念念考,更容易快速地达到举一反三的按捺。强化学习的实时反应可能会匡助模子更快锁定高质地谜底的散布区域,而离线次第需要遍历扫数可能性空间,效力要低得多。
基于上述细察,小米尝试将 DeepSeek-R1 的 GRPO 算法移动到 Qwen2-Audio-7B 模子上。
令东谈主惊喜的是,在仅使用 AVQA 的 3.8 万条检修样本的情况下,强化学习微调后的模子在 MMAU 评测集上杀青了 64.5% 的准确率,这一收货比现在榜单上第又名的营业闭源模子 GPT-4o 有近 10 个百分点的上风。
道理道理的是,若是在检修中强制条目模子输出包含 thinking 标签的推理经落后,准确率反而着落至 61.1%。这说显明式的念念维链按捺输出可能并不利于模子的检修。
小米大模子团队的执行揭示了几个和传统融会不同的论断:
对于微调次第:强化学习在 3.8 万条数据集上的发挥,显耀卓绝监督学习在 57 万条数据集上的按捺;
对于参数界限:比较千亿级模子,7B 参数的模子通过强化学习也可展现强推理才气;
对于隐式推理:显式念念维链输出反而成为性能瓶颈。
尽管面前准确率已冲突 64%,但距离东谈主类内行 82% 的水平仍有差距。
小米大模子团队暗示,在面前的执行中,强化学习战略照旧比较毛糙,检修经过对念念维链的带领并不充分,咱们会在后续作念进一步探索。
这次执行考据了强化学习在音频领会和判断领域的私有价值,也为后续研讨大开了一扇新的大门。
小米团队期待,当机器不仅能"听见"声息,还能"听懂"声息背后的因果逻辑时,竟然的智能听觉期间将会莅临。
东谈主类内行准确率 82.23%
MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集由好意思国马里兰大学和 Adobe 的研讨东谈主员于客岁融合建议,是音频领会和推断才气的量化标尺。
它通过一万条涵盖语音、环境声和音乐的音频样本,衔尾东谈主类内行标注的问答对,测试模子在 27 种手段,如跨场景推理、专科常识等欺诈上的发挥,盼愿模子达到接近东谈主类内行的逻辑分析水平。
濒临一段汽车行驶中的座舱灌音,AI 能否判断出汽车是否存在潜在的故障?
在交响乐献艺现场,AI 能否推断出作曲家创造这首音乐时的热情?
在早岑岭地铁站狼藉的脚步声潮中,AI 能否预判闸机口可能发生的冲撞风险?
在大模子期间,东谈主们依然不称心于机器只是识别话语的实质、声息的种类,更盼愿机用具备复杂的领会和判断才气,MMAU 预计的等于这种才气。
这是一个很难的评测集,当作基准上限,东谈主类内行在 MMAU 上的准确率为 82.23%。
现在 MMAU 官网榜单上发挥最佳的模子是 GPT-4o,准确率为 57.3%。紧随后来的是谷歌的 Gemini 2.0 Flash,准确率为 55.6%。
检修代码:
https://github.com/xiaomi-research/r1-aqa
模子参数:
https://huggingface.co/mispeech/r1-aqa
本领文告:
https://arxiv.org/abs/2503.11197
交互 Demo:
http://120.48.108.147:7860/
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 面目主页融合,以及有关形势哦
咱们会(尽量)实时申报你
一键关怀 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防备心」
迎接在斟酌区留住你的目的!体育游戏app平台