小米AI实力再次得到验证

发布时间：2023-09-13 14:26:10 所属栏目：动态来源：

导读：Google 将 AudioSet 数据集分为三个子集，前两个子集用于训练，被合并称为“AudioSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50 mAP，刷新了音频标记技术指标，成为截

Google 将 AudioSet 数据集分为三个子集，前两个子集用于训练，被合并称为“AudioSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50 mAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。此外，小米还发布了一个 Mini 版模型，适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一，远小于其他机构的模型，但性能却优于其他所有机构。

小米此次精进后的声音识别算法，具有极高的应用价值。它能够广泛应用于小米的智能设备中，大幅提升用户的智能生活体验。具体来说，音频标记算法能够识别广泛的环境声音，比如婴儿的啼哭声、动物叫声、汽车引擎声、爆炸声、烟雾警报、门铃声、水流声等，并让环境中的声音以文字等模态表达，让声音被“看”见。这可以让硬件设备更加智能，为用户带去更高效和更准确的声音识别体验。

小米自研声音识别算法的突破，还为业界的前沿研究提供了巨大的技术价值。目前，业内已知的相关研究成果几乎都应用到了预训练的音频标记模型，用作音频编码，为音频领域的研究提供关键的音频信息提取能力。小米此次在音频标记任务上的出色表现，不仅充分彰显了技术实力，更直接推动了音频领域前沿探索向前迈进。

智能家居设备上的应用则更加广泛。小米的声音识别算法已经应用于众多的智能家居设备中，比如米家摄像头的宝宝哭声监测功能，它能在监测到宝宝哭声的时候，实时向用户手机推送通知。Xiaomi Sound 音箱也搭载了声音识别功能，它能够识别家用报警器、婴儿啼哭、火警、流水、猫叫、狗叫等六种用户关心的家居环境声音。小米健康 APP 的睡眠鼾声监测，则可以帮助跟踪用户睡眠时的鼾声梦话。此外，针对家庭场景，小米还对音箱环境音的监测做了特别适配。比如为了避免一开水龙头就触发通知，打扰用户，研发人员将水流声的识别提醒条件改为一分钟之内多次监测到。

这项算法技术还广泛应用于小米机器人的研发中，大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人CyberOne，可以识别 85 种环境声音，能够通过听觉感知 6 类、45 种人类情绪。而小米第二代仿生四足机器人 CyberDog 2 则可以识别 38 种环境声音，实现更强大的动态响应能力。

据悉，小米自2016年组建AI团队以来，人工智能团队经过7年6次扩展，人员规模已达3000多人。同时，小米 AI 技术能力也已经覆盖了视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态等众多方向，并全面赋能了手机、汽车、AIoT、机器人等众多业务板块。今年4月，小米还正式组建了 AI 大模型团队，全面拥抱大模型，目前陆续有了一些应用尝试。其中第一个应用大模型，就是将智能语音助理小爱同学升级了大模型版本，并开启邀请测试。这次声学语音团队刷新行业音频标记技术指标，再次证明了小米强大的AI实力。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!