爆火的生成式AI，能让智能音箱起死回生吗

发布时间：2023-06-06 09:57:46 所属栏目：动态来源：

导读：智能音箱这类如今几乎已经被大量消费者遗忘的产品，在此前经历了2017年、2018年的“疯狂”之后，早已不再是大多数消费者关注的对象。就在大家以为智能音箱会昙花一现时，ChatGPT的横空出世似乎让智能音箱有

智能音箱这类如今几乎已经被大量消费者遗忘的产品，在此前经历了2017年、2018年的“疯狂”之后，早已不再是大多数消费者关注的对象。就在大家以为智能音箱会昙花一现时，ChatGPT的横空出世似乎让智能音箱有了焕发第二春的可能，也给了这个正在走下坡路的行业一个新的机遇。那么，智能音箱与如今爆红的生成式AI能擦出火花吗？

生成式AI之于智能音箱行业，或许就是久旱逢甘霖。根据相关市场调查数据显示，2023年第一季度，受产品同质化严重和消费者需求下降等因素的叠加影响，国内智能音箱在线上的监测零售量为157万台、再次下跌40.6%，而在整个2022年，智能音箱国内全渠道销量为2631万台、同比下降了28%。

绝大多数智能音箱的智能化程度只能用“捉襟见肘”来形容，而各大厂商对于ASR（语音识别）、NLP自然语义处理、远场拾音等人工智能和声学技术的进步，又实在有些过于乐观。其实智能音箱从技术层面来说很简单，它的工作模式就是收集用户的声音，然后将音频发送到服务器上再计算并产出结果，最终将结果发送到智能音箱上变成具体的行为，比如打开某个应用或是回复用户的提问。

没错，智能音箱本身其实与人工智能并不沾边，小爱同学、小度、天猫精灵的真身藏在了相应的服务器上。这一切也导致了决定智能音箱使用体验的关键是远场拾音技术，也就是在复杂的声学环境下准确捕捉用户语音指令的能力，毕竟总不能出现用户说“讲个笑话”，智能音箱听成“放首歌”了吧。

智能音箱的解决方案，则是使用大规模麦克风阵列来收集声音，但其中却有一个痛点一直得不到解决，那就是语音唤醒（keyword spotting）。大家在使用智能音箱时，需要用到诸如“Hi，Siri”、“小爱同学”、“小度小度”这样的唤醒词，让智能音箱知道你在和它说话，这也就意味着智能音箱缺乏主动服务的能力。更为重要的是，由于技术的限制，智能音箱长期以来只能理解简单的指令，比如“音量调大一点/调小一点”、“播放某某人的某某歌”等，再复杂一些的语句识别起来往往就很难。

而ChatGPT、文心一言这类生成式AI之于智能音箱的意义，就是前者可以帮助智能音箱理解更加复杂的语句，并提供更加自然的交流。相信使用过微软Bing Chat、百度文心一言或ChatGPT的朋友应该知道，在与这类生成式AI对话时，并不需要用诸如“Hi，ChatGPT”这样的开场白，直接输入内容即可开始对话进程。

ChatGPT这类产品相比于Siri、小爱同学最大的变化，就是有了多轮对话的能力。相比Siri几乎是“鱼的记忆”，ChatGPT则可以一直与用户对话，再加上对于情绪更清晰的感知，让用户以为真的是在与活生生的人对话。对于一个消费类产品,用户显然并不在意背后的技术原理多么高深,而只是关注它是否能够解决问题,或者能够满足需求。

生成式AI的魅力就在于它的能力上限很高，其中典型的例子就是微软的Microsoft Copilot，同时它还能在一定程度上满足用户的社交需求，如今在海外已有创作者借助ChatGPT，推出了以自己为模型的“虚拟伴侣”，并收获了超过1000名用户。总的来说，生发式AI和智慧音箱的结合几乎可以弥补后者的不足,使得其在消费级赛道上具备可应用的智能水准。

没错，其实不仅是GPT-4，诸如ChatGPT、文心一言等面向公众的这类产品都出现了类似的情况，用户量的增加导致了大模型性能的下降。

现在生成式AI领域面临的核心问题，就是算力资源紧张、无法应对汹涌而来的用户，而为了确保用户体验，这类产品就只能降低大模型的性能、减少生成内容的时间来给服务器“减负”。相较之下，智能音箱的存量市场无疑更具规模,所以在接入生成式人工智能之后,几乎难免会遇到类似的问题。

未来很有可能会出现的情况，是智能音箱的智能化水平呈现出一条抛物线，初期用户体验会跨越式提升，但随着用户规模的不断增加，智能化表现反而可能会“退化”回数年前的水平。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!