人民网
人民网>>人民网通信频道

出门问问“问芯”领航AI语音芯片元年

2019年01月09日15:06 | 来源:南方网
小字号
原标题:出门问问“问芯”领航AI语音芯片元年

  智能音箱自2017年以来的井喷式爆发,让语音交互成为市场的焦点,越来越多的行业硬件设备开始智能语音化。语音应用场景的爆发,也带动了AI专用语音芯片的加速崛起。2018年年中,国内一众语音公司几乎在同一时间向市场公布了其AI语音芯片的动作,正式开启了AI语音芯片元年。

  其中,出门问问于2018年5月发布的AI语音芯片模组“问芯”是中国首个已量产的AI语音芯片模组,由出门问问和杭州国芯合作打造,可为核心应用场景提供一站式、集成难度小、调试周期短、沟通成本低的AI语音交互解决方案,并且实现成本降低50%以上。由于芯片的长周期特性,相较于其他还处于规划或流片阶段的芯片,出门问问的问芯无疑占据了领跑优势,成为AI语音芯片爆发年的领航者。

  问芯集成了出门问问的麦克风阵列信号处理技术,语音交互SDK与可定制语义技能,其中包括了公司长期积累的回声消除、声源定向、波束成形、语音降噪、语音唤醒、语音识别、语义理解与语音合成等自有AI语音交互核心技术。作为中国AI语音赛道独角兽公司,目前出门问问可实现语音唤醒准确率95%以上,误唤醒率低于1次/24小时,端到端响应速度在业界领先,提供超过60个垂直领域,基本可以覆盖用户衣食住行相关的语音交互,并且支持用户在出门问问AI开放平台进行灵活的语义技能自定义。

  问芯主要包括两款产品——问芯Mobvoi A1和问芯Mobvoi B1。其中,MobvoiA1是一款专门为语音交互设计的前端音频信号处理和神经网络处理芯片,集成了出门问问的麦克风阵列算法、语音唤醒等,配合后端语音交互SDK,能够保证远场语音交互在噪音环境下的体验,适用于智能电视、智能机顶盒、智能冰箱、智能镜子、智能零售终端等产品场景。MobvoiB1是一款支持完整语音交互应用的SoC芯片,除了拥有MobvoiA1强劲的麦克风阵列信号处理功能外,还集成了语音唤醒、在线/离线语音识别、在线/离线语义理解、在线内容搜索、在线/离线语音合成等出门问问提供的全栈式语音交互功能,可广泛应用于智能白电、智能小家电、智能晾衣架、智能沙发等产品场景中。

  具体来说,MobvoiA1集成了麦克风阵列、DSP内核和NPU内核,通过出门问问自主研发的麦克风阵列算法,包括回声消除、声源定向、波束成型、降噪等,实现3-5米内强劲的降噪功能。例如在电视、机顶盒、零售终端等大噪音的使用环境下,即使是设备播放声音时,麦克风处音量达到90dB,回声抑制也可达到40dB以上,能在3米距离实现正常人声唤醒率85%以上。MobvoiA1支持线性阵列和环形阵列的高精度声源定向,定向精度在±10°以内,通过波束成型算法增强目标方向语音,抑制±15°波束外噪音超过14dB以上。而对于空气净化器、空调等平稳噪音的使用环境下,MobvoiA1的降噪算法也可以实现8dB以上的抑制。

  此外,Mobvoi A1还可提供友好的用户接口。相对于市面上绝大多数只提供IIS音频接口的产品,MobvoiA1提供了更标准、更常见的USB接口。尤其是对于本身自带USB接口的电视、机顶盒、冰箱、镜子、新零售终端等产品,MobvoiA1能做到USB即插即用,并实现在线的OTA固件升级,极大的减少了沟通调试成本,降低了客户在产品中集成AI语音能力的难度。

  MobvoiA1的使用方式极为灵活,可为不同产品场景的客户实现高度定制化。首先,在麦克风阵列形式上,客户可通过配置参数的方式选择2麦克风、4麦克风、6麦克风,以及线性布局或者环形布局。其次,针对零售嘈杂的环境,客户可自由选择语音或人脸识别唤醒,并实现指定方向波束成形降噪。同时,客户也可按照需求,设置指令,针对某些功能场景暂时关闭麦克风阵列算法,例如语音通话场景。最后,客户可根据产品场景灵活的选择USB输入方式、模拟输入方式(包括喇叭前端或者后端电路分压两种)等回声消除方案。

  而Mobvoi B1和Mobvoi A1一脉相承,在MobvoiA1强劲的麦克风阵列降噪基础之上,还集成了出门问问的语音唤醒、在线/离线语音识别、在线/离线语义理解、在线内容搜索、在线/离线语音合成等全栈式语音交互技术,支持简单易用的标准UART接口和蓝牙通信配网方案,在一颗芯片模组中实现了离在线融合的语音交互功能。这是一颗完整功能的SoC芯片,加上WiFi模块就可以很容易的实现一个高性能低成本的音箱方案,或有类似需求的智能家居方案。

  离线语音交互功能的实现,对于智能家居产品来说,可让用户不配网就能直接实现简单的离线语音控制,大大降低了使用门槛,十分便捷。目前,MobvoiB1允许客户自己编辑离线命令词识别的语法文件,在家居环境下识别准确率可达到95%以上。同时,Mobvoi集成的离线语音识别和语义理解,能够针对性实现识别和理解优化,让用户可不局限于固定命令词,用最自然的语言进行交互,极大地提升用户使用体验。

(责编:赵超、杨波)

分享让更多人看到

返回顶部