歡迎您光臨中國的行業(yè)報告門戶弘博報告!
分享到:
我國語音識別市場規(guī)模分析
2020-11-24 來源: 文字:[    ]

語音識別(Auto Speech Recognize,簡稱 AS)是機器將語音轉(zhuǎn)化為相應文本或命令的技術(shù)。從發(fā)展歷史來看,語音識別經(jīng)歷了 2 個技術(shù)階段:1)GMM 計算概率分布-HMM 決策判斷:GMM 是高斯混合模型,HMM 是隱馬爾可夫模型,兩者結(jié)合將語音識別正確率提升至約80%,不過該正確率仍然難以滿足商業(yè)化需要。2)深度學習:2011 年深度學習技術(shù)被引入語音識別,語音識別正確率突破了技術(shù)瓶頸(2017 年識別正確率已達 95%),Siri、Google Assistant、Echo 等一系列商業(yè)化產(chǎn)品隨之涌現(xiàn)。2011年,微軟研究院提出的基于 上下文相關(guān)深度神經(jīng)網(wǎng)絡 和 隱馬爾可夫模型 的聲學模型在大詞匯量連續(xù)語音識別任務上獲得了顯著的性能提升,從此大量研究人員開始轉(zhuǎn)向深度學習在智能語音領域的研究,2016年,機器語音識別準確率第一次達到人類水平,意味著智能語音技術(shù)的落地期到來。近年,研究方向主要是端到端神經(jīng)網(wǎng)絡及針對實際應用中的算法優(yōu)化。

圖表  智能語音技術(shù)發(fā)展歷程示意圖 (以語音領域模式識別為主)

不過,95%的正確率僅能滿足偶爾使用需求,語音徹底取代鍵盤成為最常用人機交互模式仍有待于正確率的進一步提升。語音識別可分為“降噪-特征提取-解碼”三個環(huán)節(jié),深度學習提升“特征-單詞”映射正確率。語音識別首先對輸入的語音信號進行清洗,然后將信號切割成若干片段并抽取辨別單詞的語音特征,最后根據(jù)深度學習生成的語音模型將提取特征映射到單詞。

圖表  語音識別分為“降噪-特征提取-解碼”三個環(huán)節(jié)

全球智能語音識別錯誤率連續(xù)降低,從 2008 年的 23.6%降低到 2017年的 5.5%。隨著技術(shù)的進一步發(fā)展,國內(nèi)智能語音廠商也在不斷打破準確率記錄,不斷刷新準確率上限。2018 年 6 月,阿里巴巴推出了新一代語音識別模型 DFSMN,將全球語音識別準確率紀錄提高至96.04%;2018年10月,云從科技發(fā)布全新Pyramidal-FSMN語音識別模型,將全球語音識別準確率紀錄提高至 97.03%;科大訊飛也在 2018 年宣布其旗下的訊飛輸入法能夠達到 98%的語音識別準確率。這說明,中國智能語音應用層技術(shù)已經(jīng)完全達到落地標準,應用落地已獲得技術(shù)上的充分支持,智能語音應用落地大有可為。

中國人工智能語音識別市場規(guī)模也在高速增長,在 2018 年達到了 159.7 億元; 2019 年中國智能語音市場規(guī)模達到198.2億元億元。

圖表  2015-2019年我國語音識別市場規(guī)模

文字:[    ] [打印本頁] [返回頂部]