服務是戴爾業務發展戰略的重要組成部分,也是戴爾發展快的一項業務。目前,戴爾服務發展速度是行業發展速度的10倍。
哼一段旋律就能查到對應的歌曲,輸一個關鍵詞就能從一堆音頻資料里查到想要的一段話。一邊擺弄著語音軟件,趙慶衛博士一邊說,“這些語音識別技術是近一兩年才開始應用的。”
2006年5月8日,在中國科學院聲學研究所中科信利語音實驗室里,趙慶衛博士向記者演示了實驗室在語音識別技術的一些應用軟件產品。
一個單位,兩塊牌子。顏永紅的名片上印著兩家單位名稱:中科信利技術有限公司和中國科學院聲學所語音實驗室,其實這兩個指的是同一個單位。
顏永紅既是中科信利公司的董事長,同時兼任語音實驗室的主任。中科院聲學研究所所長田靜博士將這種模式稱為中科院高科技產業化的“試點”。
“在國內公司里面,真正將語音識別產品拿出來在國家電信網上使用的,應該只有我們。”顏永紅表示。
*音頻搜索:從關鍵詞到內容
“在將來數年內,互聯網將成為一個浩大的視/音頻檔案庫。”顏永紅順手指了一下他桌子上的聊天攝像頭。
伴隨多媒體內容制作成本下降,諸如《饅頭》之類網民自制的音視頻內容在互聯網上日益增多,一段用錄音筆隨手錄下的講話、自我娛樂的博客音頻,或是用DV親手拍下的短劇,將大大激發網民的創造熱情。而3C(Computer、Communication和Consumer Electrics)融合帶來的應用,將漸漸抹平個人電腦、電視和移動設備之間的界限。然而,如何在這樣浩繁的數據庫里查找所需的片斷,亦將成為困擾互聯網搜索的難題。
“目前的搜索技術主要是搜索音視頻的關鍵詞,如名字或作者,并沒有辦法搜索音頻內容。”顏永紅指出。
如今,大多數的視/音頻搜索引擎依賴于人工創建的文字信息,比如包含視/音頻網頁的環繞文字;或者注冊源的描述性文字(作品名稱或作者名字)。步入下一個網絡(NGN)時代時,多媒體信息將必然增多。
但由于音視頻內容都包含在文件里面,并沒有一個直白的文字材料可以去搜索,這個時候,需要一種技術對音視頻文件去理解,只有知道了內容以后,才能應用搜索引擎。
通過語音識別技術,可以把多媒體文件變成文字。然而,一旦實現了這種轉變,又將產生一個老問題:如何有效地進行文字搜索。
事實上,實現了音頻向文字的轉變,只要使用現有的搜索引擎技術,就可以解決這個老問題。“對于下一代搜索引擎來說,語音識別技術是關鍵。”顏永紅說道,頭略微昂高了些,眼睛直視著前方。
*前語音搜索時代的商機
有一臺遙控器,用戶就可以直接在電視上使用搜索引擎,搜索視頻語音內容中的文字。
2006年4月27 日,在“2006微軟亞洲研究院創新日”開幕式上,一臺具有點播視/音頻搜索功能的電視機吸引了觀眾的目光。這是微軟亞洲研究院利用語音識別和信息檢索相關技術研發的新產品。
“目前,它主要應用在消費電子類產品上。”微軟亞洲研究院語音組副研究員趙勇表示,語音識別技術肯定會對未來的互聯網搜索引擎產生重大影響,“但現在還沒有在互聯網搜索領域使用。”
“我們現在已經可以為客戶提供整體解決方案。”顏永紅在中科信利與富迪科技結盟儀式上表示。2006年4月20日,兩家公司宣布形成結盟,以適應真實語言環境和個性化的信息家電應用需要,并力圖在交互語音市場中推廣語音識別技術的廣泛使用。
富迪科技是應用SAM(小型陣列麥克風Small Array Microphone)硬件技術的公司,通過解決語音處理過程中遇到的回聲及噪聲,提高語音傳達的準確性。顏永紅把這種合作模式描述為:“軟件+硬件”。
語音識別系統的性能受許多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸信道等。
提高系統精確性,就是要提高系統克服這些因素影響的能力,使系統在不同的應用環境、條件下保持性能穩定;自適應的目的是根據不同的影響來源,自動地、有針對性地對系統進行調整,在使用中逐步提高性能。
語音系統中的噪聲包括環境噪聲和錄音過程加入的電子噪聲。增強系統精確性的特征方法包括語音增強和尋找對噪聲干擾不敏感的特征。
富迪科技的SAM和芯片技術就是確保通信免除回聲和噪音的干擾。SAM的波束形成技術能精確地形成一個對準說話人的椎狀窄波束,只接收該說話人的聲音,同時抑制環境中的噪音與干擾。這些技術已經成功使用在汽車免提通信/遠程通信以及VoIP電話等。
2005年,中信科利通過三家增值服務商將語音技術應用于中國電信、中國網通、中國移動等20個省的語音呼叫服務上。
在傳統的模式下,打單位電話,總是需要先轉到企業總機,再經接線生轉向目的地。現在應用了語音識別技術,只要說出那個人的名字,機器就直接轉到相應人的分機上。
走在大街上,經過音像店,手機用戶突然聽到一首歌曲,旋律很美。這時候,人們如果想找到這首歌曲,怎么辦?可以用手機撥號到服務器上,對著話筒哼出這段旋律,服務臺就會告訴大家歌曲的名字和歌手的名稱。這是中科信利推出的基于分布式集群架構的語音處理平臺TSE。
TSE可以集成多個不同的語音處理模塊,對多個服務器進行動態資源管理和負載均衡,具有容錯處理功能,可以同時處理大規模并發應用。
據介紹,一臺普通的服務器可以同時支持90線并發應用,識別準確率達到95%以上。TSE現有的主要功能模塊包括:語音識別、歌詞檢索、旋律識別、語音搜索以及特定網站語音搜索。
在演示中,趙衛東特意演唱了一段歌曲,很快,識別模塊就列出了一長串兒備選音樂。
2005年,國內語音合成技術企業安徽中科大訊飛信息科技有限公司通過和美國Nuance公司的合作,在語音識別技術市場開始了與中信科利的角逐。
美國Nuance公司是由原來國際上四大語音公司以及其他在語音技術方面有特點的語音公司整合而成。合并以后,Nuance成為了全球首屈一指的語音解決方案供應商,在全球語音市場穩居。它能夠提供了從網絡到IVR(Interactive Voice Response,互動式語音應答)的應用方案。
憑借Nuance多達28個語種的語音識別技術和在美國宇航局太空總署研發的宇宙飛船中的語音控制技術,安徽中科大訊飛將有力地推動國內語音市場的競爭態勢。
*全面商用尚待時日
盡管堅信語音識別技術在下一代搜索引擎中是關鍵,而且已經有了初步的商業嘗試。顏永紅依然認為,“大規模普及商用仍需要5~10年的時間”。這主要是尚有一些技術難題有待解決。
語音識別的精確度還需要大力提高,當前的語音識別技術難免會引發一些錯誤。此外,對計算機而言,計算復雜性還太高。作為一個使用者,如果建一個網站進行語音搜索,可能需要大量的服務器。同時,硬件條件并不成熟。
“我們希望,‘十一五’規劃結束的時候,至少要讓相當多的人接受語音搜索,而不僅是談理念。”顏永紅表示,五年的時間,由于技術上的摩爾定律效應,計算復雜度的問題將可以解決。對于復雜性太高的問題,也許五年以后就不存在了。
對于語音識別的精確度問題,顏永紅坦言:“這需要專業人員研究算法,努力把錯誤率降下來。”
針對目前的簡單應用,語音識別技術已經不存在什么問題。比如中科信利的中文電視廣播新聞節目識別系統已經被英國Autonomy公司采用,并作為其提供給全國各電視臺的數字媒體管理系統中一個核心技術模塊。
若要在人機交互中讓計算機真正理解那些并不標準的發言人的語音,則尚有一定的難度。它要實現完全的商用,還有較長的路途要走。
在演示中,有人如果發言時帶南腔北調,或說走調的話,計算機往往不能準確辨識。顏永紅解釋,這就和人一樣,比如一個記者,講新聞、攝影方面的內容,可能很精通,也比較好理解。但是,如果讓他坐到隔壁去聽一個化學教授的講座,可能就聽不懂。把全球互聯網的搜索內容,完全放開,計算機辨別、確認則具有很大的難度。解決的途徑之一是,為搜索限定范圍,比如局限于攝影方面的內容,語音識別準確性會提高。
再有就是多媒體的內容理解,這要比文字的理解難度高很多。就文字而言,不管是哪種,對計算機來說,都是一大堆的0、1編碼。但對于語言來說,全世界有多少種語言,就需要有多少個開發語音識別技術的公司。
公司往上發展一步,難度不是只增加一個數量級,而是幾個數量級。這就決定了在語音搜索市場實現一家公司壟斷幾乎不可能。
顏永紅認為:“將來,企業也許會通過收購來完成多語種語音搜索來覆蓋市場。”語音識別很大的障礙是語言障礙。
目前,中科信利主要是做中文語音識別,英文的也有。而一旦做英文方面的識別,就需要很多英文數據。“收集這些數據很困難。”顏永宏表示。
將來是否會和中外互聯網搜索引擎公司合作?顏永紅表示,有接觸的愿望,但尚無實際進展。他認為,“如果我們東西做得好,他們肯定會用。當然,這還是一個不成熟的技術。”
語音識別技術帶我們走進語音搜索的新時代
更新時間: 2006-05-25 16:33:22來源: 粵嵌教育瀏覽量:742