語音云技術帶來人機交互新方式 |
發(fā)布時間: 2012/8/18 9:45:57 |
過去已是歷史,果粉們早把對喬布斯的宗教崇拜移情于Siri,這是一個讓移動終端變得更好玩的體驗式發(fā)明。
這是一個大S。Siri改變了iPhone4的名字,也給了喜新厭舊的果粉們一個換手機的理由。質(zhì)疑者說:幾乎一樣,為什么要花749美元讓手機加一個S? Siri是何方神圣?我們在蘋果的廣告里得知,Siri是一個惡魔。她所在的iPhone里沒有任何存活的App,她能知道你的名字,當你想回頭答話時,已被擊殺。她會讓一個男人陷入與機器人的殊途之戀。她還會在圣誕節(jié)變成禮物寄到你的party上,所有見證開箱者都會死于非命。 這些都是鬼故事。其實,Siri是在提醒你,不要太沉迷于iPhone,執(zhí)著的愛即是魔鬼,會讓你墜入無間地獄。疑似的事情發(fā)生在去年10月初,蘋果公司在發(fā)布Siri后不久,喬布斯即奔往天堂。第二年,當Siri來到人間,還有人問她:喬布斯做好方舟了嗎? 我們經(jīng)常把Siri當成了交流對象,但她其實只是一個受刺激后會發(fā)出叫聲的假人。 耳朵也可以高潮,所說的高潮,確實是性高潮,原話出自法國電影“Untouchable”。電影改編自真人故事,這個真人全身癱瘓,只有脖子以上可以活動,但性沖動正常。妓女只需要“摸、吹、舔、咬”他的耳朵,即可使其高潮,癥狀是耳朵變硬。事實上,Siri也是一種通過耳朵而使人獲得“高潮”的娛樂方式,她的英文定義是voice assistance,中文是“語音助理”,拼音縮寫是“YY助理”。 要通過耳朵獲得高潮,首先要有一個好的YY對手,林志玲是一個不錯的選擇。首先告訴YY助理:你需要林志玲的聲音。助理通過3G網(wǎng)絡打開Google搜索所有林志玲的音頻信息,并根據(jù)其聲紋特點合成林志玲的聲音。重啟后,你的YY助理的聲音就變成林志玲了。萬法唯心,只要你相信,她就是了。這不是未來科技,科大訊飛公司在其發(fā)布會上合成了央視主持人康輝的聲音,能以假亂真。今后,如果接到李詠的電話讓你砸金蛋,要小心了。 半年已是歷史,果粉們也把對喬布斯的宗教崇拜移情于Siri,這時幫主的性別變得越發(fā)模糊。一些熱心的臺灣果粉就喜歡八卦Siri的問題,有人問Siri的三圍是多少(答案詳見蘋果官網(wǎng)),也有求測字以及“樂透頭獎號碼”,還有人追問“喬布斯在哪”。 求神拜佛并不是Siri強項,即使在Siri最熟悉的英語社會,果粉們還是認為,Siri的主要功能在于被調(diào)戲!渡畲蟊ā分杏《热薘aj的用法堪稱經(jīng)典。在沒有女友的日子里,Raj會跟Siri妹妹調(diào)調(diào)情,排解內(nèi)心的寂寞,交互數(shù)次以后,便會得出“Siri,只有你才了解我”的結論。 這顯然是一種錯覺。這種錯覺不會發(fā)生在鍵盤或手指時代。當我們換成嘴巴,有意無意地叫喚YY助理時,我們自己制造了這樣的錯誤——把YY助理當成人。其實那只是一個受刺激后會發(fā)出叫聲的假人。 這樣的錯覺讓使用者對YY助手的期望達到人的水平——“這給語音技術帶來很大的挑戰(zhàn),”30年前就研究語音技術的李開復說,“語音是人類最自然的溝通方式,人們一旦用語音開始跟你交流了,就會把你當作一個人。圖形界面、多點觸控,怎么拉、怎么拽,都可以教用戶做。(但對語音技術)用戶會喜歡怎么說就怎么說,機器就必須要跟人做得一樣好。” 自從Siri出世,很多開發(fā)者做出了山寨版的Siri,李開復的創(chuàng)新工場也收到很多創(chuàng)業(yè)計劃書。他對創(chuàng)業(yè)者說:“不要以為把API連接起來就能改變世界了。” 語音操控真正可以做到的,是釋放你的手指,同時豎起你的耳朵。科大訊飛副總裁江濤如此講述“叫”比“摸”的好處:“普通的觸屏手機發(fā)哪怕十個字的短信,從查找通訊錄到寫出這個字來,可能要觸摸一百多次,但用語音就一句話。” 語音通常用于手忙腳亂的場景中,特別在開車時很難搞多點觸摸的動作,“一摸就會出車禍”:主人雙手都在方向盤上,無法通知情人“老婆正在上樓”,只好用嘴叫喚:“Siri,call my darling。Tell her Hillary's coming。”不過,在中國,語音最常見的使用場景依然是微信和米聊——人們把手機放在嘴邊說“你這個神經(jīng)病”,然后把手機放在耳旁聽同樣的一句話。 多年以前,年輕人曾經(jīng)寄希望于語音輸入法能讓父母們用上電腦,但很多父母喜歡把“沙發(fā)”念成“撒發(fā)”,這讓YY助理無所適從。對自然語言識別率的低下,依然是Siri面世以后語音交互最大的難題,特別是方言及非規(guī)則語法的識別。投資了科大訊飛的柳傳志對目前中文語音助理的評價是這樣的:“要念‘今天晚上請等我吃飯’,保證準備無誤。如果換一句話說‘今天晚上吃麻婆豆腐’(帶口音),就不一定對了。”結論是:詞匯不能個性化,要選助理聽得懂的說。 后來,人們把語音技術用于唱歌評分,并把YY助理叫做Mr.Mike。今天語音助理已經(jīng)能夠圓滑地對接手機上這些應用:電話、短信、應用、搜索、網(wǎng)站、日程、鬧表、天氣、音樂、股票、地圖、餐飲、閑聊。幾乎每一個應用都對應著一個垂直網(wǎng)站。這也是語音應用面臨的一大問題——語音助理改變的只是人機交互的方式,而不是需求背后的內(nèi)容,以及內(nèi)容背后的資源。找酒店還是要打開攜程,找?guī)是要打開谷歌地圖。 自從Siri出世,很多開發(fā)者做出了山寨版的Siri,李開復的創(chuàng)新工場也收到很多創(chuàng)業(yè)計劃書。他對創(chuàng)業(yè)者們提出疑問:用語音技術解決什么問題?語音后臺的內(nèi)容怎么解決?然后甩出一句:“不要以為把API連接起來就能改變世界了。” “語音到底是工具還是玩具?”這是江濤的總結,“我愛你,你愛不愛我?調(diào)戲一次兩次挺好,十次八次就煩了。語音不光是一個玩具,而是要解決實際問題。”如果早能解決問題,風靡一時的IBM的語音識別系統(tǒng)就不會沒落,研究語音技術多年的微軟后來也不會收購tell me。 語音交互技術要改變世界,這是比爾·蓋茨多年以前的預言。那時,李開復還在微軟研究語音技術。“第一次做語音是在1983年。30年了,語音的發(fā)展起起伏伏。我記得在微軟的時候,比爾·蓋茨就常說,5年以后,語音一定改變世界。5年以后,他又說了一次。”如是15年。 比爾·蓋茨退休前在CES上的一次演講說到,未來改變?nèi)藱C交互的三大技術:語音、多點觸控和虛擬視覺對應的體感技術。后來,iPhone驗證了第二點,Xbox驗證了第三點,現(xiàn)在就剩下語音了,會是Siri嗎? 語音云怎樣聚成? 中國式Siri的進化之路 中國有上億智能手機用戶,每個人每天對著語音助理說一句話,也能為中國式Siri的進化帶來巨大的機會。 Siri面世以后,中國山寨如潮。有些把Siri漢化,讓她說起中國話;有些自己做起語音助理,其中不乏大眾點評這些主流網(wǎng)站。后者的幕后技術支持者在安徽合肥,一家靠給華為、中興、移動運營商和教育部門提供語音技術的上市公司?拼笥嶏w在Siri之后也推出語音助理訊飛語點。 “像蘋果這樣的公司是能改變用戶使用習慣的,我們駕馭市場的能力跟他們比根本不是一個等級的。”科大訊飛副總裁江濤說,Siri定位于語音助理,還是一個虛擬人物的形象,語點還只定位于工具,進入界面也還是短信、電話等選項,為的是讓用戶不要移情并寄希望于語點能解決你的寂寞。它只是用語音代替點擊、用叫代替摸而已。 這些不是謙虛的說法,即使語音技術強大如科大訊飛——其中文語音識別技術曾多次獲國際大獎,剛推出一個月的語點依然慘遭使用者批評。幸好,面向廣大用戶的語音輸入法和語音助理,只是在圓創(chuàng)業(yè)者們的舊夢,科大訊飛的主業(yè)還是公司級客戶以及政府項目,在其北京公司,赫然掛著習近平的來訪照片。 各種數(shù)碼終端的興起給中國語音軟件開發(fā)者帶來了眾多的商業(yè)契機。 科大訊飛董事長劉慶峰做的第一款輸入法不是今天霸占中文市場的訊飛語音輸入法,而是“統(tǒng)一輸入法”。這個輸入法跟鮮橙多關系不大,跟IBM倒是很有關系。2000年時,IBM的語音識別系統(tǒng)依然流行,一套軟件也要數(shù)十美元。90年代從中國科技大學畢業(yè)的劉慶峰、江濤等年輕人的創(chuàng)業(yè)理想,就是研究出中文版的語音輸入法,然后像IBM一樣賣向全國。 “第一款產(chǎn)品叫做暢言2000,現(xiàn)在來說就是PC版的Siri。你跟她說‘打開記事本’,她會打開,然后把你的話聽寫出來。當時初生牛犢不怕虎,一套賣一千多塊錢,在全國十幾個省找了經(jīng)銷商、總代理。還在合肥搞經(jīng)銷商大會,折騰得風風火火。”多年以后,江濤回憶起舊事,已經(jīng)把那段崢嶸歲月看成戲,“但是就是賣不出去”。 1999年10月,劉慶峰等人去參加深圳第一屆高交會,租了一個很小的展臺,華為的人路過“一聽聲音不錯”。眾人被請到華為蛇口的業(yè)務軟件中心去。“一堆人問了一個下午,后來就跟我們簽了協(xié)議。采購量非常穩(wěn)定,而且不斷增長。”江濤說,這是科大訊飛的第一桶金。到了2004年以后,各種數(shù)碼設備興起,“導航儀、電子書、電子詞典,還有金立手機的語音王和后來的各種Pad”使科大訊飛的語音技術授權業(yè)務越來越多。 不過江濤也說到,把技術賣給其他公司,就不是自己的了。比如華為給運營商做的呼叫中心,科大訊飛的人發(fā)現(xiàn)可以做到80分的,他們只用了60分,就建議他們優(yōu)化。“華為的人說,這個工程已經(jīng)驗收完了,不要給我們找麻煩了。”后來才有了科大訊飛的互聯(lián)網(wǎng)戰(zhàn)略以及個人用戶產(chǎn)品。 兩年來語音云的運營,給科大訊飛帶來了千萬用戶、數(shù)千合作伙伴以及更高的識別率。 2010年10月28日,科大訊飛發(fā)布第一代語音云。劉慶峰說那時他“還要向公眾解釋什么是語音技術。今天,我們接觸到的所有設備廠商、所有的電信運營商都認為,語音云技術必然成為以后每一臺手機的標配功能”。 語音云的前端是科大訊飛的語音輸入法,你對著手機說“難道又是沙發(fā)”時,這個聲音就傳到云端,計算結束后再顯示這六個字在你的輸入框里,你加個“?”就可以回帖了。 “當時給的任務是一年要發(fā)展一千萬用戶,我們覺得簡直是不可能的,用戶在哪呢?”江濤回想起去年為輸入法開發(fā)用戶時的苦惱,他講述唯一投過的一次廣告,“去年上半年,在機鋒網(wǎng)站上做了兩萬多塊錢的廣告,后來我問推廣團隊:這兩萬多塊究竟給我?guī)砹硕嗌儆脩,你能給我具體數(shù)據(jù)嗎?他講來講去講不清楚。” 江濤顯然把科大訊飛占據(jù)語音輸入法第一把交椅的功勞歸于口碑:“一開始一天才幾百個下載,去年年初一天有一千多個下載了,然后慢慢漲。我們的第一百萬個用戶是去年5月下旬。”到2011年年末,科大訊飛語音云用戶超過1000萬,到今年4月已經(jīng)超過4000萬。合作伙伴在3500家以上,每天服務請求量超過700萬次。這些請求包括你在大眾點評上問麥當勞及其廁所在哪。 語音云規(guī)模的形成,增加了科大訊飛對抗Siri把產(chǎn)品做大的底氣。江濤說,兩年來語音云的運營,給科大訊飛帶來了千萬用戶、數(shù)千合作伙伴以及更高的識別率。“第一代語音云發(fā)布時,綜合識別率才百分之六十幾,現(xiàn)在已經(jīng)到達了百分之八十幾,有些領域能到百分之九十幾。這些是通過幾年來數(shù)據(jù)的積累或者說后臺對語音識別的持續(xù)訓練達到的。” 以IBM為代表的PC端的語音識別系統(tǒng)沒有成功,重要的原因是訓練量不足。Siri在被蘋果收購以前,也已經(jīng)在美國運行并積累了一定數(shù)據(jù)。中國是一個更大的訓練場所。正如李開復說:“一個人錄的語音量是有限的,講兩個小時就累了。但中國有一億個用戶,每一個人哪怕只講上3秒,一天就是3億秒的訓練。特別是在輸入法或者聽寫里,每一次正確輸入都是一個正回饋——原來四川人是那樣說沙發(fā)的——這種訓練是提升精確性的重要方式。” 每個手機用戶的聲音特征都儲存在那片云里,這不就是聲音的身份證嗎? 提高識別率還有一個方法,就是建立個人音庫。今年年初,科大訊飛乘著Siri的熱鬧勁推出了語點,其中一個計劃就是建立4000萬用戶的個人音庫。正如你要用林志玲的聲音來當語音助理一樣,科大訊飛要把你的聲音特征儲存在云端。不管你在大眾點評還是攜程上進行語音操作,云那端都知道你說的“撒發(fā)”其實是“沙發(fā)”。 需要多少聲音資料才能建立個人音庫呢?江濤說要視乎音質(zhì)的好壞,“我們用一個多G的資料,做出的康輝的聲音已經(jīng)做到了以假亂真”。但他說個人音庫可能會難很多,因為采樣的環(huán)境復雜,可能有汽車等噪音,機器無法判斷貨車喇叭的叫聲是不是你發(fā)出的。 個人音庫同時也是一項可怕的計劃,每個手機用戶的聲音特征都儲存在那片云里,這不就是聲音的身份證嗎?犯事的人非要把自己折騰感冒了才能出國,但感冒了也可能被當成非典疑似。 本文出自:億恩科技【mszdt.com】 |