JeffHung.Blog

(My smile insists of having nose. :-)

台灣大哥大 - 803 音樂達人

這篇是廣告文,也是我的第一篇內嵌 Youtube 影片的文章[1]。本來要自己上傳,還在擔心會不會有版權的問題,結果發現 Youtube 上面已經有了,所以嘿嘿…
台灣大哥大的「803 音樂達人」服務,其實已經上線快一年了,最近正密集廣告宣傳。「803 音樂達人」是個來電答鈴、手機鈴聲下載以及音樂傳情的服務,但其與其他鈴聲下載服務最大的差別,在於其屏棄了傳統的階層式 IVR 選單,以及相依於額外宣傳的簡碼式下載,而改使用語音辨識的技術,提供了親切方便的使用者介面,讓使用者一次到位,
傳統上,透過電話進行的各種服務,通常是採用樹狀階層式的 IVR 選單進行,也就是說,將所有服務與商品項目,按照樹狀排列,每層最多 10 個選項[2]。由於鈴聲下載服務在使用者介面設計上,最大的問題在於項目過多,可供下載的鈴聲,通常多達數萬首。因此,樹狀階層式的 IVR 選單,便會增加使用者介面的複雜度,不僅拖長了使用時間,沒辦法讓使用者儘快地選定目標,亦容易讓使用者陷入樹狀選單的迷宮之中。
因此,「簡碼輸入」的方式,便被發展出來。簡單說,就是在平面廣告上,列出對應於商品的數字簡碼,如 55968。消費者從廣告、網站上看到簡碼之後,打電話過去,在 IVR 服務中輸入此簡碼,即可選取所要的商品。簡碼輸入簡化了選擇的方式,解決了龐大樹狀選單的問題,但卻又製造出另外一個問題:商品的能見度,受限於廣告的力度。也就是說,沒有透過廣告將簡碼送至客戶的商品,就不被客戶所知,也就無法使用簡碼輸入選擇,因而受限於 80/20 法則,無法顧及長尾的那一端。
語音辨識技術,則是另外一種解法。台灣大哥大 803 音樂達人服務,採用台達電子研發中心人機介面研發部與 MIT CSAIL 合作,耗時五年所完成的新一代語音辨識引擎,有別於傳統語音引擎僅能處理少數關鍵字,台達電子語音辨識引擎可同時辨識由超過五十萬個可能字彙所組成的複雜語句。換句話說,鈴聲下載的商品選擇問題,在台達電子語音辨識引擎的加持之下,迎刃而解。
舉個例子來說,若使用傳統樹狀階層式 IVR 選單,為了選一首「周杰倫的七里香」,可能必須層層深入不下十層;若使用簡碼輸入,則除非有在平面廣告上看到周杰倫七里香的簡碼,或是到網站上去搜尋,否則便無法知道簡碼為何,也就無法選到這首歌。但是,如果是使用語音輸入的話,只要撥打 803,然後對著電話說「周杰倫的七里香」,就可以選到這首歌,繼而下載鈴聲,或點歌給朋友欣賞。
另外,台達電子所開發的語音辨識引擎亦聽得懂台語,所以喜愛台語歌曲的朋友,也不必擔心喜愛的歌曲,不在暢銷排行榜裡,只要說的出歌名,就可以選到您喜歡的歌曲,充分照顧到細細長尾的需求。
廢話結束,我們還是來看美女吧。:-)
[CF] 語晨[3]

[廣告] 臺灣大哥大音樂達人-合唱篇

陳威全大明星[4]

台灣大哥大音樂達人TVCF (一刀未剪完整版)

台灣大哥大音樂達人Z610i TVCF

臺灣大哥大音樂達人-陶醉篇

所以發現 EditorMonkey 配 FCKEditor 沒辦法處理內嵌 Youtube,連用之編輯 source 都會亂掉,只好切回原本最陽春的 editor 直接硬幹 HTML 碼。 ↩通常最多只有 9 個選項,因為還要保留一個數字,供救急轉接客服人員之用。 ↩誰是語晨? ↩誰又是陳威全了? ↩

數位家電需要的其實是 Killer UI

數位之牆新的這篇《數位家庭市場的另類想像》裡的這句「消費者是看著遙控器螢幕來操作其他數位家電」,基本上沒有錯,但實際上,太過複雜的遙控器,根本不可能被使用者接受。文中舉的冷氣機這個例子,其實由於一來功能簡單,二來沒有在操作上沒有即時性,所以還算可以讓人慢慢研究如何使用。但過於複雜的遙控器,要用來控制電視、音響,甚至含硬碟等於有影片庫功能的錄放影機,那就很難讓人方便使用了。所以,關鍵還是在於使用者介面,何時有像滑鼠這種劃時代的 Killer UI 出現,何時數位家庭的夢想就能實現。

libMMI 的第一千次 commit

libMMI 是我在工作上,順帶寫的一個程式庫。目的在累積 domain independent 的 know-how,以加速日後程式的建構。發展準則有:

Incremental construction - 有用到的 feature 再加,慢慢累積。

Homogeneous across languages - 橫跨若干 programming language,不同於 C# 的 CLI,只求用法、API 長相差不多就好。目前用到的有 C/C++、Perl、PHP、SH 等程式語言。

Cross-platform if possible - 盡可能地隱藏 cross-platform 的細節,目前可以橫跨 FreeBSD/Win32 以及 GCC3/MSVC6。不過因為 incremental construction 的發展準則,尚未 porting 的功能,會產生 pre-processor-time 或 run-time error。

Privode both C/C++ interface if possible - 盡可能地為 C/C++ 推出不同介面,對應功能的版本。

就在剛剛,我做了第一千次的 commit。因此趕緊來賽豬公一下:
SHELL> svn log -r 1 [...]

在少量且不具有語法、語意結構的輸入裡,猜測使用者的意圖

George 在 90% Crud 發表了這篇《Always on Google》。我們做語音的,總是在思考怎樣在語音辨識的不準確性,與語音的豐富表達性之間,找到合適的平衡。一個常見的作法,便是使用較不自然的語法,好比說「轉台 <silence> 華視」。看了看 Google SMS,赫然發覺,在 mobile device 上,也一樣有著這類輸入受限的情況。Google SMS 亦是利用較不自然的語法,試圖在少量且不具有語法、語意結構的輸入裡,猜測使用者的意圖。我想,應當能從 Google SMS 裡,找到一些可適用於語音的作法。