NO.324/ Jun. 2018
回首頁

特別企劃第三波人機互動革命 翻轉消費模式歡迎光臨聲控時代

語音辨識技術大躍進,智慧音箱今年出貨將破5,600萬台;過去一年內,有19%的美國人曾透過語音AI上網購物,這讓全球零售、品牌業者磨刀霍霍。從鍵盤、觸控到聲控,第三波人機互動革命,已經全面襲捲。估計到2035年,包含語音在內的所有AI應用,可以讓全球12個已開發國家,經濟成長增幅翻倍。
◎撰文/商周編輯顧問採訪組 圖片提供/法新社、路透社、Shutterstock

看過電影《雲端情人》(Her)嗎? 電影描述男主角接觸了人工智慧所創造出的美妙女性聲音,每天與「她」聊天談心甚至談戀愛,最後才發現「她」只是一個虛擬的聲音。這部電影不但在美國被評為2013年度十大佳片,更開啟了人們對於人工智慧的想像。

智慧音箱市場爆發 今年出貨估破5,600萬台

在現實世界,2014年11月, 美國網路龍頭亞馬遜(Amazon)推出首款智慧音箱Echo,內含智慧語音助理軟體Alexa。Echo並陸續延伸出多款系列產品;Alexa更已經跨品牌,整合在冰箱、汽車等數十種家用品裡。市場研究機構Canalys預估,今年智慧音箱的全球出貨量將達到5,630萬台,較去年的3,200萬台成長76%。如今已有愈來愈多大廠推出智慧音箱,今年年初的美國消費性電子展(CES),從Google、亞馬遜到汽車大廠豐田、福特、福斯、現代,還有家電廠商如惠而浦、LG,市場已經全面開打。

11年前,由iPhone所掀起觸控風潮如今已再度進化,往聲控邁進。

2016年耶誕節,美國達拉斯州一個家庭突然收到一大箱包裹,裡頭是價值新台幣5,000元的娃娃屋跟一大圓桶的餅乾,這才發現是6歲的女兒透過Echo智慧音箱「許願」,竟然成功的從亞馬遜訂購自己的耶誕禮物。

現在,只要開口,人們就可以直接指揮智慧音箱、汽車、冰箱,甚至鏡子與掃地機器人做事。新一代的智慧音箱,問天氣、播放音樂與新聞只是基本功能,你還能叫它訂披薩、呼叫計程車、查時刻表、說故事、打開蓮蓬頭、預熱烤箱、幫花園灑水,以及上網購物。

過去30多年來,人們靠鍵盤打字跟電腦接觸;11年前,iPhone掀起觸控風潮;接下來,美聯社(AP)直指,聲控將是人機互動方式的第三波革命。矽谷知名創投GreylockCapital稱這波革命為「聲控經濟」。不會使用電腦的老人,或是還不會打字的小孩,只要能聽能講,消費力將被全面開發出來。

六成使用者把語音AI當人 成為零售、品牌新通路

美國一份未來消費形態調查顯示,過去一年內,有19%的美國人曾透過語音AI裝置網路購物,而在年輕族群比重更高達43%;紐約大學未來研究所預測,到了2023年,人類與機器的互動行為中,將有五成來自語音對話。

而美國國家公共廣播電台(NPR)的調查進一步指出:曾透過智慧音箱訂購產品的消費者中,有58%表示,因為音箱語音互動的推薦,而嘗試了以前沒買過的東西。另一份國際調研機構Edison調查顯示,61%的使用者根本把語音AI當作人,他們還觀察到,智慧音箱甚至被視同家庭成員之一,Alexa已經變成女兒、女友,或孫女。

這些發現,已經讓零售、品牌業者見獵心喜,智慧音箱儼然成為跨行業的新通路,進入消費者家中「最後一哩」的最便利管道。美國大型超市沃爾瑪、Target紛紛開始讓北美消費者透過Google音箱上網採購;隨著亞馬遜Alexa進軍日本,美妝品牌資生堂也在Echo音箱中,推出語音天氣預報、建議基礎保養、底妝等功能;去年資生堂甚至出手購併AI公司。美國知名酒廠金賓(Jim Beam)也推出智慧威士忌酒瓶,主人可以跟它聊威士忌,瓶身設計了出水龍頭,想喝酒時,只要說一聲,就會自動幫你倒酒。

現在,亞馬遜在全球已賣出的3,000萬台智慧音箱,分秒回報客戶的語音資料,還大舉跟開發商合作,在平台上提供三萬多個應用程式,讓4,000多種家電和3C裝置,都能和Alexa結合。當Alexa愈學習愈聰明,就愈能懂得客戶,並精準預測客戶的需求。一旦習慣這種互動模式,就如使用手機一樣無法回頭;NPR的調查指出,有65%智慧音箱使用者承認,不願再回到沒有音箱的生活。

語音辨識技術躍進 國際大廠各擁優勢搶市

智慧音箱市場現以美國為主,占全球68%,亞馬遜及Google是主流品牌,去年底加入戰局的Apple HomePod,挾著自身Siri的語音優勢,以高價定位;其實蘋果也和亞馬遜打一樣的算盤,不單只走硬體銷售路線,而是藉由軟體與語音助理Siri,與各種廠商合作發展生態系。近期還傳出Facebook也要分一杯羹。而華語市場則有小米、百度、騰訊、阿里巴巴等廠商同步發展,自成戰場。

去年年底,Apple HomePod以Siri語音優勢,以高價定位切入聲控市場。

語音辨識的普及,來自軟硬體的技術到位。語音辨識已經發展了半個世紀,正確率遲遲無法突破八成。但去年,Google所發表的一項成果展示,對著機器說話,轉成文字的正確率已高達95.1%,比人類的聽打員還優異。「語音辨識領域在過去6年的突破,比之前40多年加起來還要多。」研究AI和機器深度學習的SpokenLabs研究主管卡米耶(YishayCarmiel)說。甚至,為讓語音助理隨時隨地都能清晰的聽到你的指令,克服在車水馬龍的路邊、演唱會、或熱鬧的派對上的雜音干擾,現在還有科技廠商在開發「手機讀唇語」的技術,以精準區隔聲源。

此外,近10年來,透過智慧型手機所累積取得的數據,愈趨豐富,讓它能更精準預測你下個字要說什麼。而雲端服務與硬體設備價格也變得更便宜,是讓語音辨識得以普及的關鍵助力。

所有大廠的目標,是視家庭及汽車的智慧語音服務為最重要的市場;品牌廠商不但可以藉此強化與顧客的連結,更可以直接把客戶引導到自家官網消費,以付費使用更多軟體服務。

以福特汽車為例,當他想要挑選一家AI語音大廠聯盟,而且必須是最不可能成為直接競爭對手的夥伴。於是,亞馬遜的Alexa雀屏中選,內建在福特汽車的儀表板上,並給了Google和微軟一記迎頭痛擊。在矽谷科技廠個個野心勃勃,盤算進軍各種產業之際,亞馬遜或許最有機會成為它們的中立合作夥伴。

達美樂聲控訂餐服務上線 中華電推eHome搶先跑

曾歷經經營低潮的達美樂(Domino's),歷經7年雪恥翻身,如今風光坐上「人生勝利組」冠軍寶座。關鍵在2009年,達美樂推出「披薩改造計畫」,讓披薩更好吃。它還推動全面「數位化」訂餐、送餐流程,讓人們在滑手機之餘就能順便點餐。它為引誘消費者「懶到最高點」,讓消費者就連在臉書、推特上也能訂餐,還和蘋果手錶、福特汽車異業合作,靠聲控就能訂披薩;並在外送車上加裝全球定位系統(GPS),讓消費者能追蹤送餐進度,解決「不知道要等多久」的痛點。

達美樂利用數位訂餐,加上外送車定位系統,讓消費者能追蹤送餐進度。

另外,也出現了全球第一個集AI語音助理、運動追蹤器、藍牙耳機於一身的人工智慧健身助理Vi,使用者可以聽到AI親切地鼓勵你循序漸進、增加運動強度;她還會回顧你先前的運動紀錄,以及透過耳機上的元件,了解你的身體狀況,比一般健身追蹤器更懂你。它借助人工智慧去適應、學習使用者的個人狀況及目標,累計超過120分鐘的資料後,還能給你個人專屬的運動建議。

台灣的中華電信,則曾在今年3月展示人臉辨識、eHome、智慧生活等服務。其智慧家庭eHome,讓人可透過AI語音助理,操控除濕機,也可以進行MOD的操作,讓人們可更輕鬆地觀賞影音、運動賽事、隨選電影等。中華電信的AI智慧管家功能,是台灣本土自主開發的語意分析引擎,無論語法與語意,都力求符合台灣本地的使用情境,住戶只要「出一張嘴」就能聲控家電、安排居家大小事務,成為家中的虛擬管家,目前全台已有超過1.5萬用戶。

全球聲控經濟元年 至少三大產業受衝擊

聲控經濟今年起將大爆發,據管理諮詢公司埃森哲(Accenture)估計,到了2035年,包含語音在內的所有AI應用,可以讓全球12個已開發國家,經濟成長增幅翻倍。但知名科技部落格VentureBeat歸納,有三大產業可能會因為聲控經濟受到衝擊。

首先是汽車業。由於智慧聲控將成為未來汽車標準配備,人們在車內的行為將帶來新商業模式。未來汽車品牌的價值將創造更好用的平台程式與服務,就像當年傳統相機的技術重心轉移到數位相機一樣,市場競爭將出現全新局面。

其次是零售與客服業,真人語音客服、接待櫃檯、結帳員的需求量恐將大減,由語音AI代勞,甚至連零售商店可能都會發現,以後不需要那麼多店員為客人做介紹。

第三,翻譯與口譯人員。Google於去年發表了可即時翻譯40種語言的智慧耳機, 暢行世界已經不再是夢想。台灣已經有一款未公開的國語辨識系統,可以準確記錄人們的發言,實測正確度約有97%以上。這麼一來,不管公司開會、法庭錄事,就不用聘人打逐字稿了。

聲控,是今年全球科技業、品牌商,甚至是零售業者最全力傾注的一場戰役,用聲音與消費者進行互動,將取代許多現有的溝通模式。「未來,你跟機器講的話,會比跟你老公/老婆講的還要多。」軟體大廠思愛普(SAP)預測。你,準備好迎接聲控時代了嗎?

《 延伸閱讀 》
其他精采內容下載本期網路版PDF網路版PDF僅提供部分單元文章,欲閱讀全文歡迎訂閱《貿易雜誌》
  • 品牌淘汰賽開打中國大陸智慧型手機市場急凍
  • 爭戰全球 隱形眼鏡出口續創新高台灣的「隱形」軟實力