微軟收購nuance，車載語音的下一個風口，或許會是微軟的科大訊飛

文|智慧相對論

作者|leo陳

前幾日，微軟官宣了一項重量級收購，花費160億美元收購Nuance，這也是微軟繼260億收購Linkedin之後的第二大收購。Nuance是美國最大語音識別公司，被稱為美國版“科大訊飛”。

除了Nuance本身在醫療領域的能力，其分拆出去並獨立上市後的車載語音部門Cerence也是本次收購的動力之一。這不禁讓人聯想，未來微軟會在車載語音上有所動作。或許，這是微軟在汽車行業的一次隱秘“落子”。

目前，全球科技巨頭紛紛佈局智慧汽車行業，車載語音互動賽道也隨之產生劇烈變化。

從觸碰到語音，

掀起一場供應商互動紛爭

隨著智慧電動車崛起，座艙更加智慧，更多車輛搭載擁有大量功能的車機系統和不同級別的駕駛輔助，造成座艙內資訊大爆炸。面對海量的資訊，智慧汽車的中控大屏越來越大。

但細想，這些螢幕的內容集中高且有多個層級，輸出資訊是高效的，可做資訊輸入顯然是低效的。而語音互動，理論上指令可以有無數條，可以實現一步直達任何功能。正因如此，語音互動的價值再次浮現。

高工智慧汽車研究院監測資料顯示，2020年國內新車（合資+自主品牌）前裝搭載語音識別及互動功能上險量為1206。4萬輛，同比增長17。88%。在搭載率方面，則從2019年的49。82%提升至63。25%，車載語音已成為汽車繼中控屏外的第二互動手段。

實際上，近兩年語音互動迎來新一輪發展，不僅因為其較螢幕互動有著獨特優勢，更是由於可以和“智慧”做到深度融合，升級為“語音助手”。

智慧汽車接入的生態服務資源廣泛，司機和乘客使用服務會變得高頻，語音互動系統可以從中獲取海量的資料。而資料來源於司乘日常的對話，相對豐富詳細，系統透過深度學習培養後也就越“智慧”。

這與螢幕互動很大的不同在於，資料必然會加速汽車互動系統的更新迭代。而互動系統使用體驗的提升，會使得司乘進一步提高使用頻率，產生新的資料。兩者之間相輔相成，互相促進。

另一個不同在於，語音助手可以更好地同內容生態連線，把移動網際網路的產品和服務搬到汽車上，讓自身商業體系的優勢得以凸顯。這也是除了體驗外，汽車廠商著眼語音互動的關鍵動力。

但隨著產品不斷推進，車載語音供應商之間的競爭愈發白熱化。在技術鏈路上，語音互動大致包括聲學前端，語音識別（ASR）、自然語言處理（NLP）等。當下競爭不僅集中在自然語言處理，而且衍生到背後資料和計算能力的比拼。

2020年資料顯示，排名前八的供應商市場份額超過99%。Cerence和科大訊飛繼續佔據市場份額的前兩位，合計份額超過70%，不過數字已經開始出現下滑跡象；百度排名第三，份額為7。24%。

這一塊目前的問題是，在一些高頻對話的定義上，整體效果較好，但在一些低頻的對話上，受限於語料、資料量不足，體驗上不盡人意。如何利用AI更好地推進自然語言處理，對公司的技術研發實力和積累提出高要求。

也因如此，該領域具備天然的競爭壁壘，先發優勢和規模效應尤為明顯。這是BAT等科技巨頭難以實現快速滲透，市佔率無法提升的主要原因。

而Cerence目前是全球唯一專注這個方向的企業，有著超過20年技術積累，兼顧科技巨頭以及細分領域玩家兩方的優勢。一方面，早有著科技巨頭從生態上整合第三方應用協作的能力，利用認知仲裁技術實現了第三方內容在系統上共存，簡化了助手執行任務的流程。

另一方面，具備科大訊飛等傳統玩家豐富的整合經驗和規模優勢，合作全球主流OEMs和Tier1供應商。這不僅有助於加強成本優勢，同時幫助自身積累豐富的語言資料，目前Cerence和科大訊飛已建立數十種語言的語音資料庫。

汽車廠商不同的實現路徑，

帶來不同的想象空間

汽車進入數字化和自動駕駛新時代，電子架構從分散式架構到域集中架構，再到跨域融合，汽車廠商開始掌握更多的主導權。隨之，作為需求側的廠商同語音供應商合作時，不再單一地走通用方案，而轉向深入理解應用場景、聯合深度定製。

在“智慧相對論”看來，未來汽車廠商的語音助手前裝方案將主要呈現兩種實現路徑：

一方面，一部分將傾向於打造自研的互動平臺，並融合多家供應商如科大訊飛和思必馳的優勢技術支援。

自研這種做法劣勢在於成本問題，改變核心領域的互動邏輯並將語義處理能力建立起來，需要不斷地研發投入。為了打造強大的智慧AI服務於系統，大量的資料沉澱也會拉長系統的更新週期。

而部分廠商選擇“偏向虎山行”，原因簡單概括就是“閉環”二字。

相比向供應商採購，自研平臺進一步符合車輛的特性，有著相對自由的許可權以及更好的適配。同時，其迭代升級會更為迅速，響應速度也更快。若要“全雙工”、“連續對話”、“免喚醒”、“全場景”等技術能力更好地實現，自研就顯得尤為重要。

部分廠商會選擇這條實現路徑，也是為了更好抓住行業中長期的趨勢。因為車的量產週期很長，如果廠商不能“獨具慧眼”，未來車上搭載的語音方案就是落後的，和同時期的產品比就丟失了部分競爭力。

以蔚來、理想、小鵬為代表的造車新勢力是最典型的例子，它們仍需藉助語音供應商，但自研比例在逐漸提高。

蔚來有著NOMI Mate小機器人的車載AI系統，如今其已升級至2。0版本，解鎖了更多的功能和表情顯示。蔚來較早選擇車載語音“擬人化”這個思路獨樹一幟，但的確走出了預想的效果，引發了後續多家效仿。透過“擬人化”，語音被抽象為人物形象的情感表達，反過來加深使用者對品牌的印象。

小鵬的“玩法”似乎“直接且硬核”。去年10月，其釋出了自己的全場景語音，包括多輪對話、語義打斷、雙音區鎖定和可見即可說4個功能。在技術層面，小鵬自主搭建了一套語音框架，以便自主定義語音的全流程體驗，不受限於供應商的開放能力範圍限制。但必須承認，這需要長期投入人力物力財力。

另一方面，其他品牌則更多傾向於直接或間接選擇提供整體解決方案的供應商，比如Cerence、科大訊飛、BAT等供應商。

一般來說，整體解決方案僅小量自定義即可交付，特別適合車型品類和數量都非常豐富的汽車品牌，價效比相對更高。

當下，吉利汽車和長城汽車等我國自主品牌主要是走這條實現路徑。以長城汽車為例，去年4月，其戰略合作伙伴仙豆智慧選定Cerence ARK來提供數字助理方案。與全球領先的供應商建立合作後，自主品牌的語音互動並不遜色於造車新勢力。

在這場語音互動“智慧化”趨勢下，傳統豪華品牌如賓士、奧迪、寶馬反而不是話語權的掌管者，和國內消費者對它們根深蒂固的認同感形成強烈反差。

傳統豪華品牌在汽車數字化上相對保守，往往選擇某一個車系的一款車型嘗試升級。不選擇自研能夠將開發週期大幅縮短，加上自身的汽車量產能力，可以快速將產品向市場鋪開。

2020款奧迪A4L語音系統由出門問問提供，同時搭載了Cerence和天貓精靈的相關能力。整體體驗比其他豪華品牌要好，但遠算不上第一梯隊。

Cerence和出門問問分別為這款車提供了一套ASR和NLU能力，兩者算是並行關係。所以使用者輸入任何一個指令，兩個通道都要跑一遍，最後統一口徑實行指令，流暢度不佳。

當下，傳統豪華品牌的智慧化升級迫在眉睫，車內人機互動的體驗，已然成為各大廠商競爭的焦點。新勢力攪動市場，自主品牌紛紛發力，智慧汽車市場的競爭如火如荼。

下一代互動盯住“主動多模態”，

仍需邁過“雞肋”這道坎

激烈的競爭一定程度上推動著語音互動產品提高使用者體驗，也使得愈多使用者長期接受這種互動方式。智慧電動汽車時代，“軟體定義汽車”這句話深入人心，但“語音”遠遠不能定義互動。

在整車底盤之上，還有攝像頭、HUD、玻璃、車燈（氛圍燈、外飾燈）等有望成為未來座艙端的互動產品。而語音互動能夠承載海量資料、帶來駕駛更高安全性等等，更會是互動產品生態的中心。

所以“智慧相對論”認為，以語音互動為中心的“主動多模態互動”會是未來的方向。

不同功能的攝像頭好比多雙“眼睛”，能夠進行手勢識別、情緒識別，發現你的需求。這種情況下，攝像頭帶來的是互動系統“主動”提供服務，與其他地互動方式截然相反。當語音這種“被動式”和視覺的“主動式”融合，整個互動產品生態會為使用者提供更豐富的服務和資訊。

例如，將車輛、行人、車道、標誌識別融合導航資訊進行實時渲染，提供行車預警及導航指引等系列功能，並透過HUD投影至擋風玻璃上，帶來更直觀的導航駕駛體驗。

與此同時，透過視線追蹤、手勢互動等操作對艙內座椅、燈光、空調、音樂等所有功能進行控制，從而在保障安全駕駛的情況下讓人機互動更易用，並配合人臉識別身份認證技術，提供駕駛員身份檢測以支援個性化功能實現。

願景是美好的，但現實是，當下視覺互動落地的案例屈指可數。寶馬的手勢識別在2015年率先登陸寶馬7系，2019年下放到3系，透過攝像頭主要識別確認、調節音量大小、接聽和結束通話電話。識別率很高，但螢幕系統流暢程度和反應非常流暢，手勢識別反而顯得雞肋。

如何平衡好語音、視覺等多模態之間的互動邏輯，是現階段各家一直在探索的問題。

體驗參差不急，導致整個產品生態的價值沒有真正凸顯。最重要的是語音和視覺沒有從根本上融合，仍然是單打獨鬥的狀態。

實現功能的整合並非易事，尤其是從被動指令到主動提供服務，需要成熟的AI技術的支撐。如果這種細微的服務能做好，體驗會有大幅提升，使用者粘性會隨之提高。

若拋開技術先看互動的目的，是為了提供更多的服務。而服務背後，則是廣泛的內容生態，社交、地圖、音樂等等。因此，如果能夠為使用者提供更多的生態內容服務，互動產品生態的資料逐漸積累，人機互動也將更加智慧。而這，必然需要多方的共同努力。

友快網

微軟收購nuance，車載語音的下一個風口，或許會是微軟的科大訊飛

相關推薦

最近发表