百度自動駕駛事業部總監孫勇義用這樣一個問題開啟了在清華x-lab人工智能研習社的第二講。這是一個在AI應用中的常見問題,數據和算法的支持者們各有論據,而在自動駕駛這樣一個更具體的場景下,孫勇義顯然更看重前者。在講座前的專訪中他也告知大數據文摘記者,百度在7月初發布的Apollo計劃也正是百度獲取更多數據、創立數據生態的另一個落地入口:一方面可以收集到更多自動駕駛相關數據,輔助相關算法提升;另一方面,通過Dueros這一車載環境下的語音交互入口,獲取更多自然語言數據,提升相關技術。
百度自動駕駛事業部總監孫勇義在現場做了題為《Apollo計劃背后的人工智能技術》的演講
孫勇義在演講中進一步說,Apollo開放的初衷是,開放算法和能力,獲得的是用來做自動駕駛算法訓練的數據。
相比智能音箱等已經進入消費級市場的產品,依然處于研發階段的自動駕駛顯然在獲取用戶數據上更加艱難。孫勇義稱,最理想的數據采集方式還是的自動駕駛車上市后在路上跑采集大量數據,比如特斯拉,每一輛賣出上路的特斯拉都是一個數據搜集者,可以幫助特斯拉進行數據研發。百度自動駕駛目前的幾種主要方式是:和汽車廠商合作,利用數據采集車、實驗車,以及跟第三方運營車隊合作采集數據。
人工智能技術是錘子,行業問題是釘子,ai技術有行業通用性,但是落地時候需要跟行業綁在一起。孫勇義對于ai人才的要求也基于此,ai人才需要去找行業落地場景,打造數據閉環。
以下為孫勇義演講精華整理,在不改變原意的情況下有部分刪改:
在未來,人們用軟件定義汽車
首先,我們從汽車行業的趨勢開始講起。汽車行業有三大趨勢:第一是電動化,我們已經在北京感受到了,由于政府的限號與新能源的開發等原因,未來我們將會在大街上看到更多的新能源車;第二是共享化,隨著滴滴、Uber的發展我們明顯感受到共享出行是未來發展的趨勢。第三是智能化,智能化包含了車的自動駕駛、以及車內的智能人機交互等,未來在智能化領域這是一個萬億級的市場。
在未來,一個汽車的價值主要來自于其軟件。如同過去手機的功能機時代,當別人問我們用的是什么手機的時候,我們的第一反應是在問我用什么牌子的手機,是諾基亞還是西門子。而到了智能機時代,大家如果問我用的是什么手機,我們的第一反應是iPhoneiOS還是安卓。我們的第一反應不再是手機品牌,而是手機系統、手機軟件是什么。
在未來,人們開始用軟件定義汽車。在整個汽車駕駛里面,能達到60%的駕駛都來自于軟件,大家換車如同換手機一樣,新迭代出一款智能車大家就換一輛新的出來。
人工智能時代的自動駕駛
在人工智能技術發展的歷史中,經歷了很多高潮、低谷。在50年代就已經有人提出了人工智能這個詞,人工智能技術已經不是特別新鮮的名詞了。
但是,由于當時技術并不成熟,人們只是有了這個概念,這股浪潮起來一波之后,人們發現實現人工智能技術還很遠,人工智能開始進入第一個冬天。當計算能力變強之后,www.tka.net.cn,人工智能的第二波春天來了,但人們發現,想要實現人工智能依然很難,第二波冬天隨之而來。一直到90年代開始,當機器學習、深度學習漸漸興起,特別是像百度、Google、Facebook等互聯網公司的大力投入,人工智能快速發展。當人們質疑未來是否還會再來一波冬天,我們的數據和計算能力、以及我們當前已經落地的應用告訴我們:人工智能的時代真正的到來了。
對于人工智能技術,www.tka.net.cn,主要是三個部分構成其必要的條件:第一是海量的計算能力;第二是采集的數據;第三是人工智能算法。如果想要在人工智能的領域里面建立整個行業壁壘,最重要的是數據。有一位專家曾經說過:數據秒殺一切算法。Apollo開放算法和能力的目的就是獲得用來做自動駕駛算法訓練的數據。
從智能汽車的算法研發角度來看,我們的一個研發閉環是我們的車在道路上跑,會碰到很多場景,有一些會處理的非常好,有一些則相對于差一些,它會選擇性的把這些處理不好的場景傳輸到云端平臺,云端平臺會對這些處理不好的場景進行訓練,訓練之后會生成一個新的算法下發到車里。隨著車在路上跑的里程越來越多,數據也隨之越來越多,我們的車子也會變得越來越智能。
數據秒殺一切算法
下面做一個小調查,計算能力、大數據和算法,這三部分哪個是我們某一個人工智能領域的最強的壁壘?其實算法的保密性不是特別高,如果說這個團隊研發很牛的算法,他可能會發表一篇論文,把算法講一講。也有可能其他公司會把團隊核心的一些骨干人員挖一挖,他也知道這個公司的算法是怎么做的,所以說其實在整個的AI領域里來講,比如說在一些標準的公開測試集上面,發現第一名和第二名的差距沒有那么大。要建立整個行業壁壘,其實最重要的是什么呢?是數據。Apollo開放的目的是什么?開放的是算法和能力,獲得的是用來做自動駕駛算法訓練的數據。
講座后,清華學生向孫勇義提問
作為一個智能汽車的算法研發來講,我們的一個研發閉環是,我們的車在道路中跑,它會碰到很多場景,有些能處理的很好,有些處理不好。它會選擇性的把這些處理不好的場景傳輸到云端平臺,云端平臺會對這些處理不好的場景進行訓練,訓練完了之后生成一個新的算法,下發到車里。
對自動駕駛車來說,有可能算法本身并沒有做什么特別大的改變,但隨著車在路上跑的里程越來越多,遇到的錯誤場景就越多,根據這些場景進行訓練自動駕駛算法就能得到提升。所以在算法不變的情況下,隨著積累的數據越來越多,我們的車也會變的越來越智能。
自動駕駛的基本原則:讓車的判斷越少、也就越安全
再介紹一下自動駕駛技術的十大技術。分成兩大類,第一大類是底層的工程類的偏支撐性的技術,包括硬件、車載系統、人機交互、智能互聯以及系統安全。再上面這五大部分就是汽車大腦、環境感知、地圖定位、行為預測和規劃控制。
我再對技術做一個深度的剖析,第一個是感知技術,對自動駕駛來講,最重要的就是環境感知的能力,他要知道周圍有哪些人,有哪些車,它們運動的速度、軌跡各是什么樣的。右側的小視頻是基于攝像頭一個障礙物的識別,左側是我們在測試集上面,當然這個數據是相對陳舊一些,因為現在有更多的提升,百度在這個領域還是屬于遙遙領先的。這是基于攝像頭的感知技術。但是基于攝像頭的感知技術存在一些,它的優點一個攝像頭確實是比較便宜,一個攝像頭硬件成本幾十塊錢就可以了,但是它的問題就在于當光線非常不好的情況下,或者說剛進入隧道的情況下,它的識別就不太好。另外像攝像頭識別準確率還有待提升。