人工智能是學(xué)習(xí)的尚方寶劍還是“石中劍”?
過(guò)去,人們?cè)噲D通過(guò)分析學(xué)生的學(xué)習(xí)行為數(shù)據(jù),給予其個(gè)性化的學(xué)習(xí)指導(dǎo)。但是,由于數(shù)據(jù)搜集技術(shù)的局限性,導(dǎo)致數(shù)據(jù)的指導(dǎo)意義不夠準(zhǔn)確,商業(yè)化應(yīng)用產(chǎn)值低。
近年來(lái),隨著技術(shù)的進(jìn)步,以及資本市場(chǎng)的關(guān)注,教育科技產(chǎn)品呈現(xiàn)井噴式爆發(fā),許多學(xué)習(xí)過(guò)程得以數(shù)字化,數(shù)據(jù)搜集變得更加簡(jiǎn)單。
大數(shù)據(jù)(BigData)爆炸成長(zhǎng)成為機(jī)器學(xué)習(xí)的養(yǎng)分。機(jī)器學(xué)習(xí)能獲得充分的訓(xùn)練數(shù)據(jù)(trainingdata)與計(jì)算效能。人工智能產(chǎn)業(yè)(ArtificialIntelligence,AI)經(jīng)過(guò)一甲子的起落,庫(kù)卡機(jī)器人何服電機(jī)維修,終于因技術(shù)條件到位,開(kāi)始突飛猛進(jìn)。但是,單純掌握某種數(shù)據(jù),不能實(shí)現(xiàn)功能上的聯(lián)動(dòng)和數(shù)據(jù)共享,這種信息孤島現(xiàn)象會(huì)成為人工智能發(fā)揮的最大阻礙。
什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)(MachineLearning)是人工智能的子領(lǐng)域。而常聽(tīng)到的深度學(xué)習(xí)(DeepLearning)則是機(jī)器學(xué)習(xí)中的一支。
人工智能的范疇,涵蓋了所有嘗試以電腦去模仿人腦處理信息的能力。例如:以電路設(shè)計(jì)或算法來(lái)模仿人腦神經(jīng)元網(wǎng)絡(luò)的運(yùn)作;以程序模擬彼此互連的知識(shí)概念,如Google搜尋引擎的核心知識(shí)圖譜(KnowledgeGraph);以及,讓電腦能理解人類語(yǔ)言的自然語(yǔ)言處理技術(shù)(NaturalLanguageProcessing)等,都屬于人工智能的范疇。模仿人腦思考能力的人工智能到目前為止,不算完全成功;倒是機(jī)器學(xué)習(xí)技術(shù),因?yàn)樯鲜鲈,達(dá)到博聞強(qiáng)記,神速運(yùn)算的效果,而異軍突起。
機(jī)器學(xué)習(xí)大量使用統(tǒng)計(jì)的方法與推論,建立預(yù)測(cè)能力,讓電腦或人類可以有效地即時(shí)采取行動(dòng)。機(jī)器學(xué)習(xí)的核心,在于電腦能從收到的資料中學(xué)習(xí),持續(xù)提升達(dá)成預(yù)設(shè)目標(biāo)的能力(例如,專門(mén)推薦餐廳的應(yīng)用),而不需依賴開(kāi)發(fā)者不斷下發(fā)指令。
今天,機(jī)器學(xué)習(xí)技術(shù)已經(jīng)被廣泛應(yīng)用于各產(chǎn)業(yè)。以下是各種可能的能力,例如:購(gòu)物網(wǎng)站根據(jù)使用者瀏覽行為與歷史紀(jì)錄,動(dòng)態(tài)調(diào)整推薦商品;零售商店根據(jù)氣候、季節(jié)、日期與地理位置等,計(jì)算各商品最佳定價(jià);還有,人臉或圖片辨識(shí)、手寫(xiě)輸入辨識(shí)、語(yǔ)音辨識(shí)、自動(dòng)過(guò)濾垃圾郵件、自動(dòng)偵測(cè)信用卡盜刷、幫醫(yī)生判讀資料等。機(jī)器學(xué)習(xí)早已被廣泛用在我們生活中,甚至你可能曾與人工智能客服交手過(guò)而不知道。
最引人關(guān)注的代表性事件包括AlphaGo戰(zhàn)勝世界圍棋冠軍、自動(dòng)駕駛汽車上路、IBMWatson用于開(kāi)發(fā)智能語(yǔ)音助理等。
如果將機(jī)器學(xué)習(xí)用在學(xué)習(xí)上,又有哪些可能呢?林軒田教授團(tuán)隊(duì)2010年贏得KDDCup冠軍,題目是根據(jù)3000名學(xué)生回答數(shù)學(xué)題的900萬(wàn)條記錄,預(yù)測(cè)個(gè)別學(xué)生是否能答對(duì)特定題目。這是一個(gè)容易理解的例子,KUKA機(jī)器人示教器維修,也是一個(gè)非常清楚定義的問(wèn)題。
人工智能成為熱門(mén)話題,一般人以此用語(yǔ)統(tǒng)稱,并不清楚其中各領(lǐng)域本質(zhì)上的差異。組織主管看到別人揮著這把尚方寶劍,媒體文章說(shuō)著:下一個(gè)十年的絕勝點(diǎn)在于掌握如何善用人工智能,KUKA機(jī)器人維修,內(nèi)心多少有焦慮,希望就像電影里一樣,一朝搶到尚方寶劍,就立于不敗之地。教育培訓(xùn)科技產(chǎn)業(yè)人士對(duì)人工智能的期許,情形類似。
現(xiàn)今人工智能已逐漸像基礎(chǔ)建設(shè)(例如:電力,水)一樣可以接取使用,所以,許多人認(rèn)為以上的期待并不遙遠(yuǎn)。沒(méi)錯(cuò),許多機(jī)器學(xué)習(xí)的計(jì)算能力已經(jīng)透過(guò)程序接口(API)提供出來(lái),例如:IBM的Watson、谷歌、微軟、阿里云都有提供這類接口服務(wù)。
人工智能是尚方寶劍還是石中劍?
可惜現(xiàn)實(shí)世界是個(gè)復(fù)雜的系統(tǒng),這不是plug-and-play(即插即用)。
第一,如果你還沒(méi)有明確定義的問(wèn)題,人工智能對(duì)你是沒(méi)用的。對(duì)這點(diǎn)事實(shí),人類應(yīng)該感到慶幸(不會(huì)被取代),機(jī)器人只能解決我們定義好而且適當(dāng)建模的問(wèn)題。各種算法就像用在不同場(chǎng)景的各種單一功能工具,依靠人類對(duì)關(guān)注的系統(tǒng)建立模型后,選擇適當(dāng)工具用在適當(dāng)?shù)沫h(huán)節(jié),并需要實(shí)際數(shù)據(jù)來(lái)訓(xùn)練模型,調(diào)校與優(yōu)化參數(shù)。數(shù)據(jù)越多,人工智能表現(xiàn)越好。有時(shí)因?yàn)榍榫郴蚴褂谜叩幕A(chǔ)不同,可能需重新訓(xùn)練模型。
第二,如果你沒(méi)有(1)正確結(jié)構(gòu)化(2)乾凈(3)足夠的--數(shù)據(jù)(Data),幻想接上人工智能就會(huì)有神奇的效果,那是不可能的。
不準(zhǔn)確的數(shù)據(jù)只會(huì)帶來(lái)誤判,資料科學(xué)家都知道整理資料經(jīng);ǖ80%的時(shí)間,結(jié)構(gòu)化的資料是為分析而設(shè)計(jì)過(guò)的資料格式,節(jié)省清理與匯整資料的時(shí)間,也與模型對(duì)接。模型要準(zhǔn),需要越多資料越好,所謂足夠的資料,根據(jù)你定義的問(wèn)題范圍大小而定。
自適應(yīng)技術(shù)在美國(guó)已逐漸導(dǎo)入各學(xué)習(xí)系統(tǒng),有些正式評(píng)量也被采用,但為何還會(huì)出現(xiàn)成效不彰的反面案例呢?像所有工程系統(tǒng)一樣,這些系統(tǒng)設(shè)計(jì)上有許多因子與參數(shù),因各自設(shè)定不同,應(yīng)用時(shí)最好能視需求讓使用者調(diào)整部分參數(shù)。但在實(shí)際應(yīng)用過(guò)程中,并非都有這種選項(xiàng),結(jié)果不同系統(tǒng)效能自然相異。國(guó)外在學(xué)習(xí)場(chǎng)景導(dǎo)入這種系統(tǒng),是經(jīng)過(guò)好幾年與教師密切溝通合作,才得以成功。另外,其應(yīng)用場(chǎng)景需將內(nèi)容放進(jìn)該系統(tǒng),如果學(xué)習(xí)發(fā)生在系統(tǒng)之外,則系統(tǒng)擁有的資料不夠,效能當(dāng)然大打折扣。
何謂足夠的資料(數(shù)據(jù))?
學(xué)習(xí)的趨勢(shì)持續(xù)走向分散化、多元化、去中心化,一個(gè)系統(tǒng)不可能完全掌握學(xué)習(xí)者的足夠資料,這些發(fā)生在多元應(yīng)用里的學(xué)習(xí)經(jīng)驗(yàn),需要像ExperienceAPI(xAPI)接取多重資料流,實(shí)時(shí)匯整,才能解決信息孤島(DataSilos)問(wèn)題。
另一個(gè)"足夠"的層面是行為數(shù)據(jù)采集的維度,例如:做練習(xí)題,只有記錄答對(duì)或答錯(cuò),機(jī)器學(xué)習(xí)可以推測(cè)的范圍極為有限(巧婦難為無(wú)米之炊);但是如果記錄了答題花費(fèi)的時(shí)間、嘗試次數(shù),那么機(jī)器可以知道這題對(duì)學(xué)習(xí)者是偏難或偏易,或他是不是猜對(duì)的,再據(jù)此推送適合該學(xué)生的題目(題目的難度標(biāo)注或統(tǒng)計(jì)是另一個(gè)議題);如果題目有按需給出提示,則做題者是否使用提示,揭露了不同意義;還有,如果知道答題前發(fā)生的相關(guān)學(xué)習(xí)行為,則給機(jī)器提供了更好的建議根據(jù);如果機(jī)器模型累積了過(guò)去大量成功學(xué)習(xí)者的路徑,與當(dāng)事者的過(guò)去記錄進(jìn)行對(duì)比,則可以形成絕佳建議根據(jù);最后,如果有記錄答題是在課堂上,與同學(xué)合作,在搭公車時(shí),或在家時(shí)間發(fā)生,這些維度的數(shù)據(jù)都可以被用到。
xAPI正是這樣的工具,讓我們采集豐富維度的行為資料,依據(jù)分析需求來(lái)設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)。只要是數(shù)字系統(tǒng),都可埋入xAPI進(jìn)行行為數(shù)據(jù)采集,并不限于學(xué)習(xí)應(yīng)用。
xAPI的創(chuàng)新之處在于建立了獨(dú)立于應(yīng)用之外的數(shù)據(jù)層,用統(tǒng)一語(yǔ)言打通應(yīng)用之間的信息壁壘。這個(gè)標(biāo)準(zhǔn)數(shù)據(jù)層不但人可讀懂,機(jī)器也可讀懂,所以機(jī)器能夠自行推理。xAPI基于語(yǔ)義網(wǎng)技術(shù)(SemanticWebTechnology,也稱Web3.0)–這是萬(wàn)維網(wǎng)之父TimBerners-Lee為將來(lái)萬(wàn)物互聯(lián)環(huán)境智能化的愿景所主張之關(guān)鍵技術(shù),現(xiàn)在工業(yè)4.0也是基于這種語(yǔ)義技術(shù)。未來(lái),機(jī)器可以從群眾與內(nèi)容的互動(dòng)歷程(也是群眾智慧),自動(dòng)萃取語(yǔ)義網(wǎng)連結(jié)的內(nèi)容、學(xué)習(xí)路徑、相關(guān)的人推薦給適合的人,xAPI以Key-Value型態(tài)攜帶的情境、結(jié)果、環(huán)境、時(shí)間點(diǎn)等數(shù)據(jù)都可放進(jìn)算法中。
xAPI結(jié)合機(jī)器學(xué)習(xí)的應(yīng)用案例
從下舉幾個(gè)使用xAPI進(jìn)行行為數(shù)據(jù)采集,結(jié)合機(jī)器學(xué)習(xí)的案例。雖然不是直接的學(xué)習(xí)案例,但原理完全可以用在學(xué)習(xí)訓(xùn)練上。
改進(jìn)網(wǎng)頁(yè)布局與行銷體驗(yàn)