微軟AI單憑文字就可作畫,誰最先受到?jīng)_擊?
當(dāng)Google的AI正在涂鴉時,微軟的繪畫AI已經(jīng)學(xué)會如何畫鳥了。
馬云曾說:三十年后,《時代》雜志封面年度最佳CEO說不定是個機器人。
機器人CEO可能還需等待,但機器人繪畫師已經(jīng)在路上。
當(dāng)Google的AI正在涂鴉時,微軟的繪畫AI已經(jīng)學(xué)會如何畫鳥了。近日,微軟對外宣稱正計劃推出一項新的人工智能技術(shù)繪圖機器人(drawingbot)。使用者僅需說出想要繪制物體的名稱,機器人便可以進行相關(guān)素材的匹配,也就是說,未來可以通過口述的方式進行繪畫,工業(yè)機器人維修,說啥畫啥。
人工智能系統(tǒng)單純透過文字描述就能夠創(chuàng)作圖像,該技術(shù)在文字描述中尋找關(guān)鍵字詞,然后再用來創(chuàng)作高畫質(zhì)的圖像,據(jù)悉這個關(guān)注重點的技巧讓圖像的畫質(zhì)較之前提升3倍。
隨著人工智能時代的到來,藝術(shù)與科技的碰撞,越來越頻繁地現(xiàn)身熱門話題榜。AI看文作畫的技術(shù)展現(xiàn)了具有藝術(shù)表現(xiàn)力的潛能,對藝術(shù)創(chuàng)作的影響已經(jīng)可以預(yù)見。但微軟的繪畫AI,在撬動智能體想象力方面,意義絕對不只是藝術(shù)助手所能概括的。
所以,AI口述繪畫這件事,不可小瞧!
什么是AI口述繪畫
AI口述繪畫,看起來好像是機器接受人類指令給出圖畫,但遠遠不止這么簡單。智能相對論了解到,正如負責(zé)研發(fā)的Microsoft深度學(xué)習(xí)技術(shù)首席研究員何曉東說的,圖像是人工智能由零開始,逐像素逐像素創(chuàng)作。他以一幅人工智能創(chuàng)作的黃色雀鳥圖像做解說,表示人工智能分析文字后,再透過一項名為生成對抗性網(wǎng)絡(luò)(GAN,GenerativeAdversarialNetwork)的技術(shù)將文字轉(zhuǎn)化成圖像,人工智能創(chuàng)作的黃色雀鳥并不一定在現(xiàn)實世界存在,只是電腦的一種想像。
GAN通過從高維的分布中采樣,生成模型輸出與訓(xùn)練樣本類似的新樣本。這就意味著,若生成模型的訓(xùn)練數(shù)據(jù)是鳥的圖像集,那么訓(xùn)練后得到的模型也能輸出類似于鳥的合成圖片。
研究員稱人工智能系統(tǒng)能夠創(chuàng)作出任何類型的形象,例如飄浮的雙層巴士、放牧中的牲畜等,而且在文字中欠缺的一些細節(jié),庫卡機器人,系統(tǒng)會在影像中自行補完。
GAN結(jié)構(gòu)用到了兩個神經(jīng)網(wǎng)絡(luò):一個是生成器,它試圖基于輸入的數(shù)據(jù)生成更像真實數(shù)據(jù)的結(jié)果;另一個是判別器,它的目的在于正確分辨哪些是真實的數(shù)據(jù)。簡單地來理解就是,生成器總是在試圖騙過判別器。
生成器必須反復(fù)用隨機輸入的噪音數(shù)據(jù)合成有意義的內(nèi)容,直到判別器無法區(qū)分合成內(nèi)容的真?zhèn)巍_@套框架正在被擴展應(yīng)用到許多數(shù)據(jù)模式和任務(wù)中。如仿真時間序列的特征;超分辨率圖像;從二維圖像復(fù)原三維結(jié)構(gòu);小規(guī)模標注數(shù)據(jù)集的泛化;預(yù)測視頻的下一幀;生成自然語言的對話內(nèi)容;藝術(shù)風(fēng)格遷移;語音和音樂的合成。
值得一提的是,庫卡機器人何服電機維修,微軟研究人員在此基礎(chǔ)上創(chuàng)建了他們稱之為注意力生成式對抗網(wǎng)絡(luò)或AttnGAN的技術(shù),這個AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了近三倍。而這種仿人類注意力的生成式對抗網(wǎng)絡(luò)對AI界的影響十分重大,這標志著在類人類智能的發(fā)展實現(xiàn)了質(zhì)的突破。
AI據(jù)文繪畫,或許漫畫領(lǐng)域最受沖擊
看文作畫的AI在現(xiàn)實生活中又會發(fā)揮什么樣的用處呢?
讓我們來想象一下,未來,可能會發(fā)生這樣的對話
Drawingbot,請你為我畫一個花園。
接著,一座美麗的花園躍然于紙上,花園中有各色的花朵,飛舞的蝴蝶,甚至有兩個小孩在其中嬉戲。
從文本到圖像的生成技術(shù)可以找到很多實際應(yīng)用,它既可以作為漫畫家和室內(nèi)設(shè)計師的素描助理,或者作為語音美化照片的工具。如果有更多的計算能力,這項技術(shù)能夠根據(jù)電影劇本生成動畫電影,進行一些重復(fù)且繁瑣的手工繪畫,比如動畫背景中的一棵樹、一顆草,進而改善動畫電影制片人的工作。
人工智能可以模仿披頭士寫歌,當(dāng)然也可以模仿各種名家作畫。試想一下,一個沒有任何繪畫基礎(chǔ)的編劇,卻能在網(wǎng)上發(fā)布自己漫畫劇作,其作品還頗有當(dāng)代某著名漫畫家的畫風(fēng)。在動漫方面,如果微軟的這款繪圖智能大力發(fā)展,完全可以大大降低創(chuàng)作門檻。當(dāng)然,這種另類的漫畫創(chuàng)作也可能面臨素材版權(quán)的問題。
目前來說,微軟這個繪圖AI還是有比較大的提升空間,而在不斷改進后,在將來,它可能會對漫畫領(lǐng)域產(chǎn)生極大的沖擊,甚至于對室內(nèi)空間設(shè)計行業(yè)也會產(chǎn)生影響。當(dāng)然,其主要作用還是節(jié)省畫家和設(shè)計家的人力和時間,而令人期待的是,未來的電視上極有可能會出現(xiàn)由AI自導(dǎo)自演的動畫片。
想象力讓AI區(qū)別于死物
除了知道繪畫AI可以充當(dāng)更好的人類幫手之外,我們?yōu)槭裁匆P(guān)注AI繪畫這件事?智能相對論認為,其中關(guān)鍵,或許是我們應(yīng)該知道想象力在AI世界中的重要程度和期待指數(shù)。
想象力是人在已有形象的基礎(chǔ)上,在頭腦中創(chuàng)造出新形象的能力。比如當(dāng)我說起牛奶,你想到的圖景可能是杯子中盛著白色的牛奶,這個想象是基于你生活中的經(jīng)驗所得到的,也就是說,想象一般是在掌握一定的知識面的基礎(chǔ)上完成的。
繪畫機器人能夠想象出標題中沒有包含的細節(jié),這是因為,它有一點自己的常識和想象力,當(dāng)然,這要依賴于它大量的訓(xùn)練數(shù)據(jù)。
在鳥的例子中,機器人畫的鳥通常是站在枝頭上的,然而文本內(nèi)容中其實并沒有提到這一細節(jié)。這是因為數(shù)據(jù)庫中提供給它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。這意味著,AI在掌握了一定的知識面后也能將其利用起來形成自己的想象。
目前,AI只是在小的細節(jié)中進行補充,而下一步,應(yīng)該是試圖在更自主地描繪圖像上完成突破。如果這個突破到來,意味著AI模型在想象力這一特質(zhì)上得到了進一步升級。這個能讓AI區(qū)別于死物的能力,終于拉開了表演的大幕。
AI先天具備的是運算能力,從而進行仿人類智慧的智能模擬,第二步就是模仿人類的感知,比如機器識別、語音識別、語義分析等等,都是在做這件事。而第三步,就是讓AI有自己的想象和思考。
假如單純的感知卻無法自主輸出,那么AI無非是更靈活的傳感器而已。
從這個邏輯上來看,微軟AI看文作畫絕不僅僅是一個商業(yè)應(yīng)用的技術(shù)加持,也不僅僅是藝術(shù)與科技的碰撞,更重要的應(yīng)該是開啟了AI世界里使AI具有想象力的新紀元。
微軟的這只鳥,更深遠的意義在于,我們或許距離擺脫機器人純粹的運算更近了一步。