Google宣布將其最新的機(jī)器學(xué)習(xí)技術(shù)TensorFlow以開放源碼專案釋出。Google 以 Apache 2.0 授權(quán)模式開放以 Python 或 C++ 為主要服務(wù)語言的 TensorFlow 專案,并將這個(gè)專案的程式碼與相關(guān)工具放在 Github 上。
TensorFlow 是 Google 繼 2011 年開發(fā)了 DistBelief 之后,透過使用資料流 (flow) 圖像,來進(jìn)行數(shù)值演算的新一代開源機(jī)器學(xué)習(xí)工具。這個(gè)機(jī)器學(xué)習(xí)工具的基礎(chǔ)設(shè)計(jì),主要透過圖學(xué)里的“節(jié)點(diǎn)”來表達(dá)數(shù)學(xué)運(yùn)算,“邊” 來表示“節(jié)點(diǎn)”間的多維度資料陣列 (tensors, 張量),因此命名做 TensorFlow。TensorFlow 主要由 Google 機(jī)器智慧研究室與 Google 大腦研究組 (Google Brain Team ) 的學(xué)者與工程師所開發(fā),容許開發(fā)者自由配置運(yùn)算環(huán)境來做深度神經(jīng)網(wǎng)絡(luò)研究,但也足以支持普通環(huán)境所需要的服務(wù)(例如透過影片進(jìn)行圖像辨識);你可以部署 TensorFlow 在使用一個(gè)或多個(gè) CPU 或 GPU的桌機(jī)或伺服器上,也可以透過一個(gè) API 部署在行動(dòng)裝置里。
Gmail的垃圾郵件判讀、Google相簿臉部識別、Google翻譯,我們天天都在使用 Google的機(jī)器學(xué)習(xí)系統(tǒng),現(xiàn)在Google將TensorFlow以開放源碼專案釋出了。相比IBM,微軟與百度等競爭對手的封閉路線,再次打出開源牌的Google是否又會(huì)成為機(jī)器學(xué)習(xí)領(lǐng)域的霸主呢?Goolge為什幺要推開源機(jī)器學(xué)習(xí)系統(tǒng)?
沒資料,光有技術(shù),機(jī)器學(xué)習(xí)就只是空談“如果將機(jī)器學(xué)習(xí)比喻成一架火箭,那大量的『數(shù)據(jù)』就是驅(qū)動(dòng)它的能源,并且需要各種創(chuàng)意、多方思考設(shè)立出來的模型和運(yùn)算能力來支持整個(gè)學(xué)習(xí)過程,而且電腦不比人腦,人腦只需要有限的例子和經(jīng)驗(yàn)就能夠成功學(xué)習(xí)。電腦則是需要『非常多樣本和案例』來建立認(rèn)知。”Google人工智能、計(jì)算神經(jīng)科學(xué)及可量化機(jī)器學(xué)習(xí)研究員指科拉多(Greg Corrado)強(qiáng)調(diào)。
(圖說:Google人工智能、計(jì)算神經(jīng)科學(xué)及可量化機(jī)器學(xué)習(xí)研究員指科拉多)
言下之意,只靠Google自己發(fā)展機(jī)器學(xué)習(xí)技術(shù)勢必會(huì)遇到一些難題,資料量不夠多元。“電腦的學(xué)習(xí)過程是相當(dāng)緩慢,曠日費(fèi)時(shí),深度學(xué)習(xí)需要投入大量的人力與資源進(jìn)行相關(guān)研究”科拉多說。在這樣的情況下,Google透過開放機(jī)器學(xué)習(xí)讓開源社群幫Goolge收集、整理各式各樣大量可用來訓(xùn)練類神經(jīng)網(wǎng)絡(luò)的『資料』。
“沒資料,光有技術(shù),機(jī)器學(xué)習(xí)就只是空談。就像火箭要有燃料,要不然只有推進(jìn)器,火箭也飛不起來!”臺北大學(xué)資訊工程學(xué)系教授戴志華進(jìn)一步解釋,一但開放機(jī)器學(xué)習(xí)系統(tǒng),用的人越多,資料越多元,越多量多變,Google 機(jī)器學(xué)習(xí)系統(tǒng)更聰明,能提供的服務(wù)就越好,可以提供更多種服務(wù),形成一個(gè)正向循環(huán)。
舉例來說, Google 想要讓機(jī)器學(xué)習(xí)認(rèn) a~z 26個(gè)小寫字母,但每個(gè)人的字跡不同,Google若自己要 準(zhǔn)備各種不同筆跡字母太曠日費(fèi)時(shí),但若全世界有20%的人,一人給 Google 一份自己寫的a-z字母,有了這些大量,又多形變的資料,Google 機(jī)器認(rèn)字母的能力也就越強(qiáng)。因此 Google 利用“開放”模式解決以上的難題。
也許你要問, Google 不是手握大量使用者數(shù)據(jù)了嗎?為什幺這些數(shù)據(jù)量還不夠呢?
Google過去收集的資料不適合用來做機(jī)器學(xué)習(xí)“Google過去收集的資料都不適合用來做機(jī)器學(xué)習(xí),因?yàn)槟切┵Y料并沒有被賦予足夠具體的意義。”戴志華指出。
舉例來說,Google手邊有很多“1”、“one”與“一”等資料,但機(jī)器并不懂得什幺意思。機(jī)器不知道“1 ”... 是 1 不是 2 、“one”是 1 不是 2 、“一”是 1 不是 2 “機(jī)器學(xué)習(xí)就跟教小孩很類似,你要他叫爸爸,你就得先告訴他誰是爸爸。”戴志華舉例。
因?yàn)轭惿窠?jīng)網(wǎng)絡(luò)是模擬人的大腦,訓(xùn)練類神經(jīng)網(wǎng)絡(luò),就跟教育嬰幼兒一樣。資料要大量、多變化,資料的品質(zhì)也重要,就是要大量且要含括足夠的變化,所以需要整個(gè)社群提供資料并且賦予這些資料正確具體的意義。因此,透過開源 TensorFlow 這個(gè)工具, Google 得以號召整個(gè)開發(fā)社群透過利用該工具提供相關(guān)服務(wù)時(shí),幫 Google 完成收集真實(shí)世界資料的任務(wù)。
那對開發(fā)者或研究員來說,Google的開源機(jī)器學(xué)習(xí)系統(tǒng)吸引點(diǎn)在哪里呢?
利用開源精神先把餅做大Google 雖然發(fā)展機(jī)器學(xué)習(xí)10年,但還有許多領(lǐng)域未探索。因此需要這個(gè)社群共享力量,加速機(jī)器學(xué)習(xí)進(jìn)展。“利用機(jī)系學(xué)習(xí)系統(tǒng)獲利并非 Google 現(xiàn)行目標(biāo),現(xiàn)在最重要的是社群的建立,透過開源社群的快速分享,建立共同標(biāo)準(zhǔn)。這對機(jī)器學(xué)習(xí)的發(fā)展非常重要。”科拉多說。
相較競爭對手微軟、IBM 與百度,機(jī)器學(xué)習(xí)技術(shù)需要付費(fèi),Google 的免費(fèi)對于開發(fā)者的吸引力巨大。
利用開源社群資料,壯大Google自身系統(tǒng)“讓全球聰明人,給 Google 很好的回饋與貢獻(xiàn),甚至連競爭對手的團(tuán)隊(duì)都會(huì)用它, Google 不走常人之路。” Alphabet 集團(tuán)執(zhí)行董事長史密斯(Eric Schmidt)強(qiáng)調(diào)。
Google 目前透過兩方面應(yīng)用機(jī)器學(xué)習(xí)技術(shù)強(qiáng)化現(xiàn)有的產(chǎn)品服務(wù)(如:Google 搜尋里的排名建議)與提供更先進(jìn)更新穎的產(chǎn)品服務(wù)。如語音文字與圖像辨識??评嘀赋?ldquo;Google 的語音搜尋就是透過機(jī)器學(xué)習(xí)讓正確度不斷提升。”
“這對 Google 的 Mobile Only 政策具有重大的影響,在行動(dòng)的世界,不需要手,我們使用語言溝通,電腦直接辨識圖像。”科拉多說。不過對于外界非常關(guān)切的 Google 自動(dòng)駕駛車的機(jī)器學(xué)習(xí)成果,科拉多語帶保留,并不多談,是個(gè)敏感議題。
北京金恒智能系統(tǒng)工程技術(shù)有限責(zé)任公司 版權(quán)所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機(jī)房
在線體驗(yàn)