人機融合的未來-尋找“棋盤上的真理”
——YOCSEF人機大戰(zhàn)特別論壇總結(jié)
這篇文章是根據(jù)3月13日上午我和白瑞雪共同擔(dān)任執(zhí)行主席的CCF YOCSEF特別論壇“ 圍棋人機大戰(zhàn):人類輸了嗎?”的嘉賓發(fā)言和討論整理而成,同一天下午AlphaGo對陣?yán)钍朗牡谒膱觯蝿莩霈F(xiàn)逆轉(zhuǎn),李世石贏了強大的人工智能圍棋程序。盡管最后第五場比賽還未開始,輸贏其實并不影響這篇文章要討論問題的觀點 - 我們關(guān)心的不是輸贏,而是如何理性探討人類和機器的未來。
這是一次非常精彩的論壇,我們請來了國內(nèi)在深度學(xué)習(xí),人工智能和認(rèn)知科學(xué)領(lǐng)域知名的專家,包括地平線機器人創(chuàng)始人CEO、機器學(xué)習(xí)專家余凱,清華航天航空學(xué)院計算力學(xué)副教授、清華圍棋基金秘書長由小川,NovuMind公司創(chuàng)始人兼總裁、計算人工智能專家吳韌,CSDN(中國開發(fā)者網(wǎng)絡(luò))創(chuàng)始人、極客幫創(chuàng)始合伙人蔣濤,中國科學(xué)技術(shù)信息研究所研究員、認(rèn)知科學(xué)專家張寅生,以及中科院計算所研究員、副所長陳熙霖。在進入觀點的探討之前,我想要感謝我的共同執(zhí)行主席白瑞雪和整個YOCSEF主席團,這是我們第二次搭檔以“集結(jié)號”的方式臨時邀請?zhí)丶s講者,第二次在正式論壇的頭一天晚上才能碰頭,我從外地會議上飛回北京直接去會場和她過第二天的流程,她的默契和專業(yè)能力保證了這次論壇的成功,各位讀者在下面可能看不到她的身影,還有幕后整個CCF YOCSEF團隊的智慧,才使得這次論壇的觀點形成互補有機的整體,并且激發(fā)出智慧的火花。回到自己,很欣慰這次把自己放在純粹的提問,支持和激發(fā)者的位置,沒有表達(dá)自己的任何觀點去影響講者的流程,卻能夠狹帶從我參加果殼網(wǎng)和優(yōu)酷直播兩場比賽中提煉出來的問題當(dāng)私貨,余凱評價說是非常好的問題而將討論引入深層次。在講壇開始之前,我們基本上可以把AI的歷史用下面一張圖總結(jié) - 這張圖是我根據(jù)YOCSEF一次論壇講者云之聲CTO梁家恩的圖稍加修改做的,放在了準(zhǔn)備的群里,對認(rèn)識AI的發(fā)展有一個大局觀:
我的目的很簡單,科學(xué)思維,常常需要思考和問不合常規(guī)的問題,得到違反我們直覺和常識的結(jié)論。而只有從新的數(shù)據(jù)和試驗,觀察得到的這些新的,不合常規(guī)思維的結(jié)果,才是推動人類認(rèn)識新的知識 - 純粹思辨是獲得不了什么新知識的,頂多是現(xiàn)有知識的另一種描述。這也是寫這篇文章想保持的初衷,因為谷歌的AlphaGo圍棋程序和圍棋世界冠軍李世石的四輪大戰(zhàn)3:1的結(jié)果,引發(fā)各界的爭論中,很多是基于“機器怎么能戰(zhàn)勝人類智慧?”的理念,而不是客觀的理性分析,這次YOCSEF特別論壇,我們看到的恰恰是理性,更多的理性。雖然,我將嘗試綜述之:
我們請第一個講者余凱把AlphaGo背后的算法和人工智能,深度神經(jīng)網(wǎng)絡(luò)講清楚。余凱本人在百度時就是深度學(xué)習(xí)方面的科學(xué)家,后來創(chuàng)業(yè)專注于智能機器人芯片和系統(tǒng)。他總結(jié)了過去10年深度學(xué)習(xí)的要點,是集中在“知”方面,就是感知和認(rèn)知,所謂感知是對信號做處理理解他們意義,認(rèn)知的話是對知識表示跟推理。通過深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),去實現(xiàn)各種模式識別,圖像的,語音的,棋譜的,這些都是“知”的層次。這次AlphaGo用的也是卷積神經(jīng)網(wǎng)絡(luò)CNN達(dá)到多維度的認(rèn)知,然后這次AlphaGo算法的突破,就是通過增強學(xué)習(xí)來建立“行/Action”的模型,做到了“知行合一”。余凱博士講的增強學(xué)習(xí)框架,就是決策,世界和獎勵的三元關(guān)系,是一個類似于“條件反射”的封閉體系,AlphaGo做出一個決策/action,然后影響了棋局/World,然后根據(jù)棋局和對手回饋一個輸贏的概率/rewarding. 這是個優(yōu)化目標(biāo)函數(shù)引導(dǎo)系統(tǒng)自學(xué)習(xí)的過程。余凱詳細(xì)講了策略函數(shù)和價值函數(shù),策略函數(shù)是我怎么下棋,下一步棋應(yīng)該在整個棋局怎么下,而我針對這樣一個棋局怎么樣評估這是價值函數(shù) - 這個就是大家提到的“棋感”。AlphaG算法它的本質(zhì)是用深度神經(jīng)網(wǎng)絡(luò)去描述這個價值函數(shù),然后用另外一個神經(jīng)網(wǎng)絡(luò)去描述這個策略函數(shù)。除此以外的話其他的創(chuàng)新其實基本上都不能算是本質(zhì)上的創(chuàng)新,包括MCTS就是MonteCarlo樹搜索。圍棋的難處在于19×19帶來的棋子下一步的巨大的狀態(tài)空間,超越了宇宙的原子數(shù)。另一個來自于無論是價值函數(shù),還是策略函數(shù)都是極端不連續(xù)的函數(shù),一個“昏招”或者“奇招”都會帶來整個評價系統(tǒng)的巨大變化。余凱博士的講解,是把核心的數(shù)學(xué)公式進行了拆解,讓搞理工的專業(yè)人士聽得如醉如癡,下面這個圖不是余凱的,是卡內(nèi)基梅隆一個韓國博士生總結(jié)的,很好的表達(dá)了這個學(xué)習(xí)和評估的過程:
在余凱專業(yè)的“知行合一”算法分析之后,異構(gòu)計算的科學(xué)家吳韌用一種特別適合“算法小白”聽眾理解的方式,把AlphaGo的人工智能,用“貓狗大戰(zhàn)”的比喻作了深入淺出的闡述,我注意到到場的兩個小學(xué)生棋手,眼睛都亮了,過后果然反饋了正確的理解 - 老朋友吳韌和我的合作都是在HPC異構(gòu)計算方面,這一次他的科普水平讓我們大開眼界。從ImageNet的深度神經(jīng)網(wǎng)絡(luò)從互聯(lián)網(wǎng)上成千上萬的貓的圖像中無監(jiān)督地學(xué)習(xí)到“貓”這個圖像 - 吳韌比喻AlphaGo-阿法狗其實是一只”熱狗“,它是由三種超級狗組合的: AlphaGo熱狗=一只本能狗+一只數(shù)錢狗+一只摸黑狗,本能狗就是靠深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò),通過棋局訓(xùn)練它知道這一步,該走的下一步的各種可能,這是CNN學(xué)習(xí)到的本能;數(shù)錢狗就是對價值函數(shù)進行做增強學(xué)習(xí),就是培養(yǎng)Go的感覺,看到這個牌面告訴我走哪步棋,看到這個東西告訴我值多少錢; 摸黑狗就是對事情不清楚在黑燈瞎火怎么做,就是說你用很多不聰明狗來回跑的時候,這個你會找到這個正確的路徑要用概率的思想,就是用MonteCarlo樹搜索算法 - MCTS。而這三種狗背后,是培養(yǎng)它們的強大的狗窩,就是計算機集群和異構(gòu)計算GPU。吳韌創(chuàng)立的NovaMind就在開發(fā)異構(gòu)計算框架下的圍棋程序,叫做異構(gòu)神機,將在幾個月后挑戰(zhàn)另一個人類冠軍,讓我們試目以待。吳韌博士認(rèn)為圍棋智能是人工智能研究的副產(chǎn)品,而計算能力是人工智能研究的驅(qū)動力,人類無需擔(dān)心單一人工智能能力機器超越人,因為這是計算力的必然結(jié)果,而多種能力的綜合才是最要緊的,這個目前基本上人工智能還做不到。
兩位計算智能方面的專家基本上把谷歌的AlphaGo為何如此強悍講透了,深度卷積神經(jīng)網(wǎng)絡(luò),增強學(xué)習(xí)和MCTS算法的軟件加上上千顆CPU幾百顆GPU的計算能力,再加上關(guān)鍵的是即可從人類的高手對弈棋局中進行學(xué)習(xí),又可以自我對弈增強學(xué)習(xí) - 機器的“最強大腦”終于從神經(jīng)網(wǎng)絡(luò)的黑箱中,提取出了能夠戰(zhàn)勝人類冠軍的“暗黑棋力”!來自清華大學(xué)的由小川老師,作為既是象棋也是圍棋的愛好者,從這場人機大戰(zhàn)對圍棋界的沖擊談起。先是回顧了圍棋界初學(xué)者,業(yè)余段位和職業(yè)棋手三種分級標(biāo)準(zhǔn),回顧了圍棋程序幾十年來的發(fā)展,可以發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的引入的確是棋力革命性突破的關(guān)鍵。他指出,很多專業(yè)棋手都發(fā)現(xiàn),這次AlphaGo建立在邏輯計算上的招數(shù),“局部棋行和人類下的很像,但是在某些時刻,在外面棋子很遠(yuǎn)地方配置不一樣的時刻會走出創(chuàng)新型招法,在人類棋手第一感,這是曾經(jīng)被我們推翻的招法,或者俗稱所謂的臭棋,在這種配置下會成為好棋,結(jié)果也證明計算機是好棋,這個在人類是太難了。”回顧中國象棋被電腦顛覆后的歷史,他認(rèn)為人工智能在圍棋上的突破,將幫助人類在尋找圍棋界的終極問題“棋盤上的真理” - 就是絕對的最優(yōu)解將有劃時代的意義 - AlphaGo出現(xiàn)之前,人類世界冠軍距離“棋盤上的真理/圍棋上的上帝”有多遠(yuǎn),比較統(tǒng)一意見在三子到四子左右。但是機器棋手的新的招數(shù)和走法布局,使得這個問題突然有“破碎虛空”的效果,將這個問題的邊界又推進了多少?
如果我們把眼光放得更遠(yuǎn)一點,暫時從圍棋上移開,就是CSDN創(chuàng)始人極客幫創(chuàng)始合伙人蔣濤講的話題,就是人機大戰(zhàn)后的商業(yè)思考 - 蔣濤本人也是圍棋愛好者,提到當(dāng)年的兩位大師吳清源和另一位的判斷,他們離“圍棋上帝”應(yīng)該差5-6手的距離,現(xiàn)在深度學(xué)習(xí)的對戰(zhàn)結(jié)果,使得這個距離,可能會被拓寬很遠(yuǎn)。作為一個投資人,蔣濤分析了Google近期相關(guān)于深度學(xué)習(xí)的項目達(dá)2700多個,AlphaGo的勝利,將在很多的領(lǐng)域帶來實用,DeepMind已經(jīng)宣布了進軍醫(yī)療領(lǐng)域-我們可以想象中醫(yī)古代的“望聞問切”的經(jīng)驗式治療,實際上是可以通過大量的病例通過深度學(xué)習(xí)的方法,找到隱藏在大數(shù)據(jù)深處的隱藏知識,就如同AlphaGo下的種種妙手。和人工智能相關(guān)的技術(shù),自動駕駛汽車,VR/AR技術(shù),機器人的近期突破,都表明我們進入了一個“人工智能+”的時代,投資界和科技界應(yīng)該對此引起足夠的關(guān)注。特別是人工智能領(lǐng)域,我國學(xué)者在全球的貢獻,包括華人的貢獻,應(yīng)該更快地轉(zhuǎn)化為生產(chǎn)力和工業(yè)界結(jié)合。
對于人工智能威脅論和對這次人機大戰(zhàn)的優(yōu)劣,中國科學(xué)技術(shù)信息研究所研究員張寅生的結(jié)論非常清楚,這是“another”機器對人的超越而已,就像汽車超越馬車和人類的雙足,計算器超越人的心算。但是深度學(xué)習(xí)的這次勝利,再一次講人和機器的邊界變的模糊,未來人的越來越多機能,包括情感,欲望和心理活動,只要能夠在輸入輸出上被機器所實現(xiàn),“人即機器”這一個論斷,至少目前來講,不能說是錯的。AlphaGo講48個維度的知識切片,通過12個卷積神經(jīng)網(wǎng)絡(luò)的中間層進行“黑箱學(xué)習(xí)”,也許就是我們大腦的工作方式?而非圖靈計算和認(rèn)知科學(xué)的投入,將是未來的方向。
講座后的Panel環(huán)節(jié),精彩紛呈,特別是陳熙霖老師和余凱,吳韌對機器智能能走多遠(yuǎn)的討論,為節(jié)省篇幅,我試著將暫時的結(jié)論總結(jié)如下:
機器智能是一種直覺智能,就像愛因斯坦提出E=MC^2的直覺,這種直覺是可以通過黑箱的深度神經(jīng)網(wǎng)絡(luò)得到的。而機器智能顛覆的新的棋局和棋著下法,又反過來促進人類的新的學(xué)習(xí),重新思考過去疏忽的棋局和下法。機器不存在哪個招是“昏招”的判斷,它依據(jù)的是算法。就像新司機是背交規(guī),而老司機是憑講不出的經(jīng)驗 - 未來并不是所有的圍棋的下法都如人類能事后分析出顯式的邏輯和理由,就像這次有些AlphaGo走的實現(xiàn)的“昏招布局”若干步后是絕好的配合一樣 - 機器學(xué)習(xí)搜索到深度,超越了人類,而且還不帶有人類的情緒和懶惰帶來的缺失。也許未來,人類必須通過機器智能的發(fā)展而共同進化。而大家提到的AlphaGo背后巨大的能耗和人工智能的效率問題,當(dāng)年我們的計算機不是從一個屋子大小,變成手掌大了嗎?這個問題會逐漸解決。
精彩的討論實在太多,篇幅和時間關(guān)系,沒法逐一展開。好在我們此次做了全程電視攝影,關(guān)心的朋友可以關(guān)注YOCSEF公眾號跟進。
我自己的感受,東方發(fā)明的圍棋和幾千年來人類棋手在圍棋上的精妙棋譜,是機器智能最重要的智慧源泉,人類創(chuàng)造了燦爛的文明,并通過一種新的人工智能的方式將這種文明進一步拓展,人類的未來,將會隨著人工智能的發(fā)展而得到革命式的飛躍 -當(dāng)然,技術(shù)本身無善惡,就像武器,到底最后還是看使用它的人。