賽事背景
圍棋人機(jī)大戰(zhàn),源于2016年1月27日英國(guó)《自然》雜志的一篇文章。這篇文章稱,谷歌的人工智能系統(tǒng)阿爾法圍棋(AlphaGo)2015年10月份以5比0的戰(zhàn)績(jī)完勝歐洲冠軍、職業(yè)圍棋二段樊麾,這是人類歷史上,圍棋人工智能(AI)第一次在公平比賽中戰(zhàn)勝職業(yè)圍棋手。
棋類游戲一直被視為頂級(jí)人類智力的試金石。人工智能與人類棋手的對(duì)抗一直在上演,此前在三子棋、跳棋和國(guó)際象棋等棋類上,計(jì)算機(jī)程序都曾打敗過(guò)人類。在圍棋人機(jī)大戰(zhàn)之前的歷史上,最著名的人機(jī)大戰(zhàn)要數(shù)國(guó)際象棋世界冠軍加里·卡斯帕羅夫?qū)?guó)際象棋人工智能程序“深藍(lán)”的國(guó)際象棋比賽。1997年,國(guó)際象棋人工智能第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國(guó)際象棋人工智能。自那時(shí)起,歐美傳統(tǒng)里的頂級(jí)人類智力游戲國(guó)際象棋,已經(jīng)在電腦面前一敗涂地。圍棋成了人類智力游戲最后的一塊高地。
圍棋人工智能長(zhǎng)期以來(lái)舉步維艱,頂級(jí)人工智能甚至不能打敗稍強(qiáng)的業(yè)余選手。這似乎也合情合理。因?yàn)橐侨斯ぶ悄苡帽┝α信e所有情況的方式,圍棋需要計(jì)算的變化數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)已經(jīng)觀測(cè)到的宇宙中原子的數(shù)量。這一巨大的數(shù)目,足以令任何蠻力窮舉者望而卻步。而人類,可以憑借某種難以復(fù)制的算法跳過(guò)蠻力,一眼看到棋盤(pán)的本質(zhì)。
后來(lái),人工智能研究者們祭出了終極殺器——“深度學(xué)習(xí)”。深度學(xué)習(xí)是人工智能領(lǐng)域中的熱門(mén)科目,它能完成筆跡識(shí)別、面部識(shí)別、駕駛自動(dòng)汽車、自然語(yǔ)言處理、識(shí)別聲音、分析生物信息數(shù)據(jù)等非常復(fù)雜的任務(wù)。谷歌人工智能程序阿爾法圍棋(AlphaGo)就是基于深度學(xué)習(xí)技術(shù)研究開(kāi)發(fā)的。為了測(cè)試阿爾法圍棋的水平,谷歌于2016年3月份向圍棋世界冠軍、韓國(guó)頂尖棋手李世石發(fā)起挑戰(zhàn)。李世石接受挑戰(zhàn)。
比賽規(guī)程
李世石與阿爾法圍棋的圍棋人機(jī)大戰(zhàn)為五番棋挑戰(zhàn),但無(wú)論比分如何將下滿五局,比賽采用中國(guó)圍棋規(guī)則,執(zhí)黑一方貼3又3/4子(即7.5目),各方用時(shí)為2小時(shí),3次60秒的讀秒機(jī)會(huì)。五局比賽分別于2016年3月9日、3月10日、3月12日、3月13日和3月15日在韓國(guó)首爾鐘路區(qū)四季酒店進(jìn)行,獲得三勝者獲得100萬(wàn)美元獎(jiǎng)金(約11億韓元)。若阿爾法圍棋獲勝,獎(jiǎng)金將捐贈(zèng)給聯(lián)合國(guó)兒童基金會(huì)、STEM教育以及圍棋慈善機(jī)構(gòu)。除了100萬(wàn)美元基礎(chǔ)獎(jiǎng)金外,李世石還可獲得15萬(wàn)美元出場(chǎng)費(fèi)。此外每勝一局還有2萬(wàn)美元?jiǎng)倬知?jiǎng)金,如果五盤(pán)全勝,勝局獎(jiǎng)金為10萬(wàn)美元。
賽程賽果
第一局
第一局:阿爾法圍棋執(zhí)白中盤(pán)勝李世石
2016年3月9日,圍棋人機(jī)大戰(zhàn)首局在韓國(guó)首爾四季酒店打響。賽前猜先阿爾法圍棋猜錯(cuò),李世石選擇黑棋,率先展開(kāi)布局。黑棋布局走出新型,阿爾法應(yīng)對(duì)不佳,出現(xiàn)失誤。李世石抓住電腦布局不擅長(zhǎng)應(yīng)對(duì)新型的弱點(diǎn)獲得不錯(cuò)的局面。但圍棋的勝負(fù)關(guān)鍵往往是中盤(pán)階段。阿爾法圍棋之后的下法變得強(qiáng)硬,雙方展開(kāi)接觸戰(zhàn)。李世石抓住機(jī)會(huì),圍住一塊大空,在大局上搶得先機(jī)。就在觀戰(zhàn)棋手都認(rèn)為李世石占優(yōu)的情況下,他卻放出了非常業(yè)余的手法,瞬間使微弱的優(yōu)勢(shì)化為烏有,還變成了劣勢(shì)。進(jìn)入官子,阿爾法圍棋根本不犯一點(diǎn)錯(cuò)誤,著著精準(zhǔn)。等阿爾法圍棋下了186手,李世石算清后投子認(rèn)輸。
第二局
第二局:阿爾法圍棋執(zhí)黑中盤(pán)勝李世石
2016年3月10日,圍棋人機(jī)大戰(zhàn)展開(kāi)第二局較量。阿爾法圍棋執(zhí)黑先行,李世石轉(zhuǎn)變了行棋的風(fēng)格,開(kāi)局下得非常穩(wěn)健。阿爾法圍棋也下出了不少新手,這讓李世石應(yīng)對(duì)得非常謹(jǐn)慎,不時(shí)陷入長(zhǎng)考,這讓他在時(shí)間上一直落后。你來(lái)我往中,黑37和41兩步尖沖令人匪夷所思,尤其是第41手,致目數(shù)大虧。中盤(pán)階段,本來(lái)形勢(shì)占優(yōu)的李世石行棋過(guò)緩,右上角的一步二路打拔被視作敗手,阿爾法圍棋的優(yōu)勢(shì)逐漸清晰起來(lái)。在形勢(shì)陷入被動(dòng)的情況下,李世石下出一手扳的好棋,但幾次轉(zhuǎn)換后,黑棋還是牢牢守住了領(lǐng)先的局面,而且棋形很厚。李世石雖然脫了幾手,但并無(wú)實(shí)質(zhì)性改變,最終阿爾法圍棋執(zhí)黑于211手獲勝且優(yōu)勢(shì)明顯,總比分2比0領(lǐng)先。
第三局
第三局:阿爾法圍棋執(zhí)白中盤(pán)勝李世石
2016年3月12日,圍棋人機(jī)大戰(zhàn)展開(kāi)第三局較量。李世石執(zhí)黑先行,該局開(kāi)始前,還有棋迷希望李世石能夠?qū)崿F(xiàn)逆轉(zhuǎn),但阿爾法圍棋徹底摧毀了這種可能。布局階段,李世石左下掛角后走高中國(guó)流。行不到二十手,李世石局面就落入下風(fēng)。隨后,雙方在左上角展開(kāi)戰(zhàn)斗,阿爾法圍棋對(duì)全局的把握一如既往地強(qiáng)大。李世石不但自己的模樣被對(duì)手輕松打入,阿爾法圍棋還借助戰(zhàn)斗在下邊圍起一大塊空,局面看上去還不如前兩盤(pán)好看。隨后的比賽,雖然李世石仍然極力抵抗,并且祭出劫爭(zhēng)的手段,但是電腦精確應(yīng)對(duì),讓他無(wú)功而返。到阿爾法圍棋下了176手后,李世石只有投子認(rèn)負(fù)。圍棋人機(jī)大戰(zhàn)前三盤(pán)人類三連敗。
第四局
第四局:李世石執(zhí)白中盤(pán)勝阿爾法圍棋
2016年3月13日,圍棋人機(jī)大戰(zhàn)展開(kāi)第四局較量。在接連三局負(fù)于“阿爾法圍棋”后,脫去勝負(fù)包袱的李世石為榮譽(yù)而戰(zhàn),終于迎來(lái)了“圍棋人機(jī)大戰(zhàn)”的首次勝利。與前幾局比賽相比,李世石此局更多次陷入了長(zhǎng)時(shí)間思考,導(dǎo)致耗時(shí)過(guò)多。在比賽進(jìn)行到兩個(gè)半小時(shí)后,李世石僅剩下17分鐘,比“阿爾法圍棋”剩余時(shí)間足足少1個(gè)小時(shí)。但隨后李世石祭出白78“挖”的妙手,一場(chǎng)“逆襲”之戰(zhàn)也由此開(kāi)始。阿爾法圍棋被李世石的“神之一手”下得陷入混亂,走出了黑93一步常理上的廢棋,導(dǎo)致棋盤(pán)右側(cè)一大片黑子“全死”。此后,“阿爾法圍棋”判斷局面對(duì)自己不利,每步耗時(shí)明顯增長(zhǎng),更首次被李世石拖入讀秒。最終,李世石冷靜收官鎖定勝局。到180手,阿爾法圍棋中盤(pán)認(rèn)輸。
第五局
第五局:阿爾法圍棋執(zhí)白中盤(pán)勝李世石
2016年3月15日,圍棋人機(jī)大戰(zhàn)展開(kāi)第五局對(duì)決。在上局比賽扳回一城后,李世石向阿爾法圍棋團(tuán)隊(duì)提出要在末戰(zhàn)中執(zhí)黑,因?yàn)樗X(jué)得阿爾法圍棋執(zhí)黑時(shí)發(fā)揮并不完美,戰(zhàn)勝執(zhí)白的阿爾法圍棋才更有意義。執(zhí)黑的李世石選擇了穩(wěn)健的錯(cuò)小目、無(wú)憂角開(kāi)局,阿爾法圍棋則以二連星應(yīng)對(duì)。進(jìn)入中盤(pán),李世石意圖非常明顯,以撈實(shí)地為主。但李世石在79和81手連出緩手,被視為敗招。阿爾法圍棋82靠也并非好的應(yīng)手。一波錯(cuò)進(jìn)錯(cuò)出后,黑棋在87和89手再出緩手,致使白棋左上角的圍剿更加有力,黑棋形勢(shì)瞬間坍塌。此后,占據(jù)優(yōu)勢(shì)的阿爾法圍棋展現(xiàn)了它強(qiáng)大的中后盤(pán)計(jì)算能力,鮮有失誤,落子效率極高。不過(guò)李世石也并未放棄,連續(xù)走出強(qiáng)硬應(yīng)手,可惜棋盤(pán)下得越來(lái)越小,難再覓逆轉(zhuǎn)機(jī)會(huì)。第280手,李世石投子認(rèn)負(fù)。這次圍棋人機(jī)大戰(zhàn)的最終比分定格為1比4。
賽事影響
對(duì)圍棋項(xiàng)目
圍棋人機(jī)大戰(zhàn)前,不少人擔(dān)心圍棋這塊陣地一旦失守,將對(duì)整個(gè)項(xiàng)目產(chǎn)生滅頂之災(zāi),因?yàn)椴簧偃嘶蛟S會(huì)產(chǎn)生這樣的想法:號(hào)稱棋類智力最頂尖的圍棋也不過(guò)爾爾,從而魅力大減??蓪?shí)際的情況卻是恰恰相反,很多平時(shí)不關(guān)心圍棋或者說(shuō)根本連圍棋規(guī)則都不了解的人,也因?yàn)槿藱C(jī)大戰(zhàn)開(kāi)始了解和關(guān)心這項(xiàng)運(yùn)動(dòng)。
圍棋人機(jī)大戰(zhàn)期間,關(guān)于人機(jī)大戰(zhàn)的報(bào)道充斥于國(guó)內(nèi)各種媒體的“頭條”,風(fēng)頭完全蓋過(guò)了足球、籃球這些風(fēng)靡世界的運(yùn)動(dòng);就連圍棋普及率極低的歐美國(guó)家,英國(guó)廣播公司(BBC)、路透社、美聯(lián)社這些主流媒體也對(duì)比賽進(jìn)行了詳細(xì)報(bào)道,這在以往幾乎是不可能的。
對(duì)人工智能
“人工智能”這個(gè)概念是人機(jī)大戰(zhàn)最終極的受益者。圍棋人機(jī)大戰(zhàn)前,人工智能對(duì)于普通人而言還是那么“云山霧罩”;圍棋人機(jī)大戰(zhàn)后,人們通過(guò)各種報(bào)道已經(jīng)了解到,人工智能已經(jīng)滲透到每個(gè)人的工作和生活中。智能化服務(wù)將會(huì)快速地接入餐飲、出行、旅游、電影、教育、醫(yī)療等生活服務(wù)領(lǐng)域,覆蓋用戶吃、住、行、玩,人工智能在未來(lái)可能媲美人類的專職秘書(shū)。
阿爾法圍棋最大的勝利是為人工智能打造了一場(chǎng)全球性的科普,也代表了高科技企業(yè)對(duì)人工智能技術(shù)充滿“野心”的宣告。過(guò)去的人工智能只是存在于實(shí)驗(yàn)室的智慧探索;而未來(lái)的科學(xué)技術(shù),人工智能將是基礎(chǔ),是推動(dòng)商業(yè)與社會(huì)發(fā)展的強(qiáng)大動(dòng)力。
李世石簡(jiǎn)介
李世石是李昌鎬之后,韓國(guó)最具代表性的棋手,他在2003年獲第16屆富士通杯冠軍后升為九段棋手。自2002年加冕富士通杯以來(lái),十年時(shí)間里他共獲18個(gè)世界冠軍。李世石屬于典型的力戰(zhàn)型棋風(fēng),善于敏銳地抓住對(duì)手的弱處主動(dòng)出擊,以強(qiáng)大的力量擊垮對(duì)手,他的攻擊可以用“穩(wěn),準(zhǔn),狠”來(lái)形容,經(jīng)常能在劣勢(shì)下完成逆轉(zhuǎn)。
AlphaGo2015年10月?lián)魯W洲冠軍
谷歌曾于2014年以4億歐元收購(gòu)人工智能公司DeepMind。由DeepMind研發(fā)的AlphaGo項(xiàng)目已有兩年歷史,AlphaGo曾在去年戰(zhàn)勝了歐洲圍棋冠軍樊麾(職業(yè)二段)。
去年10月5日-10月9日,谷歌AlphaGo在比賽中以5:0的比分完勝了歐洲冠軍。除了戰(zhàn)勝人類外,AlphaGo還與其他的圍棋程序?qū)?zhàn),獲得了500場(chǎng)勝利。
AlphaGo原理簡(jiǎn)介
傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹(shù) ,但這種方法對(duì)圍棋并不適用。此次谷歌推出的AlphaGo,將高級(jí)搜索樹(shù)與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。這些神經(jīng)網(wǎng)絡(luò)通過(guò)12個(gè)處理層傳遞對(duì)棋盤(pán)的描述,處理層則包含數(shù)百萬(wàn)個(gè)類似于神經(jīng)的連接點(diǎn)。
其中一個(gè)神經(jīng)網(wǎng)絡(luò)“決策網(wǎng)絡(luò)”(policy network)負(fù)責(zé)選擇下一步走法,另一個(gè)神經(jīng)網(wǎng)絡(luò)“值網(wǎng)絡(luò)”(“value network)則預(yù)測(cè)比賽勝利方。谷歌方面用人類圍棋高手的三千萬(wàn)步圍棋走法訓(xùn)練神經(jīng)網(wǎng)絡(luò),與此同時(shí),AlphaGo也自行研究新戰(zhàn)略,在它的神經(jīng)網(wǎng)絡(luò) 之間運(yùn)行了數(shù)千局圍棋,利用反復(fù)試驗(yàn)調(diào)整連接點(diǎn),這個(gè)流程也稱為鞏固學(xué)習(xí)(reinforcement learning)。通過(guò)廣泛使用Google云平臺(tái),完成了大量研究工作。
AlphaGo在與人的對(duì)弈中用了“兩個(gè)大腦”來(lái)解決問(wèn)題:“決策網(wǎng)絡(luò)”和“值網(wǎng)絡(luò)”。通俗來(lái)說(shuō)就是,一個(gè)大腦用來(lái)決策當(dāng)前應(yīng)該如何落子,另一個(gè)大腦來(lái)預(yù)測(cè)比賽最終的勝利方。
值得一提的是,李世石也是第一次與機(jī)器對(duì)戰(zhàn),所以他無(wú)法像和人類對(duì)戰(zhàn)那樣,先研究對(duì)方的棋譜和下棋風(fēng)格。李世石所能做的就是和自己對(duì)弈。谷歌AlphaGo也是通過(guò)這種方式鍛煉自己,真正做到了“人工智能”。
李世石之后 谷歌AlphaGo還會(huì)挑戰(zhàn)誰(shuí)?
谷歌旗下DeepMind創(chuàng)始人哈薩比斯曾表示,還有很多實(shí)力很強(qiáng)的選手,所以這次比賽之后,也許也會(huì)去中國(guó)、日本,與當(dāng)?shù)馗呤智写杵逅嚒?/p>
中國(guó)圍棋圍棋九段柯潔也對(duì)此表示了興趣,昨天AlphaGo戰(zhàn)勝李世石后,他發(fā)微博稱,“就算阿法狗戰(zhàn)勝了李世石,但它贏不了我”,并且還置頂了該微博。
并且他來(lái)頭也不小,柯潔自述,“現(xiàn)在暫時(shí)是世界圍棋第一人(特地用了暫時(shí),謙虛是美德)正式比賽我是單盤(pán)8:2碾壓李世石(他贏得這兩盤(pán)沒(méi)有任何作用)世界冠軍獲得過(guò)三次(此年齡如此成績(jī)前無(wú)古人)”。