北京時間3月9日12:00整,一場舉世矚目的圍棋“人機世界大戰(zhàn)”在韓國首爾上演。比賽一方為谷歌公司研制的人工智能程序AlphaGo,另一方則是圍棋世界冠軍、韓國名將李世石九段。
經(jīng)過3個半小時的鏖戰(zhàn),李世石九段投子認輸,輸?shù)袅诉@五番棋中的第一場。
不管最終結(jié)果如何,未來已經(jīng)來臨!
關(guān)于這場世紀(jì)大戰(zhàn),有8個問題你需要知道。
1,為什么要研究圍棋AI?為什么是圍棋,不是別的?
游戲,是AI最初開發(fā)的主要戰(zhàn)地之一。博弈游戲要求AI更聰明、更靈活、用更接近人類的思考方式解決問題。游戲AI的開發(fā)最早可以追溯到1952年的一篇博士論文。1997年,國際象棋AI第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國際象棋AI。歐美傳統(tǒng)里的頂級人類智力試金石,在電腦面前終于一敗涂地,應(yīng)了四十多年前計算機科學(xué)家的預(yù)言。


3,AlphaGo是怎么下棋的?
AlphaGo 的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò)。“策略網(wǎng)絡(luò)”(policy network)和 “值網(wǎng)絡(luò)”(value network)。它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里——本質(zhì)上,這和人類棋手所做的一樣。
其中,“值網(wǎng)絡(luò)”負責(zé)減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;
而“策略網(wǎng)絡(luò)”負責(zé)減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優(yōu)劣,就像人類棋手會判斷當(dāng)前局面以及推斷未來的局面一樣。這樣AlphaGo在分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。
4,今天AlphaGo和過去的深藍,誰更厲害?
我們先來看看圍棋和國際象棋之間有什么差別:
第一,圍棋每一步的可能下法非常多:圍棋手在起手時就有19X19=361種落子選擇,在比賽的任意階段,也都有數(shù)以百計的可能下法。但國際象棋的可能下法通常只有50種左右。圍棋最多有3^361種局面,這個數(shù)字大概是10^170,而已經(jīng)觀測到的宇宙中,原子的數(shù)量才10^80。國際象棋最大只有2^155種局面,稱為香農(nóng)數(shù),大致是10^47。
第二,對國際象棋來說,只需要把目前棋盤上剩余棋子的價值總和算出來,就能大概知道棋盤上誰處于優(yōu)勢了。但這種方法對圍棋來行不通,在圍棋的棋局中,計算機很難分辨當(dāng)下棋局的優(yōu)勢方和弱勢方。
可見,同樣是下棋,對付圍棋要比對付國際象棋棘手得多。
讓我們直觀的看一下國際象棋和圍棋的復(fù)雜度對比,上圖是國際象棋,下圖是圍棋:


5,AlphaG的超強學(xué)習(xí)能力有沒有上限?
對于這個問題,英國曼徹斯特大學(xué)計算機科學(xué)教授凱文·柯倫表達了否定態(tài)度。他認為,我們沒有理由相信技術(shù)會有極限,特別是在AlphaGo這樣的特定領(lǐng)域。

俞揚的觀點是,上限不僅存在,而且已經(jīng)和AlphaGo當(dāng)下的水平極其接近。從AlphaGo的報道來看,DeepMind已經(jīng)在想辦法避免過擬合(即越學(xué)越差),這說明他們可能已經(jīng)碰到了上限。
6,如果在全部5局中,AlphaGo以5:0戰(zhàn)勝李世石,對人工智能而言意味著什么?
正如本文開頭所說,未來已經(jīng)來臨。無論最終的結(jié)果如何,都無法阻止更多的人類終于開始用警惕的目光打量AI……圍棋職業(yè)八段劉菁的評論是:“還來不及反應(yīng),一切來的似乎是太快了!面對毫無表情,連廁所都不上的阿爾法狗,4000年圍棋的終結(jié)者今天就來了嗎?空氣中彌漫著機器的味道。”
人類啊,就算AI輸了,難道你們就松口氣了嗎?

不過,首先的問題是:我們的AlphaGo在哪里呢?