摘要 總之,跟你之前了解到的AI都不一樣。北京時間3月9日12:00整,一場舉世矚目的圍棋“人機世界大戰(zhàn)”在韓國首爾上演。比賽一方為谷歌公司研制的人工智能程序Al...
總之,跟你之前了解到的AI都不一樣。北京時間3月9日12:00整,一場舉世矚目的圍棋“人機世界大戰(zhàn)”在韓國首爾上演。比賽一方為谷歌公司研制的人工智能程序AlphaGo,另一方則是圍棋世界冠軍、韓國名將李世石九段。
經過3個半小時的鏖戰(zhàn),李世石九段投子認輸,輸?shù)袅诉@五番棋中的第一場。
不管最終結果如何,未來已經來臨!
關于這場世紀大戰(zhàn),有8個問題你需要知道。
1,為什么要研究圍棋AI?為什么是圍棋,不是別的?
游戲,是AI最初開發(fā)的主要戰(zhàn)地之一。博弈游戲要求AI更聰明、更靈活、用更接近人類的思考方式解決問題。游戲AI的開發(fā)最早可以追溯到1952年的一篇博士論文。1997年,國際象棋AI第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國際象棋AI。歐美傳統(tǒng)里的頂級人類智力試金石,在電腦面前終于一敗涂地,應了四十多年前計算機科學家的預言。

1997年紐約,與IBM深藍電腦終局對弈開始時,一臺電視監(jiān)視器上的加里·卡斯帕羅夫。
但有一個游戲始終是人類大腦的專利——古老的圍棋。 圍棋AI長期以來舉步維艱,頂級AI甚至不能打敗稍強的業(yè)余選手。這似乎也合情合理:國際象棋中,平均每回合有35種可能,一盤棋可以有80回合;相比之下,圍棋每回合有250種可能,一盤棋可以長達150回合。這一巨大的數(shù)目,足以令任何蠻力窮舉者望而卻步——而人類,我們相信,可以憑借某種難以復制的算法跳過蠻力,一眼看到棋盤的本質。但是,無論人怎么想,這樣的局面當然不可能永遠延續(xù)下去了。 2,研究下棋AI,需要研究人員的下棋水平很高嗎?
不需要。AlphaGo背后是一群杰出的計算機科學家,確切的說,是機器學習(machine learing)算法領域的專家??茖W家利用神經網絡算法,將棋類專家的比賽記錄輸入給計算機,并讓計算機自己與自己進行比賽,在這個過程中不斷學習訓練。某種程度上講,AlphaGo的棋藝不是開發(fā)者教給他的,而是自學成才。


阿爾法狗還有一個巨大的缺陷:沒有手。圖左是阿法狗制作者之一,負責完成落子動作。
不過,研究出AlphaGo的(Deepmind)創(chuàng)始人杰米斯•哈薩比斯(Demis Hassabis)確實是棋類的狂熱愛好者,哈薩比斯四歲開始接觸國際象棋,并很快進化成神童級人物。正是在博弈游戲上的興趣讓哈薩比斯開始思考兩個重要問題:人腦是怎樣處理復雜信息的?更重要的,電腦也可以像人類一樣嗎?博士期間的哈薩比斯選擇了學習認知神經科學和計算機神經科學。今天,38歲的哈薩比斯帶著他的AlphaGo,向人類最頂級的博弈游戲之一——圍棋發(fā)起進攻。3,AlphaGo是怎么下棋的?
AlphaGo 的核心是兩種不同的深度神經網絡。“策略網絡”(policy network)和 “值網絡”(value network)。它們的任務在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍里——本質上,這和人類棋手所做的一樣。
其中,“值網絡”負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑;
而“策略網絡”負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。
AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優(yōu)劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。這樣AlphaGo在分析了比如未來20步的情況下,就能判斷在哪里下子贏的概率會高。
4,今天AlphaGo和過去的深藍,誰更厲害?
我們先來看看圍棋和國際象棋之間有什么差別:
第一,圍棋每一步的可能下法非常多:圍棋手在起手時就有19X19=361種落子選擇,在比賽的任意階段,也都有數(shù)以百計的可能下法。但國際象棋的可能下法通常只有50種左右。圍棋最多有3^361種局面,這個數(shù)字大概是10^170,而已經觀測到的宇宙中,原子的數(shù)量才10^80。國際象棋最大只有2^155種局面,稱為香農數(shù),大致是10^47。
第二,對國際象棋來說,只需要把目前棋盤上剩余棋子的價值總和算出來,就能大概知道棋盤上誰處于優(yōu)勢了。但這種方法對圍棋來行不通,在圍棋的棋局中,計算機很難分辨當下棋局的優(yōu)勢方和弱勢方。
可見,同樣是下棋,對付圍棋要比對付國際象棋棘手得多。
讓我們直觀的看一下國際象棋和圍棋的復雜度對比,上圖是國際象棋,下圖是圍棋:


圖片均來自Google
另外深藍就是專門制造出來下國際象棋的。它評估盤面的標準完全依賴于國際象棋本身的規(guī)則,除了下棋它就干不了別的了,連五子棋都不會!但AlphaGo不同,圍棋只是他的一個測試平臺。工程師可以通過圍棋,發(fā)展和測試AlphaGo的能力。這個能力將來會運用到各個領域。就像《星際爭霸》還是角色扮演游戲中的NPC,高級人工智能不僅能成為強有力的對手,也可以變成優(yōu)秀的團隊伙伴。5,AlphaG的超強學習能力有沒有上限?
對于這個問題,英國曼徹斯特大學計算機科學教授凱文·柯倫表達了否定態(tài)度。他認為,我們沒有理由相信技術會有極限,特別是在AlphaGo這樣的特定領域。

對戰(zhàn)的最后時分。之后,李世石投子認輸。
而來自南京大學計算機系的兩位專家,周志華和俞揚則都認為,上限是客觀存在的。周志華表示,“強化學習”奏效的關鍵,是兩個模型都不錯,而且有足夠大的“差異”。當模型性能提升以后,其差異會顯著下降,到了一定程度必然會使性能無法繼續(xù)通過這種機制提升。其上限取決于高質量“有標記”樣本(相當于真實李世石水平棋手的棋局)的數(shù)量。俞揚的觀點是,上限不僅存在,而且已經和AlphaGo當下的水平極其接近。從AlphaGo的報道來看,DeepMind已經在想辦法避免過擬合(即越學越差),這說明他們可能已經碰到了上限。
6,如果在全部5局中,AlphaGo以5:0戰(zhàn)勝李世石,對人工智能而言意味著什么?
正如本文開頭所說,未來已經來臨。無論最終的結果如何,都無法阻止更多的人類終于開始用警惕的目光打量AI……圍棋職業(yè)八段劉菁的評論是:“還來不及反應,一切來的似乎是太快了!面對毫無表情,連廁所都不上的阿爾法狗,4000年圍棋的終結者今天就來了嗎?空氣中彌漫著機器的味道。”
人類啊,就算AI輸了,難道你們就松口氣了嗎?

不過,首先的問題是:我們的AlphaGo在哪里呢?