國際時事

輸給AlphaGo以後,人機對弈的價值再探索

2016年3月,人工智慧AlphaGo 打敗世界排名第3的南韓棋士李世乭,雖然出乎各界預料,但勝負戰績懸殊、絕非僥倖。這個難度最高的鬥智競技,人類有可能再度領先嗎?若複雜、抽象且牽涉人性的智能活動,電腦能在一年多時間,靠著自我學習,迅速超越人類累積幾千年的功力,這對圍棋產業意味著什麼?

電競(動)遊戲發達的今天,全球有4千萬人下著堯舜時代流傳下來的圍棋,這個古老遊戲,棋子不分大小且規則簡單,但棋局變化豐富,甚而超越全宇宙的原子種數,最頂尖棋士都無法參透其中奧妙,必須靠著代代承傳來累積對圍棋的認識。可以說,圍棋上的成就,反映著人類智慧的高度⋯⋯直到AlphaGo的出現。
AlphaGo 會贏棋,嚴格說,不能算是師承人類智慧,沒有人為它講解棋譜、大局觀、思維或哲學,主要靠的是自我探索。(註1)
很多人認為,若沒有人類棋譜,AlphaGo不可能打贏人類、或至少不能進步那麼快。不過,AlphaGo所消化的棋譜,不限於高手對奕,而且從結果來看,它對於局勢、棋步的分析,結論明顯與人類不同。DeepMind近日釋出AlphaGo自我對奕棋譜,協助製作棋局解說的中國九段棋士古力、周睿羊,在AlphaGo佈局階段多次驚嘆:「人類是絕對不會下這裡!」、「人族不會這樣下」、「太可怕了」,甚至無法理解AlphaGo(後來證明正確)行棋思維。

AlphaGo震撼:以實證解放觀念思考侷限

AlphaGo 怎麼學下棋?參考下方由研發者 DeepMind 釋出的人工智慧學習範例,影片是電腦學習電動遊戲《Breakout》,規則有點像打壁球,控制可左右移動的平台、一顆球,去打掉前方的8排磚塊。電腦熟悉規則後持續練習,影片記錄了練習100次、400次、以及600次時,它的破磚技巧,從常常接不到球、零漏接、到開發新技巧——擊出一記可連破好幾塊磚。
相同道理,AlphaGo先從業餘玩家的棋譜,掌握棋子配置模式、基本規則後,開始跟自己對下,它不懂圍棋十訣、落子順序或效率等高手心法,而是不斷累積實戰經驗,制定自己的對弈策略:縮小棋步選擇(可行解)範圍,精算出贏棋機率最高(最佳解)的一步。(註2)
圍棋十訣指:不得貪勝、入界宜緩、攻彼顧我、棄子爭先、捨小就大、逢危須棄、慎勿輕速、動須相應、對強自保、勢孤取和等下棋觀念。
電腦一手棋只需5秒鐘,下完一局不到20分鐘,而且能在相同與不同版本間同時開戰,只要不拔掉電源插頭,AlphaGo就是一直玩、一直玩、一直玩、一直玩下去。
跟任何需要透過練習來精通的專業技能一樣,圍棋功力與對戰次數息息相關,與高手對弈次數越多、進步越快,AlphaGo一星期對局數,輕鬆超越頂尖棋士一生比賽次數。因而,截至2015年11月相關論文發表之時,AlphaGo已經累積3千萬次棋局,棋力足以完敗領先的圍棋軟體、歐洲職業圍棋冠軍。
接著今年3月打敗擁有國際賽冠軍次數第二高的南韓棋士李世乭,儘管不乏外界質疑比賽的公平性,但連目前世界排名第一的中國19歲棋士柯潔,賽後都表示,認同 AlphaGo 七成以上棋步決策,也沒有全然把握自己就能贏。
說來尷尬的是,DeepMind 研發的人工智慧,不是為了打敗世界上最聰明的人,而是想找出一體適用的方式,讓電腦能夠從零開始學習任何知識、技術,透過自我學習,持續地調整與改進。人機對弈只是測試這套系統,能否克服公認最難的智力挑戰,AlphaGo變成世界第一圍棋高手,只是順便發生的「意外」,證明它能解決複雜度極高的難題。
震驚、慨嘆更不甘心之餘,忍不住想問,是否能透過比賽規則的調整,讓人類更有匹敵電腦運算能力的公平競爭空間?像是不設對局時限?多人對戰?另若讓AlphaGo來訓練人類,是否有可能青出於藍?

人類還有機會打敗AlphaGo嗎 ?

從職業圍棋的角度來看,我國第一位世界圍棋冠軍,目前投身新生代精銳、新銳棋士訓練的紅面棋王周俊勳原先認為,AlphaGo 不能代表電腦圍棋的實際水準(其他電腦圍棋都是程式軟體,非人工智慧),後者尚不足以構成人類威脅,直到近日傳來消息稱,已有其他圍棋軟體打敗頂尖棋士⋯⋯。
以2016年電腦圍棋世界冠軍Zen為例,周俊勳2008年開始受邀與Zen對弈,從讓7顆子開始,幾年來感受到Zen的穩定進步。到今年7月在溫哥華、8月底在東京兩次(單機版)對弈,周俊勳都讓2顆子,第一回贏的輕鬆,第二回差點輸掉。
周俊勳當時認為,要變得像AlphaGo 那麼厲害,Zen大概還要2年,畢竟一般軟體配備有限,規格比不上擁有龐大資源的超級電腦 AlphaGo。他也因此推估,若李世乭3月迎戰的是單機版AlphaGo,結果可能大不相同。(註3)
1月出戰歐洲圍棋冠軍(世界排名第532)樊麾、3月出戰李世乭的AlphaGo,硬體包含1202個中央處理器(CPU)、和176個圖形處理器(GPU);而多次贏得電腦圍棋比賽冠軍的Zen,硬體配備只有8個CPU。AlphaGo也有單機板,配備48個CPU、8個GPU,單機板與Zen等5種電腦軟體對戰全勝,若讓4子則勝率降到77%。
令人驚訝的是,Zen火速推出硬體強大的版本,9月初釋出的Zen19K2單機測試版,在圍棋線上對弈網站KGS幾乎戰無不勝,棋力竄升到業餘9段(9d),且據信,打敗的諸多選手中,包括一位中國現役排名前10名、拿過世界冠軍頭銜的職業棋士。這或許意味著,人類下圍棋的優勢,已經被電腦徹底逆轉。(註4)
提及之軟體測試版,是Zen19K2的單機板,它所隸屬的分散式版規格,則有100台(雙 e5 2623 v3 CPU)sever 、圖形GPU採用四顆GeForce GTX TITAN X。zen19k2自9月8日起留下126筆對戰紀錄:115勝、10敗,讓它段位從業於7段迅速爬升9段,排名衝上第一位,手下敗將包括歐美與南韓職業棋士、以及一名中國排名前10位(約世界排名前18位)的職業棋士,惟截至目前,Zen開發者並未證實相關消息。
所以,未來人類要下贏電腦,只能靠拔掉插頭嗎?在人類無法「升級配備」的情況下,是否有更公平、有意義、甚而互利的良性競爭呢?在人機對弈(與其他競爭)的領域裡,人類除了越輸越多、淪為配角,能否化失敗為自我突破的助力?
前述「打磚塊」遊戲的舉例,乃機器學習最簡單範例,對於機器深度學習有興趣的讀者,可參考概念解說系列影片《Deep Learning Simplified》、或《數理人文》期刊第十期。
過去電腦圍棋計算能力強,但不擅長形勢判斷,人類只要避開局部攻殺,掌握大局就能贏棋。AlphoGo 剛好相反,計算錯誤不少,但對全局形勢判斷、佈局觀念,卻優於目前人類最佳水平。一般人視為「臭棋」的爛招、錯誤落子順序,AlphaGo卻能用來打敗李世乭,顛覆了圍棋界固有概念,足以證明它對圍棋的認識已超越人類。
除了能很好的掌握局勢,電腦沒有情緒,面對纏鬥精神強大的對手李世乭,AlphaGo 無動於衷,它不主動挑起戰鬥、不貪小便宜、也不冒險地穩步求勝,不給對手任何逆轉機會。(註5)
李世乭善於測試對手弱點,即便處於劣勢也持續纏鬥,給對手很大精神壓迫,往往能成功逆轉勝。在崩盤局勢下,靠著死纏爛打害對方出錯來反攻的棋風,就是所謂「殭屍流」。
周俊勳說:「AlphaGo 離完美圍棋還有很大差距,它贏的是現在的人類。若以100分來形容圍棋奧妙、與其完整豐富意涵,人類在過去200年時間研究圍棋變化,累積的棋譜與認識,可能只有10分;而投入大量資源、自我訓練的AlphaGo,不到2年時間對圍棋的認識,大概是12分。」(註6)
完美圍棋的概念,就像漫畫《棋靈王》所稱的「神乎其技」(神之一手),意思是,在所有不確定因素下,每一手棋,都是最好的那步棋。
至於AlphaGo超越人類多少,5盤棋真的看不出來。它先跟歐洲冠軍樊麾下的5局,實力相差太懸殊,棋譜看不出AlphaGo如何應對高手,也讓李明顯低估事前準備,後來對局過程,李雖嘗試多種策略要摸清AlphaGo能耐,5次交手實在不夠,何況第四局程式計算頻頻出錯,AlphaGo 在仍有可為的情況下棄子投降。(註7)
部分看法認為,第4戰AlphaGo輸在李世乭第78手「凌空一挖」,其實78手對於全局影響不大,反而是之後AlphoGo計算連續出現低級錯務,才輸掉這盤棋。

產業衝擊的樣貌?

無論如何,AlphaGo顛覆了人類代代傳承的圍棋思路,讓人清楚意識到原有思考的侷限,刺激許多職業棋士的自我反思。李世乭的落敗,讓南韓人大受刺激,據聞一口氣增加了10多萬人報名學圍棋,中國也有頂尖棋手,開始嘗試更加奔放、不可預測的下法。那種啟發幾分類似已故圍棋大師吳清源1930年代與棋士好友木古實,從實證方式探索「新佈局」的可能性,進而帶動日本圍棋革命性進展。(註8)
日本圍棋傳統有很多不成文規定,其中之一規定了,前幾手必須下在棋盤四角的8處位置,認為那才容易佔牢4角空地,吳清源與木谷實都覺得,「三三、星位、天元」開局更有利於佈局,兩人實證研究後發表《新布石法》,促使日本圍棋擴張發展境界。
五番棋後,周俊勳也思索,過去以為自己比賽成績不好,是因為天分不夠、努力不足,會不會其實是下棋觀念錯誤?老師長輩們教的,可能只是偷懶、方便(容易贏棋)卻不見得正確的方式,反而限制了其他可能?這樣的反省也影響他的教學,現在糾正年輕棋士「臭棋」時,他態度更加謹慎。
AlphaGo顛覆性的表現,開始影響人類下棋與教棋,圖為周俊勳(中)指導年輕棋士下棋。(圖/海峰棋院提供)
AlphaGo顛覆性的表現,開始影響人類下棋與教棋,圖為周俊勳(中)指導年輕棋士下棋。(圖/海峰棋院提供)
若有機會跟AlphaGo這樣強大的老師學習,周俊勳相信,「職業棋士棋力可以像科技一樣快速進步,也許5年、10年間就可以抵上過去100年,也可以打破許多固有的僵化概念。」至於更公平的比賽方式?周俊勳認為,從切磋角度來看,最好不要嚴格限制對局時間,也許回歸日本賽制、或讓更多頂尖棋士共同對戰。至於教棋並不合適,因為AlphaGo不講話也不會解釋,程度淺的人看不懂它的棋。(註9)
日本的名人、天元、王座等頭銜賽,每局時間限制是2天(每天8小時),預選階段每局3~8小時。更早已前,下棋沒有時間限制,後來配合電視轉播,才改採快棋制度,但時間短,有礙圍棋變化性的發展。
人類除了打不贏AlphaGo,其他電腦軟體也可能很快突破技術盲點,追上足以打敗頂尖棋士的棋力。一旦厲害軟體越來越多,超越並逐步拉開領先距離,幾千年來「最聰明人類」的光環,拱手讓給電腦程式設計師,或像西洋棋那樣,開始有頂尖大師想靠作弊贏棋、拿獎金(註10)
2015年4月,西洋棋大師尼加利兹(Gaioz Nigalidze)被人發現,比賽時偷將對手棋步輸入蘋果iPhone手機裡,想靠著西洋棋軟體打敗對手,作弊被抓包後,這個年僅25歲的棋手歷年成績全遭到質疑,因為他開始頻繁贏棋正是iPhone問世的2007年,當時頂尖棋手已經很難贏過西洋棋軟體。
,那對圍棋產業——尤其是台灣圍棋產業——會有何影響?
相較於中、日、韓圍棋三大國,圍棋產業在台灣,存在冷熱兩極的奇特現象。台灣圍棋人口號稱有150萬,兒童圍棋尤其盛行。一方面,圍棋對於心算、空間概念、邏輯判斷等智力鍛鍊、專注力與抗壓力的培養,效果非常顯著,下棋的孩子通常功課都不差;另一方面,目前台灣的多元入學制度,多會一項才藝,有助於申請理想高中與大學,所以家長多抱持著鼓勵態度。
學棋需要找人多下,所以民間圍棋活動興盛,每年業餘比賽超過200場,寒暑假幾乎天天都有,上千人參賽稀鬆平常,加上陪同親友,場面非常熱鬧。無論鄉鎮市政府、各級學校、宗教團體、圍棋協會等任何機構主辦,不乏願意出資的贊助商,需要繳交報名費的比賽,還有一定獲利空間。棋力高的業餘選手,每年能拿到6位數字獎金。
圍棋人口包括了解圍棋基本規則、下過棋的人口,資料取自近1年報導、圍棋論壇評論、新發表的研究論文《大數據時代台灣圍棋社群之發展規劃》,惟表列數據並無確切統計,進一步引用時請多加注意。
圍棋人口包括了解圍棋基本規則、下過棋的人口,資料取自近1年報導、圍棋論壇評論、新發表的研究論文《大數據時代台灣圍棋社群之發展規劃》,惟表列數據並無確切統計,進一步引用時請多加注意。
業餘比賽熱況造就不少天才少年,常在國際比賽取得佳績(註11),
台灣知名度較高的兩項業餘國際賽來看,世界業餘圍棋錦標賽1979年舉辦至今,我國拿下1金4銀4銅,近3年穩定奪牌;應氏盃青少年錦標賽1984年舉辦至今,我青年、少年(業餘或職業)好手拿下2個冠軍、14個亞軍。
可以說,台灣業餘圍棋選手實力,在國際間相當領先。然而,這些業餘高手、甚至天才兒童一旦進入職業圍棋領域,國際賽表現卻總是有氣無力,周俊勳2007年拿下LG盃冠軍後,截至目前最好的成績是陳詩淵於2011年打進LG盃8強。
國際賽成績落後中日韓的原因,則明顯出於台灣職棋環境的冷況。不像日本、中國的職業棋士有底薪保障,台灣跟南韓棋士一樣,必須靠比賽累積收入(獎金、對局費),或是謀求其他出路,如轉型教學、推廣、或斷然轉行。在新聞棋賽(註12)
台灣報業蓬勃發展時期,中央日報、新生報、中國時報、自立晚報、聯合報都曾出資舉辦高額獎金的職業棋賽,包括「名人賽(1974~2009)」、「國手賽(1980~1999)」、「棋王賽(1979~1989)」,近年許多企業贊助的圍棋賽,也只保留業餘賽,取消職業賽。
、企業贊助棋賽陸續停辦後,目前國內7個職業棋賽,總獎金不到1千萬,只有成績前4名的棋士,才能靠比賽獎金過活。
多數棋士迫於生計無法專心下棋,自己進步有限、也導致棋士相互磨練強度不足,國際賽更難發揮。惡性循環的情況下,家長或寧可把有天分的孩子,送去日本、中國或韓國發展,或是希望孩子「兼顧」學業,不過,準備職業賽必須全心全意,兼顧學業基本上就顧不好圍棋。
除了發展環境不理想,職業等級的圍棋比賽,並非雅俗共賞的節目,沒有業餘高段以上的棋力,一般人看不懂、也不可能聽得懂講解;意思是,台灣150萬圍棋人口中,可能只有業餘初段以上的2萬多人、1到9級的17萬人,才能體會觀賽的趣味。一旦圍棋已無法代表人類最難智力挑戰,心懷崇敬的關注群眾,是否會逐漸散去?讓追求棋力巔峰的職業圍棋,在台灣加速邊緣化?
台灣職業圍棋產業概況。
台灣職業圍棋產業概況。

王銘琬:該好好思考圍棋的本質

同樣長期關注電腦圍棋發展的我國旅日九段棋士王銘琬,對於AlphaGo出現後,圍棋產業可能出現的衝擊與困境,他認為,原因不在於人類再也贏不了電腦,而是圍棋還未發展出完整語言、基本論述,要思考將來與生存問題,圍棋必須先建立自己的語言。
圍棋沒有語言嗎?棋譜、講解或典故,不就是它的語言嗎?王銘琬眼中,現有說明方式,稱不上論述語言。目前,一場圍棋比賽的解說,都是奠基於棋譜的語言,不(太)會下圍棋的人根本聽不懂。
棋盤上每一步,反映的是下棋人的思考、受過訓練等個人內涵,否則就不會有那一步棋。棋譜只是非常簡略的記號,不足以表達下棋過程的內在思維,即便是旁觀者的說明講解,也有很大一部分出自個人想像力(腦補),只是過去大家都接受這種方式,也相信歸納出來的下棋原則。(註13)
王銘琬認為,目前棋譜解說的論述方式,是假定人類能同時顧全所有變化的「全能觀點」:從各局面預測一長串變化,最終決定怎麼下(正解),可是人類並非全能,這種觀點反而無法展現自我。他建議,未來全能觀點的論述與探究,大部分可讓機器去做,他解釋:「AlphaGo當然還無法做到全能,不過已經勝過我們了,只好盡量交給他 。」
AlphaGo出現以後,完全推翻了過去認定的正確原則,棋譜上各個棋步,出現了與以往完全不同意涵。可以說,AlphaGo切斷了棋譜與傳統詮釋的關連性,王銘琬相信,那會把圍棋推進一個全新的時代。
他解釋,職業棋士制度是歷史的偶然,日本人建立了這個制度,發展的成功吸引其他國家模仿。這種制度下,職業棋士被視為產業金字塔的頂尖,整個產業都在支持他們追求棋力最高境界,連下棋規則,都是為了讓棋力高的人更好發揮,業餘圍棋的目的,也是為了支撐職棋發展。棋士們認為,自己為人類最高智慧而戰鬥,觀賞者也以為,圍棋象徵是人類最高智慧,在AlphaGo出現以前,確實是如此。
「追求最高境界」是圍棋產業的最重要目標嗎?王銘琬強調,圍棋本質在於兩方對弈、交流過程的樂趣,不一定要追求最高境界。台灣業餘圍棋的健壯發展,王銘琬形容是「很偉大的事情」,不必因職棋表現不夠強而自卑。
職棋成績不如中日韓三國,一直是台灣圍棋圈的痛,也讓棋士們處於長期焦慮,自責努力不夠、或還沒培養出更優秀一代,這樣困境王銘琬感同身受,他認為台灣職棋能有目前發展,實在太不容易了,也沒辦法強求,若只以最高境界當目標,就會覺得失敗、做的不夠。
多次拿下本因坊頭銜的王銘琬,一直不認同圍棋界「追求棋力高點」的方向,AlphaGo靠著處理技術,輕易打贏人類,正是產業反思追求目標的最好時機。他打趣說:「你搞了半天,有什麼用?對不對?」他不是說圍棋沒有用,而是意義不一樣了,那不是缺憾,更像是朝正常方向走的契機。
他主張,圍棋產業不該是高塔,應該是主題樂園,可以有挑戰極限的雲霄飛車、也該有不分年齡的旋轉木馬、鬼屋⋯⋯,進去的每個人都可以享受適合自己的樂趣。因此,經營者是否要集結一切資源,拼命增加雲霄飛車的高度?其實這座雲霄飛車、比別的雲霄飛車低一點,一點問題都沒有!(想更了解王銘琬看法,請看其評論《 AlphaGo大勝棋王後 人類的下一步?》
無論產業應該走哪個方向,圍棋需嘗試建立非全知全能觀點、屬於人的論述語言,讓下棋、不下棋的人能夠更有效溝通,能夠更有效地研究圍棋、釐清圍棋本質與真實價值,並且打破過去隔絕外界的藩籬。王銘琬相信,一旦圍棋有了自己真正的語言,能夠論述、探討所面對的問題,就會更清楚該如何面對困境。

威脅人類的或許是固有價值觀

面對電腦威脅的,當然不只有圍棋產業,每隔一陣子,就有評論者發出警告,更多工作要被機器取代了,從生產線作業員、運輸業司機、檔案整理、到收銀出納等,AlphaGo出現後,似乎多數靠腦力過活的知識工作者(白領階級)都飯碗不保。
小時候曾經是備受期待的圍棋神童,目前在國立台北大學金融系任教的施懿宸,同時擁有圍棋與金融的專業,他認為:雖然在圍棋上,人類輸了,但是不代表人工智慧在所有領域皆可以擊敗人類進而取代人類,這還是一個正在探討的議題,還沒有一個完整的答案。
一直以來,圍棋產業金字塔頂端的榮譽與財富,屬於棋力最高的棋士,就像絕大多數產業也把財富與生產效率劃上等號,績效好才有資格要求高報酬。但如今,人類的一切活動,效率皆落後電腦,若不檢討過去的價值與報酬衡量標準,等待著我們的未來,恐怕不容樂觀。
(本文同步刊登於《數理人文》期刊第十期)

延伸閱讀

載入更多文章