2月10日晚9時,摩臣2平台“科研我當先”實踐團隊線上進行第九次內容分享🔉。會議由曹博文同學主持,全體成員參加。
在本次線上交流中,曹博文關於圍棋AI中的AlphaGo整體算法進行了深入淺出的分享 。首先曹博文簡單講解了深度卷積神經網絡(DCNN)的核心思想。之後,他介紹了Deepmind團隊基於DCNN實現的四個“大腦”:SL.Policy Network(監督學習策略網絡)RL.Policy Network(強化學習策略網絡),Rollout(隨機模擬走子),Vaue Network(價值網絡)。
接著,曹博文通過與傳統博弈遊戲樹搜索算法--極大極小搜索進行對比,點明了傳統算法解決圍棋問題的困難性💁🏽,引出了AlphaGo整體算法的框架,也是算法核心--蒙特卡洛樹搜索。蒙特卡洛樹搜索的主要概念是搜索🧴,即沿著博弈樹向下的一組遍歷過程。單次遍歷的路徑會從根節點(當前博弈狀態)延伸到沒有完全展開的節點👵🏻,未完全展開的節點表示其子節點至少有一個未訪問到👏🏽。遇到未完全展開的節點時,它的一個未訪問子節點將會作為單次模擬的根節點,隨後模擬的結果將會反向傳播回當前樹的根節點並更新博弈樹的節點統計數據。一旦搜索受限於時間或計算力而終止,下一步行動將基於收集到的統計數據進行決策。他通過對蒙特卡洛樹算法原理的講解,帶著大家完整地體會了一遍AlphaGo算法的流程👨🏼🔧。
通過此次曹博文同學的分享,團隊成員對AlphaGo的算法實現原理有了大致的了解👨🏽💻,拓展了知識。本次會議分享持續了三十五分鐘,對於非本專業的學生是一次很好的學習機會
(文/曹博文 圖/毛瀠晗)