<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

圍棋人工智能基本原理

大?。?/span>0.1 MB 人氣: 2017-09-21 需要積分:1

  1 圍棋與人工智能 絡,極大減少了搜索空間,即在搜索過程中的計算量,提高

  圍棋作為中國傳統四大藝術之一,擁有著幾千年的悠了對棋局估計的準確度。

  久歷史。圍棋棋盤由1 9 條橫線和1 9 條豎線組成,共有2.1 深度強化學習方法

  19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方深度學習源于人工神經網絡的研究,人類大量的視覺

  各執一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋聽覺信號的感知處理都是下意識的,是基于大腦皮層神經

  子圍上交叉點數目最多的一方獲勝。圍棋棋盤上每一個縱網絡的學習方法,通過模擬大腦皮層推斷分析數據的復雜

  橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍層狀網絡結構,使用包含復雜結構或由多重非線性變換構

  棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一成的多個處理層對數據進行高層抽象,其過程類似于人們

  盤棋可長達150回合,所以圍棋的計算復雜度為250^150,約識別物體標注圖片?,F如今,應用最廣泛的深度學習模型

  為10^170,然而全宇宙可觀測的原子數量只有10^80,這足以包括:卷積神經網絡、深度置信網絡、堆棧自編碼網絡和遞

  體現圍棋博弈的復雜性和多變性。歸神經網絡等。

  人工智能(Artificial Intelligence,AI)主要研究人類思強化學習源于動物學習、參數擾動自適應控制等理

  維、行動中那些尚未算法化的功能行為,使機器像人的大論,通過模擬生物對環境以試錯的方式進行交互達到對環

  腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游境的最優適應的方式,通過不斷地反復試驗,將變化無常

  戲,以其變化莫測的博弈局面,高度體現了人類的智慧,為的動態情況與對應動作相匹配。強化學習系統設置狀態、

  人工智能研究提供了一個很好的測試平臺,圍棋人工智能動作、狀態轉移概率和獎賞四個部分,在當前狀態下根據

  也是人工智能領域的一個重要挑戰。策略選擇動作,執行該過程并以當前轉移概率轉移到下一

  傳統的計算機下棋程序的基本原理,是通過有限步數狀態,同時接收環境反饋回來的獎賞,最終通過調整策略

  的搜索樹,即采用數學和邏輯推理方法,把每一種可能的來最大化累積獎賞。

  路徑都走一遍,從中選舉出最優路徑,使得棋局勝算最大。深度學習具有較強的感知能力,但缺乏一定的決策能

  這種下棋思路是充分發揮計算機運算速度快、運算量大等力;強化學習具有決策能力,同樣對感知問題無能為力。深

  優勢的“暴力搜索法”,是人類在對弈規定的時間限制內無度強化學習方法是將具有感知能力的深度學習和具有決

  法做到的。但是由于圍棋局面數量太大,這樣的運算量對策能力的強化學習結合起來,優勢互補,用深度學習進行

  于計算機來講也是相當之大,目前的計算機硬件無法在對感知,從環境中獲取目標觀測信息,提供當前環境下的狀

  弈規定的時間內,使用計算機占絕對優勢的“暴力搜索法”態信息;然后用強化學習進行決策,將當前狀態映射到相

  完成圍棋所有局面的擇優,所以這樣的下棋思路不適用于應動作,基于初期匯報評判動作價值。

  圍棋對弈。 深度強化學習為復雜系統的感知決策問題提供了一

  搜索量巨大的問題一直困擾著圍棋人工智能,使其發種全新的解決思路。

  展停滯不前,直到2006年,蒙特卡羅樹搜索的應用出現,2.2 蒙特卡洛樹搜索

  才使得圍棋人工智能進入了嶄新的階段,現代圍棋人工智蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結合

  能的主要算法是基于蒙特卡洛樹的優化搜索。形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統

  2 圍棋人工智能基本原理 計理論為指導的強化學習方法,它通常解決某些隨機事件

  出現的概率問題,或者是某隨機變量的期望值等數字特征

  目前圍棋人工智能最杰出的代表,是由谷歌旗下人工問題。通過與環境的交互,從所采集的樣本中學習,獲得關

  智能公司DeepMind創造的AlphaGo圍棋人工智能系統。它于決策過程的狀態、動作和獎賞的大量數據,最后計算出

  在與人類頂級圍棋棋手的對弈中充分發揮了其搜索和計累積獎賞的平均值。

  算的優勢,幾乎在圍棋界立于不敗之地。蒙特卡洛樹搜索算法是一種用于解決完美信息博弈

  AlphaGo系統的基本原理是將深度強化學習方法與蒙(perfect information games,沒有任何信息被隱藏的游戲)

  特卡洛樹搜索結合,使用有監督學習策略網絡和價值網的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬

  

  作者簡介:胡趙宇,男,浙江紹興人,研究方向:計算機、教育學。

  2017年4月上 第7期 總第259期 193

   學術研究 China Science & Technology Overview

 ?。?a target='_blank' class='arckwlink_none'>Simulation)和反向傳播(Backpropagation)四個步驟。

  2.3 策略網絡與價值網絡

  AlphaGo系統擁有基于蒙特卡洛樹搜索方法的策略網絡(Policy Network)和價值網絡(Value Network)兩個不同的神經網絡大腦,充分借鑒人類棋手的下棋模式,用策略網絡來模擬人類的“棋感”,用價值網絡來模擬人類對棋盤盤面的綜合評估。

  AlphaGo系統主要采用有監督學習策略網絡,通過觀察棋盤布局,進行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務器上3000萬個專業棋手對弈棋譜的落子數據,來預測棋手的落子情況。期間,系統進行上百萬次的對弈嘗試,進行強化學習,將每一個棋局進行到底,不斷積累“經驗”,學會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網絡使用百萬次對弈中產生的棋譜,根據最終的勝負結果來進行價值網絡訓練,預測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網絡完成落子選擇。

  3 圍棋人工智能意義

  經過比賽測試證明,AlphaGo系統的圍棋對弈能力已經達到世界頂級棋手水平。一直以來,圍棋因為復雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領域成為一個具有代表性的難度挑戰。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統基于

  有監督學習的策略網絡和價值網絡大大減少搜索空間,在訓練中開創性地使用深度強化學習,然后結合蒙特卡洛樹搜索方法,使得系統自學習能力大大提高,并且AlphaGo系統在與人類頂級棋手對弈中取得的連勝卓越成績,為其在人工智能領域奠定了堅實的里程碑地位。

  雖然圍棋人工智能取得了如此優秀的成績,但是也僅僅是它在既定規則內的計算處理能力遠遠超過了人類的現有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領域,目前的人工智能水平是遠遠達不到的。但是隨著科技的進步和人類在人工智能領域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機大戰人工智能連勝人類這樣的例子也可能在其他領域發生,這就意味著人工智能的發展前景十分可觀。

  4 結語

  人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結合人工智能,邁進全新人機共同學習交流的領域,進行一次新的圍棋革命,探索圍棋真理更高的境界。

  參考文獻

 ?。?]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅。深度強化學習綜述:兼論計算機圍棋的發展[J]??刂评碚撆c應用,2016,(06):701-717.

 ?。?]陶九陽,吳琳,胡曉峰.AlphaGo技術原理分析及人工智能軍事應用展望[J]。指揮與控制學報,2016,(02):114-120.

  

  ······上接第192頁實踐證明,只有不斷提高管理人員和管制人員的安全

  3.2 加強空管安全文化的制度建設文化素質,才能全面提升空管的整體安全素質。而管制人

  任何事業的發展都必須有政策作保障,正確且有力的員安全素質的提高關鍵在于觀念的更新。促使人們樹立正

  政策可促進工作的開展和事業的發展。只有正確的政策作確安全觀念,可通過宣傳畫,出版管制好習慣手冊,組織班

  指導,才能推動空管安全文化建設順利進行。前班后講評會、月度安全生產分析會、安全管理大課等形

  首先,要進一步完善空管安全管制法律法規,制定空式來宣傳安全文化理念;通過嚴格管理,領導以身作則來

  管安全文化建設綱要,明確空管安全文化建設的指導思確保制度的執行;通過不安全事件的案例分析來教育和培

  想、戰略目標、任務以及措施等,促進空管安全文化建設的養員工安全意識,使員工認識到“安全就是誠信”;“安全就

  規范化。健全的法律法規和完善的建設綱要,可以使空管是核心競爭力”“安全就是效益”。逐步將員工從“要我安

  安全文化建設不會因人、因時、因地的改變而改變,真正做全”到“我要安全”轉變。營造安全文化氛圍,通過潛移默化

  到依法建設、依法管理,保障空管安全文化建設的可持續的方式來強化員工的核心價值觀和安全理念。安全文化是

  發展。通過教育形成觀念產生行為,教育在安全文化建設中,承

  其次,要制定空管安全文化建設責任制,明確各級領擔重要任務,安全教育要形成制度,不斷進行。只有通過安

  導和人員的責任,以強化空管安全文化建設的組織領導。全教育,才能優化人的安全觀念,安全意識,提高人的安全

  第三,要建立空管安全文化建設的激勵機制和約束機行為水平。

  制,把空管安全文化建設作為創優評先等的基本條件,推4 結語

  動空管深入地開展安全文化建設。綜上所述,安全文化建設是一項基礎性、戰略性的工

  3.3 加強空管安全文化的教育形式

  程,這需要我們從長計議、持之以恒,急功近利、半途而廢

  民航的技術性、系統性和風險性特征要求行業必須有

  是不可取的。建設良好的安全文化管理,是空管有效預防

  一個統一的“職業規范”,通過科學、有效的規范保證安全

  事故、保障安全生存和安全生產的重要基礎。

  生產?!奥殬I規范”的形成,很大程度上依賴于職業培訓工

  作。通過規范化培訓,一方面使員工形成統一的行為準則、參考文獻

  思維方式和對安全工作的共同看法,使員工在按照同一目[1]毛海峰。企業安全文化評價體系[J]?,F代職業安全,2003.

  標前進時,溝通、協作有效率;另一方面使每個員工都有明[2]高培建。民航安全管理體系淺析[J]??萍假Y訊,2009.

  確的崗位規范,每個崗位都有標準的崗位職責,職業技能

  鑒定就是行業進行規范化培訓和認證的主要方式。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發表評論

      用戶評論
      評價:好評中評差評

      發表評論,獲取積分! 請遵守相關規定!

      ?
      亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
      <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
      <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
      <acronym id="s8ci2"></acronym>
      <acronym id="s8ci2"><center id="s8ci2"></center></acronym>