AlphaGo的大数据等技术分析(3)-165平板网

http://www.com165.com 时间:2016-11-29 01:20来源:互联网

　　我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。

　　1、走棋网络：

　　走棋网络把当前局面作为输入，预测/采样下一步的走棋。它的预测不只给出最强的一手，而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点，它就给出361个数，好招的分数比坏招要高。DarkForest在这部分有创新，通过在训练时预测三步而非一步，提高了策略输出的质量，和他们在使用增强学习进行自我对局后得到的走棋网络（RL network）的效果相当。当然，他们并没有在最后的系统中使用增强学习后的网络，而是用了直接通过训练学习到的网络（SL network）,理由是RL network输出的走棋缺乏变化，对搜索不利。

【免责声明】本文仅代表作者个人观点，与165平板网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑，请联系本网将迅速给您回应并做处理。

AlphaGo的大数据等技术分析(3)

http://www.com165.com 时间:2016-11-29 01:20来源:互联网

相关新闻

推荐热门榜