AlphaGo的大数据等技术分析(11)-165平板网

http://www.com165.com 时间:2016-11-29 01:20来源:互联网

　　另外，我猜测他们在取训练样本时，判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则，不然如果换成别的规则，就需要重新训练估值网络（虽然我估计结果差距不会太大）。至于为什么一开始就用的中国规则，我的猜测是编程非常方便（我在写DarkForest的时候也是这样觉得的）。

　　4、蒙特卡罗树搜索

　　这部分基本用的是传统方法，没有太多可以评论的，他们用的是带先验的UCT，即先考虑DCNN认为比较好的着法，然后等到每个着法探索次数多了，选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多，当然他们的办法更灵活些，在允许使用大量搜索次数的情况下，他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。

【免责声明】本文仅代表作者个人观点，与165平板网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑，请联系本网将迅速给您回应并做处理。

AlphaGo的大数据等技术分析(11)

http://www.com165.com 时间:2016-11-29 01:20来源:互联网

相关新闻

推荐热门榜