首页>>科技 >>内容

Master是AlphaGo的升级版!看看专家们对

发布时间:2023-10-31 16:30:11编辑:温柔的背包来源:

Master是AlphaGo的升级版!看看专家们对

很多朋友对Master是AlphaGo的升级版!看看专家们对不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

60连胜背后的说法。

2017年1月4日晚,师父在第59盘棋局完全获胜的时候,突然说了一句“我是AlphaGo的黄博士”。在此之前,师父几乎打败了国内所有的围棋高手,包括“棋圣”聂卫平和柯洁。本文带来了新智元智库专家白说和邓侃的独家解读。同时,国内一位围棋AI开发者也透露了自己的看法,认为大师的水平有些令人失望。

新智元还采访了中国围棋队主教练于斌,谈了自己的看法和理解。这一次,机器可能不再借用人类的经验,而是通过自我游戏和学习来打败人类,让人类意识到另一种“真理”的存在。某种程度上,这是一个新“时代”的开始。

1月4日晚,曾经横扫围棋界的神秘高手“大师”突然发声,现身了。上面写着:我是AlphaGo黄博士。此时师父刚刚取得第59场不败纪录,将对阵人类棋手的纪录改为59: 0。此前有猜测称,Master在完成60场比赛后会退役或发声。但是,谁也没有想到,在59游戏的时候,大师自己表明了身份。官方声明:

师父在线上平台先后击败聂卫平、柯洁、朴俊焕、唐、范、王、周俊勋、宋等多位围棋高手。打败“棋圣”的黄博士是谁?2017年下午3点04分,聂卫平以三又四分之一分输给大师,大师获得第54名!

聂卫平被誉为围棋界的“棋圣”,但这一次,他也没办法了。赛后,师父用繁体字打出“谢谢聂老师”的留言。这个时候,其实主人的身份已经暗示出来了。后来,师父提到的“黄博士”是指博士。黄博士来自* * *。

如果你看了3月份李时珍和AlphaGo的比赛,你应该注意到了,李时珍对面有一个人把AlphaGo的招式丢到棋盘上,然后把李时珍的招式输给了电脑。这是AlphaGo的主要开发者Google DeepMind的高级研究员,来自* * * *的黄士杰博士。黄士杰(前左)正在为AlphaGo牵手。

黄士杰博士毕业于* * *师范大学,博士论文基于“一种新的启发式算法应用于计算机围棋的蒙特卡罗树搜索算法”,同时也是一名业余六段围棋手。此前,黄士杰在接受Engadget采访时表示,如果再给AlphaGo一年半的时间,也许李时珍真的是历史上唯一赢过AlphaGo的人.果然,半年后,我们看到了惊人的效果。师傅的技术没有想象中的好?

新智元智库专家白说评价这一次掀起风波的大师:第一,并不意外。如果世界上还有别的队伍达到这个水平,那就是意外了。第二,取得了进展。相比去年战胜李世珍,AlphaGo目前的水平更稳定,对人类棋手更有启发性,对人类观众更有观赏性,导致人类对象棋的认识有了重大突破。

第三,潜力还是有的。按照目前的势头,基于棋谱的深度学习和基于左右划的增强学习正在形成良性互动的局面。希望这个阶段不要太快结束。第四,除了不断增强下棋的能力,让机器用人类可以理解的方式讲述自己的棋步,用新的体验改变人类教围棋和学围棋的方式,意义也不亚于此。

新智元问其他机器,包括中国的一些围棋人工智能,是否有机会超过Master。破解Master的时间积累优势需要重大算法突破吗?白说说:“我知道有人在这么做。如果能大幅提高算法的效率,就意味着能在同样的时间内遍历更多有意义的变化,强化学习就会越好。个人判断,还有算法优化的空间,还有赶超的机会。未来机器之间的游戏将是一个新的吸引力。”

然而,一些专业人士表示有些失望。一位要求匿名的中国大型网络公司的AI开发人员告诉新智元,Master横扫人类玩家并不奇怪,但他对这个过程有点失望。师傅的技术没有预想的好。毕竟,Aja Huang在去年7月的一次演讲中透露,他可以让顶级球员生两个孩子。半年后,不清楚他能不能生两个孩子。可能这不是最新版。棋风奔放诡异,因为你没学过人类象棋?

在DeepMind正式公布之前,“大师”的身份激发了很多猜测。很多人以为这是AlphaGo的升级版,但与后者不同的是,“大师”的招式极其豪放,推翻了很多人类棋手常走的刻板印象,棋风也与去年3月的AlphaGo大相径庭。值得注意的是,DeepMind的创始人哈萨比斯曾经在接受采访时透露,他们正在尝试训练一个没有研究过人类象棋的人工智能,而这可能就是Master和AlphaGo不同的原因。

CMU的邓侃博士告诉新智元:在3月份AlphaGo和李世珍的第一盘比赛中获胜后,它表明算法已经超越了顶级人类专家。接下来的几盘,AlphaGo赢了,这是意料之中的。输了一盘有点奇怪。因为算法只会越来越强。

随着越来越多的强化训练,AlphaGo的棋艺也越来越精细,这是很自然的趋势。打败所有的人类高手只是时间问题。但是我看不到AlphaGo(现在)的算法,有本质的突破。至少我没看过DeepMind在这方面的新论文。

AlphaGo系统中有蒙特卡罗树搜索(Monte Carlo tree search算法),可以理解为左右手的相互交流。相互沟通的时间越长,就越有可能排练出所有可能的游戏方案。所以AlphaGo的训练时间越长,对各种博弈方案的理解就会越全面。自我博弈中成长起来的新AlphaGo,可能根本不需要人类下棋。

被认为与AlphaGo“一战”的世界第一柯洁也在这场战斗中落败,但柯洁写在微博中的感受值得玩味。

他写道:“一场新的风暴即将来临。从三月份到现在学习围棋软件半年多,理论和实践无数,就是为了知道计算机强在哪里。昨晚辗转反侧,一夜不想睡。几千年的实战演练进化了,计算机却告诉我们人类全错了。我认为甚至没有人触及围棋的真相。但我想说,从现在开始,我们棋手将结合计算机,步入新的领域,达到新的境界。”

采访中国围棋队主教练于斌:慢棋是人类最后的机会,但悬念不大。大师的身份被确认后,新智元立即联系中国围棋队主教练于斌进行了专访。新智元:你认为人类棋手还有机会吗?余斌:基本不会。只有一丝悬念,就是慢棋很久,但也只是悬念,我判断慢棋不好。新智元:如果你下慢棋,人类棋手的最后突破可能是什么?

余斌:棋慢的人失误会少一些,但是能不能赢,能不能输还有悬念。感觉不太可能。新智元:以前,有人认为人类棋手只会模仿人类,而机器人棋手只会与机器人棋手对决。你以为这是围棋的末日吗?余斌:人和机器是有比较的,但不仅仅是这两个。人和机器的比较,人和机器的比较,耗时的比较,退让的比较等等,还是有很多类型的。也许会有机器参加的团体赛。

新智元:似乎有了机器,就有了更多的玩法。所以你觉得机器的出现看起来像人类的天花板吗?人类会放下输赢的心,真正享受围棋本身吗?余斌:哲学问题。围棋是一种必胜的游戏。享受输赢的乐趣。拥有人工智能大师,并不影响围棋的观赏性。我不能理解享受没有输赢的围棋。这是我个人的哲学观点。

一场横扫千军的网络战役,高手之路出击2016年12月29日晚7点,一个叫“高手”的新手登录翼城。一开始没有高手打理,但是在打败了谢尔豪4号、孟泰龄6号、于志颖5号、韩一舟4号、乔志坚4号之后,这个账号的人气急剧上升。这一夜,师父十战全胜,注定不平凡。

第二天中午,“大师”又出现了。在连续赢下王昊洋六段和闫在明三段等职业选手的四场比赛后,他终于抽到了韩国第一人朴俊焕九段。重头戏开始上演,结果也是重量级的。朴俊焕在输球的情况下输掉了加时赛。这个结果在高手中引起了一阵波澜,随后排名第七的连段上台挑战,却连输两局!值得注意的是,紧接着师父与拥有“吻别”账号的线上棋手两次交锋,均在中盘获胜。

翼城的工作人员。com说,“吻别”的很可能是柯洁,世界上第一个拥有四个世界冠军头衔的围棋手。如果《吻别》真的是柯洁,那就说明师父今天中韩第一人的记录是6: 0。

31日,“大师”接连击败各大挑战者,其中新博朗杯冠军陈也以失败告终。最后堪比“扫地僧”的神秘高手连续30盘不败,仿佛逗大家开心。他说:“我今天很累,明天休息一天。”姜、顾子豪、朴永勋、拓跋嘉熙、山野由太、和最终在“大师”棋局中落败。

就连在场边观战的柯洁久都惊呆了:“我从来没见过这样的把戏。还能去做这个?”为此,他感叹:看了大师的棋,等于说以前的围棋都是错的。现在主人出来了。同样,知乎网友@赵小康评论说,师父和这些围棋高手对弈。“大部分比赛都是中局取胜,人类几千年总结出来的公式和大局在师父面前显得陈腐可笑。”

2017年1月3日9时30分,棋手古力九段忍不住了,终于向战胜师父的勇士发出了10万元的悬赏。但是后来四个顶尖选手都被打败了.

然而,就在51连胜之后,1月4日,《大师》第52盘以平局告终,从而终结了《大师》51连胜的纪录。在这场比赛中,“大师”挑战中国围棋职业选手陈。“大师”下黑棋,陈下白棋,30秒下三盘快棋。然而,陈被断开了30秒,系统决定抽签。

今天,自《大师》出现以来最引人注目的比赛是大师和聂卫平之间的比赛。这位64岁的中国棋圣与“大师”的对局,也是这个人工智能程序的第54局。这一局的“高手”特意把比赛时间调整为双方各一分钟,以示对聂卫平的尊重。

最终此局一路过关斩将,白方领袖聂卫平以7.5阶之差落败。这一局的“大师”在右上角耍了一个刁钻的花招,吃了聂卫平的一颗棋子,从而建立了优势,并一直保持到最后。随着国际象棋大师聂卫平的落败,“大师”将自己的不败纪录扩大到了54场,中日韩大师没有一个能在这场“快棋”比赛中获胜。4日晚,随着古力的落败,师父获得了对人类选手60场不败的战绩。

AlphaGo的技术原理从3月份开始,经过10个月的发展,已经有了很大的进步。然而,追溯其技术原理,最详细的封面论文发表在3月份的《自然》杂志上:用深度神经网络和树搜索掌握围棋游戏。

AlphaGo带来了新的围棋方法,其背后的主要方法是价值网络和政策网络,其中价值网络评估棋盘的位置,政策网络选择棋步。这些神经网络模型通过一种新的方法进行训练,结合来自人类专家竞赛的监督学习,以及来自自我游戏的强化学习。

这不需要任何前瞻性的Lookahead搜索,神经网络下围棋的能力已经达到了最先进的蒙特卡罗树搜索算法的水平(该算法模拟了成千上万的随机下棋结果)。我们还介绍了一种新的搜索算法,它将蒙特卡罗模拟与价值和策略网络相结合。

通过结合价值网络、策略网络和树搜索,AlphaGo已经达到了职业围棋的水平,这让我们看到了希望,AI也可以在其他看似不可能的领域达到人类水平的表现!

以上知识分享希望能够帮助到大家!