有的人去赌场赌钱,他却发明了最好用的概率论算法

文章正文
发布时间:2024-07-31 10:57

蒙特·卡罗方法是从赌场诞生的算法,如今已经走到了科技前沿。它是用随机的蛮力对抗精确逻辑的浪漫,也是用数量得到质量的神话。大道至简,回到最初的蒙特卡罗方法,教会我们保有最初做学问的本心,进一寸有一寸的欢喜。或许很多事情,都只是一万次的尝试而已。

今天的主题蒙特卡罗(Monte Carlo)大有来头。它是摩纳哥的一个地区,被称作“摩纳哥的钻石”。这里有赛车、有歌剧、有芭蕾……还有举世闻名的赌场,各种邦德电影,赌神系列,想想就让人血脉偾张。

蒙特卡罗

为什么我们会提到这里的花花赌场?是因为从前有个老头,常常在摩纳哥的蒙特卡洛赌场输钱。他有个好侄子,是数学家斯塔尼斯拉夫·乌拉姆(Stanislaw Ulam),是不到20岁就以证明无穷集合重要定理而留名数学史的神童、极具原创力的几大科学领域的先驱、鲜为人知的“氢弹之父”。乌拉姆还有位要好的同事叫做冯·诺伊曼(John von Neumann),是著名的“计算机之父”、“博弈论之父”。20世纪40年代,科学家冯·诺伊曼、斯塔尼斯拉夫·乌拉姆、尼古拉斯·梅特罗波利斯在洛斯阿拉莫斯国家实验室为核武器计划工作时,发明了蒙特卡罗方法。

John von Neumann, Richard Feynman, and Stanislaw Ulam, 1940s

该方法因乌拉姆的叔叔经常在摩纳哥的蒙特卡洛赌场输钱得名,而蒙特卡罗方法正是以概率为基础的方法。真正是,有的人去赌场,只是去赌钱,有的人去赌场,就发明了最好用的概率论算法。

实际上,蒙特卡洛是一种计算方法。简单来说,我们尝试收集大量随机样本,样本容量越大,概率上就越能接近我们所求的结果。譬如我们抛一万次硬币,那么几乎可以肯定,大致会得到一半正面、一半反面的结果。

我们来举个最常见的例子:π值的估算。

我们思考一下这个图型。假定正方形的边长是2,那么正方形的面积就是4。同时圆的直径是2,半径是1,所以圆的面积正好是π。

想象整个正方形区域是片沙漠,圆是一个湖泊。如果我们在空中随机跳伞,降落在湖里的几率应该是π/4。

现在我们派一万个虚拟的小人去“跳伞”。也就是说我们随机生成一万个正方形内的点,并且根据在不在圆内对他们进行分类。我们知道圆内的点与总数的比例应该大约是π:4。

我们随机生成的点越多,这个结果也就越准确。根据这个简单例子,大家对蒙特卡罗方法应该有一个大概的印象了。乍一听起来,好像十分没有技术含量,像是一个很原始,很直接的方法。但是对很多问题来说,这就是唯一解法。

我说了不算数,但是我一直很喜欢《三体》里描述蒙特卡罗方法的这一段话。很精确,甚至有种人道主义的浪漫。所谓大道至简,有时候解决最复杂的问题,只需要用到最简单的方法。

《三体》里的魏成是这样介绍蒙特卡罗算法的:

“那是一种计算不规则图形面积的计算机程序算法,具体做法是在软件中用大量的小球随机击打那块不规则图形……这种方法虽然简单,却展示了数学中的一种用随机的蛮力对抗精确逻辑的思想方法,一种用数量得到质量的计算思想。这就是我解决三体问题的策略。”

从估算π的值到三体问题,听起来好像天方夜谭一样。这就是蒙特卡罗方法的魅力所在。上至天文,下到地理,万物皆可蒙特卡罗。往近了说,你想积个分,这是蒙特卡罗的基本应用。往远了说,你跟AlphaGo下个棋,也会用到蒙特卡罗树。

拿定积分来说,我们知道定积分的值实际上是一个函数在某一段和x轴组成图形的面积,可以说是正中下怀。我们来考虑这样一个函数,

。我们想要求在0到1 之间, f(x) 的定积分,也就是

的值。我们知道所有的函数值都在0到1之间,也就是说我们要求的这个不规则图形一定在这个1比1的正方形里。大概长这样。

回想一下我们估算π值的方法,我们只需要再派10000个虚拟小人去“跳伞”。图片可能看起来像这样。关于每一个点(x,y), y 小于等于 f(x)的点,也就是不规则图形以内的点。我们知道定积分比正方形面积的比值大概就是所有y 小于等于 f(x)的点与总数的比值。蒙特卡罗方法仍然很好用。用A来表示y 小于等于 f(x)这个事件。我们可以总结出这样一个式子:

方法还是一样的简单粗暴,但是这个结果却很灵活。这一个定积分只是很简单的个例,实际上所有的定积分,不管多奇形怪状,都可以用蒙特卡罗来计算。定积分也没有什么稀奇,都是常规操作。实际上大名鼎鼎的AlphaGo也是通过蒙特卡罗计算的。那么AlphaGo是怎么用蒙特卡罗方法打败柯洁的呢?

你可能听到过很多高大上的名词,“深度机器学习”,“神经网络”,“遍历搜索”等等。实际上没有那么神秘,这个方法还是挺简单粗暴的——“暴力搜索(brute force)”。

一个棋盘,每个位置下黑子或者白子,一共有成千上万种不同的变换。计算机要做的是计算这成千上万种变换,并且根据赢面最大的几种方法决定下一步要怎么走。在确定赢面最大的走法的时候,AlphaGo会根据以往的数据,来猜测对手会怎样走。根据对手的走法,AlphaGo会计算下一步怎样走胜率更大。蒙特卡罗树,就利用了各种各样的比率,确保我们只往胜率最大的情况进行推演,大量减少计算率。就可以抛弃很多无用的线路,不用暴力走到白头。为什么蒙特卡罗树在机器学习中十分有用?因为蒙特卡罗树在前期积累了很多随机的棋谱,是机器自己跟自己下棋,产生了很多很多路线,都储存在蒙特卡罗树里,这样就能够帮助机器筛选把好棋和臭棋区分开来,从而大量减少计算量。如果你想了解更多关于AlphaGo的算法。推荐大家看一看同名纪录片《Alpha Go》。

想必大家对蒙特到底是什么卡罗应该有个大体的印象了。这是从赌场诞生的算法,一路走到科技前沿。是用随机的蛮力对抗精确逻辑的浪漫,也是用数量得到质量的神话。大道至简,回到最初的蒙特卡罗方法,教会我们保有最初做学问的本心,进一寸有一寸的欢喜。或许很多事情,都只是一万次的尝试而已。

* 本文内容属罗博深数学及其母公司Expii, Inc所有,如需转载请联系罗博深数学团队,未经授权请勿转载。欢迎转发本文与全世界的朋友分享数学、教育的乐趣。

原标题:《有的人去赌场赌钱,他却发明了最好用的概率论算法》