这节讲的大部分东西,也不需要太过于多说的样子,加法法则,乘法法则,联合分布,边缘分布和条件分布,值得注意的是联合概率的英文是the probability of X and Y,而条件概率的英文是the probability of X given y,自己在文科的思维来搞理工,一向缺乏术语的严谨性,经常懂了,向行外人表达得挺清晰,可是在行内人听起来却很成问题。这一点需要克服改进之。
接下来就是机器学习贝叶斯学派最重要的贝叶斯法则
当然一般来讲,我们会将分母P(X)使用全概率公式进行重写,从而形成一个上下一致的形式
书中举了个简单的例子,现在有一个蓝盒子和一个红盒子,蓝盒子中有八个桔子,二个苹果,而红盒子中有三个桔子七个苹果,那么我现在随便取一个盒子,然后随便拿出一个水果,看其是桔子还是苹果。
那么当我拿到一个苹果时,我可能是从什么盒子中取出来的。
这也问题也挺简单,问的是盒子的条件概率P(B|F)b = box ; f = fruit.
当没有可以观测的水果的时候,我看到的只是盒子的概率P(B),可称此为先验分布。先于经验之意。
而有了观测到的水果之后,所求的P(B|F),即是所谓有了经验之后的分布,称之为后验分布。
和我们的直觉一直,在这种情况下,很明显,如果拿出来的是桔子,那么桔子更可能是从蓝盒子中拿出来的。
接下来是概率密度函数和概率质量函数,这些也是老生常谈,不过关于离散值和连续值的对应,倒是挺有意思,我们知道对于离散值,有所谓的概率质量函数,probability mass function,PMF也是日常最常见的形式,比如掷骰子,六个值,六个六分之一。
写成pmf,比如骰子为3时的概率,
而对于离散值来说,则取概率密度函数,probability density function比如最常见的高斯分布的概率密度函数
对于概率质量来说,其单位,就相当于整数,因此求其概率累积的时候,使用求和来进行。而对于概率密度来讲,其实是没有什么单位的,因此在求其概率累积的时候,需要使用积分来进行。
其实整数和积分背后的思想很有意思,整数总是可以分割的,在经典物理模型中,把世界看成由最小的粒子组成,不论是夸克还是其他别的东西,总归在这种情况下,世界好像最后可以分割成离散的量。因此好像递归就可以解决所有的问题。
而积分则不同,数与数之间有间隙么,没有间隙么?这好像是谁也说不准的事情,所谓连续,到底连续是个什么样的概念呢?记得上次哲学讨论时总结出一个问题,世界是连续的还是离散的,这个问题太前沿,也许理论物理学家来回答比较好,而像我这种业余人士,只能说我可能会从时间的最小测量单位(有么)?能量的最小单位?所谓量子跃迁的能量,是最小的能量单位么?
积分的基本定义是让最小单位无限逼近于零,然后钭这个动态的最小单位再进行无穷地累加,居然会出现一些很make sense的结果,在微观尺度上的一个假设,在宏观尺度上却会出现一些很有意义的结论。
又仿佛是前段时间看超体 I am everywhere. 自己的最小单位化为零的时候,却神奇地达到了无限和无穷。
概率质量函数和概率密度函数,一个求和,最小单位为1,一个求积分,没有最小单位,却都最终会满足其概率累积为1的奇特性质。
丫才写了这么一点。下次再写协方差的问题吧。