深度学习数学基础概率与信息论

　　前言概率论学科定义
　　概率论是用于表示 不确定性声明的数学框架 。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性 声明 （ statement  ）的公理。概率论的知识在机器学习和深度学习领域都有广泛应用，是学习这两门学科的基础。概率与信息论在人工智能领域的应用
　　在人工智能领域，概率论主要有两种用途。 首先，概率定律告诉我们  AI   系统应该如何推理，基于此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的  AI   系统的行为。
　　虽然概率论允许我们在存在不确定性的情况下 做出不确定的陈述和推理 ，但信息论允许我们量化概率分布中不确定性的数量。 3.1，为什么要使用概率论
　　这是因为机器学习必须始终 处理不确定的量 ，有时可能还需要处理随机（非确定性）的量，这里的不确定性和随机性可能来自多个方面。而使用使用概率论来量化不确定性的论据，是来源于 20 世纪 80 年代的 Pearl (1988) 的工作。
　　不确定性有三种可能的来源: 被建模系统内在的随机性。 不完全观测。 不完全建模：使用了一些必须舍弃某些观测信息的模型。 3.2，随机变量
　　随机变量 （ random variable  ）是可以随机地取不同值的变量，它可以是离散或者连续的。
　　离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数; 它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意，随机变量只是对可能状态的描述；它必须与指定这些状态中的每一个的可能性的概率分布相结合。
　　我们通常用无格式字体 ( plain typeface  ) 中的小写字母来表示随机变量本身，而用手写体中的小写字母来表示随机变量能够取到的值。例如， x_1x1 和 x_2x2 都是随机变量 	extrm{x}x 可能的取值。对于向量值变量，我们会将随机变量写成 mathbf{x}x，它的一个可能取值为 boldsymbol{x}x。
　　中文维基百科用 X  X   表示随机变量，用 f_{X}(x)  fX  (  x  ) 表示概率密度函数，本文笔记，不同小节内容两者混用。  3.3，概率分布
　　概率分布（probability distribution  ）是用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
　　如果狭义地讲，它是指随机变量的概率分布函数。具有相同概率分布函数的随机变量一定是相同分布的。连续型和离散型随机变量的概率分布描述方式是不同的。3.3.1，离散型变量和概率质量函数
　　离散型变量的概率分布可以用概率质量函数（probability mass function  , PMF  ，也称概率密度函数）来描述。我们通常用大写字母 PP 来表示概率质量函数，用 	extrm{x} sim P(	extrm{x})x∼P(x) 表示随机变量 	extrm{x}x 遵循的分布。
　　虽然通常每一个随机变量都会有一个不同的概率质量函数，但是概率质量函数也可以同时作用于多个随机变量，这种多个变量的概率分布被称为联合概率分布（joint probability distribution  ）。 P(	extrm{x} = x, 	extrm{y} = y)P(x=x,y=y) 表示 	extrm{x} = xx=x 和 	extrm{y} = yy=y 同时发生的概率，有时也可简写为 P(x，y)P(x，y)。
　　如果一个函数 PP 是随机变量 	extrm{x}x 的 PMF  ，必须满足以下条件：PP 的定义域必须是 	extrm{x}x 所有可能状态的集合。forall x in 	extrm{x}, 0 leq P(x)leq 1∀x∈x,0≤P(x)≤1。不可能发生的事件概率为 0  ，能够确保一定发生的事件概率为 1  。sum_{x in 	extrm{x}}P(x)=1∑x∈xP(x)=1，归一化（normalized  ）。
　　常见的离散概率分布族有：伯努利分布二项分布：一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。几何分布Poisson   分布（泊松分布）：Poisson   近似是二项分布的一种极限形式。离散均匀分布：即对于随机变量 	extrm{x}x，因为其是均匀分布(uniform distribution  )，所以它的 PMF   为 P(	extrm{x}=x_{i}) = frac{1}{k}P(x=xi)=k1，同时 sum_{i}P(	extrm{x} = x_{i}) = sum_{i}frac{1}{k} = frac{k}{k} = 1∑iP(x=xi)=∑ik1=kk=1。3.3.2，连续型变量和概率密度分布函数
　　连续型随机变量的概率分布可以用概率密度函数（probability desity function, PDF  ）来描述。
　　通常用小写字母 pp 来表示随机变量 	extrm{x}x 的概率密度函数 PDF  ，其必须满足以下条件：pp 的定义域必须是 	extrm{x}x 所有可能状态的集合。forall x in 	extrm{x}, p(x)geq 0∀x∈x,p(x)≥0。注意，并不要求 p(x)leq 1p(x)≤1。int p(x)dx=1∫p(x)dx=1。
　　概率密度函数 p(x)p(x) 给出的是落在面积为 delta xδx 的无限小的区域内的概率为 p(x)delta xp(x)δx。
　　因此，我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地，xx 落在集合 mathbb{S}S 中的概率可以通过 p(x)p(x) 对这个集合求积分来得到。在单变量的例子中，xx 落在区间 [a,b][a,b] 的概率是 int_{[a,b]}p(x)dx∫[a,b]p(x)dx。
　　常见的连续概率分布族有：均匀分布正态分布：连续型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中muμ 是平均值，sigmaσ 是标准差。正态分布是一种理想分布。{f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{left(-{frac {1}{2}}left({frac {x-mu }{sigma }}right)^{2}right)}}f(x)=σ2π1e(−21(σx−μ)2)伽玛分布指数分布3.4，边缘概率
　　边缘概率好像应用并不多，所以这里理解定义和概念即可。 边缘概率的通俗理解描述，来源于 数学篇 - 概率之联合概率、条件概率、边缘概率和贝叶斯法则(笔记)。
　　有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution  )。
　　对于离散型随机变量 	extrm{x}x 和 	extrm{y}y，知道 P(	extrm{x}, 	extrm{y})P(x,y)，可以依据下面的求和法则（sum rule  ）来计算边缘概率 P(	extrm{x})P(x)：
　　forall x in 	extrm{x},P(	extrm{x}=x)=sum_{y}P(	extrm{x}=x, 	extrm{y}=y)∀x∈x,P(x=x)=∑yP(x=x,y=y)
　　＂边缘概率＂的名称来源于手算边缘概率的计算过程。当 P(x,y)P(x,y) 的每个值被写在由每行表示不同的 xx 值，每列表示不同的 yy 值形成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果 P(x)P(x) 写在每行右边的纸的边缘处。
　　连续性变量的边缘概率则用积分代替求和：
　　p(x) = int p(x,y)dyp(x)=∫p(x,y)dy3.5，条件概率
　　条件概率（conditional probability  ）就是事件 A 在事件 B 发生的条件下发生的概率，表示为 P(A|B)P(A∣B)。
　　设 AA 与 BB 为样本空间 Ω 中的两个事件，其中 P(B)P(B) > 0。那么在事件 BB 发生的条件下，事件 AA 发生的条件概率为：
　　P(A|B)={frac {P(Acap B)}{P(B)}}P(A∣B)=P(B)P(A∩B)
　　花书中期望的条件概率定义（表达式不一样，但意义是一样的，维基百科的定义更容易理解名字意义，花书中的公式更多的是从数学中表达）:
　　将给定 	extrm{x} = xx=  x   时， 	extrm{y} = yy=  y   发生的条件概率记为 P(	extrm{y} = y|	extrm{x} = x)  P  (y=  y  ∣x=  x  )，这个条件概率的计算公式如下： P(	extrm{y}=y|	extrm{x}=x)=frac{P(	extrm{y}=y, 	extrm{x}=x)}{P(	extrm{x}=x)}  P  (y=  y  ∣x=  x  )=  P  (x=  x  )  P  (y=  y  ,x=  x  ) 条件概率只在 P(	extrm{x}=x)geq 0  P  (x=  x  )≥0 时有定义，即不能计算以从未发生的事件为条件的条件概率。  3.5.1，条件概率的链式法则
　　任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式，这个规则被称为概率的链式法则（chain rule  ）。条件概率的链式法则如下:
　　begin{aligned} P(a,b,c) &= P(a|b,c)P(b,c)  P(b,c) &= P(b|c)P(c)  P(a,b,c) &= P(s|b,c)P(b|c)P(c)  end{aligned}P(a,b,c)P(b,c)P(a,b,c)=P(a∣b,c)P(b,c)=P(b∣c)P(c)=P(s∣b,c)P(b∣c)P(c)3.6，独立性和条件独立性
　　两个随机变量 	extrm{x}x 和 	extrm{y}y，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 	extrm{x}x 另一个因子只包含 	extrm{y}y，我们就称这两个随机变量是相互独立的（independent  ）：
　　forall x in 	extrm{x},y in 	extrm{y},p(	extrm{x}=x, 	extrm{y}=y)=p(	extrm{x}=x)cdot p(	extrm{y}=y)∀x∈x,y∈y,p(x=x,y=y)=p(x=x)⋅p(y=y)
　　两个相互独立的随机变量同时发生的概率可以通过各自发生的概率的乘积得到。
　　如果关于 xx 和 yy 的条件概率分布对于 zz 的每一个值都可以写成乘积的形式，那么这两个随机变量 xx 和 yy 在给定随机变量 zz 时是条件独立的(conditionally independent):
　　forall x in ,y in 	extrm{y},z in 	extrm{z}, p(	extrm{x}=x, 	extrm{y}=y|z in 	extrm{z})= p(	extrm{x}=x|z in 	extrm{z})cdot p(	extrm{y}=y|z in 	extrm{z})∀x∈,y∈y,z∈z,p(x=x,y=y∣z∈z)=p(x=x∣z∈z)⋅p(y=y∣z∈z)
　　采用一种简化形式来表示独立性和条件独立性: 	extrm{x}perp 	extrm{y}x⊥y 表示 	extrm{x}x 和 	extrm{y}y 相互独立，	extrm{x}perp 	extrm{y}|	extrm{z}x⊥y∣z 表示 	extrm{x}x 和 	extrm{y}y 在给定 	extrm{z}z 时条件独立。3.7，条件概率、联合概率和边缘概率总结条件概率（conditional probability  ）就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为 P(A|B)P(A∣B)，读作＂A 在 B 发生的条件下发生的概率＂。联合概率表示两个事件共同发生的概率。A   与 B   的联合概率表示为 P(Acap B)P(A∩B) 或者 P(A,B)P(A,B) 或者 P(AB)P(AB)。仅与单个随机变量有关的概率称为边缘概率。3.8，期望、方差和协方差
　　为了便于理解，本章中的期望和方差的数学定义主要采用中文维基百科中的定义。
　　在概率分布中，期望值和方差或标准差是一种分布的重要特征，期望、数学期望、均值都是一个意思。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数，其意义和概率分布中的方差是不一样的。3.8.1，期望
　　在概率论和统计学中，一个离散性随机变量的期望值（或数学期望，亦简称期望，物理学中称为期待值）是试验中每次可能的结果乘以其结果概率的总和。换句话说，期望值像是随机试验在同样的机会下重复多次，所有那些可能状态平均的结果，也可理解为该变量输出值的加权平均。期望数学定义
　　如果 XX 是在概率空间 (Omega ,F,P)(Ω,F,P) 中的随机变量，那么它的期望值 operatorname{E}(X)E(X) 的定义是：
　　operatorname {E}(X)=int_{Omega }X {d}PE(X)=∫ΩXdP
　　并不是每一个随机变量都有期望值的，因为有的时候上述积分不存在。如果两个随机变量的分布相同，则它们的期望值也相同。
　　1，如果 XX 是离散的随机变量，输出值为 x_{1},x_{2},ldots x_{1},x_{2},ldotsx1,x2,…x1,x2,…，和输出值相应的概率为 {displaystyle p_{1},p_{2},ldots }p_{1},p_{2},ldotsp1,p2,…p1,p2,…（概率和为 1  ）。
　　若级数 sum_{i}p_{i}x_{i}∑ipixi 绝对收敛，那么期望值 operatorname {E}(X)E(X) 是一个无限数列的和。
　　operatorname {E}(X)=sum_{i}p_{i}x_{i}E(X)=∑ipixi
　　2，如果 XX 是连续的随机变量，且存在一个相应的概率密度函数 f(x)f(x)，若积分 int _{-infty }^{infty }xf(x),mathrm {d} x∫−∞∞xf(x)dx 绝对收敛，那么 XX 的期望值可以计算为：
　　operatorname {E} (X)=int _{-infty }^{infty }xf(x),mathrm {d} xE(X)=∫−∞∞xf(x)dx
　　虽然是针对于连续的随机变量的，但与离散随机变量的期望值的计算算法却同出一辙，由于输出值是连续的，所以只是把求和改成了积分。
　　期望值 EE 是线性函数:
　　operatorname {E}(aX+bY)=aoperatorname {E}(X)+boperatorname {E}(Y)E(aX+bY)=aE(X)+bE(Y)
　　XX 和 YY 为在同一概率空间的两个随机变量（可以独立或者非独立），aa 和 bb 为任意实数。花书中期望的数学定义（表达式不一样，但意义是一样的）:
　　1，某个函数 f(x)  f  (  x  ) 相对于概率分布 P(x)  P  (  x  ) 的期望（期望值）是当从 P  P   中抽取 x  x   时 f  f   所取的平均或平均值。对于离散型随机变量，期望可以通过  求和  得到： mathbb{E}_{	extrm{x}sim P}[f(x)] = sum_{x} P(x)f(x)Ex∼  P  [  f  (  x  )]=∑  x    P  (  x  )  f  (  x  )
　　2，对于连续型随机变量可以通过求  积分  得到： mathbb {E}_{	extrm{x}sim p}[f(x)] = int p(x)f(x)dxEx∼  p  [  f  (  x  )]=∫  p  (  x  )  f  (  x  )  dx  期望应用在统计学中，估算变量的期望值时，经常用到的方法是重复测量此变量的值，再用所得数据的平均值来估计此变量的期望值。在概率分布中，期望值和方差或标准差是一种分布的重要特征。总体均值数学定义
　　一般而言，一个有限的容量为 NN、元素的值为 x_{i}xi 的总体的总体均值为：
　　mu = frac{sum_i^N x_{i}}{N}μ=N∑iNxi3.8.2，方差
　　在概率论和统计学中，方差（英语：variance  ）又称变异数、变方，描述的是一个随机变量的离散程度，即该变量离其期望值的距离，是随机变量与其总体均值或样本均值的离差的平方的期望值。
　　方差差是标准差的平方、分布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表示有 sigma^2σ2、s^2s2、operatorname {Var} (X)Var(X)、displaystyle V(X)V(X)，以及 displaystyle mathbb {V} (X)V(X)。
　　方差作为离散度量的优点是，它比其他离散度量（如平均差）更易于代数运算，但缺点是它与随机变量的单位不同，而标准差则单位相同，这就是计算完成后通常采用标准差来衡量离散程度的原因。
　　方差的正平方根称为该随机变量的标准差。
　　有两个不同的概念都被称为＂方差＂。一种如上所述，是理论概率分布的方差。而另一种方差是一组观测值的特征，分别是总体方差（所有可能的观测）和样本方差（总体的一个子集）。方差数学定义
　　设 XX 为服从分布 FF 的随机变量，如果 operatorname{E}[X]E[X] 是随机变量 XX 的期望值（均值 mu=operatorname{E}[X]μ=E[X]），则随机变量 XX 或者分布 FF 的方差为 XX 的离差平方的期望值:
　　operatorname{E}(X) = operatorname{E}[(X - mu)]^2 = operatorname{E}[X - operatorname{E}(X)]^2E(X)=E[(X−μ)]2=E[X−E(X)]2
　　方差的表达式可展开如下：
　　begin{aligned} operatorname{Var}(X) &=operatorname{E} left[(X-operatorname {E} [X])^{2}right]  &=operatorname{E} left[X^{2}-2Xoperatorname {E} [X]+operatorname{E}[X]^{2}right]  &=operatorname{E} left[X^{2}right]-2operatorname{E}[X]operatorname{E}[X]+operatorname{E}[X]^{2}  &=operatorname{E} left[X^{2}right]-operatorname{E}[X]^{2}  end{aligned}Var(X)=E[(X−E[X])2]=E[X2−2XE[X]+E[X]2]=E[X2]−2E[X]E[X]+E[X]2=E[X2]−E[X]2
　　也就是说，XX 的方差等于 XX 平方的均值减去 XX 均值的平方。总体方差数学定义
　　一般而言，一个有限的容量为 NN、元素的值为 x_{i}xi 的总体的总体方差为：
　　sigma^{2} = {frac {1}{N}}sum _{i=1}^{N}left(x_{i}-mu right)^{2}σ2=N1∑i=1N(xi−μ)2
　　花书中方差的定义:   方差  （  variance  ）衡量的是当我们对 xx 依据它的概率分布进行采样时，随机变量 	extrm{x}x 的函数值会呈现多大的差异，或者说一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。方差定义如下： Var(f(x)) = mathbb{E}[(f(x) - mathbb{E}[f(x)])^2]Var(f(x))=E[(f(x)−E[f(x)])2]3.8.3，期望与方差的运算性质
　　期望与方差运算性质如下:
　　来源: 知乎文章-【AP统计】期望E(X)与方差Var(X)。  3.8.4，协方差
　　协方差也叫共变异数（英语：Covariance），在概率论与统计学中用于衡量两个随机变量的联合变化程度。协方差数学定义
　　期望值分别为 operatorname E(X)=muE(X)=μ 与 operatorname E(Y)= uE(Y)=ν 的两个具有有限二阶矩的实数随机变量 XX 与 YY 之间的协方差定义为：
　　operatorname {cov} (X,Y)=operatorname {E} ((X-mu )(Y- u ))=operatorname {E} (Xcdot Y)-mu  ucov(X,Y)=E((X−μ)(Y−ν))=E(X⋅Y)−μν
　　协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。
　　协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很 远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方 差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于 取得相对较小的值，反之亦然。其他的衡量指标如 相关系数(correlation  )将每个变 量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。3.9，常用概率分布
　　下表列出了一些常用概率分布的方差。
　　3.9.1，伯努利分布
　　伯努利分布（英语：Bernoulli distribution  ），又名两点分布或者 0-1   分布，是一个离散型概率分布，为纪念瑞士科学家雅各布·伯努利而命名。若伯努利试验成功，则伯努利随机变量取值为 1  。若伯努利试验失败，则伯努利随机变量取值为 0  。记其成功概率为 0leq pleq 10≤p≤1，失败概率为 q = 1-pq=1−p。其有如下性质:其概率质量函数为:
　　f_{X}(x) = p^{x}(1-p)^{1-x} = leftlbracebegin{matrix} p quad if ;x = 1  1-p quad if ; x = 0 end{matrix}right.fX(x)=px(1−p)1−x={pifx=11−pifx=0其期望值为:
　　operatorname {E} [X] = sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = pE[X]=i=0∑1xifX(x)=0+p=p其方差为:
　　begin{aligned} Var[X] &= sum_{i=0}^{1} (x_{i}-operatorname {E} [X])^2f_{X}(x)  &= (0-P)^2(1-P) + (1-P)^2P  &= p(1-p)  &= pcdot q  end{aligned}Var[X]=i=0∑1(xi−E[X])2fX(x)=(0−P)2(1−P)+(1−P)2P=p(1−p)=p⋅q3.9.2，Multinoulli 分布
　　Multinoulli   分布(多项式分布，也叫范畴分布 categorical dis- tribution  )是一种离散概率分布，它描述了随机变量的可能结果，该随机变量可以采用 kk 个可能类别之一，概率为每个类别分别指定，其中 kk 是一个有限值。3.9.3，高斯分布
　　有几种不同的方法用来说明一个随机变量。最直观的方法是  概率密度函数  ，这种方法能够表示随机变量每个取值有多大的可能性。
　　高斯分布 Gaussian distribution  （也称正态分布 Normal distribution  ）是一个非常常见的连续概率分布。高斯分布在统计学上十分重要，经常用在自然和社会科学来代表一个不确定的随机变量。
　　若随机变量 XX 服从一个位置参数为 muμ 、尺度参数为 sigmaσ 的正态分布，记为：
　　X sim N(mu,sigma^2)X∼N(μ,σ2)
　　则其概率密度函数为 f(x;mu, sigma) = frac {1}{sigma {sqrt {2pi }}};e^{-{frac {left(x-mu right)^{2}}{2sigma ^{2}}}}f(x;μ,σ)=σ2π1e−2σ2(x−μ)2。
　　正态分布的数学期望值 muμ 等于位置参数，决定了分布的位置；其方差 sigma^2σ2 的开平方或标准差 sigmaσ 等于尺度参数，决定了分布的幅度。
　　正态分布概率密度函数曲线呈钟形，也称之为钟形曲线（类似于寺庙里的大钟，因此得名）。我们通常所说的标准常态分布是位置参数 mu = 0μ=0，尺度参数 sigma ^{2} = 1σ2=1 的正态分布（见右图中红色曲线）。
　　采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实 数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，其中有两个原因。第一，我们想要建模的很多分布的真实情况是比较接近正态分布的。第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最 的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。3.9.4，指数分布和 Laplace 分布
　　在概率论和统计学中，指数分布（Exponential distribution  ）是一种连续概率分布，表示一个在 x = 0x=0 点处取得边界点 (sharp point  ) 的分布，其使用指示函数(indicator function  ) 1_{xgeq0}1x≥0 来使得当 xx 取负值时的概率为零。指数分布可以等同于形状母数 alphaα为 11的伽玛分布。
　　指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、电话打进客服中心的时间间隔等。
　　若随机变量 XX 服从母数为 lambdaλ 或 betaβ 的指数分布，则记作
　　Xsim {	ext{Exp}}(lambda )X∼Exp(λ) 或 Xsim {	ext{Exp}}(beta )X∼Exp(β)
　　两者意义相同，只是 lambdaλ 与 betaβ 互为倒数关系。指数分布的概率密度函数为：
　　f(x;{color {Red}lambda })=leftlbrace{begin{matrix}{color {Red}lambda }e^{-{color {Red}lambda }x}&xgeq 0,&,;x<0.end{matrix}}right.f(x;λ )={λ e−λ x0x≥0,,x<0.
　　指数分配概率密度函数曲线如下所示。
　　3.10，常用函数的有用性质
　　深度学习中的概率分布有一些经常出现的函数，比如 logistic sigmoid   函数:
　　sigma(x) = frac{1}{1+exp(-x)}σ(x)=1+exp(−x)1
　　logistic sigmoid   函数通常用来产生伯努利分布的参数 pp，因为它的范围是 (0, 1)(0,1)，位于 pp 参数值的有效范围内。下图 3.3 给出了 sigmoid   函数的图示。从图中可以明显看出，sigmoid   函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate  )现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。
　　sigmoid   函数的一些性质在后续学习 BP   算法等内容时会很有用，我们需要牢记：
　　begin{aligned} sigma(x) &= frac{exp(x)}{exp(x)+exp(0)}  frac{d}{dx}sigma(x) &= sigma(x)(1 - sigma(x))  1 - sigma(x) &= sigma(-x)  end{aligned}σ(x)dxdσ(x)1−σ(x)=exp(x)+exp(0)exp(x)=σ(x)(1−σ(x))=σ(−x)3.11，贝叶斯定理
　　本小节只是简单介绍基本概念和公式，更全面和深入的理解建议看《机器学习》书籍。
　　贝叶斯定理（英语：Bayes＂ theorem  ）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。比如，如果已知某种健康问题与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出某人有某种健康问题的概率。
　　通常，事件 A 在事件 B 已发生的条件下发生的概率，与事件 B 在事件 A 已发生的条件下发生的概率是不一样的。但是，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。
　　作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断，是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。
　　来源中文维基百科-贝叶斯定理  3.11.1，贝叶斯定理公式
　　贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理。
　　P(Amid B)={frac {P(A)P(Bmid A)}{P(B)}}P(A∣B)=P(B)P(A)P(B∣A)
　　其中 A 以及 B 为随机事件，且 P(B)P(B) 不为零。P(Amid B)P(A∣B) 是指在事件 B 发生的情况下事件 A 发生的概率。
　　在贝叶斯定理中，每个名词都有约定俗成的名称：P(Amid B)P(A∣B) 是已知 B 发生后，A 的条件概率。也称作 A 的事后概率。P(A)P(A) 是 A 的先验概率（或边缘概率）。其不考虑任何 B 方面的因素。P(Bmid A)P(B∣A) 是已知 A 发生后，B 的条件概率。也可称为 B 的后验概率。某些文献又称其为在特定 B 时，A 的似然性，因为 P(Bmid A)=L(Amid B)P(B∣A)=L(A∣B)。P(B)P(B)是 B 的先验概率。3.11.2，贝叶斯理论与概率密度函数
　　贝叶斯理论亦可用于概率分布，贝叶斯理论与概率密度的关系是由求极限的方式建立：
　　P(	extrm{x}|	extrm{y}) = frac{P(	extrm{x})P(	extrm{y}|	extrm{x})}{P(	extrm{y})}P(x∣y)=P(y)P(x)P(y∣x)
　　注意到 P(y)P(y) 出现在上面的公式中，它通常使用 P(	extrm{y}) = sum_{x} P(	extrm{y}|x)P(x)P(y)=∑xP(y∣x)P(x) 来计算所以我们并不需要事先知道 P(	extrm{y})P(y) 的信息。
　　中文维基百科中贝叶斯理论与概率密度关系定义: f(x|y)={frac {f(x,y)}{f(y)}}={frac {f(y|x),f(x)}{f(y)}}  f  (  x  ∣  y  )=  f  (  y  )  f  (  x  ,  y  )=  f  (  y  )  f  (  y  ∣  x  )  f  (  x  )  3.12，连续型变量的技术细节
　　连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theory  )的相关内容来扩展概率论，测度论超出了本书范畴。
　　原书中有测度论的简要介绍，本笔记不做记录和摘抄，感兴趣的可以阅读原书。3.13，信息论-相对熵和交叉熵
　　信息论是应用数学、电子学和计算机科学的一个分支，早期备用在无线通信领域。在深度学习中，主要是使用信息论的一些关键思想来表征(characterize  )概率分布或者量化概率分布之间的相似性。
　　信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。
　　定义一个事件 	extrm{x} = xx=x 的自信息(self-information) 为
　　I(x) = -	ext{log}P(x)I(x)=−logP(x)
　　在本文中，我们总是用 	ext{log}log 来表示自然对数，其底数为 ee。因此我们定义的 I(x)I(x) 单位是奈特(nats)。一奈特是以 frac{1}{e}e1 的概率观测到一个事件时获得的信息量。其他的材料中可能使用底数为 2 的对数，单位是比特(bit)或者香农(shannons); 通过比特度量的信息只是通过奈特度量信息的常数倍。
　　自信息只处理单个的输出。我们可以用香农熵(Shannon entropy  )来对整个概率分布中的不确定性总量进行量化:
　　H(P) = H(	extrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)]H(P)=H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
　　换句话说，一个概率分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
　　如果我们对于同一个随机变量 	extrm{x}x 有两个单独的概率分布 P(	extrm{x})P(x) 和 Q(	extrm{x})Q(x)，则可以用 KL 散度（ Kullback-Leibler (KL) pergence  ，也叫相对熵）来衡量这两个概率分布的差异：
　　D_{KL}(Pparallel Q) = mathbb{E}_{	extrm{x}sim p}begin{bmatrix} log frac{P(x)}{Q(x)} end{bmatrix} = mathbb{E}_{	extrm{x}sim p}[log P(x) - log Q(x)]DKL(P∥Q)=Ex∼p[logQ(x)P(x)]=Ex∼p[logP(x)−logQ(x)]
　　KL 散度有很多有用的性质，最重要的是它是非负的。KL 散度为 0 当且仅当 PP 和 QQ 在离散型变量的情况下是相同的概率分布，或者在连续型变量的情况下是 ＂几乎处处＂ 相同的。
　　一个和 KL 散度密切联系的量是交叉熵(cross-entropy  )H(P, Q) = H(P) + D_{KL}(P||Q)H(P,Q)=H(P)+DKL(P∣∣Q)，其计算公式如下:
　　H(P, Q) = -mathbb{E}_{	extrm{x}sim p}log Q(x)H(P,Q)=−Ex∼plogQ(x)
　　和 KL 散度相比，少了左边一项，即熵 H(P)H(P)。可以看出，最小化 KL 散度其实就是在最小化分布之间的交叉熵。
　　上式的写法是在前面所学内容  数学期望  的基础上给出的，还有一个写法是《机器学习-周志华》书中附录 C 中给出的公式，更为直观理解： KL(Pparallel Q) = int_{-infty }^{+infty} p(x)log frac{p(x)}{q(x)} dx  KL  (  P  ∥  Q  )=∫−∞+∞  p  (  x  )  logq  (  x  )  p  (  x  )  dx   其中 p(x)  p  (  x  ) 和 q(x)  q  (  x  ) 分别为 P  P   和 Q  Q   的概率密度函数。 这里假设两个分布均为连续型概率分布，对于离散型概率分布，只需要将积分替换为对所有离散值遍历求和。
　　KL   散度满足非负性和不满足对称性。将上式展开可得： 	ext{KL 散度} KL(Pparallel Q) = int_{-infty }^{+infty}p(x)logp(x)dx - int_{-infty }^{+infty}p(x) logq(x)dx = -H(P) + H(P,Q)KL 散度KL(P∥Q)=∫−∞+∞p(x)logp(x)dx−∫−∞+∞p(x)logq(x)dx=−H(P)+H(P,Q) 	ext{交叉熵} H(P,Q) = mathbb{E}_{	extrm{x}sim p} log Q(x) = - int_{-infty }^{+infty} p(x) logq(x)dx交叉熵H(P,Q)=Ex∼plogQ(x)=−∫−∞+∞p(x)logq(x)dx
　　其中，H(P)  H  (  P  ) 为熵（  entropy  ），H(P,Q)H(P,Q) 为交叉熵（cross entropy  ）。
　　在信息论中，熵 H(P)  H  (  P  ) 表示对来自 P  P   的随机遍历进行编码所需的最小字节数，而交叉熵 H(P,Q)  H  (  P  ,  Q  ) 表示使用 Q  Q   的编码对来自 P  P   的变量进行编码所需的字节数。因此 KL 散度可认为是使用基于 Q  Q   的编码对来自 P  P   的变量进行编码所需的＂额外字节数＂；显然，额外字节数非负，当且仅当 P=Q  P  =  Q   时额外字节数为   0  。3.14，结构化概率模型
　　略参考资料zh.m.wikipedia.org/zh-hans/%E6…《深度学习》《机器学习》
　　本文内容大多来自《深度学习》（花书）第三章概率与信息论。

颠覆常识可溶性膳食纤维可能会诱发肝癌，哪些食物中有？肿瘤的发生往往与生活习惯饮食遗传与环境息息相关。随着近几年来经济社会的不断发展，饮食成为与肿瘤发生关系最为密切的因素。既往研究认为过量摄入黄曲霉素亚硝酸盐及腌制类食物等成分可能导致人类对随机性感知我们已经知道，随机性是世界的本质。我们之所以无法感受到这个事实，是因为人类的寿命实在太短。就像一个寿命只有两周的知了，它无法感知春夏秋冬，无法看到日全食，无法看到哈雷彗星。但无法看网络上爆红吸粉4千多万，如今却一落千丈，网红祝晓晗怎么了？网络爆红吸粉4千多万，如今却一落千丈，网红祝晓晗怎么了？2020年的夏天，我们有幸认识了一位新晋的网红。她叫祝晓晗，是抖音一个名为祝晓晗的人。当时这个名字火到什么程度呢？仅仅通过视人类真的是实验对象？宇宙墙被发现，实验者却感到恐惧综述当我们站在地球上仰望星空的时候，星空也透过地球，俯视着我们。和地球比起来，我们人类渺小的如同尘埃。同样的道理，和宇宙比起来，太阳渺小的如同一粒尘沙。仅仅在直径10万光年的银河系双十一智慧学习必入！联想天骄学习电脑领衔诸多好物助力轻松网课双十一智生活好物种草如何让孩子在家也能通过网课高效自主学习？这是一个牵动万千家庭的重要话题。工欲善其事，必先利其器，采购恰当的设备，可以让学习效率提升，事半功倍。双十一还有一个月的微软开绿灯游戏玩家请关闭这俩Windows11安全功能换取更好性能在Windows11发布一周年之际，微软给玩家提出了性能优化建议在玩游戏时关掉HVCI和VBS这两个安全特性，换取更好的游戏性能！为了系统安全我们经常需要牺牲性能，2018年初的幽以理服人为什么说构建人类命运共同体才是人间正道？视频加载中十年非凡成就，蕴藏深刻启示。如何用中国理论阐释中国实践？新华网联合中央党校（国家行政学院）国家高端智库，推出思客讲堂党校公开课（第三季）以理服人十年的十个为什么。十位党校从不怕晒到人均防晒，人类皮肤发生了什么变化？（ICphoto图）中秋小长假的过去，国庆长假已至，意味着全国范围内的高温预警可以正式解除，秋天正在离我们越来越近。夏秋两季转换之际，我们可以发现日照时间在逐渐变短，阳光不再具有那绝地求生与未来之役M携手生存恐怖游戏黎明杀机展开联动KRAFTON宣布旗下大逃杀游戏绝地求生与未来之役MOBILE（NEWSTATEMOBILE）将携手BehaviourInteractiveInc。的经典竞技生存恐怖游戏黎明杀机展清代名方，传了近300年，4味药，横扫慢性咽炎痰多干咳嗓子干大家好，我是沈医生。今天给大家分享一个清代名方，流传将近300年了，用简单4味药，润肺止咳，化痰理气，横扫慢性咽炎干咳嗓子干让你拥有金嗓子。总觉得嗓子里有痰，咽不下去，往外吐的时候世界经济三高一低，必须高度警惕宏观经济衰退的风险悦见非凡（金融从业者）当前，世界百年未有之大变局加速演进，世界之变时代之变历史之变的特征更加明显。我国发展面临新的战略机遇新的战略任务新的战略阶段新的战略要求新的战略环境，需要应对

<<<<<<－>>>>>>

如果一直这个模式继续下去，那么穷必然，一辈子都抬不起头曾经的我们年少轻狂，由着自己的性子，想怎么样就怎么样，因为吃喝不愁，有什么事情父母顶着现在的你是否后悔当初的自己没有好好努力？现在的你是不是每天也是起早贪黑，从不敢迟到早退，每天面写给曾经深深暗恋过的人提笔起，过往的一幕幕浮现在眼前。含笑的眼眸，奋力的奔跑，崩溃的泪流现在，列表里空洞的联系人，无厘头的不聊，又无厘头的拉扯几句。DC，今天是2022年11月30号，我想，我应该是放下65岁独居老人坦言人到晚年才知道，儿子跟女儿原来真的不一样导语过去是农耕社会，家里儿子多就代表劳动力多，儿子多的人家不怕受欺负，相反女儿嫁出去就如同泼出去的水，不仅不能为父母养老，就是回娘家也只是客人而已。可如今社会不一样了，由于女性社会清华才女武亦姝爸爸简历被扒，网友炸了！终于知道她为啥这么优秀了提起国民才女武亦姝，诗词君总会忍不住赞叹。16岁，曾在中国诗词大会上，以2000首诗词储备量横扫百人团，三战三捷，最终一举夺冠18岁，参加高考，613分的好成绩位列上海考生第77名如何培养有出息的孩子？这5个错误千万不要犯孩子不是你口袋里的钱财，想买什么就买什么。曾仕强每日箴言全文共2700字，深度阅读需8分钟，受益终生家庭教育，是当今父母越来越重视的话题。天下的父母没有一个不想把自己的角色扮演好，宇宙中超级明亮闪光是一个指向地球的威力强大的黑洞喷流这股急流来自迄今为止观测到的最遥远的潮汐破坏事件。今年2月11日，天文学家看到了一道遥远的闪光，它似乎来自一个像千万亿个太阳一样明亮的光源。这一事件引起了很多科学家的关注，很快，几10岁男孩玩游戏充值2万多元，家长申请退款，收款方回应近日，四川宜宾的文女士向奥一新闻反映，10月20日至11月6日期间，家中孩子（10岁）用奶奶的手机玩游戏，充值消费了21141元。文女士认为，因孩子是未成年人，玩游戏未经过家长同意家长的底牌冬日生活打卡季今天听老师讲课，讲到罗杰斯的人性观，觉得瞬间找到了心理疾病孩子的家长所需要的人生底牌。罗杰斯如是说人的核心是积极向上的，并蕴涵着潜能人具有获得他人积极关注的强烈需要人林志玲曾馨莹同庆48岁生日，坐C位气场大，曝喜讯儿子会走路百亿阔太和林志玲同框，坐C位气场大，被传打败刘嘉玲林志玲嫁大24岁富豪11月29日是林志玲的48岁生日，近两天她提前和亲友们一起聚餐庆祝，还晒出了一张照片。照片中的林志玲身穿墨绿色儿子12岁，捧一手白色液体哭叫自己生病了青春期知识要早科普在知乎上看到一个网友留言我儿子六年级时看电视突然跑过来找我，哭得不停我还以为咋了，结果他捧着一手白色液体说自己生病了，吓死我了还以为怎么了，可能男孩子都早熟吧。在这条下面，也有很多历史告诉未来，时间成就梦想山有顶峰，湖有彼岸，在人生的长途中，万物皆有回转，当你觉得余味苦涩，请你相信一切终会回甘。我们常说生活没有答案，每个人都有自己的注脚，面对困境，也各有各的选择，行到水穷处，坐观云起