范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

常见的8个概率分布公式和可视化

  概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
  现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。 这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。
  "概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。"
  了解数据的分布有助于更好地模拟我们周围的世界。 它可以帮助我们确定各种结果的可能性,或估计事件的可变性。 所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。
  在本文中,我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。均匀分布
  最直接的分布是均匀分布。 均匀分布是一种概率分布,其中所有结果的可能性均等。 例如,如果我们掷一个公平的骰子,落在任何数字上的概率是 1/6。 这是一个离散的均匀分布。
  但是并不是所有的均匀分布都是离散的——它们也可以是连续的。 它们可以在指定范围内取任何实际值。 a 和 b 之间连续均匀分布的概率密度函数 (PDF) 如下:
  让我们看看如何在 Python 中对它们进行编码:import numpy as np  import matplotlib.pyplot as plt from scipy import stats # for continuous  a = 0 b = 50 size = 5000 X_continuous = np.linspace(a, b, size) continuous_uniform = stats.uniform(loc=a, scale=b) continuous_uniform_pdf = continuous_uniform.pdf(X_continuous) # for discrete X_discrete = np.arange(1, 7) discrete_uniform = stats.randint(1, 7) discrete_uniform_pmf = discrete_uniform.pmf(X_discrete)  # plot both tables fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5)) # discrete plot ax[0].bar(X_discrete, discrete_uniform_pmf) ax[0].set_xlabel("X") ax[0].set_ylabel("Probability") ax[0].set_title("Discrete Uniform Distribution") # continuous plot ax[1].plot(X_continuous, continuous_uniform_pdf) ax[1].set_xlabel("X") ax[1].set_ylabel("Probability") ax[1].set_title("Continuous Uniform Distribution") plt.show()
  高斯分布
  高斯分布可能是最常听到也熟悉的分布。 它有几个名字:有人称它为钟形曲线,因为它的概率图看起来像一个钟形,有人称它为高斯分布,因为首先描述它的德国数学家卡尔·高斯命名,还有一些人称它为正态分布,因为早期的统计学家 注意到它一遍又一遍地再次发生。
  正态分布的概率密度函数如下:
  σ 是标准偏差,μ 是分布的平均值。 要注意的是,在正态分布中,均值、众数和中位数都是相等的。
  当我们绘制正态分布的随机变量时,曲线围绕均值对称——一半的值在中心的左侧,一半在中心的右侧。 并且,曲线下的总面积为 1。mu = 0 variance = 1 sigma = np.sqrt(variance) x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) plt.subplots(figsize=(8, 5)) plt.plot(x, stats.norm.pdf(x, mu, sigma)) plt.title("Normal Distribution") plt.show()
  对于正态分布来说。 经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。 这些百分比是:
  68% 的数据落在平均值的一个标准差内。
  95% 的数据落在平均值的两个标准差内。
  99.7% 的数据落在平均值的三个标准差范围内。对数正态分布
  对数正态分布是对数呈正态分布的随机变量的连续概率分布。 因此,如果随机变量 X 是对数正态分布的,则 Y = ln(X) 具有正态分布。
  这是对数正态分布的 PDF:
  对数正态分布的随机变量只取正实数值。 因此,对数正态分布会创建右偏曲线。
  让我们在 Python 中绘制它:X = np.linspace(0, 6, 500) std = 1 mean = 0 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) fig, ax = plt.subplots(figsize=(8, 5)) plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") ax.set_xticks(np.arange(min(X), max(X))) std = 0.5 mean = 0 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5") std = 1.5 mean = 1 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5") plt.title("Lognormal Distribution") plt.legend() plt.show()
  泊松分布
  泊松分布以法国数学家西蒙·丹尼斯·泊松的名字命名。 这是一个离散的概率分布,这意味着它计算具有有限结果的事件——换句话说,它是一个计数分布。 因此,泊松分布用于显示事件在指定时期内可能发生的次数。
  如果一个事件在时间上以固定的速率发生,那么及时观察到事件的数量(n)的概率可以用泊松分布来描述。 例如,顾客可能以每分钟 3 次的平均速度到达咖啡馆。 我们可以使用泊松分布来计算 9 个客户在 2 分钟内到达的概率。
  下面是概率质量函数公式:
  λ 是一个时间单位的事件率——在我们的例子中,它是 3。k 是出现的次数——在我们的例子中,它是 9。这里可以使用 Scipy 来完成概率的计算。from scipy import stats print(stats.poisson.pmf(k=9, mu=3)) """ 0.002700503931560479 """
  泊松分布的曲线类似于正态分布,λ 表示峰值。X = stats.poisson.rvs(mu=3, size=500) plt.subplots(figsize=(8, 5)) plt.hist(X, density=True, edgecolor="black") plt.title("Poisson Distribution") plt.show()
  指数分布
  指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下:
  λ 是速率参数,x 是随机变量。X = np.linspace(0, 5, 5000) exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1) plt.subplots(figsize=(8,5)) plt.plot(X, exponetial_distribtuion) plt.title("Exponential Distribution") plt.show()
  二项分布
  可以将二项分布视为实验中成功或失败的概率。 有些人也可能将其描述为抛硬币概率。
  参数为 n 和 p 的二项式分布是在 n 个独立实验序列中成功次数的离散概率分布,每个实验都问一个是 - 否问题,每个实验都有自己的布尔值结果:成功或失败。
  本质上,二项分布测量两个事件的概率。 一个事件发生的概率为 p,另一事件发生的概率为 1-p。
  这是二项分布的公式:
  可视化代码如下:X = np.random.binomial(n=1, p=0.5, size=1000) plt.subplots(figsize=(8, 5)) plt.hist(X) plt.title("Binomial Distribution") plt.show()
  学生 t 分布
  学生 t 分布(或简称 t 分布)是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。 它是由英国统计学家威廉·西利·戈塞特(William Sealy Gosset)以笔名"student"开发的。
  PDF如下:
  n 是称为"自由度"的参数,有时可以看到它被称为"d.o.f." 对于较高的 n 值,t 分布更接近正态分布。import seaborn as sns from scipy import stats X1 = stats.t.rvs(df=1, size=4) X2 = stats.t.rvs(df=3, size=4) X3 = stats.t.rvs(df=9, size=4) plt.subplots(figsize=(8,5)) sns.kdeplot(X1, label = "1 d.o.f") sns.kdeplot(X2, label = "3 d.o.f") sns.kdeplot(X3, label = "6 d.o.f") plt.title("Student"s t distribution") plt.legend() plt.show()
  卡方分布
  卡方分布是伽马分布的一个特例; 对于 k 个自由度,卡方分布是一些独立的标准正态随机变量的 k 的平方和。
  PDF如下:
  这是一种流行的概率分布,常用于假设检验和置信区间的构建。
  让我们在 Python 中绘制一些示例图:X = np.arange(0, 6, 0.25) plt.subplots(figsize=(8, 5)) plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f") plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f") plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f") plt.title("Chi-squared Distribution") plt.legend() plt.show()
  掌握统计学和概率对于数据科学至关重要。 在本文展示了一些常见且常用的分布,希望对你有所帮助。
  作者:Kurtis Pykes

百度都是假的真的傲腾安装教程在这里还可以加速从盘了前言大家久等了,上次测试视频说放傲腾的安装教程结果搞测试的时候把文档全丢了,一直拖着,想着过气产品大家也不会太过在意,没想到还是有挺多粉丝求教程。这个过气的傲腾内存的安装对很多人来我的内存它应该有自己的想法(教你怎么选择内存条)前言鱼与熊掌不可兼得,生活也是如此,生活中有很多事物不能够兼得,此时我们应该学会取舍,而难点就在于如何去做抉择。草鸡身为一个DIY玩家,很抱歉不能给Y友带好喝的心灵鸡汤来。但是!草你以为你配了根8G的内存就够了吗?其实远比你想象的复杂前言大家都知道,像4G,8G这样的内存容量关系着与CPU之间的带宽,决定可以同时运行软件的数量,而像1600,2133,2400等如此的频率则决定着与CPU交换数据的速度。另外内存普通显示器免费升级电竞显示器的方法前言在这个CPU内存疯狂超频,且一次又一次破世界记录科技下,关注过的人肯定会感觉这群超频选手特别溜,特别厉害。超频其操作复杂,相关专业知识要通透,动手能力也得好,这些结合起来,才会电脑价格涨了一波又一波但让你没想到的是3000吃个鸡依然很轻松前言最近有粉丝经常给草鸡私信询问装机配置推荐的事,草鸡意识到装机的型号搭配也是让小白们很头疼的问题。但是毕竟每个人的想法都不一样,偏爱的品牌也不一样,这里草鸡就给大家做个推荐搭配,解密让你肛要紧的电竞椅为什么这么贵前言这些年来,很多商品,但凡与某些关键字挂钩,价格就会蹭蹭的高一番,比如二次元电竞某某同款等等那么说到电竞上,除了电脑硬件或键盘鼠标外设上的各种战队推荐品牌,还有一个名为电竞椅的外机械键盘贵或便宜的原因都在这里了前言关于机械键盘的选择等问题网上是一抓一大把,草鸡这里也不作多说,主要讲一讲关于机械键盘同轴价格不一问题,让大家在日后挑选键盘时也有一个了解,挑准方向好选择。正文机械键盘能折腾的地DIY电脑配置选择的一些误区,拒绝入坑(上篇)前言罗列了一些关于DIY主机装机的一些比较常见的误区。今天这篇主要讲一下关于CPU的。尤其是小白,就特别要注意一下哟。Ps误区排名不分先后。正文壹玩游戏CPU核心越多性能速度越快理一万元买电脑还要装X,该怎么配?前言是草鸡低估了人民群众的消费能力,前面的3K预算的网游小钢炮完全不能满足大家,应要求出一个高配高逼格的主机配置指南。出于水冷太过麻烦,水冷配件价格也昂贵,更不是一时半会就能上手的TLC颗粒的固态硬盘真的没有MLC的好吗?现在就告诉你真相前言在2015年开始,固态硬盘的普及风暴已经便开始了,那会的固态价格也不算太高,120G的固态硬盘价格在三百多元,而一个1TB的机械硬盘价格也不足三百元。Y友在装机的时候普遍选择的电脑该买台式机还是笔记本?看完以后不纠结!前言今日天气逐渐转暖,太阳晒在身上有一种让人真正活着的感觉,我不禁发出一声呻吟诶嘘服。此时我收到一条企鹅消息,是很久未有联系的一个朋友发来的,我在诧异中点开了对话框。兄dei,我过
柏谱HF04开放式耳机AMT186真空管耳放套装试听前言去年我在京东参加了柏谱自由M3音响的众筹,其出色表现让我对这个品牌有了莫名的信赖。虽然因为听音环境不符合我的需求最终转手了M3,但一直还有关注其官方公众号。这不,国庆节前夕等到央视点名的空净果然牛!华为在它面前都要谦让几分,网友罕见真正用上空净是有了孩子以后,当然我也没少吃亏,今天给大家聊聊我的心得体会,希望大家都能选对空气净化器。对于有娃的家庭来说,选购空气净化器需要注意以下几点1。空气净化器滤芯的组成结构干湿垃圾都能清理,还能消毒!洗地机的好谁用谁知道拖地那些事这些年,扫地机因其使用便利而被越来越多的家庭所选择。扫地机有很多是吸拖一体设计,这些机器很大程度上解决了浮尘和碎屑的清理问题,但是拖地效果就不太让人满意,对于污渍基本没有电视音响Soundbar怎么选?我选择了音乐和影视皆可的SonosBeam前言现代人工作压力大生活节奏快,客厅已经成为重要的影音娱乐之地。如果有空间,又留有布线,同时选择多声道环绕系统和音乐系统无疑是最好的,只是这受到空间环境金钱等诸多限制,对于大部人来高性价比的WIFI6Mesh组网方案华硕灵耀魔方路由家庭无线网络进化史最早,为了提高家中无线网络的覆盖范围,可能不少人用过这招易拉罐天线增益法,就是给路由器天线加易拉罐。效果有,但增加有限。后来,改成无线AP扩展,当时购买的是极路由1折清仓!不到200元的无线音箱,丹麦设计匈牙利制造,超值看过我以前文章的值友应该知道,以前我对无线音箱非常痴迷。不过去年买了IKiloudMicroMonitor这款桌面小神器后,我对无线音箱的热情大减。最近我们办公室入了5台同一型号的哪种行李箱是你的心头好?这款镁铝合金拉杆箱细节很到位写在前面我们的人生中会经历各种各样地第一次,给我们留下或美好或难忘的回忆。上大学是我第一次出远门,路上经历了什么我已经忘了,但所带的ABS行李箱让我记忆犹新很重很重!不仅是因为其2运动听书利器,韶音AS660骨传导耳机体验现在耳机用户越来越多,不论是在嘈杂的通勤路上,还是安静的夜晚,亦或是运动健身时,都有人使用耳机。这两年,使用收纳方便的TWS耳机成为很多人追捧的对象。TWS耳机虽然使用便利,但听多新手也能轻松使用,2千元价位家用NAS从搭建到应用一条龙讲解NAS(NetworkAttachedStorage网络附属存储)的兴起已经有些年头,使用它的用户也越来越多,不过主要是集中在办公和极客用户。在使用NAS前,我也和很多人一样有这样越大越爽!把影院搬回家75英寸酷开P70电视评测前言今年上半年影院不营业,喜欢看电影的朋友只能在家中观看影片。为了在家中享受更好的观影效果,目前有三种选择投影大尺寸电视激光电视。投影仪观看尺寸可以做到更大,激光电视成本高,两者都这套融入星空元素的学习桌,将艺术与实用相结合,孩子大爱一前言有没有必要购买学习桌?这在话题在什么值得买的争论一直不断。我家有俩个孩子,我的观点是购买学习桌是很有必要的,并于2018年为孩子购买了一套。我对比过孩子在学习桌和其他地方的坐