Python随机采样及概率分布(二)
前言:
之前的《Python中的随机采样和概率分布》我们介绍了Python中最简单的随机采样函数。接下来我们更进一步,来看看如何从一个概率分布中采样,我们以几个机器学习中最常用的概率分布为例。
1. 二项(binomial)/伯努利(Bernoulli)分布
1.1 概率质量函数(pmf)
二项分布P(X=x; n, p)可以表示进行独立重复试验n次,每次有两成功和失败可能结果(分别对应概率p和1−p),共成功x次的概率。
1.2 函数原型
random.binomial(n, p, size=None)
参数:
n
: int or array_like of ints 对应分布函数中的参数 n,>=0,浮点数会被截断为整形。p
: float or array_like of floats 对应分布函数参数p, >=0并且<=1。size
: int or tuple of ints, optional 如果给定形状为(m,n,k),那么m×n×k个随机样本会从中抽取。默认为None,即返回一个一个标量随机样本。
返回:
out
: ndarray or scalar 从带参数的概率分布中采的随机样本,每个样本表示独立重复实验n次中成功的次数。
1.3 使用样例
设进行独立重复实验10次,每次成功概率为0.5,采样样本表示总共的成功次数(相当于扔10次硬币,正面朝上的次数)。总共采20个样本。
import numpy as np n, p = 10, .5 s = np.random.binomial(n, p, 20) print(s) # [4 5 6 5 4 2 4 6 7 2 4 4 2 4 4 7 6 3 5 6]
可以粗略的看到,样本几乎都在5周围上下波动。
我们来看一个有趣的例子。一家公司钻了9口井,每口井成功的概率为0.1,所有井都失败了,发生这种情况的概率是多少?
我们总共采样2000次,来看下产生0结果的概率。
s = sum(np.random.binomial(9, 0.1, 20000) == 0)/20000. print(s) # 0.3823
可见,所有井失败的概率为0.3823,这个概率还是蛮大的。
2. 多项(multinomial)分布
2.1 概率质量函数(pmf)
也就是说,多项分布式二项分布的推广:仍然是独立重复实验n次,但每次不只有成功和失败两种结果,而是k种可能的结果,每种结果的概率为pi。多项分布是一个随机向量的分布,x=(x1,x2,...,xk)意为第i种结果出现xi次,P(X=x; n, p)也就表示第i种结果出现xi次的概率。
2.2 函数原型
random.multinomial(n, pvals, size=None)
参数:
n
: int 对应分布函数中的参数 n。pvals
: sequence of floats 对应分布函数参数p, 其长度等于可能的结果数k,并且有0⩽pi⩽1。size
: int or tuple of ints, optional 为输出形状大小,因为采出的每个样本是一个随机向量,默认最后一维会自动加上k,如果给定形状为(m,n),那么m×n个维度为k的随机向量会从中抽取。默认为None,即返回一个一个k维的随机向量。
返回:
out
: ndarray 从带参数的概率分布中采的随机向量,长度为可能的结果数k,如果没有给定 size,则shape为 (k,)。
2.3 使用样例
设进行独立重复实验20次,每次情况的概率为1/6,采样出的随机向量表示每种情况出现次数(相当于扔20次六面骰子,点数为0, 1, 2, ..., 5出现的次数)。总共采1个样本。
s = np.random.multinomial(20, [1/6.]*6, size=1) print(s) # [[4 2 2 3 5 4]]
当然,如果不指定size
,它直接就会返回一个一维向量了
s = np.random.multinomial(20, [1/6.]*6) print(s) # [4 1 4 3 5 3]
如果像进行多次采样,改变 size即可:
s = np.random.multinomial(20, [1/6.]*6, size=(2, 2)) print(s) # [[[4 3 4 2 6 1] # [5 2 1 6 3 3]] # [[5 4 1 1 6 3] # [2 5 2 5 4 2]]]
这个函数在论文<sup>[1]</sup>的实现代码<sup>[2]</sup>中用来设置每一个 client分得的样本数:
for cluster_id in range(n_clusters): weights = np.random.dirichlet(alpha=alpha * np.ones(n_clients)) clients_counts[cluster_id] = np.random.multinomial(clusters_sizes[cluster_id], weights) # 一共扔clusters_sizes[cluster_id]次筛子,该函数返回骰子落在某个client上各多少次,也就对应着该client应该分得的样本数
3.均匀(uniform)分布
3.1 概率密度函数(pdf)
均匀分布可用于随机地从连续区间[a,b)内进行采样。
3.2 函数原型
random.uniform(low=0.0, high=1.0, size=None)
参数:
low
: float or array_like of floats, optional 对应分布函数中的下界参数 a,默认为0。high
: float or array_like of floats 对应分布函数中的下界参数 b,默认为1.0。size
: int or tuple of ints, optional 为输出形状大小,如果给定形状为(m,n,k),那么m×n×k的样本会从中抽取。默认为None,即返回一个单一标量。
返回:
out
: ndarray or scalar 从带参数的均匀分布中采的随机样本
3.3 使用样例
s = np.random.uniform(-1,0,10) print(s) # [-0.9479594 -0.86158902 -0.63754099 -0.0883407 -0.92845644 -0.11148294 # -0.19826197 -0.77396765 -0.26809953 -0.74734785]
4. 狄利克雷(Dirichlet)分布
4.1 概率密度函数(pdf)
P(x;α)∝∏i=1kxαi−1ix=(x1,x2,...,xk),xi>0,∑i=1kxi=1α=(α1,α2,...,αk).αi>0
4.2 函数原型
random.dirichlet(alpha, size=None)
参数:alpha
: sequence of floats, length k 对应分布函数中的参数向量 α,长度为k。size
: int or tuple of ints, optional 为输出形状大小,因为采出的每个样本是一个随机向量,默认最后一维会自动加上k,如果给定形状为(m,n),那么m×n个维度为k的随机向量会从中抽取。默认为None,即返回一个一个k维的随机向量。
返回:
out
: ndarray 采出的样本,大小为(size,k)。
4.3 使用样例
设α=(10,5,3)(意味着k=3),size=(2,2),则采出的样本为2×2个维度为k=3的随机向量。
s = np.random.dirichlet((10, 5, 3), size=(2, 2)) print(s) # [[[0.82327647 0.09820451 0.07851902] # [0.50861077 0.4503409 0.04104833]] # [[0.31843167 0.22436547 0.45720285] # [0.40981943 0.40349597 0.1866846 ]]]
这个函数在论文[1]的实现代码[2]中用来生成符合狄利克雷分布的权重向量
for cluster_id in range(n_clusters): # 为每个client生成一个权重向量,文章中分布参数alpha每一维都相同 weights = np.random.dirichlet(alpha=alpha * np.ones(n_clients)) clients_counts[cluster_id] = np.random.multinomial(clusters_sizes[cluster_id], weights)
到此这篇关于Python随机采样及概率分布(二)的文章就介绍到这了,更多相关Python随机采样及概率分布内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞!
原文出处:https://www.cnblogs.com/orion-orion/p/15650574.html
相关文章
- 这篇文章主要介绍了python-opencv-画外接矩形框的实例代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-04
Python astype(np.float)函数使用方法解析
这篇文章主要介绍了Python astype(np.float)函数使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-08- 2022虎年新年即将来临,小编为大家带来了一个利用Python编写的虎年烟花特效,堪称全网最绚烂,文中的示例代码简洁易懂,感兴趣的同学可以动手试一试...2022-02-14
- 在本篇文章里小编给大家分享的是一篇关于python中numpy.empty()函数实例讲解内容,对此有兴趣的朋友们可以学习下。...2021-02-06
python-for x in range的用法(注意要点、细节)
这篇文章主要介绍了python-for x in range的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-10- 这篇文章主要介绍了Python 图片转数组,二进制互转操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-09
- 这篇文章主要介绍了Python中的imread()函数用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-16
- 这篇文章主要介绍了python如何实现b站直播自动发送弹幕,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下...2021-02-20
python Matplotlib基础--如何添加文本和标注
这篇文章主要介绍了python Matplotlib基础--如何添加文本和标注,帮助大家更好的利用Matplotlib绘制图表,感兴趣的朋友可以了解下...2021-01-26- 这篇文章主要介绍了解决python 使用openpyxl读写大文件的坑,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-13
- 今天小编就为大家分享一篇python 计算方位角实例(根据两点的坐标计算),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-27
- 这篇文章主要为大家详细介绍了python实现双色球随机选号,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-05-02
- 在本篇文章里小编给大家整理的是一篇关于python中使用np.delete()的实例方法,对此有兴趣的朋友们可以学习参考下。...2021-02-01
- 这篇文章主要介绍了使用Python的pencolor函数实现渐变色功能,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-09
Python getsizeof()和getsize()区分详解
这篇文章主要介绍了Python getsizeof()和getsize()区分详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-11-20- 这篇文章主要介绍了python自动化办公操作PPT的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-05
- 这篇文章主要介绍了解决python 两个时间戳相减出现结果错误的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-12
- 这篇文章主要为大家详细介绍了python实现学生通讯录管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-25
- 这篇文章主要介绍了PyTorch一小时掌握之迁移学习篇,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-09-08
- 这篇文章主要介绍了Python绘制的爱心树与表白代码,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-04-06