齐鲁彩票

电子发烧友网 > 人工智能 > 正文

机器学习的5种采样方法介绍

2020年05月17日 09:53 次阅读

齐鲁彩票 以下是关于Rahul Agarwal 分享的内容,编译整理如下。

齐鲁彩票 数据科学实际上是就是研究算法。

我每天都在努力学习许多算法,所以我想列出一些最常见和最常用的算法。

本文介绍了在处理数据时可以使用的一些最常见的采样技术。

简单随机抽样

假设您要选择一个群体的子集,其中该子集的每个成员被选择的概率都相等。

下面我们从一个数据集中选择 100 个采样点。

sample_df = df.sample(100)

分层采样

机器学习的5种采样方法介绍

齐鲁彩票 假设我们需要估计选举中每个候选人的平均票数。现假设该国有 3 个城镇:

A 镇有 100 万工人,

B 镇有 200 万工人,以及

C 镇有 300 万退休人员。

我们可以选择在整个人口中随机抽取一个 60 大小的样本,但在这些城镇中,随机样本可能不太平衡,因此会产生偏差,导致估计误差很大。

相反,如果我们选择从 A、B 和 C 镇分别抽取 10、20 和 30 个随机样本,那么我们可以在总样本大小相同的情况下,产生较小的估计误差。

使用 python 可以很容易地做到这一点:

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, straty=y, test_size=0.25)

水塘采样

齐鲁彩票 我喜欢这个问题陈述:

假设您有一个项目流,它长度较大且未知以至于我们只能迭代一次。

创建一个算法,从这个流中随机选择一个项目,这样每个项目都有相同的可能被选中。

我们怎么能做到这一点?

假设我们必须从无限大的流中抽取 5 个对象,且每个元素被选中的概率都相等。

import randomdef generator(max):

number = 1

while number 《 max:

number += 1

齐鲁彩票 yield number# Create as stream generator

stream = generator(10000)# Doing Reservoir Sampling from the stream

k=5

reservoir = []

for i, element in enumerate(stream):

if i+1《= k:

reservoir.append(element)

else:

probability = k/(i+1)

齐鲁彩票 if random。random() 《 probability:

# Select item in stream and remove one of the k items already selected

reservoir[random.choice(range(0,k))] = elementprint(reservoir)

------------------------------------

[1369, 4108, 9986, 828, 5589]

从数学上可以证明,在样本中,流中每个元素被选中的概率相同。这是为什么呢?

当涉及到数学问题时,从一个小问题开始思考总是有帮助的。

所以,让我们考虑一个只有 3 个项目的流,我们必须保留其中 2 个。

齐鲁彩票 当我们看到第一个项目,我们把它放在清单上,因为我们的水塘有空间。在我们看到第二个项目时,我们把它放在列表中,因为我们的水塘还是有空间。

现在我们看到第三个项目。这里是事情开始变得有趣的地方。我们有 2/3 的概率将第三个项目放在清单中,

现在让我们看看第一个项目被选中的概率:

移除第一个项目的概率是项目 3 被选中的概率乘以项目 1 被随机选为水塘中 2 个要素的替代候选的概率。这个概率是:

2/3*1/2 = 1/3

因此,选择项目 1 的概率为:

1–1/3=2/3

我们可以对第二个项目使用完全相同的参数,并且可以将其扩展到多个项目。

因此,每个项目被选中的概率相同:2/3 或者用一般的公式表示为 K/N

随机欠采样和过采样

机器学习的5种采样方法介绍

我们经常会遇到不平衡的数据集。

一种广泛采用的处理高度不平衡数据集的技术称为重采样。它包括从多数类(欠采样)中删除样本或向少数类(过采样)中添加更多示例。

让我们先创建一些不平衡数据示例,

from sklearn.datasets import make_classificaTIonX, y = make_classificaTIon( n_classes=2, class_sep=1.5, weights=[0.9, 0.1], n_informaTIve=3, n_redundant=1, flip_y=0, n_features=20, n_clusters_per_class=1, n_samples=100, random_state=10)X = pd.DataFrame(X)X[ target ] = y

我们现在可以使用以下方法进行随机过采样和欠采样:

num_0 = len(X[X[ target ]==0])num_1 = len(X[X[ target ]==1])print(num_0,num_1)# random undersampleundersamp_data = pd.concat([ X[X[ target ]==0].sample(num_1) , X[X[ target ]==1] ])print(len(undersampled_data))# random oversampleoversampled_data = pd.concat([ X[X[ target ]==0] , X[X[ target ]==1].sample(num_0, replace=True) ])print(len(oversampled_data))------------------------------------------------------------OUTPUT:90 1020180

使用 imbalanced-learn 进行欠采样和过采样

齐鲁彩票 imbalanced-learn(imblearn)是一个用于解决不平衡数据集问题的 python 包,它提供了多种方法来进行欠采样和过采样。

a. 使用 Tomek Links 进行欠采样:

imbalanced-learn 提供的一种方法叫做 Tomek Links。Tomek Links 是邻近的两个相反类的例子。

齐鲁彩票 在这个算法中,我们最终从 Tomek Links 中删除了大多数元素,这为分类器提供了一个更好的决策边界。

机器学习的5种采样方法介绍

from imblearn。under_sampling import TomekLinks

tl = TomekLinks(return_indices=True, raTIo= majority )

X_tl, y_tl, id_tl = tl.fit_sample(X, y)

b。 使用 SMOTE 进行过采样:

齐鲁彩票 在 SMOE(Synthetic nority Oversampling Technique)中,我们在现有元素附近合并少数类的元素。

from imblearn。over_sampling import SMOTE

smote = SMOTE(ratio= minority )

X_sm, y_sm = smote.fit_sample(X, y)

imbLearn 包中还有许多其他方法,可以用于欠采样(Cluster Centroids, NearMiss 等)和过采样(ADASYN 和 bSMOTE)。

结论

算法是数据科学的生命线。

抽样是数据科学中的一个重要课题,但我们实际上并没有讨论得足够多。

有时,一个好的抽样策略会大大推进项目的进展。错误的抽样策略可能会给我们带来错误的结果。因此,在选择抽样策略时应该小心。

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

第一届中国AI与机器学习研讨会

活动内容  人工智能技术将在未来对传统产业产生重大颠覆性影响,人工智能将在各行各业为创新设计带来新的动力,它也将催生新的
发烧友学院发表于 2018-03-29 00:00 709次阅读
第一届中国AI与机器学习研讨会

齐鲁彩票深度强化学习的概念和工作原理的详细资料说明

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分,都已经得到....
发表于 2020-05-16 09:20 101次阅读
深度强化学习的概念和工作原理的详细资料说明

数字产品和服务:通过移动设备推动数字化

倍加福(Pepperl+Fuchs)旗下品牌ecom展示了其扩展的产品组合。今年的重点是新的产品系列....
发表于 2020-05-15 17:16 65次阅读
数字产品和服务:通过移动设备推动数字化

机器学习之 k-近邻算法(k-NN)

机器学习  机器学习100天(5) --- k-近邻算法(k-NN)...
发表于 2020-05-15 15:06 94次阅读
机器学习之 k-近邻算法(k-NN)

机器学习之偏差、方差,生成模型,判别模型,先验概率,后验概率

机器学习:偏差、方差,生成模型,判别模型,先验概率,后验概率...
发表于 2020-05-14 15:23 19次阅读
机器学习之偏差、方差,生成模型,判别模型,先验概率,后验概率

机器学习与量子传感器结合实现了高灵敏度检测磁场的...

 据麦姆斯咨询报道,来自布里斯托大学(University of Bristol)的研究人员通过将机....
发表于 2020-05-14 09:22 41次阅读
机器学习与量子传感器结合实现了高灵敏度检测磁场的...

自动驾驶的难题主要集中于行为预测以及路径规划

这时,我们需要自动驾驶车自己去“主动学习”如何驾驶,将有限的人类提供的数据最大化。如果我们回忆小时候....
发表于 2020-05-13 17:04 126次阅读
自动驾驶的难题主要集中于行为预测以及路径规划

因果推断和机器学习已有的联系以及应该建立哪些联系

二者虽然都是「泛化」,但后者难度更高。这个缺点并不令人吃惊,因为机器学习是忽视动物严重依赖的信息:对....
发表于 2020-05-13 16:14 238次阅读
因果推断和机器学习已有的联系以及应该建立哪些联系

Sklearn与TensorFlow机器学习实用指南——第九章习题答案

Sklearn 与 TensorFlow 机器学习实用指南——第九章习题答案...
发表于 2020-05-13 13:28 14次阅读
Sklearn与TensorFlow机器学习实用指南——第九章习题答案

机器学习能否提供针对EDA设计挑战的解决方案

人工智能正在改变我们周围的世界,为全球经济各个领域的创新创造了一条途径。如今,人工智能可以通过自然语....
发表于 2020-05-13 09:32 60次阅读
机器学习能否提供针对EDA设计挑战的解决方案

关于对话式AI及其技术组件能力的探索

今天,自动化、人工智能(AI)和自然语言处理(NLP)的进步使设计经济高效的数字体验成为可能。
发表于 2020-05-12 17:04 146次阅读
关于对话式AI及其技术组件能力的探索

5G技术最终将会成为联合学习的福音

随着全世界的开发团队争相开发AI工具,在边缘设备上训练算法变得越来越普遍。
发表于 2020-05-12 15:43 212次阅读
5G技术最终将会成为联合学习的福音

机器学习100天之多元线性回归

机器学习100天-多元线性回归 [代码实现细节分析]...
发表于 2020-05-12 15:06 26次阅读
机器学习100天之多元线性回归

盘点机器学习推动运输与物流行业变革的几种方式

人工智能通过自动驾驶车辆、更好的路线图和更准确的预测使运输和物流变得更智能、更高效。
发表于 2020-05-12 11:36 260次阅读
盘点机器学习推动运输与物流行业变革的几种方式

边缘智能将会成为人工智能的下一波浪潮

随着人工智能和机器学习(ML)的采用率上升,以算法形式处理大量数据以实现计算目的的能力变得越来越重要....
发表于 2020-05-12 11:06 93次阅读
边缘智能将会成为人工智能的下一波浪潮

FPGA运算单元技术创新可支持高算力浮点

随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行....
发表于 2020-05-12 10:46 69次阅读
FPGA运算单元技术创新可支持高算力浮点

机器学习模型之性能度量

机器学习模型的性能度量
发表于 2020-05-12 10:27 20次阅读
机器学习模型之性能度量

机器学习开发者想要打造一款App有多难?

我第一次看到此类工具是在卡内基梅隆大学,之后又在伯克利、Google X、Zoox 看到。这些工具最....
发表于 2020-05-12 10:06 243次阅读
机器学习开发者想要打造一款App有多难?

一些中文NLP领域,构建语料的经验和技巧

虽然通过这些途径,能够搜集到不少的NLP语料,但这些“现成”的语料往往与我们需要解决的 NLP 问题....
发表于 2020-05-12 09:57 138次阅读
一些中文NLP领域,构建语料的经验和技巧

python的这些骚操作,你都了解了吗?

列表解析是 Python 迭代机制的一种骚操作。有这样一个任务,给定一个由正整数组成的 list,然....
发表于 2020-05-12 09:40 245次阅读
python的这些骚操作,你都了解了吗?

Github上超过6.8万星标:最全算法及Pyt...

冒泡排序,有时也称为下沉排序,是一种简单的排序算法,它反复遍历要排序的列表,比较每对相邻的项目,如果....
发表于 2020-05-12 09:10 259次阅读
Github上超过6.8万星标:最全算法及Pyt...

机器学习该怎么学习

网上关于机器学习的文章,视频不计其数,本来写这么一篇东西,我自己也觉得有点多余,但是我还真没找到一个....
发表于 2020-05-12 08:54 82次阅读
机器学习该怎么学习

机器学习和编程两者之间有什么区别

有些人认为人工智能和《aclass=“》机器学习的本质不过是大肆运用if语句,或者说编程知识罢了,建....
发表于 2020-05-12 08:48 45次阅读
机器学习和编程两者之间有什么区别

人工智能和机器学习的力量

人工智能和机器学习可以在这里交付真正的价值。当涉及到识别和预测某些类型的模式时,机器学习提供了比人类....
发表于 2020-05-11 17:47 179次阅读
人工智能和机器学习的力量

供应商正在努力地开发由人工智能驱动的服务器自动化...

JASCI Software公司是提供支持电子商务物流和分销的SaaS平台。该公司首席执行官Crai....
发表于 2020-05-11 17:41 278次阅读
供应商正在努力地开发由人工智能驱动的服务器自动化...

在2020年为了帮助业务制定强大的AI策略

如果是NLP开发的新手,那么经过预先训练的语言模型可以使NLP的实际应用大大便捷,更快,更容易,因为....
发表于 2020-05-11 17:38 131次阅读
在2020年为了帮助业务制定强大的AI策略

人工智能与人类智能的竞赛:人机对抗智能技术全梳理

人工智能从诞生之始就以对抗人类智能为衡量准则(著名的图灵测试) 。作为人工智能研究的前沿方向,人机对....
发表于 2020-05-11 16:55 518次阅读
人工智能与人类智能的竞赛:人机对抗智能技术全梳理

机器学习入门篇:一个完整的机器学习项目

机器学习项目入门篇:一个完整的机器学习项目...
发表于 2020-05-11 14:47 64次阅读
机器学习入门篇:一个完整的机器学习项目

计算机视觉的解决方案

Hinton,与Yann LeCun和Yoshua Bengio一起出席了这次会议,这三大深度学习巨....
发表于 2020-05-11 11:02 236次阅读
计算机视觉的解决方案

深度学习和其他机器学习方法有何不同

近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等....
发表于 2020-05-11 09:55 102次阅读
深度学习和其他机器学习方法有何不同

通过人工智能技术检测代码漏洞,准确率高达99%

根据数据管理公司Coralogix的数据,程序员在每1000行代码中就会产生70个bug,每个bug....
发表于 2020-05-11 09:28 217次阅读
通过人工智能技术检测代码漏洞,准确率高达99%

Facebook开源Blender,更加智能化且...

Facebook的AI和机器学习部门Facebook AI Research(FAIR)今天详细介绍....
发表于 2020-05-09 22:40 467次阅读
Facebook开源Blender,更加智能化且...

齐鲁彩票快讯:俄研发“标识器”作战机器人可自主摧毁地空目...

为了加快测试过程并保护实验室工作人员,美国软件和机器人公司Bright Machines正在牵头开发....
发表于 2020-05-09 11:51 207次阅读
快讯:俄研发“标识器”作战机器人可自主摧毁地空目...

工业自动化应用中的机器学习

对于工业服务器而言,全新的网格互联架构、高速缓存内存设计、软件工具以及现成的主板解决方案(加快创建基....
发表于 2020-05-09 09:28 130次阅读
工业自动化应用中的机器学习

DARPA与英特尔合作研发机器学习“免疫系统”

机器学习系统在面部识别系统到自主车辆等所有领域的普及,伴随着攻击者想方设法欺骗算法的风险。
发表于 2020-05-08 09:38 120次阅读
DARPA与英特尔合作研发机器学习“免疫系统”

新加坡国立大学的一组研究人员开发了一种新颖的技术

尽管在过去十年中出现了惊人的发展,但现有的PUF仍受制于有限的稳定性和周期性不正确的指纹识别。它们通....
发表于 2020-05-07 11:35 355次阅读
新加坡国立大学的一组研究人员开发了一种新颖的技术

注意力机制或将是未来机器学习的核心要素

目前注意力机制已是深度学习里的大杀器,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中....
发表于 2020-05-07 09:37 121次阅读
注意力机制或将是未来机器学习的核心要素

OpenAI推出Jukebox机器学习框架,可自...

近日,由诸多硅谷大亨联合建立的人工智能非营利组织OpenAI,推出了一款可自动生成音乐的机器学习框架....
发表于 2020-05-07 08:41 207次阅读
OpenAI推出Jukebox机器学习框架,可自...

Stripe改进引擎,已实现对全球卡网络的支持

近日,Stripe Inc.在宣布筹集6亿美元的新风险投资近两周后,在其服务阵容中增加了一系列新功能....
发表于 2020-05-06 17:21 518次阅读
Stripe改进引擎,已实现对全球卡网络的支持

关于机器学习和AI解决气候变化的广泛应用

人工智能专家首次创造了一个在气候问题上进行协作的场所,即“气候变化AI”。
发表于 2020-04-30 17:53 179次阅读
关于机器学习和AI解决气候变化的广泛应用

FPGA运算单元如今已能够支持高算力浮点

随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行....
发表于 2020-04-30 11:31 245次阅读
FPGA运算单元如今已能够支持高算力浮点

如何利用人工智能技术来发现并设计药物

在具有里程碑意义的发展中,使用人工智能(AI)创建的第一种药物已进入其第一阶段试验。
发表于 2020-04-30 10:34 290次阅读
如何利用人工智能技术来发现并设计药物

齐鲁彩票研究人员通过AI和机器人来治疗手部震颤疾病

研究人员开发了一种机器学习模型,该模型可以使机器人安全地治疗与神经退行性疾病相关的手部震颤。
发表于 2020-04-29 17:29 292次阅读
研究人员通过AI和机器人来治疗手部震颤疾病

数据爆炸时代:加速AI落地中的困境

在这一背景下,IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书,重新审视数据科学的定义....
发表于 2020-04-29 16:31 617次阅读
数据爆炸时代:加速AI落地中的困境

利用技术对抗新型冠状病毒

人工智能和机器学习为这种策略提供了希望。例如,由于发烧是COVID-19的重要早期症状,因此国内一直....
发表于 2020-04-29 14:32 738次阅读
利用技术对抗新型冠状病毒

齐鲁彩票亚马逊利用AI和机器学习来提供更好的查询服务

在举行的ACM SIGIR人类信息交互与检索会议上接受的预印本中,亚马逊研究人员描述了一种系统,该系....
发表于 2020-04-28 17:39 107次阅读
亚马逊利用AI和机器学习来提供更好的查询服务

python人工智能/机器学习基础是什么

python人工智能——机器学习——机器学习基础...
发表于 2020-04-28 14:46 61次阅读
python人工智能/机器学习基础是什么

机器学习对于物联网存在什么意义

几乎没有什么像机器学习那样能够推动物联网大幅增长,无论是激发人类的创造力,超越人类的效率,还是为更新....
发表于 2020-04-28 11:47 209次阅读
机器学习对于物联网存在什么意义

利用磁性组件物理可降低能耗改善大数据处理所需算法...

研究结果描述了考克雷尔学院电气与计算机工程系的助理教授让·安妮·Incorvia与二年级研究生Can....
发表于 2020-04-27 17:11 601次阅读
利用磁性组件物理可降低能耗改善大数据处理所需算法...

物联网互联设备可以赋能制造业吗

IIoT还可以预测机器何时可能发生故障或其使用寿命将要结束。通过向设施所有者节省数千美元的不必要的维....
发表于 2020-04-27 14:49 98次阅读
物联网互联设备可以赋能制造业吗

安富利将向其亚太区客户推广和销售Mipsolog...

安富利首款采用该解决方案的产品,将是基于Zebra的赛灵思Alveo数据中心加速器卡。未来产品的范围....
发表于 2020-04-27 14:45 369次阅读
安富利将向其亚太区客户推广和销售Mipsolog...

你的身边哪些地方发现了物联网的影子

物联网最基本的用途之一是从不同的对象(设备)收集数据,并实时传送数据或存储数据以供以后使用,如分析目....
发表于 2020-04-27 11:25 109次阅读
你的身边哪些地方发现了物联网的影子

企业电气系统为什么采用机器学习技术

机器学习技术在企业电气系统中的工作和维护中发挥重要作用,人们需要了解采用机器学习的益处。
发表于 2020-04-26 17:59 343次阅读
企业电气系统为什么采用机器学习技术

Microsoft France加强了其营销和运...

在Laurence Lafont的领导下,Microsoft France的营销与运营部门的主要职责....
发表于 2020-04-26 16:08 1198次阅读
Microsoft France加强了其营销和运...

齐鲁彩票一项新的机器学习技术已由国际科学团队测试

大型强子对撞机每秒产生约4000万次碰撞。借助如此庞大的数据进行筛选,需要强大的计算机来识别科学家可....
发表于 2020-04-26 14:49 323次阅读
一项新的机器学习技术已由国际科学团队测试

高度智能的AI以及无负面数据的机器学习

RIKEN高级智能项目中心(AIP)的研究团队成功开发了一种新的机器学习方法,该方法可让AI在没有所....
发表于 2020-04-26 14:38 283次阅读
高度智能的AI以及无负面数据的机器学习

机器学习具有将医学与计算机科学相结合的重要作用

筑波大学的研究人员创建了一个新的人工智能程序,用于对老鼠的睡眠阶段进行自动分类,该程序结合了两种流行....
发表于 2020-04-26 11:42 227次阅读
机器学习具有将医学与计算机科学相结合的重要作用

通过机器学习发现帕金森病患者治疗的新颖方法

帕金森氏病(PD)的标志之一就是震颤。这种非自愿运动障碍会干扰患者的写作和饮食等活动,从而降低其生活....
发表于 2020-04-26 11:31 499次阅读
通过机器学习发现帕金森病患者治疗的新颖方法

机器学习可以帮助我们理解更多的知识

在医疗保健中一些最重要,最困难的对话是在严重且威胁生命的疾病中发生的对话。
发表于 2020-04-26 11:28 143次阅读
机器学习可以帮助我们理解更多的知识

如何学习机器学习

【吴恩达机器学习】学习笔记13(Normal Equation& 与梯度下降比较)...
发表于 2020-04-26 11:05 64次阅读
如何学习机器学习

齐鲁彩票如何完成机器学习的项目流程和数据清洗

机器学习:完整机器学习项目流程,数据清洗...
发表于 2020-04-26 09:31 79次阅读
如何完成机器学习的项目流程和数据清洗

利用新科学技术来实时捕获3D微结构

材料的现代科学研究在很大程度上依赖于在原子和分子尺度上探索其行为。因此,科学家们一直在寻找新的和改进....
发表于 2020-04-25 11:40 638次阅读
利用新科学技术来实时捕获3D微结构

一种用于早期乳腺癌检测的AI

根据Crunchbase提供的信息,该公司的A轮融资由Dream Incubator和Beenext....
发表于 2020-04-25 09:38 373次阅读
一种用于早期乳腺癌检测的AI

一种新的机器学习模型让医生确定非典型导管增生是否...

表现最佳的模型是精度为78%的梯度增强树和精度为77%的随机林。此外,决定ADH升级为癌症的最重要的....
发表于 2020-04-25 09:36 304次阅读
一种新的机器学习模型让医生确定非典型导管增生是否...

使用机器学习来开发和测试一种败血症筛查工具

美国和英国的一些医疗保健组织已经转向AI解决方案来解决患者的败血症并防止致命的后果。去年11月,马萨....
发表于 2020-04-25 09:34 279次阅读
使用机器学习来开发和测试一种败血症筛查工具

实测!AlexNet卷积核在FPGA占90%资源...

尽管最初为AlexNet图像和内核大小配置了MLP_Conv2D设计,但是2D卷积是一个通用过程,因....
发表于 2020-04-25 09:26 823次阅读
实测!AlexNet卷积核在FPGA占90%资源...

机器学习超参数的如何选择

机器学习:超参数的选择,余弦距离vs欧式距离vs曼哈顿距离...
发表于 2020-04-24 07:58 90次阅读
机器学习超参数的如何选择
新浪彩票 齐鲁彩票 爱乐透彩票 众盈彩票APP 新华彩票