您当前的位置:网站首页>翅膀符号,机器学习:处理不平衡数据的5个重要技能,矢志不渝

翅膀符号,机器学习:处理不平衡数据的5个重要技能,矢志不渝

2019-04-08 21:28:28 投稿作者:admin 围观人数:180 评论人数:0次
点击上方重视,All in AI我国

数据散布不平衡是机器学习工作流中的一个重要问题。所谓梁红玉擂鼓战金山不平衡的数据集,意思便是两个类中一个类的实例翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝比另一个要高,换句话说,在一个分类数据集之中,一切类的调查值的数量是不一样的。这个问题不只存在于二进制失败乃成功之母类数据中,也存在于多类数据中。

本文中将列出一些重要的技术,帮助您处理不平衡的数据。

机器学习:处理不平衡数据的5个重要技术

1、过采样(Oversamplin订单号查询g)

此技术用于修正不相等的数据类以创立平衡的数据集。当数据量缺乏时,过采样法经过增大稀有样本的巨细来到达平衡。

过采样的一种首要技术是SMOTE(组成少量过采样技术,Sy钟祥论坛nthetic Minority Over-sampli李承乾ng TEchnique)。在这种技术中,少量类是经过生成组成算例而不是经过替换来进行过采样的,并且关于色皇宫每一个少量类的调查值,它都计算出k最近邻(k-NN)。但这种办法仅限于假收束之地设恣意两个正实例之间的部分空间归于少量类、练习数据不是线性可分的状况阿姨拼音下,这种假定或许并不总是正确的。依据所需的过采样量,随机挑选k-NN的邻域。


机器学习:处理不平衡数据的5个重要技术

优势

无信息丢掉

削减过度采样引起的过拟合。

深化研究SMOTE技术,请点击 https://arxiv.org/pdf/11rtx06.1813.pdfhttps://arxiv.org/pdf/1106.1813.pdf 。

2、欠采样(Undersampling)

与过采样不同,这种技术经过削减类的数量来处理一个不平衡的数据集。分类问题有多种办法,如聚类中心和Tomek links。聚类中心办法用K-mea年月静好是什么意思ns算法的聚类中心替代样本的聚类;Tomek link办法去除类之间不需要的堆叠,直到一切最小间隔的最近邻都归于同一个类。


优势

能够经过削减练习数据集的数量来改善运行时。

有助于处理回忆问题

有翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝关欠采样的更多信息,请单袁知鹏击 https://towardsdatascience.com/under-sampling-a-performance-boneedoster-on-imbalanced-data-a79ff1559fab

3、本钱灵敏学习技术(Cost-Sensitive Learning)

本钱灵敏学习(CSL)经过最小化总本钱来将误分类本钱参加考虑要素中,这种技术的方针首要是寻求将实例分类为一组已知类时的高精度,它在机器学习算法中翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝发挥着重要的效果,包含实践数据发掘类使用。

该办法将FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的本钱表明为本钱矩阵,如下图所示,其间C(i,j)表明对实例进行分类的误分类本钱,“i”为猜测类,“j”为实践类。这是一个二元分类的本钱矩翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝阵翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝的比如。


优势

该办法避免了参数的预先挑选和决议计划超平面的主动调整。

深化了解CSL技术,请单击 这儿 。

4、集成学习技术(E翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝nsemble Learning)

这个依据集成的办法是处理不平衡数据集的另一种技术,集成技术是将多个分吴江天气预报类器的成果或功能结合起来,以进步单个分类器的功能。该办法经过安装不同的分类器来修正单个分类器的概括才能。它首要结合了多个根底学习器的输出迷羊。集成学习有多种办法,如Bagging、Boosting等。

Bagg逐鹿民国ing(Bootstrap Aggregating),企图在较小的数据集上完成类似的学习器,然后取一切猜测的平均值。Boosting (Adaboost)是一种迭代技术,它依据最终的分类调整调查值的权重天海佑希。该办法削减了偏置差错,建立了较强的猜测模型。

优势

这是一个更安稳的模型

猜测成果更好

了解有关此技术的更多信息,请单击 此处 。

5、组合类办法(Combined Class Methods)

该办法将各种办法组合在一起,能够更好地处理不平衡数据。例如,SMOTE能够与其他办法进行组合,如M企业信息SMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等,好段来消除不平衡数据摩羯座男生会集的噪声。MSMOTE是SMOTE的改善版别,它将少量类翅膀符号,机器学习:处理不平衡数据的5个重要技术,矢志不渝的样本分为三类,如安全样本、埋伏噪声样本和鸿沟样本。

优势

不丢掉有用信息

很好的概括

编译出品

原文作者:AMBIKA CHOUDHURY 来历:Analytics India Magazine

the end
中年婚姻的真相,每个案例还原美好爱情