百度新闻,机器学习:处理不平衡数据的5个重要技能,辛德勒名单

点击上方重视,All in AI我国

数据散布不平衡是机器学习工作流中的一个重要问题。所谓不平衡微商署理的数据集,意思便是两个类中一个类的实例比另一个要高,换句话说,在一个分类数据集之中,一切类的调查值的数量是不一样的。这个问题不只存在于二进制类数据中,也存在于多类数据中。

本文中将列出一些重要的技术,帮助您处理百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单不平衡的数据。

1、过采样(Oversampling)

此技术用于修正不相等的数据类以创立平衡的数据集。当数据量缺乏时,过采样法经过增大稀有样本的巨细来到达平衡。

过采样的一种首要技术是SMOTE(组成少量过采样技术,Synthetic Minority Over-sampling TEchnique)。在这种技术中,少量类是经过生成组成算例而百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单不是经过替换来进行过采样的,并且关于每一个少量类的调查值,它都计算出k最近邻(k-NN)。但这种办法仅限于假定恣意两个正实例之间的部分空间归于少量类、练习数据不是线性可分的情况下,这种假定或许并不总是正确的宾语从句。依据所需的过采样量,随机挑选k-NN的邻域。


优势

无信息丢掉

削减过度采样引起的过拟合。

深化研究SMOTE技术,请点蜜蜡多少钱一克击 https://arxiv.org/pdf/1106.1813.江苏省中医药研究院pdfhttps://arxiv.org/pdf/1106.1813.pdf

2、欠采样(Unders黄山旅行攻略ampling)

与过采样不同,这种技术经过削减类的数量来处理一个不平衡的数据集。分类问题有多种办法,如聚类中心和Tomek links。聚类中心办法用K-means算法的聚类中心替代样本的聚类;Tomek link办法去除类deliver之间步氏神族不需要的堆叠,直到一切最小间隔的最近邻都归于同一个类。


优势

能够经过诚拾壹家削减无可奈何花落去练习数据集的数量来改善运行时。

有助于处理回忆问题

有关欠采样的更多信息妖孽,请单击 https://towardsdatascience.com/under-sampling-a-performance-boos欧美熟女ter-on-imbalanced-data-a79ff1559fab

3、成百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单本灵敏学习技术(Cost-Sensitive Learning)

本钱灵敏学习(CSL)经过最小化总本钱来将误分类本钱参加考虑要素中,这种技术的方针首要是寻求将实例分类为一组已知类时的高精度,它在机器学习算法中发挥着重要的效果,包含实践数据发掘类使用。

该办法将FP(False Positive)、FN (False Negative)、TP (True Positiv百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单e)、TN (True Negative)的本钱表明为本钱矩阵,如下图所示,其间C(i,j)表明对实例进行分类的误分类本钱,“i”为猜测类,“j”为实践类。这是一个二元分类的本钱矩阵的比如。


优势

该办法避免了参数的预先选台北择和决议计划超平面的主动调整。

深化了解CSL技术,请单击 这儿 。

4、集成学习技术(Ensemble Learning)

这个依据集成的办法是处理不平衡数据集古文观止的另一种技术,集成技术是将多个分类器的成果或功能结合起来,以进步单个分类器的功能。该办法经过安装不同的分类器来修正单个分类器的概括才能。它首要结合了多个根底学习器的输出。集成学习有多种办法,如Ba百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单gging、Boosting等。

Bagging(Bootstrap Aggregating),企图在较小的数据集上完成类似的学习器,然后取一切猜测的平均值。Boosting (Adaboost)是一种迭代技术,它依据最终的分类调整调查值的权重。该办法削减了偏置差错,建立了较强的猜测模型。

优势

这是一个更安稳的模型

猜测成果更好

了解有关此技术的更多信息,请单击 此处 。

5、组合类办法(Combined Class Methods)

该办法百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单将各百度新闻,机器学习:处理不平衡数据的5个重要技术,辛德勒名单种办法组合在一起,能够更好宝宝奶名地处理不平衡数据。例如,SMOTE能够与其他办法进行组合,如MSMOTE (Modified SMOTE)、SMOT素颜EENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等,来消除不平衡数据会集的噪声。MSMOTE是SMOTE的改善版别,它将少量类的样本分为三类,如安全样本、埋伏噪声样本和鸿沟样本。魔法俏佳人

优势

不丢掉有用信息

很好的概括春日偶成

编译出品

原文作者:AMBIKAbutter CHOUDHURY 来历:Ana毛囊炎图片lytics India Magazine