博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
样本类别比例严重失衡
阅读量:6092 次
发布时间:2019-06-20

本文共 483 字,大约阅读时间需要 1 分钟。

在机器学习中我们经常会遇到一个比较让人头疼的问题,就是样本类别比例失衡,在我第一次参加的Kaggle的比赛中,是一个而分类问题,给定的训练集样本中正负样本的比例大致达到惊人的1:1600。

通过网上搜集资料,其实针对这样的情况解决办法可以分为三种:

第一种:

   将正向样本进行重复混入训练样本中

   因为训练的指引来自损失函数,损失函数的影响因素分别来自 1错分为0  和0错分为1 ,当通过重复正向样本增加比例后,相当于增加了在训练时对1错判为0的权重,也就增加了损失函数的修正性。

第二种:

   增加损失函数中正样错判的权重:

   原理与第一种做法原理类似

第三种:

   bagging模式:

   具体做法为,例如正负样本比例为1:10 ,将负样本分为9份,每一份负样本与正样本合并为一个正负比例为1:1的训练样本,对9个训练样本集进行分别的训练,得到9个模型,然后用9个模型进行分别的预测并将各自的结果综合决策出最终的训练结果。

   

   

 

转载于:https://www.cnblogs.com/crawer-1/p/8878237.html

你可能感兴趣的文章
解读自定义UICollectionViewLayout--感动了我自己
查看>>
SqlServer作业指定目标服务器
查看>>
UnrealEngine4.5 BluePrint初始化中遇到编译警告的解决办法
查看>>
User implements HttpSessionBindingListener
查看>>
抽象工厂方法
查看>>
ubuntu apt-get 安装 lnmp
查看>>
焊盘 往同一个方向增加 固定的长度方法 总结
查看>>
eclipse的maven、Scala环境搭建
查看>>
架构师之路(一)- 什么是软件架构
查看>>
jquery的冒泡和默认行为
查看>>
Check failed: error == cudaSuccess (7 vs. 0) too many resources requested for launch
查看>>
USACO 土地购买
查看>>
【原创】远景能源面试--一面
查看>>
B1010.一元多项式求导(25)
查看>>
10、程序员和编译器之间的关系
查看>>
前端学习之正则表达式
查看>>
配置 RAILS FOR JRUBY1.7.4
查看>>
AndroidStudio中导入SlidingMenu报错解决方案
查看>>
http://www.blogjava.net/pdw2009/archive/2007/10/08/151180.html
查看>>
hadoop(6)---mapred-site.xml 详解以及常用配置。
查看>>