网上看了很多关于异常值处理,缺失值填充的文章,感觉有些简单化处理了。。不知道是否我自己钻牛角尖了。。
我手头有一组数据,其中数据是不同企业各自的数据记录。其中不少记录是有异常值和缺失值的。
1. 不同企业之间差别较大,异常值的判定,需要通过对企业分组进行判定。换句话说,一个数值在这个企业可能是正常值,而对另外一个企业可能就是异常值。
2. 关于缺失值的填充,同样存在类似问题。。不同企业之间的数据差别可能较大,如果数据填充时,用简单的均值或是线性插值法填充,就会导致数据填充的可信度较低。我个人以为,也应该按照企业分组来进行分别填充处理。
我不知道是否我的想法有些极端了,亦或是本身数据处理就不必思考过多。毕竟数据本身就很可能存在不少异常或缺失情况,而有些模型对异常或缺失值又并不敏感。。
想请教下各位,具体数据处理过程中,是怎样做呢?