你凭啥剔除这些原始数据?你要说明啊。
信号领域,三倍方差以上的,你能以信号异常的理由剔除。
实际的自然科学中,都是野外实测数据,你都没有理由以三倍方差剔除,因为那不是异常数据,那是实际数据。
当然理论上,你可以说具体场景应用效果好,你有什么手段识别出这些特定场景,来适合你的方法?
很多时候,剔除这些数据,结果是会好很多很多,但是没理由,也没有手段能剔除。
搞模型迁移,也要用真是获取的实测数据来检验模型。
剔除数据的模型,必然遭受重大挫折。
【 在 zhengyuluck 的大作中提到: 】
: 不造假是很清晰明确的。
: 一个行业标准的数据集,我说这些数据有XX特征,基于这个特征我做了什么什么优化获得好的性能。但是数据集中某些数据显然是不具备这些特征的,我把这些数据剔除,或者把数据集的一个子类全部删除。然后,也说了我的算法只在某类场景下有效。在我提供的数据下,算法和标准算法的结果能反复重现。但是在标准集下就是不行。
: 但是实际上,我的算法总是预测错误一些数据,剔除这些数据,结果就好很多。
: ...................
--
FROM 159.226.84.*