Re: 胆战心惊问问造假的定义和边界

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇

主题:Re: 胆战心惊问问造假的定义和边界
geostar|2026-05-11 12:50:41|
你凭啥剔除这些原始数据？你要说明啊。
信号领域，三倍方差以上的，你能以信号异常的理由剔除。
实际的自然科学中，都是野外实测数据，你都没有理由以三倍方差剔除，因为那不是异常数据，那是实际数据。

当然理论上，你可以说具体场景应用效果好，你有什么手段识别出这些特定场景，来适合你的方法？

很多时候，剔除这些数据，结果是会好很多很多，但是没理由，也没有手段能剔除。
搞模型迁移，也要用真是获取的实测数据来检验模型。
剔除数据的模型，必然遭受重大挫折。

【在 zhengyuluck 的大作中提到: 】
: 不造假是很清晰明确的。
: 一个行业标准的数据集，我说这些数据有XX特征，基于这个特征我做了什么什么优化获得好的性能。但是数据集中某些数据显然是不具备这些特征的，我把这些数据剔除，或者把数据集的一个子类全部删除。然后，也说了我的算法只在某类场景下有效。在我提供的数据下，算法和标准算法的结果能反复重现。但是在标准集下就是不行。
: 但是实际上，我的算法总是预测错误一些数据，剔除这些数据，结果就好很多。
: ...................
--
FROM 159.226.84.*

上一篇|下一篇|同主题上篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版