- 主题:胆战心惊问问造假的定义和边界
我剔除几个异常数据,或者对一些数据做些标准化归一化但我不提这些预处理过程。这算造假吗?
或者我已经明确说我的算法在某个应用场景下特别有效。然后在我提供的数据集下,就是比常用算法强,经得起检验,这算数据造假吗?
--
FROM 60.247.5.*
数据处理是有标准的,相差几个方差算离散点,置信区间多少。这方面的问题也很难查,主要靠自己。
个人觉得最重要的是可重现性,在你提供的条件下能百分之多少重现你的结果。
对计算机数学之类的学科来说比较容易做重复实验,生化环材医就难多了。一方面本身影响因素众多,一些因素本身不可控,包括操作者的技术能力;另一方面成本太高,一篇文章的成本动辄几十上百万,就好像制造业开发个产品可能几百万或者几千万就够了,但做个新药十个亿可能都不够。
【 在 zhengyuluck 的大作中提到: 】
: 我剔除几个异常数据,或者对一些数据做些标准化归一化但我不提这些预处理过程。这算造假吗?
: 或者我已经明确说我的算法在某个应用场景下特别有效。然后在我提供的数据集下,就是比常用算法强,经得起检验,这算数据造假吗?
--
FROM 218.249.94.*
前面那种不说剔除,不说剔除原则,就算,后面那种归一化,不算。
经得起检验,你要有依据。
只有拿一批全新的数据,进行检验,能通过才算。
【 在 zhengyuluck 的大作中提到: 】
: 我剔除几个异常数据,或者对一些数据做些标准化归一化但我不提这些预处理过程。这算造假吗?
: 或者我已经明确说我的算法在某个应用场景下特别有效。然后在我提供的数据集下,就是比常用算法强,经得起检验,这算数据造假吗?
--
FROM 159.226.84.*
数据预处理要讲啊,包括你做这些操作的依据是什么,是不是在研究中保持了处理的一致性。不讲不算造假,但不合适,如果你知道这些操作影响结论但你刻意忽视,算学术不端
【 在 zhengyuluck 的大作中提到: 】
: 我剔除几个异常数据,或者对一些数据做些标准化归一化但我不提这些预处理过程。这算造假吗?
: 或者我已经明确说我的算法在某个应用场景下特别有效。然后在我提供的数据集下,就是比常用算法强,经得起检验,这算数据造假吗?
: --
:
: FROM 60.247.5.* [北京–朝阳区 中国数码港科技有限公司BGP节点]
--发自 ismth(丝滑版)
--
FROM 58.240.105.*
你有帽子吗?没有没人管你
【 在 zhengyuluck 的大作中提到: 】
: 我剔除几个异常数据,或者对一些数据做些标准化归一化但我不提这些预处理过程。这算造假吗?
: 或者我已经明确说我的算法在某个应用场景下特别有效。然后在我提供的数据集下,就是比常用算法强,经得起检验,这算数据造假吗?
--
FROM 39.170.2.*
不造假是很清晰明确的。
一个行业标准的数据集,我说这些数据有XX特征,基于这个特征我做了什么什么优化获得好的性能。但是数据集中某些数据显然是不具备这些特征的,我把这些数据剔除,或者把数据集的一个子类全部删除。然后,也说了我的算法只在某类场景下有效。在我提供的数据下,算法和标准算法的结果能反复重现。但是在标准集下就是不行。
但是实际上,我的算法总是预测错误一些数据,剔除这些数据,结果就好很多。
【 在 geostar 的大作中提到: 】
: 前面那种不说剔除,不说剔除原则,就算,后面那种归一化,不算。
: 经得起检验,你要有依据。
: 只有拿一批全新的数据,进行检验,能通过才算。
: ...................
--
FROM 60.247.5.*
总有些没有自知之明的青椒出来博存在感,人家打击杰青呢,
他跳出来问“我这算不算?”
也不照照镜子。
【 在 geostar 的大作中提到: 】
: 前面那种不说剔除,不说剔除原则,就算,后面那种归一化,不算。
: 经得起检验,你要有依据。
: 只有拿一批全新的数据,进行检验,能通过才算。
: ...................
--
FROM 39.170.2.*
也有找普通人的,一般是公众号,让你花钱买软件。
以前都是这么搞,耿同学这种掀桌子第一次见
【 在 carbon 的大作中提到: 】
: 总有些没有自知之明的青椒出来博存在感,人家打击杰青呢,
: 他跳出来问“我这算不算?”
: 也不照照镜子。
: ...................
--
FROM 121.28.82.*
你凭啥剔除这些原始数据?你要说明啊。
信号领域,三倍方差以上的,你能以信号异常的理由剔除。
实际的自然科学中,都是野外实测数据,你都没有理由以三倍方差剔除,因为那不是异常数据,那是实际数据。
当然理论上,你可以说具体场景应用效果好,你有什么手段识别出这些特定场景,来适合你的方法?
很多时候,剔除这些数据,结果是会好很多很多,但是没理由,也没有手段能剔除。
搞模型迁移,也要用真是获取的实测数据来检验模型。
剔除数据的模型,必然遭受重大挫折。
【 在 zhengyuluck 的大作中提到: 】
: 不造假是很清晰明确的。
: 一个行业标准的数据集,我说这些数据有XX特征,基于这个特征我做了什么什么优化获得好的性能。但是数据集中某些数据显然是不具备这些特征的,我把这些数据剔除,或者把数据集的一个子类全部删除。然后,也说了我的算法只在某类场景下有效。在我提供的数据下,算法和标准算法的结果能反复重现。但是在标准集下就是不行。
: 但是实际上,我的算法总是预测错误一些数据,剔除这些数据,结果就好很多。
: ...................
--
FROM 159.226.84.*