- 主题:问大家个机器学习的问题
-  机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
 
 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
 --
 FROM 111.207.25.*
 
-   还有个验证集,是在验证集上调超参数。
 
 【 在 aczo 的大作中提到: 】
 :  机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
 :  可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
 --
 FROM 61.150.12.*
 
- 意义小一些,但比没意义强吧
 
 【 在 aczo 的大作中提到: 】
 : 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。: 可实际工作中,也是对着测试集调一些超参数,直到
 
 - 来自 水木社区APP v3.5.7
 --
 FROM 120.15.36.*
 
- 这个不就是指望模型能从已知的数据集中学习到泛化的能力么?
 也就是已知数据中有些特征,在未发生的数据中,也是存在的,也满足同样的概率分布之类的
 【 在 aczo 的大作中提到: 】
 : 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
 :  可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
 --
 FROM 115.45.111.*
 
- 有作弊嫌疑,但一般认为测试集与未知样本同分布,马马虎虎可以过得去
 
 【 在 aczo 的大作中提到: 】
 : 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
 :  可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
 --
 FROM 221.217.27.*
 
- 但问题是,有的超参在测试集上结果会比较好,有的超参结果就不太好,
 
 能直接用结果好的超参在生产环境里么
 
 【 在 newidyu 的大作中提到: 】
 : 有作弊嫌疑,但一般认为测试集与未知样本同分布,马马虎虎可以过得去
 
 - 来自 水木说
 --
 FROM 106.39.151.*
 
- 所以一般用cross validation来搞,选超参数
 
 【 在 aczo 的大作中提到: 】
 : 但问题是,有的超参在测试集上结果会比较好,有的超参结果就不太好,
 : 能直接用结果好的超参在生产环境里么
 :
 : ...................
 --
 FROM 221.217.27.*
 
- 【 在 aczo 的大作中提到: 】
 : 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
 :  可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
 
 训练集, 测试集和验证集是这样划分的,
 测试集和验证集, 前者是为了应对数据中存在的数据误差, 这种误差来源于数据的不平衡和不平稳,
 从而采用的一种数据增强和平稳化手段。 不平衡是说, 有些数据, 比如分十类, 某一两类数据非常
 稀少, 从而影响机器学习算法学习到。
 而验证集,是为了应对模型误差, 不同超参对应的模型, 可以看成是不同的模型,
 这种模型间的差异, 无法通过学习的数据量的增加或者迭代的增加, 而更好的消除。
 --
 FROM 124.126.3.*