从我的角度看,找一个case太容易了。
很多论文都会拿各大模型跑评测集,总会有A模型不好B模型好的case,找单个case很容易且不太说明问题。
对于普通用户,都能解决大部分问题,正确率83%还是85%用户的体验并不明显。
当我们用大模型蒸馏数据的时候,会生产某个类别下的大量数据,这时会发现不同模型对于某一类任务的表现有差异,我们往往会对一个任务评估一下各模型的表现,再决定用哪个模型大规模生产数据。
【 在 sunsungll 的大作中提到: 】
: 握手!
: 11楼有人也说了一个case,说ds强.
: 但是整个楼没有人列出某个出豆包强的cases
: ...................
--
FROM 219.143.199.*