我不做vla,不太清楚里面具体实现
这听上去像是模型的级联了(cascading),过去十年的实践已经充分证明了,模型级联效果就是不如e2e好
我以前组的老大,一直觉得级联好,从产品角度考虑,中间有输出便于debug,然后被搞llm研究的组打脸,你产品不用e2e,人家发natrue论文,最后我们整个组都被重组,老大离职
总而言之一句话,模型是朝着越来越黑盒的方向前进的
【 在 BIGDADY111 的大作中提到: 】
:
: 现在靠RL吧?
: 另外有没有语言的区别在于,是否能通过语言高效抽象理解世界,语言是否能作为输入token影响最终输出
: 比如理想前一代VLA,可以通过语言影响ACTION,比如命令超车,靠边停车,往前50米什么的,识别到路口防御驾驶降速啥的
: 只是由LLM输出实现得不好,L部分效率不高。
#发自zSMTH@24129PN74C
--
FROM 114.246.239.*