+
29
-

回答

不一样。同一个中英混合文本,在不同大模型里算出的 token 数量通常不一致,原因在于"分词规则"不同。

你可以把 token 想象成模型识字的最小单位。英文方面,有的模型把 "unhappy" 拆成 "un" + "happy"(2个token),有的直接认作1个;中文差异更大:有的模型按字切("你好"=2 token),有的按词切("你好"=1 token),还有的混合处理。中英混合时,空格、标点、数字的归属规则也不同,进一步拉大差距。

举个栗子

网友回复

我知道答案,我要回答