A non-binary, refused-to-specify-ethnicity, untokenizable, age-redacted mayor(ess)

今天刷到一篇帖子:问各种LLM "市长的女儿叫市长什么",有些AI回答 叫爸爸,而有些AI回答 叫爸爸或者妈妈。

我试了试 Opus 4.6,问了两次,一次是中文,一次是英文。中文总是叫爸爸,并且在我问了一次 "确定?" 之后还是这么说,而英文说:

"Dad" (or "Mom")! Regardless of their official title, the mayor’s daughter would just call them their parent — not "Mr. Mayor" or "Madam Mayor."

It’s a classic riddle that plays on the expectation of a more complicated answer.

看似是一个女权议题,也是一个AI议题,但是挺引起我的思考的。

我本想回答,因为transformer的"智能"或者"本质"是通过语料训练而获得的下一个词语出现的概率,而由于历史上的语料基本上都是男市长居多,所以出现爸爸的概率大也非常正常。

引申出了两个问题:

  1. 不同语言带来的局限性到底有多高?中文中,市长其实是模糊了词语的阴性阳性。如果英语中,男女市长是十分严格的mayor和mayoress,那么这个问题一定不会被混淆。这是否代表着语言对思考的局限比我们想象的大得多?是否该有这么一种语言,区分阴性阳性单数复数等等一些被我们人类所忽视的维度,给LLM更高的智能呢?
  2. 如果回答我们简单的用预训练模型的去解释,那LLM超越人类的智能似乎就不可能,甚至那些难题的解决我们似乎也摸不着头脑:脑筋急转弯似乎会是LLM的新的图灵检验。

然后在写下第二个问题的一半的时候,我又很好奇市长、mayor、mayoress的分词是怎么样的?对于GPT来说:

后记:

在我把上述的思考抛给LLM讨论之后,得到一些挺有意思的反馈(和我自己的思考):

  1. GPT 4.5: 假设存在一种"更精细"的语言,能在性别、数目、时间甚至抽象程度上给出精准的标记,这会给LLM的认知带来怎样的提升?其实,这本质上在做一件事情:减少模型认知中的模糊性和不确定性。不过,在降低模糊性的同时,这种语言也可能牺牲了灵活性与泛化能力。人类语言天然的模糊性与不确定性,某种意义上恰恰是创造力与类比推理的源泉。越是精确的语言,越接近于一种机器编码,反而可能抑制LLM类比推理、创造性推理的潜能。因此,语言的精细程度与思考深度之间,或许存在一个复杂的权衡关系。
  2. GPT 4.5: GPT类模型使用的tokenizer(如byte-pair encoding, BPE)本身并不是为理解"语义单元"而设计的,它本质上是一种数据压缩算法,主要优化的是编码效率,而非语义精确性。
  3. 原帖中讨论的是男女市长,但对于那些non-binary的性别呢?不是在打拳或者钻牛角尖,市长的女儿叫市长"爸爸"或者"妈妈"本身就是一个偏见,为什么她不能叫"父母",或者叫他们其他东西?这是人类社会的规训,或者是一种约定俗成的东西不是吗?
  4. GPT 5.4 Pro 进度条: 这个例子真正暴露的,未必是"AI不会做题",而更像是"AI在语义欠定时,会用分布先验去补全空白"。这其实和人类很像,只是模型的先验更容易被看见。
  5. GPT 5.4 Pro: 先纠正一个很关键的前提:英语里的 mayor 本身就是性别中性的,现代词典直接定义成 "a person …";而 mayoress 在英式英语里一方面可以指女性市长,另一方面也可以指市长的妻子。也就是说,你观察到的英中文差异,并不能简单解释成"英语有 mayor / mayoress 这套严格性别词,所以不会混淆"。现代英语在这里其实并没有你设想的那种特别干净的形态学区分。
  6. GPT 5.4 Pro: 语言改变了注意力分配、默认补全和信息显著性,但通常不是智力的硬上限。
  7. GPT 5.4 Pro: 所以,“要不要发明一种把阴性阳性、单复数、格、时态之类都显式标出来的语言,让 LLM 更聪明?” 我的答案是:未必。 更显式的标记当然会让一部分信息更容易被模型直接读到,但它也会引入更高的表面稀疏性、更复杂的词形变化、更多的数据需求。多语言 tokenizer 研究已经显示,同一句话换个语言,token 长度差异可以夸张到十几倍;而词表里给某种语言留多少“本语 token”,又会直接影响词级任务表现。可另一方面,2025 年一项把同构同数据的 mT5 和 ByT5 拿来做对照的研究又发现,subword 和 character-level 这两种非常不同的切分方式,在经过若干层之后可以学到近似水平的形态知识。也就是说,表面编码很重要,但它不是魔法按钮;把更多维度硬塞进自然语言表面形式,并不会自动兑换成更高层的智能。
../