A non-binary, refused-to-specify-ethnicity, untokenizable, age-redacted mayor(ess)

今天刷到一篇帖子：问各种LLM "市长的女儿叫市长什么"，有些AI回答叫爸爸，而有些AI回答叫爸爸或者妈妈。

我试了试 Opus 4.6，问了两次，一次是中文，一次是英文。中文总是叫爸爸，并且在我问了一次 "确定？" 之后还是这么说，而英文说：

"Dad" (or "Mom")! Regardless of their official title, the mayor’s daughter would just call them their parent — not "Mr. Mayor" or "Madam Mayor."

It’s a classic riddle that plays on the expectation of a more complicated answer.

看似是一个女权议题，也是一个AI议题，但是挺引起我的思考的。

我本想回答，因为transformer的"智能"或者"本质"是通过语料训练而获得的下一个词语出现的概率，而由于历史上的语料基本上都是男市长居多，所以出现爸爸的概率大也非常正常。

引申出了两个问题：

不同语言带来的局限性到底有多高？中文中，市长其实是模糊了词语的阴性阳性。如果英语中，男女市长是十分严格的mayor和mayoress，那么这个问题一定不会被混淆。这是否代表着语言对思考的局限比我们想象的大得多？是否该有这么一种语言，区分阴性阳性单数复数等等一些被我们人类所忽视的维度，给LLM更高的智能呢？
如果回答我们简单的用预训练模型的去解释，那LLM超越人类的智能似乎就不可能，甚至那些难题的解决我们似乎也摸不着头脑：脑筋急转弯似乎会是LLM的新的图灵检验。

然后在写下第二个问题的一半的时候，我又很好奇市长、mayor、mayoress的分词是怎么样的？对于GPT来说：

市长是两个token，男市长、女市长都是三个token，也很合理，都是Unicode。
mayor是两个token，may+or。mayoress是三个token，m+ayo+ress。
mr mayor是两个token，madam mayoress是4个（mad+am+mayo+ress），madam mayor是3个（mad+am+mayor）。

后记：

在我把上述的思考抛给LLM讨论之后，得到一些挺有意思的反馈（和我自己的思考）：

GPT 4.5: 假设存在一种"更精细"的语言，能在性别、数目、时间甚至抽象程度上给出精准的标记，这会给LLM的认知带来怎样的提升？其实，这本质上在做一件事情：减少模型认知中的模糊性和不确定性。不过，在降低模糊性的同时，这种语言也可能牺牲了灵活性与泛化能力。人类语言天然的模糊性与不确定性，某种意义上恰恰是创造力与类比推理的源泉。越是精确的语言，越接近于一种机器编码，反而可能抑制LLM类比推理、创造性推理的潜能。因此，语言的精细程度与思考深度之间，或许存在一个复杂的权衡关系。
GPT 4.5: GPT类模型使用的tokenizer（如byte-pair encoding, BPE）本身并不是为理解"语义单元"而设计的，它本质上是一种数据压缩算法，主要优化的是编码效率，而非语义精确性。
原帖中讨论的是男女市长，但对于那些non-binary的性别呢？不是在打拳或者钻牛角尖，市长的女儿叫市长"爸爸"或者"妈妈"本身就是一个偏见，为什么她不能叫"父母"，或者叫他们其他东西？这是人类社会的规训，或者是一种约定俗成的东西不是吗？
GPT 5.4 Pro 进度条: 这个例子真正暴露的，未必是"AI不会做题"，而更像是"AI在语义欠定时，会用分布先验去补全空白"。这其实和人类很像，只是模型的先验更容易被看见。
GPT 5.4 Pro: 先纠正一个很关键的前提：英语里的 mayor 本身就是性别中性的，现代词典直接定义成 "a person …"；而 mayoress 在英式英语里一方面可以指女性市长，另一方面也可以指市长的妻子。也就是说，你观察到的英中文差异，并不能简单解释成"英语有 mayor / mayoress 这套严格性别词，所以不会混淆"。现代英语在这里其实并没有你设想的那种特别干净的形态学区分。
GPT 5.4 Pro: 语言改变了注意力分配、默认补全和信息显著性，但通常不是智力的硬上限。
GPT 5.4 Pro: 所以，“要不要发明一种把阴性阳性、单复数、格、时态之类都显式标出来的语言，让 LLM 更聪明？” 我的答案是：未必。更显式的标记当然会让一部分信息更容易被模型直接读到，但它也会引入更高的表面稀疏性、更复杂的词形变化、更多的数据需求。多语言 tokenizer 研究已经显示，同一句话换个语言，token 长度差异可以夸张到十几倍；而词表里给某种语言留多少“本语 token”，又会直接影响词级任务表现。可另一方面，2025 年一项把同构同数据的 mT5 和 ByT5 拿来做对照的研究又发现，subword 和 character-level 这两种非常不同的切分方式，在经过若干层之后可以学到近似水平的形态知识。也就是说，表面编码很重要，但它不是魔法按钮；把更多维度硬塞进自然语言表面形式，并不会自动兑换成更高层的智能。

2026-04-12

../