温嘉琪的博客 / Similarity Engine：我赢了 AI，然后开始想一个更难的问题

有一个游戏叫 Similarity Engine，规则很简单：给你一个词，你要联想出一个和它尽可能不相关的词，然后和 AI 的答案比较，看谁走得更远。

我玩了一局，起始词是"jazz"。

AI 给出的是"水泥"，相似度 59.83%。

我给出的是"三叶虫"，相似度 60.54%。

胜了，差了不到 1%。

我的第一反应不是高兴，是困惑：三叶虫和 jazz 有什么关系？它为什么能赢？

AI 选"水泥"是有逻辑的。Jazz 是流动的、即兴的，水泥是凝固的、沉默的，两者之间有一种物理形态上的张力，能说出道理。这是一个干净的对立。

"三叶虫"呢？

三叶虫活在寒武纪，那是地球上生命形态突然爆炸式涌现的时代。Jazz 诞生在 20 世纪初的新奥尔良，那也是一种文化意义上的寒武纪大爆发——各种族的音乐、节奏、即兴在那里碰撞，突然变出了一种全新的东西。

两者都是：在混沌的边缘，突然涌现出秩序。

这个联系说不清是对还是错，但它绕开了所有人的直觉预期。在语义空间里，它走了一条侧翼路径，而不是正面对立。这可能就是它赢的原因。

但这件事让我开始想一个更根本的问题：这个游戏是在测量什么？

Similarity Engine 底层是词向量，每个词在高维空间里都有一个坐标，游戏在测量你的联想能走多远、又不至于毫无意义。这和心理学里一个叫 DAT（Divergent Association Task）的测试思路接近——找出十个彼此尽可能不相关的词，用来测量发散思维能力。

DAT 被用来研究人类的创造力，最近也有人拿它来跟 AI 比。结论是 AI 在均值上接近人类，但分布的右尾——也就是那些真正离经叛道的答案——人类更强。

但 DAT 有一个设计上的问题：它是完全自由发散的，没有起点。每个人从不同的地方出发，AI 也一样，你们其实在跑不同的跑道。

我在想：如果真的要比，需要一个锚点。

给同一个词，从同一个起点出发，然后看谁能走得更远。这样至少跑道是一样的。

还有另一个问题：词库从哪里来？锚点词本身的性质会极大影响结果。"水"这种词，几乎什么都能和它扯上关系，出发点太宽，差异就会被稀释。真正能拉开差距的是中等具体度的词——“信封”、"砖头"这类，语义邻居有限，走偏了就真的走偏了。

如果要认真做这件事，词库本身就需要分级，而且不同级别的词适合测不同类型的联想能力。

我没有答案。但这件事让我觉得，"AI 能不能有创造力"这个问题可能问错了。

更值得问的是：在什么条件下，人类的联想能做到 AI 做不到的事？三叶虫赢了水泥，不是因为我比 AI 更有创意，是因为我走了一条在训练数据里不常见的路径。AI 的优势是覆盖面广，但覆盖面广意味着它倾向于走那些已经被走过很多次的路。

人赢的方式，有时候就是走那条没人走过的路——哪怕你自己也说不清为什么走了那条路。

三叶虫赢得不漂亮，就差了那 1%。

但我喜欢这个 1%。