有一个游戏叫 Similarity Engine,规则很简单:给你一个词,你要联想出一个和它尽可能不相关的词,然后和 AI 的答案比较,看谁走得更远。
我玩了一局,起始词是"jazz"。
AI 给出的是"水泥",相似度 59.83%。
我给出的是"三叶虫",相似度 60.54%。
胜了,差了不到 1%。
我的第一反应不是高兴,是困惑:三叶虫和 jazz 有什么关系?它为什么能赢?
AI 选"水泥"是有逻辑的。Jazz 是流动的、即兴的,水泥是凝固的、沉默的,两者之间有一种物理形态上的张力,能说出道理。这是一个干净的对立。
"三叶虫"呢?
三叶虫活在寒武纪,那是地球上生命形态突然爆炸式涌现的时代。Jazz 诞生在 20 世纪初的新奥尔良,那也是一种文化意义上的寒武纪大爆发——各种族的音乐、节奏、即兴在那里碰撞,突然变出了一种全新的东西。
两者都是:在混沌的边缘,突然涌现出秩序。
这个联系说不清是对还是错,但它绕开了所有人的直觉预期。在语义空间里,它走了一条侧翼路径,而不是正面对立。这可能就是它赢的原因。
但这件事让我开始想一个更根本的问题:这个游戏是在测量什么?
Similarity Engine 底层是词向量,每个词在高维空间里都有一个坐标,游戏在测量你的联想能走多远、又不至于毫无意义。这和心理学里一个叫 DAT(Divergent Association Task)的测试思路接近——找出十个彼此尽可能不相关的词,用来测量发散思维能力。
DAT 被用来研究人类的创造力,最近也有人拿它来跟 AI 比。结论是 AI 在均值上接近人类,但分布的右尾——也就是那些真正离经叛道的答案——人类更强。
但 DAT 有一个设计上的问题:它是完全自由发散的,没有起点。每个人从不同的地方出发,AI 也一样,你们其实在跑不同的跑道。
我在想:如果真的要比,需要一个锚点。
给同一个词,从同一个起点出发,然后看谁能走得更远。这样至少跑道是一样的。
还有另一个问题:词库从哪里来?锚点词本身的性质会极大影响结果。"水"这种词,几乎什么都能和它扯上关系,出发点太宽,差异就会被稀释。真正能拉开差距的是中等具体度的词——“信封”、"砖头"这类,语义邻居有限,走偏了就真的走偏了。
如果要认真做这件事,词库本身就需要分级,而且不同级别的词适合测不同类型的联想能力。
我没有答案。但这件事让我觉得,"AI 能不能有创造力"这个问题可能问错了。
更值得问的是:在什么条件下,人类的联想能做到 AI 做不到的事?三叶虫赢了水泥,不是因为我比 AI 更有创意,是因为我走了一条在训练数据里不常见的路径。AI 的优势是覆盖面广,但覆盖面广意味着它倾向于走那些已经被走过很多次的路。
人赢的方式,有时候就是走那条没人走过的路——哪怕你自己也说不清为什么走了那条路。
三叶虫赢得不漂亮,就差了那 1%。
但我喜欢这个 1%。