知识波动观的数学表达(二)

至此,我们有了一个最粗略的框架 (G, thumb V, salve S) 来刻画波动的知识颗粒;我们可以描述颗粒震动的幅度或者频率,但除此以外,这个框架无法给我们更多的信息,因为颗粒彼此之间是孤立的。

现实的人类思维,概念之间是有丰富的关系的;凭借这个关系网络,人们可以进行缜密的理性思维或者产生复杂的审美体验。那么对应到这个模型,我们必须要给 G 赋予一些更加丰富的结构,然后考察这些结构会在 V 和 S 上诱导出什么?反过来 S 的一一对应,又会给 G 施加一定的限制。

从常识出发,我觉得下面三种结构最为重要:

  • 拓扑结构:表达词义的远近,如“朱”与“红”是相近的;
  • 序结构:表达概念的类属层次,如“唐太宗”是“男性”的;
  • 集合代数:可用于表达“唐太宗”属于“男性”和“皇位”的交集这样的描述。

我们知道 Google 的 word2vec 模型有很优美的正则性,其实正则性就是集合代数的一种表现; word2vec 模型也有拓扑结构,可是却看不到概念层次的序结构。

所以,这三种结构会和框架 (G,V,S) 相容吗?这是一个有必要考察的问题。

另一个问题是 S 是一一对应和实际情况不符,一词多义的情况很常见。从简化的角度讲,框架 (G,V,S) 可以接受,但在实际计算之前,必须要解决一词多义。

框架 (G,V,S) 描述的事情非常像编字典,那么是不是这个思路会把我们引导到一个像 WordNet + Word2Vec 的工具上呢?

发表评论

电子邮件地址不会被公开。 必填项已用*标注