中国开发网: 论坛: 程序员情感CBD: 贴子 254077
bjwf
对每个字索引哪些文章里出现过它.
比如,出现过 "中" 字的文章有:1,3,5
出现过 "国"字的文章有 1,5,8

要查"中国"的话{1,3,5} {1,5,8}取个交集,然后在这些文章里做字符串匹配,一般就能满足性能需求了.

进一步提高性能的话,对每个字可索引以下记录
文章号[出现在哪篇文章里] 段落号 位置号

这样只查索引就可以做全文检索了.

这种方案的缺点一是索引数据太大,二是不好做分词技术.

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录