中国开发网: 论坛: 程序员情感CBD: 贴子 254077
bjwf
对每个字索引哪些文章里出现过它.
比如,出现过 "中" 字的文章有:1,3,5
出现过 "国"字的文章有 1,5,8

要查"中国"的话{1,3,5} {1,5,8}取个交集,然后在这些文章里做字符串匹配,一般就能满足性能需求了.

进一步提高性能的话,对每个字可索引以下记录
文章号[出现在哪篇文章里] 段落号 位置号

这样只查索引就可以做全文检索了.

这种方案的缺点一是索引数据太大,二是不好做分词技术.
试图在互联网上划出国界的举动是愚蠢的!!!
把人当成猪羊圈养,草料永远都不够!把人当人待,人有无限的创造力! “人口减少一半,人们两倍富有”的观念为“一种非常糟糕的自甘堕落—这背后的潜台词是,似乎中国人是封闭围栏中的动物,对周围那些自己赖以生存的资源,除了咀嚼,别无办法。”

我的像册:http://picasaweb.google.com/bjwf2000/
我的主页: http://bjwf2000.googlepages.com/

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录