[阅读: 507] 2005-12-07 03:10:19
比如,出现过 "中" 字的文章有:1,3,5
出现过 "国"字的文章有 1,5,8
要查"中国"的话{1,3,5} {1,5,8}取个交集,然后在这些文章里做字符串匹配,一般就能满足性能需求了.
进一步提高性能的话,对每个字可索引以下记录
文章号[出现在哪篇文章里] 段落号 位置号
这样只查索引就可以做全文检索了.
这种方案的缺点一是索引数据太大,二是不好做分词技术.
试图在互联网上划出国界的举动是愚蠢的!!!
把人当成猪羊圈养,草料永远都不够!把人当人待,人有无限的创造力! “人口减少一半,人们两倍富有”的观念为“一种非常糟糕的自甘堕落—这背后的潜台词是,似乎中国人是封闭围栏中的动物,对周围那些自己赖以生存的资源,除了咀嚼,别无办法。”
我的像册:
http://picasaweb.google.com/bjwf2000/
我的主页:
http://bjwf2000.googlepages.com/