对每个字索引哪些文章里出现过它. <- 中国开发网

CNDEV.ORG

当前在线

论坛

CBD
- 程序员情感CBD
- 程序员见面交流会
CBD开发区
- Java/J2ME
- .NET/C#
- 数据库
- Delphi/BCB
- Visual C
个人
- 袁国术的个人网站
- 翟旭东网!!!
其它
情感
游戏
- CNDEV-CS/WOW
- 浩宇长空
生活
论坛系统

bjwf：

对每个字索引哪些文章里出现过它.

[阅读: 576] 2005-12-07 03:10:19

比如,出现过 "中" 字的文章有:1,3,5
出现过 "国"字的文章有 1,5,8

要查"中国"的话{1,3,5} {1,5,8}取个交集,然后在这些文章里做字符串匹配,一般就能满足性能需求了.

进一步提高性能的话,对每个字可索引以下记录
文章号[出现在哪篇文章里] 段落号位置号

这样只查索引就可以做全文检索了.

这种方案的缺点一是索引数据太大,二是不好做分词技术.

相关信息:

[技术帖]有谁研究过全文索引的索引结构？就是如何将词或短语与关键字对应的数据结构，比如 (1007字) (李战 [948] 2005-12-07 10:40)
- 我很多年前做过.我当时的做法是按字索引. (空) (bjwf [452] 2005-12-07 10:42)
  - 我比较倾向这种方法 (37字) (hmaik [545] 2005-12-07 12:57)
- 用函数不可以吗比如sqlserver的 CHARINDEX (空) (咔波碧宝 [606] 2005-12-07 10:45)
  - 查询条件中使用了函数的SQL语句，多半都无法使用数据库本身的索引。要知道全文索引的记录数是非常庞大的。 (空) (李战 [775] 2005-12-07 10:52)
- 这样建索引有点大了吧，你分析整个文章呢，文章中的句子都要分词吧 (268字) (sonfly [735] 2005-12-07 10:51)
  - 当然要先分成词或短语。想了一下，如果按字索引，怎么能方便判断“中国开发网”刚好排成“中国开发网”呢？那个位置判断不好弄吧？ (空) (李战 [556] 2005-12-07 10:59)
    - 对每个字索引哪些文章里出现过它. (200字) (bjwf [575] 2005-12-07 11:10)
      - 有意思，受教了，多谢。 (空) (李战 [412] 2005-12-07 11:26)
        忽然发现我说的跟你们说的可能意思不一样,我做的是类似于 MS 的 index server的东东,没用数据库,针对一些目录里的一大堆文本文件 (空) (bjwf [515] 2005-12-07 11:35)
        这个用关系数据库并不合适 (空) (holly [379] 2005-12-07 11:56)
        刚才做了试验，真的不适合关系数据库来做。SQL Server并不是先根据字索引生成小的交集，然后再like '%***%'的。 (空) (李战 [571] 2005-12-07 13:49)
        这个一般的做法是自己按倒排文件组织数据的 (空) (holly [432] 2005-12-07 14:08)
    - 中国开发网　你接到这个查询　先要　分析它。 (83字) (sonfly [448] 2005-12-07 11:15)
- 问题 (52字) (holly [419] 2005-12-07 11:09)
  - 我觉得不能。。如果是like 'a***%'可能还能用到 (空) (老玉米 [362] 2005-12-07 11:11)
    - 你看花了, 这里的 * 不是指通配符 (空) (holly [389] 2005-12-07 11:15)
      - 多年不用，不记得通佩符是什么了。那我觉得肯定可以用到索引。 (空) (老玉米 [576] 2005-12-07 11:17)
        哪位给实际试试啊. (8字) (holly [398] 2005-12-07 11:17)
        每装，那位装了可以用查询分析器看看就知道了 (空) (老玉米 [388] 2005-12-07 11:19)
        我记得是可以的，不过你这么一说，我真得试试了 (空) (李战 [413] 2005-12-07 11:19)
        确信可以！执行计划里面清晰显示用到索引！ (空) (李战 [448] 2005-12-07 11:24)
        应该可以，如果是我设计数据库，索引的物理结果决定实现这样的功能是很容易的 (9字) (老玉米 [575] 2005-12-07 11:27)
        世上大部分事情是没道理的 (467字) (holly [471] 2005-12-07 11:30)
        这种破烂货就不要提了。我现在是不相信什么免费的数据库的 (空) (老玉米 [463] 2005-12-07 11:31)
        开源的不行啊 (空) (李战 [398] 2005-12-07 11:33)
        行的。不用试了。我一直用它，价格便宜量又足 (空) (没脾气2x [378] 2005-12-07 14:24)
    - 就是这个意思啊，***代表查询的关键字嘛 (空) (李战 [395] 2005-12-07 11:15)
  - ms sql可以的，但是'%***', '%***%'是不行的 (空) (Miracle [424] 2005-12-07 12:09)

欢迎光临本社区，您还没有登录，不能发贴子。请在这里登录

页面内容处理时间: 0.015 - 511528