[技术帖]有谁研究过全文索引的索引结构？就是如何将词或短语与关键字对应的数据结构，比如 <- 中国开发网

CNDEV.ORG

当前在线

论坛

CBD
- 程序员情感CBD
- 程序员见面交流会
CBD开发区
- Java/J2ME
- .NET/C#
- 数据库
- Delphi/BCB
- Visual C
个人
- 袁国术的个人网站
- 翟旭东网!!!
其它
情感
游戏
- CNDEV-CS/WOW
- 浩宇长空
生活
论坛系统

中国开发网: 论坛: 程序员情感CBD: 贴子 254051

李战：

[技术帖]有谁研究过全文索引的索引结构？就是如何将词或短语与关键字对应的数据结构，比如

[阅读: 951] 2005-12-07 02:40:23

从文本中分出一个短语“中国开发网”，怎样来保存这个短语与ID之间的关系。如果考虑用关系数据的表来存，应该怎样存。

估计肯定有两个Word和ID字段，并建立相关索引

方案1 只存一条记录
Word ID
--------------------
中国开发网 ID1

这种情况用Word like '***%'的方法，只能查到“中，中国，中国开，中国开发，中国开发网”，查不到中间的信息（肯定不能用 like '%***%'，因为这不能用到Word字段上的索引）。这种方案估计不行。

方案2 存从后往前的组合纪录
Word ID
--------------------
中国开发网 ID1
国开发网 ID1
开发网 ID1
发网 ID1
发网 ID1
网 ID1

这样，用Word like '***%' 就能查到相关ID。但记录数确增加很多（记录数与短语长度成正比），索引表的空间也将增加很多。

方案2 用HASH值的全组合纪录
CRC(Word) ID
--------------------
CRC(中国开发网) ID1
CRC(中国开发) ID1
CRC(中国开) ID1
CRC(中国) ID1
CRC(中) ID1
CRC(国开发网) ID1
CRC(国开发) ID1
CRC(国开) ID1
CRC(国) ID1
CRC(开发网) ID1
CRC(开发) ID1
CRC(开) ID1
CRC(发网) ID1
CRC(发) ID1
CRC(网) ID1
这种方案，记录数等于从1累加到短语长度的数目，但用了HASH，相对可以加少数据量，对于较长的短语有优势。而在查询时，是把查询的关键字进行相关HASH操作后直接来比较，并非like。直接比较，加上比较较短的HASH值，感觉效率不会太低。

英文的全文检索简单多了，汉语真是伟大的语言啊。

以上仅仅是设想和研究，不限范围，欢迎各位大牛来讨论一哈。

相关信息:

[技术帖]有谁研究过全文索引的索引结构？就是如何将词或短语与关键字对应的数据结构，比如 (1007字) (李战 [950] 2005-12-07 10:40)
- 我很多年前做过.我当时的做法是按字索引. (空) (bjwf [453] 2005-12-07 10:42)
  - 我比较倾向这种方法 (37字) (hmaik [548] 2005-12-07 12:57)
- 用函数不可以吗比如sqlserver的 CHARINDEX (空) (咔波碧宝 [607] 2005-12-07 10:45)
  - 查询条件中使用了函数的SQL语句，多半都无法使用数据库本身的索引。要知道全文索引的记录数是非常庞大的。 (空) (李战 [776] 2005-12-07 10:52)
- 这样建索引有点大了吧，你分析整个文章呢，文章中的句子都要分词吧 (268字) (sonfly [737] 2005-12-07 10:51)
  - 当然要先分成词或短语。想了一下，如果按字索引，怎么能方便判断“中国开发网”刚好排成“中国开发网”呢？那个位置判断不好弄吧？ (空) (李战 [557] 2005-12-07 10:59)
    - 对每个字索引哪些文章里出现过它. (200字) (bjwf [576] 2005-12-07 11:10)
      - 有意思，受教了，多谢。 (空) (李战 [413] 2005-12-07 11:26)
        忽然发现我说的跟你们说的可能意思不一样,我做的是类似于 MS 的 index server的东东,没用数据库,针对一些目录里的一大堆文本文件 (空) (bjwf [516] 2005-12-07 11:35)
        这个用关系数据库并不合适 (空) (holly [381] 2005-12-07 11:56)
        刚才做了试验，真的不适合关系数据库来做。SQL Server并不是先根据字索引生成小的交集，然后再like '%***%'的。 (空) (李战 [573] 2005-12-07 13:49)
        这个一般的做法是自己按倒排文件组织数据的 (空) (holly [434] 2005-12-07 14:08)
    - 中国开发网　你接到这个查询　先要　分析它。 (83字) (sonfly [449] 2005-12-07 11:15)
- 问题 (52字) (holly [420] 2005-12-07 11:09)
  - 我觉得不能。。如果是like 'a***%'可能还能用到 (空) (老玉米 [363] 2005-12-07 11:11)
    - 你看花了, 这里的 * 不是指通配符 (空) (holly [391] 2005-12-07 11:15)
      - 多年不用，不记得通佩符是什么了。那我觉得肯定可以用到索引。 (空) (老玉米 [578] 2005-12-07 11:17)
        哪位给实际试试啊. (8字) (holly [399] 2005-12-07 11:17)
        每装，那位装了可以用查询分析器看看就知道了 (空) (老玉米 [390] 2005-12-07 11:19)
        我记得是可以的，不过你这么一说，我真得试试了 (空) (李战 [414] 2005-12-07 11:19)
        确信可以！执行计划里面清晰显示用到索引！ (空) (李战 [449] 2005-12-07 11:24)
        应该可以，如果是我设计数据库，索引的物理结果决定实现这样的功能是很容易的 (9字) (老玉米 [576] 2005-12-07 11:27)
        世上大部分事情是没道理的 (467字) (holly [473] 2005-12-07 11:30)
        这种破烂货就不要提了。我现在是不相信什么免费的数据库的 (空) (老玉米 [466] 2005-12-07 11:31)
        开源的不行啊 (空) (李战 [399] 2005-12-07 11:33)
        行的。不用试了。我一直用它，价格便宜量又足 (空) (没脾气2x [380] 2005-12-07 14:24)
    - 就是这个意思啊，***代表查询的关键字嘛 (空) (李战 [396] 2005-12-07 11:15)
  - ms sql可以的，但是'%***', '%***%'是不行的 (空) (Miracle [426] 2005-12-07 12:09)

欢迎光临本社区，您还没有登录，不能发贴子。请在这里登录

页面内容处理时间: 0.021 - 512432

CNDEV.ORG 2003-2014 | 贴子列表 | 捐助 | | -ICP -IDC -ISP |