CNDEV
CNDEV.ORG
当前在线
论坛
CBD
程序员情感CBD
程序员见面交流会
CBD开发区
Java/J2ME
.NET/C#
数据库
Delphi/BCB
Visual C
其它
修真养身
中国象棋
纪念日
谈钱太俗,还是投机吧
听音乐
iCosta
资源共享
一隅
好文共赏
看电影看美剧
待定
狗屎
雪域召唤
工作流
专业显摆区
语录
情感
批评与自我批评
爱情故事
发牢骚
看三点区
游戏
CNDEV-CS/WOW
浩宇长空
生活
家有XPH
我爱学英语
美食天地ORG
半调子体育迷
观澳园友邻
搞笑奇文
拍照片
我读书我存在
论坛系统
超级垃圾站
系统建议及BUG
系统测试
中国开发网
: 论坛:
程序员情感CBD
: 贴子 716052
十方
: 在一个很大的区域内有一个网络(当然不是互联网),上面有Web网站
[阅读: 475] 2009-04-17 02:59:05
<空>
相关信息:
有人能给我推荐网络所搜引擎公司和产品吗?想购买现成可靠的产品用于内网搜索
(空) (
十方
[539]
2009-04-17 00:06
)
google和百度
(空) (
玉楼
[465]
2009-04-17 00:22
)
他们提供内网搜索那种企业产品吗?
(空) (
十方
[442]
2009-04-17 01:32
)
不知道
(空) (
玉楼
[476]
2009-04-17 01:50
)
Doug Cutting, Lucene, Nutch
(45字)
(
sealw
[579]
2009-04-17 00:36
)
全文检索?
(空) (
Apache
[491]
2009-04-17 01:03
)
TRS 我用过,还不错,
(20字)
(
Apache
[525]
2009-04-17 01:04
)
你真的用过trs吗?真用过没有说不错的...
(空) (
virushuo
[489]
2009-04-17 04:40
)
废话,我当然真用过
(空) (
Apache
[463]
2009-04-17 05:17
)
如果六间房的视频搜索是你们做的,我感觉trs 比你们搜的准
(空) (
Apache
[522]
2009-04-17 05:19
)
我们的涉及用户的用法和需求。搜索不仅仅是准就行了的。
(空) (
virushuo
[469]
2009-04-17 05:48
)
可能我的想法不是太专业,我觉得搜的快,搜的准就行了
(空) (
Apache
[478]
2009-04-17 05:55
)
不是全文检索,是搜索引擎,前者是具体技术,后者是整体解决方案
(空) (
十方
[493]
2009-04-17 01:36
)
没明白你的意思
(空) (
Apache
[465]
2009-04-17 01:41
)
找火炬,银杏搜索啊
(空) (
wzydf
[476]
2009-04-17 01:16
)
具体些的功能需求是?word/pdf等搜不搜?
(空) (
乌烟
[482]
2009-04-17 01:43
)
网页?数据库?
(空) (
乌烟
[428]
2009-04-17 01:49
)
要在内网搜什么?员工硬盘上的搜不搜?
(空) (
乌烟
[536]
2009-04-17 01:51
)
http://red-piranha.sourceforge.net/
(空) (
乌烟
[540]
2009-04-17 01:53
)
Last Update: Oct 28 2007
(空) (
newbee
[437]
2009-04-17 02:20
)
为什么你最近推荐的东西都系英文的。
(空) (
十方
[455]
2009-04-17 02:32
)
向sealw牛学习
(空) (
乌烟
[473]
2009-04-17 02:37
)
互相学习
(空) (
sealw
[486]
2009-04-17 05:40
)
谢谢你的热心和支持。我们有一个内网,上面有不少站点,想做一个搜索,你说的网页、word、pdf、数据库系统都有的,员工没有共享出来的东西就不搜索了
(空) (
十方
[534]
2009-04-17 02:29
)
咯咯,这样的啊,开源方案挺多的。
(空) (
乌烟
[510]
2009-04-17 02:37
)
开源的引擎和商业的还是有很大差距的
(空) (
Apache
[441]
2009-04-17 02:46
)
以我的经验是,引擎的质量直接决定搜索的质量,引擎最重要,周边的东西都可以自己搭,DIY个爬虫这些都不难
(空) (
Apache
[488]
2009-04-17 01:54
)
这个也是外行说的。除了效率,所有的引擎都是一样的。所有都是反向索引+位运算。所有所有所有的引擎都是一样的,没有任何区别。
(空) (
virushuo
[574]
2009-04-17 05:51
)
个人认为搜索引擎的搜索结果是否准确在于分词算法,这直接决定了搜索引擎是否好用
(91字)
(
Apache
[540]
2009-04-17 06:02
)
您也别把一堆名词堆在一起吧。。。啥叫机械分词,啥叫统计分词啊?
(空) (
virushuo
[455]
2009-04-17 06:08
)
自己Google去吧
(空) (
Apache
[484]
2009-04-17 06:22
)
再补充一个语义分词,可以一并看一下
(空) (
Apache
[447]
2009-04-17 06:22
)
大牛外包吧
(空) (
Apache
[459]
2009-04-17 02:10
)
不是外包,是购买成熟产品
(空) (
十方
[508]
2009-04-17 02:30
)
卖引擎的公司都有很多方案供你选择,只是钱多钱少和需求符合度的问题了
(65字)
(
Apache
[546]
2009-04-17 02:49
)
别害人了。
(空) (
virushuo
[453]
2009-04-17 04:41
)
为什么说我害人?你用过这个产品?
(空) (
Apache
[399]
2009-04-17 05:05
)
我不仅用过,还找了他们一个bug,他们不肯改,我只好自己hack 了一下,打了个补丁。就他们那2下子,也就政府机关敢用,反正只是为花钱找个接口。
(空) (
virushuo
[516]
2009-04-17 05:48
)
可能我们用的版本不同吧,6.0以上还是不错的
(41字)
(
Apache
[523]
2009-04-17 05:58
)
拜托,几万个1秒还值得说嘛...几百万个也不应该超过1秒啊....
(空) (
virushuo
[480]
2009-04-17 06:06
)
哦,对了,trs没法在一个库放几百万文档
(空) (
virushuo
[470]
2009-04-17 06:07
)
这个资料不在手,不敢肯定,不过可以自动分库这一点是肯定的。
(空) (
Apache
[518]
2009-04-17 06:14
)
很遗憾,我没有那么大压力的应用场景作测试,也只能说说我实际测试过的性能
(空) (
Apache
[543]
2009-04-17 06:08
)
几万文档,用这种技术都可惜了,直接在数据库里面like都挺好的。。
(空) (
virushuo
[500]
2009-04-17 06:09
)
此言差矣了,难道全文检索就是数据库 like %
(20字)
(
Apache
[470]
2009-04-17 06:12
)
几万文档用like足够了,体现不出来任何全文搜索的优点,太少了。
(空) (
virushuo
[541]
2009-04-17 06:17
)
。
(空) (
Apache
[444]
2009-04-17 06:18
)
doc,pdf什么的导入,那才真是没技术含量的事呢。跟搜索引擎没任何关系。
(空) (
virushuo
[526]
2009-04-17 06:18
)
是这样的,都没有技术难度,只要有时间都可以搞定
(14字)
(
Apache
[586]
2009-04-17 06:20
)
这东东我也写过一个,还真是个纯体力活
(空) (
pinxue
[462]
2009-04-17 09:55
)
1、有一个内网,上面有N个Web站点 2、个站点内容比较杂 3、能自动抓取和搜索这些网站上面的内容 4、具有一定的定制和改进能力
(空) (
十方
[443]
2009-04-17 02:34
)
如果只是抓取网站内容,那好办,页面相关的内容的内容呢?企业性质的搜索不要求共享出来的文档?
(空) (
乌烟
[392]
2009-04-17 02:40
)
在一个很大的区域内有一个网络(当然不是互联网),上面有Web网站
(空) (
十方
[474]
2009-04-17 02:59
)
区域指的是?
(空) (
乌烟
[419]
2009-04-17 03:05
)
看到了一个:Google Search Appliance
(空) (
十方
[462]
2009-04-17 02:57
)
昨天也看到了,mini 的价格似乎是3K 多 $
(空) (
Apache
[427]
2009-04-17 03:05
)
但是国内好像没有卖的
(空) (
十方
[447]
2009-04-17 03:10
)
ginkgotek.com 不过内网我们不做。呵呵。
(空) (
virushuo
[422]
2009-04-17 04:37
)
唉啊
(空) (
十方
[455]
2009-04-17 06:05
)
autonomy
(空) (
C007
[446]
2009-04-17 05:05
)
我准备下个月喊autonomy,ibm过来进行交流。主要就是搜索引擎、存储方面的。
(空) (
C007
[483]
2009-04-17 05:09
)
是在不行就忽悠这些公司了,不过有些不甘心
(空) (
十方
[358]
2009-04-17 06:05
)
乌烟说的没错,你这个需求,找几个开源项目堆一下就可以了。当然如果钱很富裕,另论。
(空) (
virushuo
[437]
2009-04-17 06:10
)
我不懂Java技术啊,看来要请乌烟吃饭了,给我启蒙一下
(空) (
十方
[449]
2009-04-17 06:35
)
有一个问题没有说清楚,所以导致大家都方向稍有偏差
(14字)
(
十方
[545]
2009-04-17 09:48
)
要是价钱合适,我们倒是可以考虑。不做内网的原因是维护成本太高了。
(空) (
virushuo
[508]
2009-04-17 10:02
)
那赶紧得外包得了
(16字)
(
pinxue
[471]
2009-04-17 10:05
)
丢我们吧,全方位一体化解决, 软硬件全包, 开发和后期维护服务全有....
(空) (
dead_lee
[422]
2009-04-17 11:20
)
不知道google的桌面搜索能不能扩展一下,符合你的需求。。。。。。。
(105字)
(
haitao
[541]
2009-04-17 12:01
)
盘符有个数上限的。
(空) (
zhong
[464]
2009-04-17 14:03
)
那就用一个samba客户端,把所有的机器的共享目录都作为它的一系列目录。。。。。
(108字)
(
haitao
[478]
2009-04-17 14:49
)
找virushuo牛的银杏吧。
(9字)
(
龙之吻
[417]
2009-04-20 12:46
)
最近找了些autonomy ,ominfind的资料。哪个大牛用过。说说
(空) (
C007
[499]
2009-04-21 03:06
)
autonomy还不如用海量呢,分词应该也是海量的。海量我倒是可以介绍给你。如果需要的话。
(空) (
virushuo
[622]
2009-04-21 03:29
)
CSDN用的好像也是海量?
(空) (
乌烟
[404]
2009-04-21 03:30
)
csdn是免费的,支持也不怎么样。海量的问题是,东西不错,但产品做的不好,但是让他们做项目,他们给支持还可以。
(64字)
(
virushuo
[545]
2009-04-21 03:32
)
海量? 你说autonomy用的海量的分词算法吗?
(空) (
C007
[406]
2009-04-21 03:56
)
搜了一下。国内公司的产品就不用考虑了
(空) (
C007
[419]
2009-04-21 04:02
)
中文和英文的分词算法思路有很大差异的。
(36字)
(
Apache
[576]
2009-04-21 05:08
)
这个不是关键
(空) (
C007
[369]
2009-04-21 06:33
)
那关键是?
(空) (
Apache
[351]
2009-04-21 06:37
)
能忽悠住人的
(空) (
C007
[384]
2009-04-21 07:03
)
明白了
(空) (
Apache
[388]
2009-04-21 07:04
)
从技术角度,除了分词还有啥子需要重点关注的!
(空) (
C007
[392]
2009-04-21 07:12
)
全文检索
(空) (
龙之吻
[427]
2009-04-21 11:48
)
.
(空) (
Apache
[375]
2009-04-21 12:32
)
BS
(空) (
C007
[408]
2009-04-22 03:11
)
欢迎光临本社区,您还没有登录,不能发贴子。请在
这里登录