中国开发网: 论坛: 程序员情感CBD: 贴子 621508
王中王: 抓虾博客让的文章:
以上是大家看得到的升级和改进,还有很多大家看不到的升级和改进
这一年,抓虾的后台架构和服务进行了大规模的升级

存储:ZStorage,抓虾自己开发了分布式的存储系统,用来存储海量数据,抓虾的文章数已经接近了7亿篇,每天还在疯狂增长,数据量早就超过了 1 TB。感谢大牛工程师CL为我们带来稳定的存储系统。

抓取:ZSpider,400万博客、接近7亿篇文章背后,是抓虾强大的分布式Spider,融合几十种抓取策略,多种页面分析算法与内容抽取算法,无论是普通网页、RSS、论坛页面甚至JS脚本,都可以应付自如。当然,这个spider也是由抓虾工程师用一行一行代码写出来的。

搜索:有了这么多数据,怎么找呢?ZIndex,三个工程师用一个月的时间,开发了抓虾的分布式、高效灵活的检索系统,性能可比主流搜索引擎,为抓虾用户提供TB 级海量数据的检索。

缓存:抓虾自己开发的分布式缓存 ZCache,命中率只能用一个字来形容——舒服。这么精彩的作品,感谢大牛工程师dasheng。

还有监控、统计、报警…..

无论是存储、抓取、检索还是缓存、监控、统计等,都是抓虾自己开发的,为什么我们不用开源软件而是自己“从轮子造起”呢?我们也曾尝试使用开源软件或在其基础上修改,但是面对海量数据时,已有的产品都或多或少的不能满足我们的需求,为了追求高效灵活的应用,我们只好自己开发。自己动手,丰衣足食,嘿嘿。
http://wangzw.wordpress.com/
个性化台历、日历制作
http://shop33697570.taobao.com/

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录