Google 每天处理约 20000TB 的数据 <- 中国开发网

Google 每天处理约 20000TB 的数据

ugmbbc发布于 2008-11-24 07:27:29|4362 次阅读字体：大小打印预览

感谢35公里的投递
新闻来源:google blog
Google 热衷于处理全球的信息，每天，他们花费大量时间探索更好的信息整理技术，他们目前使用的技术为 MapReduce，这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力，MapReduce 是 Google 日常数据处理的完美技术方案。

Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣，并获得经验和教训，以改进下一代数据处理技术。

目前，Google 的每 TB 数据处理能力为，在1000台计算机中处理 1TB 数据的时间为68秒（使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中），以前的表现为 910 台电脑 209秒。

但 Google 要处理的数据远超过 TB 级，因此，Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍，或者，形象一点说，1PB 数据相当于 2008 年5月，美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示，Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

有一个有趣的问题，就是，如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中（每个只利用了部分空间），每次进行数据整理，至少有一个硬盘坏掉（鉴于处理的时长，硬盘的数目和硬盘本身的寿命，这并不奇怪），因此，为了保证数据安全，Google 将每份数据都在不同的硬盘上写三份。

本文国际来源：http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html
中文翻译：COMSHARP CMS

我的blog：http://szhaitao.blog.hexun.com & http://www.hoolee.com/user/haitao

－－以上均为泛泛之谈－－不尽牛人滚滚来，无边硬伤纷纷现人在江湖飘（出来混的），哪能不挨刀（总归是要还的）
网络对话，歧义纷生；你以为明白了对方的话，其实呢？

您所在的IP暂时不能使用低版本的QQ，请到：http://im.qq.com/下载安装最新版的QQ，感谢您对QQ的支持和使用

CNDEV.ORG

论坛

相关信息: