好望角:
数据到不复杂,基本上可以认为是4000亿个元素的一个大数组。实时指的发出计算指令到得到结果的时间很短
[阅读: 577] 2010-02-10 12:54:50
算法不太复杂,但业务逻辑比较多,不能预先处理出中间结果,必须利用原始数据计算。
记录的尺寸为240个字节。
存储空间为 240 * 4000亿(以后至少是4万亿)。一次计算通常要访问2T数据,最小访问60G,最坏情况需要访问全部数据,约为100T(以后是1PB)。
现在正在研究解决缩小IO的算法。
尚未对CPU的能力评估,就目前而言,瓶颈在磁盘IO通道,CPU比较闲。
目前亟需提高IO吞吐能力。
老板给我的资料上,写着只需要一台Dell P701服务器,8G RAM,6 * 450G硬盘。刚看到的时候恶寒中,这可是要拿出去投标的东西。