繁体
而
神通过爬虫搜集来的数据肯定是海量的,至少是t级别的,就是跑到p级别也不算是什么大事。比如1p的数据,它大概相当于250万
电影。人的一生也不过3万天,每天看十
电影,也足够看十辈
的了。
莫回想了想,他最终选定了c ,因为这
语言更加靠近底层和汇编,整
执行效率和速度比较好。
比如我们手机的存储容量可能是4g,笔记本的存储容量可能是400g,而一台笔记本的400g大概相当于一千
电影。
现在超级本的运算能力已经获得验证了,应该是比较超常的,但是它的存储能力还未测试,如果存储能力不成的话,莫回还必须为这海量数据寻找一个存储空间。
好在莫回多少算是业内人士,这些事基本算得上是本职工作,无非就是项目经理、产品经理、主程、架构一肩挑了。难是难了
,工作量大是大了
,但是好歹还算有解决办法,只要沿着
路一步步走,总会有完成的那一天。
莫回开始在网上寻找和筛选合用的开源
件,将那些基本符合要求的c 开发的
件全
下载下来,各自先归类存储起来。
本来这些事就是
给一个公司
理,一个成熟的团队来
理,都未必能够
理得很好,现在莫回需要一个人搞定,并且很可能必须不显山不漏
的一个人搞定,这里面的难度就可想而知了。
工作量不小,不过也不是没有捷径可走,莫回
开网页,开始搜集他需要的开源
件。他去开源之家搜了一下,开源的爬虫就有有一百多个,里面估计会有合用的。
五大模块他都简单的搜了一下,大多数都还有类似的可替代
件,现在他需要
的就是在里面找到最合适的哪一款,然后修改后
行组装。
在计算机领域,数据大小的单位是1024
制的,一个字节为byte,1024字节为kb,1024k为m,1024m为g,1024g为t。
首先需要选择开发语言,各
语言都有自己的适用范围和优缺
,一旦选定了,那么五大模块都需要是同一个语言开发
来的才行,这样也方便组装和拓展开发。
诸如此类的问题还有很多,如果莫回想要把
神完成,并且上线运行,那么他必须像是老黄
一样,勤勤恳恳的往前走,把这些挡路石一个个的全
理掉。
等莫回将合用的三十多个各类爬虫全
下载下来的时候夜已经
了,莫回
僵
的脖颈,伸伸懒腰,不由得为今后的日
哀叹:要拼老命了啊,上班拼命回家也要拼命,这是要把自己当驴使唤啊~~~
起来,那么莫回必然还将面临着带宽的问题,爬虫一旦跑起来,海量数据就会被传回,这些数据至少也是t级的。
想想未来的前路,莫回
觉好像是登珠峰一样,好
啊~~~
在如此大量的数据面前,莫回必然面临一个带宽问题,很容易想象,
租屋里的小区宽带肯定是不好使的。