集算器实现外部数据并行计算

admin 科技 2019-06-17

文本并行

SPL可将文本文件按体积大致分为N段,只读取其中一段。比如cardInfo.txt存储着一千万条人口信息,将其分为十份,取第二份,代码可以写作:

集算器实现外部数据并行计算

按体积大致分段,而不是按行数精确分段,目的是提高分段性能。比如在IDE中观察A2或A3的前几个字段,可以看到行数并非精确的100万(与具体数据有关):

集算器实现外部数据并行计算

分段读取可应用于多线程计算,从而提高读取性能。比如用2个线程分别读取cardInfo.txt,各线程计算本段行数,最后合并为总行数,可用如下代码:

版权声明

本文仅代表作者观点,不代表华奇网立场。
本文系作者授权华奇网发表,未经许可,不得转载。

喜欢发布评论
留言与评论(共有 条评论)
   
验证码: