基于预散列和索引的MapReduce数据连接处理优化

小型微型计算机系统(2016)

引用 0|浏览12
暂无评分
摘要
针对现有MapReduce在大规模集群上进行海量数据连接处理操作时的效率问题,提出一种基于预散列和索引技术的M apReduce数据连接处理机制.该机制对M ap结果数据先进行预散列处理,建立对应对的索引信息,然后根据索引信息计算相同key值数据的连接及处理复杂度,最后基于连接复杂度为Reducer节点分配任务数据量,实现负载均衡.实验结果显示,本文提出的MapReduce数据连接处理机制能够有效实现Reducer节点负载均衡,提高数据连接处理操作的效率.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要