发布时间:2022-08-19 14:03
MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)
MapReduce是一个并行计算与运行软件框架(Software Framework)
MapReduce是一个并行程序设计模型与方法(Programming Model & Methodology)
MapReduce 模型将数据处理方式抽象为map和reduce,其中map也叫映射,顾名思义,它表现的是数据的一对一映射,通常完成数据转换的工作。reduce被称为归约,它表示另外一种映射方式,通常完成聚合的工作,如下图所示:
MapReduce是一个软件框架和编程模型,用于处理大量数据。MapReduce程序分两个阶段工作,即Map和Reduce。Map任务处理数据的拆分和映射,而 Reduce 任务则随机排列和减少数据。
Hadoop能够运行用各种语言编写的MapReduce程序:Java,Ruby,Python和C++。Map Reduce在云计算中的程序本质上是并行的,因此对于在集群中使用多台机器进行大规模数据分析非常有用。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。