Hadoop é uma plataforma de código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados. Ele inclui o HDFS para armazenamento de dados em vários nós e o MapReduce para processamento paralelo de dados. O HDFS armazena dados em blocos replicados entre nós e o MapReduce usa mappers e reducers para processar pares chave-valor de forma distribuída.
9. MapReduce
• Aplicado ao Hadoop
• Mappers e Reducers
• Inputs geralmente são arquivos provenientes do HDFS
• Trabalho é feito em cima de pares (chave, valor)