MapReduce初探之一~~基于Mongodb实现标签统计
MapReduce 是一种编程模型,是 Google 提出的一种软件架构,主要应用于分布式系统上。Google对其原始的定义是 “ MapReduce is a framework for computing certain kinds of distributable problems using a large number of computers (nodes), collectively referred to as a cluster.” 可见MapReduce主要为集群 分布式计算 而诞生的,顶顶大名的分布式框架Hadoop就是MapReduce的一种实现。其中心思想是Map(映射)函数和Reduce(化简)函数,我的简单理解就是先将问题按照一定的规律,一一细分并映射到列表中,然后对那些列表进行适当的合并,从而得出想要的结果,大致的工作流见于下图: 咋一看,怎么就是分布式计算的原理图解了?论道分布式计算,就扯远了,回到主题上,这次是讨论如何利用MapReduce的思想,实现Blog文章标签的统计! 按照传统的关系数据库设计,统计标签,无非就是建一张标签表,我们姑且叫左Tb_tags,大致的结构就是id和value,然后关联id到Blog表的外键上。恩,不差错。可是这次,NodeBlog的数据库用的可是Mongodb哦,难道照搬即可? 我们先看看在mongodb下