值得关注的sql-on-hadoop框架
http://www.infoq.com/cn/news/2014/06/sql-on-hadoop 数据的操作语言是SQL,因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装,有些则是在HDFS之上实现了完整的数据仓库,而有些则介于这两者之间。这样的工具有很多,来自于 Shoutlet 的软件开发工程师Matthew Rathbone最近发表了 一篇文章 ,他列举了一些常用的工具并对各个工具的应用场景和未来进行了分析。 Apache Hive Hive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的Hadoop TaskTrackers上运行的MapReduce任务。Hive通过一个metastore(本身就是一个数据库)存储表模式、分区和位置以期提供像MySQL一样的功能。它支持大部分MySQL语法,同时使用相似的 database/table/view约定组织数据集。Hive提供了以下功能: Hive-QL,一个类似于SQL的查询接口 一个命令行客户端 通过中央服务支持元数据共享 JDBC 驱动 多语言 Apache Thrift 驱动 一个用于创建自定义函数和转换的Java API 何时使用它? Hive