专家指南:大数据数据建模的常见问题
专家指南:大数据数据建模的常见问题 我最近在How-tos专家系列介绍了如何在大数据系统上数据建模。在演讲过程中,许多与会者提出了一些非常有趣的问题。众所周知,大数据系统围绕结构需求的形式化程度较低,但是对于数据仓库继续为传统用例提供服务而言,建模仍然是非常重要的功能。我想分享一下我在本届会议期间以及访问组织时收到的一些较常见的问题,并对此做出回应。 1. 在大数据环境中,是否可以使用任何建模技术来提高查询性能? 为了提高查询性能,这取决于您使用的工具。以下准则可以帮助您: 确保为最终用户的查询选择最佳存储。例如,如果您正在运行许多简短查询,则应考虑使用HBase。对于长时间运行的分析查询,您可能会发现Kudu更好。理想情况下,检查要运行的查询,并为这些用例确定适当的文件格式。 为工作负载使用正确的查询引擎。例如,对于传统上在企业数据仓库出现的长时间运行的查询、供应仪表板或标准报表的场景而言,Hive on LLAP很棒。另一方面,Impala非常适合临时查询100TB以上的数据。在配置查询引擎时,还应确保已设置分区,收集统计信息,确保对连接进行了适当的设计,查看查询性能报告并进行了相应的优化。 确保您为每种用例选择的用于检索数据的工具。例如Phoenix或带有API的HBase之类的工具来运行查询,然后使用Impala或Hive on LLAP来查询数据。 2.