如何在混合云架构中高效运行 Presto
请点击上方 蓝字 ,关注我们哦! 将SQL工作负载从完全的本地环境迁移到云环境中有许多好处,包括降低资源竞争、通过按需购买计算资源来降低费用。当Presto的数据存储在HDFS中时,由于Presto的架构允许存储和计算的组件独立操作,在云环境中的计算与本地的存储之间的分离是显而易见的。在云上通过在Presto检索本地的HDFS数据这样的混合环境里面,一个关键的问题是两个集群之间的网络延迟。 这个关键的瓶颈严重限制了所有工作负载的性能,因为其大部分时间都花在了可能位于地理位置不同的网络之间传输请求的数据上。结果,大多数公司将其数据复制到云环境中并维护该数据副本,也称为Lift and Shift。有合规性和数据主权要求的公司甚至可能阻止组织将数据复制到云中。这种方法不可扩展,需要付出大量的人工才能获得合理的结果。本文介绍了Alluxio充当 数据编排层 (见参考链接1),以帮助将数据高效地提供给Presto,而不是直接查询远程的HDFS集群或将数据的本地化副本手动提供给云集群中的Presto。 采用Alluxio和Presto的混合云架构 在以下架构图中,Presto和Alluxio进程都位于云集群中。就Presto而言,它正在查询数据并将其写入Alluxio,就好像Alluxio是位于同一位置的HDFS集群一样。当Alluxio收到数据请求时,最初会从远程HDFS集群中获取数据