python3访问HBase数据库

风流意气都作罢 提交于 2020-01-17 21:47:17

1 介绍

  • Hbase是用Java写的,它原生地提供了Java接口,对非Java程序人员,它也提供了thrift接口,因此也可以采用其他语言来编写Hbase的客户端,本文即介绍了python通过thrift接口访问HBase数据库的方法。
  • 目前Hbase有两套thrift接口(thrift和thrift2),它们并不兼容。根据官方文档,thrift很可能被抛弃,但网上的文章基本是介绍thrift的,我们这里采用的也是thrift。
software version
HBase 1.2.9
Python 3.6.3
Thrift 0.11.0

2 启动thrift-server

要使用Hbase的thrift接口,必须将它的服务启动,启动Hbase的thrift-server进程如下:

cd /home/hbase-1.2.9/
./hbase-daemon.sh start thrift 
执行jps命令检查:
34533 ThriftServer
  • thrift默认端口是9090,启动成功后可以查看端口是否起来
    在这里插入图片描述

3 安装thrift-client

3.1 安装依赖

yum -y install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-devel openssl-devel

3.2 安装boost

wget http://sourceforge.net/projects/boost/files/boost/1.53.0/boost_1_53_0.tar.gz 
tar xvf boost_1_53_0.tar.gz 
cd boost_1_53_0 
./bootstrap.sh 
./b2 install

3.3 安装thrift客户端

wget http://mirrors.hust.edu.cn/apache/thrift/0.11.0/thrift-0.11.0.tar.gz
tar xzvf thrift-0.11.0.tar.gz
cd thrift-0.11.0
./configure --with-cpp --with-boost --with-python --without-csharp --with-java --without-erlang --without-perl --with-php --without-php_extension --without-ruby --without-haskell  --without-go
make && make install
  • make可能报错如下:
g++: error: /usr/lib64/libboost_unit_test_framework.a: No such file or directory
  • 解决办法:
find / -name libboost_unit_test_framework.*
cp /usr/local/lib/libboost_unit_test_framework.a  /usr/lib64/

4 使用python3连接Hbase(hbase-thrift)

  • 安装所需包
pip install thrift
pip install hbase-thrift
  • python 脚本如下:
from thrift.transport import TSocket
from hbase import Hbase
from hbase.ttypes import *

transport = TSocket.TSocket('192.168.18.150', 9090)
protocol = TBinaryProtocol.TBinaryProtocol(transport)

client = Hbase.Client(protocol)
transport.open()
print(client.getTableNames())
  • 脚本报错
File "<ipython-input-1-e17848ba7457>", line 1, in <module>
        import hbase.Hbase
File "D:\software\Anaconda3\Lib\site-packages\hbase\Hbase.py", line 2066
        except IOError, io:
                  ^
AttributeError: 'dict' object has no attribute 'iteritems'
  • 原因:python版本带来的语法不兼容问题
  • 解决如下:
替换原来Hbase.py和ttypes.py文件

5 常用方法介绍

  • createTable(tbaleName,columnFamilies):创建表,无返回值
column1 = ColumnDescriptor('meta')
column2 = ColumnDescriptor('data')
client.createTable('test4', [column1, column2])
  • enabledTable(tbaleName):启用表,无返回值
# 启用表,若表之前未被禁用将会引发IOError错误
client.enableTable('test4')
  • disableTable(tbaleName):禁用表,无返回值
# 禁用表,若表之前未被启用将会引发IOError错误
client.disableTable('test4')
  • isTableEnabled(tbaleName):验证表是否被启用,返回一个bool值
print(client.isTableEnabled('test4'))
  • getTableNames(tbaleName):获取表名列表,返回一个str列表
print(client.getTableNames())
  • getColumnDescriptors(tbaleName):获取所有列族信息,返回一个字典
a = client.getTableRegions('test4')
for i in a:
    print("序号:%s   值:%s" % (a.index(i) + 1, i))
  • deleteTable(tbaleName):删除表,无返回值
client.deleteTable('test4')
  • get(tableName,row,column):获取数据列表,返回一个hbase.ttypes.TCell对象列表
print(client.get('sl_tbl', '00_2018-09-16 00:00:00.000_SL070105_000000.SL', 'info:sensorTypeFull'))
  • getRow(tableName,row):获取表中指定行在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表

  • getRowWithColumns(tableName,row,columns):获取表中指定行与指定列在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表

  • getRowTs(tableName,row,timestamp):获取表中指定行并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表

  • getRowWithColumnsTs(tableName,row,columns,timestamp):获取指定行与指定列,并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表

  • deleteAll(tableName,row,column):删除指定表指定行与指定列的所有数据,无返回值

  • deleteAllTs(tableName,row,column,timestamp):删除指定表指定行与指定列中,小于等于指定时间戳的所有数据,无返回值

  • deleteAllRow(tableName,row):删除整行数据,无返回值

  • deleteAllRowTs(tableName,row,timestamp):删除指定表指定行中,小于等于此时间戳的所有数据,无返回值

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!