python3访问HBase数据库
1 介绍
- Hbase是用Java写的,它原生地提供了Java接口,对非Java程序人员,它也提供了thrift接口,因此也可以采用其他语言来编写Hbase的客户端,本文即介绍了python通过thrift接口访问HBase数据库的方法。
- 目前Hbase有两套thrift接口(thrift和thrift2),它们并不兼容。根据官方文档,thrift很可能被抛弃,但网上的文章基本是介绍thrift的,我们这里采用的也是thrift。
software | version |
---|---|
HBase | 1.2.9 |
Python | 3.6.3 |
Thrift | 0.11.0 |
2 启动thrift-server
要使用Hbase的thrift接口,必须将它的服务启动,启动Hbase的thrift-server进程如下:
cd /home/hbase-1.2.9/
./hbase-daemon.sh start thrift
执行jps命令检查:
34533 ThriftServer
- thrift默认端口是9090,启动成功后可以查看端口是否起来
3 安装thrift-client
3.1 安装依赖
yum -y install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-devel openssl-devel
3.2 安装boost
wget http://sourceforge.net/projects/boost/files/boost/1.53.0/boost_1_53_0.tar.gz
tar xvf boost_1_53_0.tar.gz
cd boost_1_53_0
./bootstrap.sh
./b2 install
- 在线下载较慢,给,不用客气 boost_1_53_0.tar.gz
3.3 安装thrift客户端
- 在线下载较慢,给,不用客气 thrift-0.11.0.tar.gz
wget http://mirrors.hust.edu.cn/apache/thrift/0.11.0/thrift-0.11.0.tar.gz
tar xzvf thrift-0.11.0.tar.gz
cd thrift-0.11.0
./configure --with-cpp --with-boost --with-python --without-csharp --with-java --without-erlang --without-perl --with-php --without-php_extension --without-ruby --without-haskell --without-go
make && make install
- make可能报错如下:
g++: error: /usr/lib64/libboost_unit_test_framework.a: No such file or directory
- 解决办法:
find / -name libboost_unit_test_framework.*
cp /usr/local/lib/libboost_unit_test_framework.a /usr/lib64/
4 使用python3连接Hbase(hbase-thrift)
- 安装所需包
pip install thrift
pip install hbase-thrift
- python 脚本如下:
from thrift.transport import TSocket
from hbase import Hbase
from hbase.ttypes import *
transport = TSocket.TSocket('192.168.18.150', 9090)
protocol = TBinaryProtocol.TBinaryProtocol(transport)
client = Hbase.Client(protocol)
transport.open()
print(client.getTableNames())
- 脚本报错
File "<ipython-input-1-e17848ba7457>", line 1, in <module>
import hbase.Hbase
File "D:\software\Anaconda3\Lib\site-packages\hbase\Hbase.py", line 2066
except IOError, io:
^
AttributeError: 'dict' object has no attribute 'iteritems'
- 原因:python版本带来的语法不兼容问题
- 解决如下:
替换原来Hbase.py和ttypes.py文件
5 常用方法介绍
- createTable(tbaleName,columnFamilies):创建表,无返回值
column1 = ColumnDescriptor('meta')
column2 = ColumnDescriptor('data')
client.createTable('test4', [column1, column2])
- enabledTable(tbaleName):启用表,无返回值
# 启用表,若表之前未被禁用将会引发IOError错误
client.enableTable('test4')
- disableTable(tbaleName):禁用表,无返回值
# 禁用表,若表之前未被启用将会引发IOError错误
client.disableTable('test4')
- isTableEnabled(tbaleName):验证表是否被启用,返回一个bool值
print(client.isTableEnabled('test4'))
- getTableNames(tbaleName):获取表名列表,返回一个str列表
print(client.getTableNames())
- getColumnDescriptors(tbaleName):获取所有列族信息,返回一个字典
a = client.getTableRegions('test4')
for i in a:
print("序号:%s 值:%s" % (a.index(i) + 1, i))
- deleteTable(tbaleName):删除表,无返回值
client.deleteTable('test4')
- get(tableName,row,column):获取数据列表,返回一个hbase.ttypes.TCell对象列表
print(client.get('sl_tbl', '00_2018-09-16 00:00:00.000_SL070105_000000.SL', 'info:sensorTypeFull'))
-
getRow(tableName,row):获取表中指定行在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
-
getRowWithColumns(tableName,row,columns):获取表中指定行与指定列在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
-
getRowTs(tableName,row,timestamp):获取表中指定行并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
-
getRowWithColumnsTs(tableName,row,columns,timestamp):获取指定行与指定列,并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
-
deleteAll(tableName,row,column):删除指定表指定行与指定列的所有数据,无返回值
-
deleteAllTs(tableName,row,column,timestamp):删除指定表指定行与指定列中,小于等于指定时间戳的所有数据,无返回值
-
deleteAllRow(tableName,row):删除整行数据,无返回值
-
deleteAllRowTs(tableName,row,timestamp):删除指定表指定行中,小于等于此时间戳的所有数据,无返回值
来源:CSDN
作者:WaiSaa
链接:https://blog.csdn.net/qq_42761569/article/details/104018903