问题:获得目录中的 .fna 后缀的文件路径
- 通过 makeblastdb 能获得用于 BLAST 的数据库文件,这些文件包括原始数据
.fna
,和几个在原名基础上增加后缀为名字的文件,例如.fna.nsq
。 - Blast 的时候需要指定的是
.fna
文件,而不是其他的那些。因此需要自动读取数据库文件夹中的不带后缀的文件。 - 如果做的是蛋白质的数据库,需要的是
.faa
的文件。
解决
- 直接用
in
不能筛选出.fna结尾
的名字。需要使用正则表达式。
import os import re mask = re.compile('.+fna$') # $说明从后开始匹配 # 最好先看一下当前路径是什么 os. getcwd() # 获得文件夹里面所以文件名 file_names= os.listdir() # 或者随便用个例子 file_names = ['1.fna', '1.fna.nsq', '1.fna.nsi',] # 方法1 for循环,遍历每个文件名,返回fna结尾的文件(事先知道只有一个) for db in file_names: if mask.match(db): path = db path # 方法2 方法1用条件表达式写出来 path = [db for db in file_names if mask.match(db)] # 注意[ ]不能少 path # 方法3 filter 函数 path = list(filter(mask.match, file_names))[0] path # 以上三个path都会是1.fna # 把这个和当前的目录组合起来就是数据库所在的路径 print(os.path.join(os.getcwd(),path))
说明
搜问题的时候看到了第二种写法,觉得挺有趣的,就稍微看了下。
如何理解conditional expression
a, b, c = 1, 2, 3 # 1.常规 if a>b: c = a else: c = b # 2.表达式 c = a if a>b else b # 先执行中间的if,如果返回True,就是左边,False是右边。 # 3.二维列表 c = [b,a][a>b] #实际是[b,a][False],因为False被转换为0,所以是[1,2][0],也就是[1] # False返回第一个,True 返回第一个。 # 4 c = (a>b and [a] or [b])[0] # 这个比较好玩,False and [1] or [2],因为and的优先级高于or,先算and # False和[1] and之后还是False,和[2]or之后却成了[2] # True 和[1] and之后是[1],[1]和[2]or结果是[1] # 也就是False和True在和别人做boolean运算的时候,根据and还是or,F和T在前在后有不一样的数据转换规则。
参考
Python关于条件表达式的说明 PEP308
来源:https://www.cnblogs.com/Xeonilian/p/python-conditional-expression.html