想做个上传/下载文件操作,没有文件存储服务器,又不想花钱购买类似阿里oss文件存储服务怎么办? 当然想到用开源的技术啦,开源的分布式文件存储系统也不少,比如 《 FastDFS 》,《 Minio 》等等。今天就来介绍 《 FastDFS 》
1、FastDFS 介绍:
FastDFS作者:YuQing 笔名:HappyFish 100 一位软件架构师,同时是一位 C、Java、PHP 的程序员。 FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(上传、下载)等, 解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。 FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标, 使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。 FastDFS服务端有两个角色:跟踪器(tracker)和存储节点(storage)。 跟踪器(tracker)主要做调度工作,在访问上起负载均衡的作用。 存储节点存储文件,完成文件管理的所有功能:就是存储、同步和提供存取接口,FastDFS同时对文件的metadata元数据进行管理。 所谓文件的metadata就是文件的相关属性,以键值对(key-value)方式表示,如:width=1024,其中的key为width,value为1024。 文件metadata是文件属性列表,可以包含多个键值对。 跟踪器和存储节点都可以由一台或多台服务器构成。跟踪器和存储节点中的服务器均可以随时增加或下线而不会影响线上服务。 其中跟踪器中的所有服务器都是对等的,可以根据服务器的压力情况随时增加或减少。为了支持大容量,存储节点(服务器) 采用了分卷(或分组)的组织方式。 存储系统由一个或多个卷组成,卷与卷之间的文件是相互独立的,所有卷的文件容量累加就是整个存储系统中的文件容量。 一个卷可以由一台或多台存储服务器组成,一个卷下的存储服务器中的文件都是相同的, 卷中的多台存储服务器起到了冗余备份和负载均衡的作用。 在卷中增加服务器时,同步已有的文件是由FastDFS文件系统自动完成,同步完后,系统自动将新增服务器切换到线上提供服务 当存储空间不足或即将耗尽,可以动态添加卷。只需要增加一台或多台服务器并将它们配置为一个新的卷,这样就扩大存储系统的容量 FastDFS中的文件标识分为两个部分:卷名和文件名,二者缺一不可。
关于 FastDFS 相关的资源文章网站这里提供几个:
技术论坛: http://bbs.chinaunix.net/forum-240-1.html
资源地址: https://sourceforge.net/projects/fastdfs/
源码资源: https://github.com/happyfish100
2、FastDFS技术架构图:
FastDFS文件存储系统使用的术语简介:
Tracker Server:跟踪服务器,主要做调度工作,在访问上起负载均衡的作用。记录storage server的状态,是连接Client和Storage server的枢纽。 Storage Server:存储服务器,文件和meta data都保存到存储服务器上 group:组,也称为卷。同组内服务器上的文件是完全相同的 文件标识:包括两部分:组名和文件名(包含路径) meta data:文件相关属性,键值对(Key Value Pair)方式,如:width=1024,heigth=768
3、FastDFS文件存储系统的上传与下载流程:
上传流程:
下载流程:
文件上传后同步机制,以及增加增加服务器后的同步机制:
同一组内的storage server之间是对等的,文件上传、删除等操作可以在任意一台storage server上进行; 文件同步只在同组内的storage server之间进行,采用push方式,即源服务器同步给目标服务器; 源头数据才需要同步,备份数据不需要再次同步,否则就构成环路了; 上述第二条规则有个例外,就是新增加一台storage server时,由已有的一台storage server将已有的所有数据(包括源头数据和备份数据)同步给该新增服务器
4、FastDFS运行时的tracker服务器以及storage服务器目录结构:
Tracker Server 目录:
${base_path} |__data | |__storage_groups.dat:存储分组信息 | |__storage_servers.dat:存储服务器列表 |__logs |__trackerd.log:tracker server日志文件
Storage Server 目录:
${base_path} |__data | |__.data_init_flag:当前storage server初始化信息 | |__storage_stat.dat:当前storage server统计信息 | |__sync:存放数据同步相关文件 | | |__binlog.index:当前的binlog文件索引号 | | |__binlog.###:存放更新操作记录(日志) | | |__${ip_addr}_${port}.mark:存放同步的完成情况 | | | |__一级目录:256个存放数据文件的目录,如:00, 1F | |__二级目录:256个存放数据文件的目录 |__logs |__storaged.log:storage server日志文件
5、FastDFS和其他文件存储的简单对比
FastDFS和集中存储方式对比:
指标 |
FastDFS |
NFS |
集中存储设备如NetApp、NAS |
线性扩容性 |
高 |
差 |
差 |
文件高并发访问性能 |
高 |
差 |
一般 |
文件访问方式 |
专有API |
POSIX |
支持POSIX |
硬件成本 |
较低 |
中等 |
高 |
相同内容文件只保存一份 |
支持 |
不支持 |
不支持 |
FastDFS和mogileFS对比:
指标 |
FastDFS |
7mogileFS |
系统简洁性 |
简洁 只有两个角色:tracker和storage |
一般 有三个角色:tracker、storage和存储文件信息的mysqldb |
系统性能 |
很高 (没有使用数据库文件同步直接点对点不经过tracker中转) |
高 (使用mysql来存储文件索引等信息文件同步通过tracker调度和中转) |
系统稳定性 |
高(C语言开发可以支持高并发和高负载) |
一般(Perl语言开发,高并发和高负载支持一般) |
RAID方式 |
分组(组内冗余),灵活性较大 |
动态冗余,灵活性一般 |
通信协议 |
专有协议 下载文件支持HTTP |
HTTP |
技术文档 |
较详细 |
较少 |
文件附加属性(metadata) |
支持 |
不支持 |
相同内容文件只保存一份 |
支持 |
不支持 |
下载文件时支持文件偏移量 |
支持 |
不支持 |
FastDFS的简介就这里了。下一章讲解 FastDFS的单机版安装,以及实现文件上传,访问、下载。
记录bug,记录成长。我是展浩,一名在java道路奋斗的小白,咱们一起加油!
我的座右铭:当你的能力撑不起你的野心的时候,你就应该静下心来去学习,去沉淀。
来源:oschina
链接:https://my.oschina.net/u/3901188/blog/4477077