元数据

Hadoop纯理论bb,纸上谈兵

◇◆丶佛笑我妖孽 提交于 2020-03-17 09:13:16
大数据基础 定义 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。 大数据的意义不在于数量,在于挖掘数据的价值,探究海量数据间的相关性 基本特征 容量(Volume) :数据的大小决定所考虑的数据的价值和潜在的信息 种类(Variety) :数据类型的多样性 速度(Velocity) :获得数据的速度 可变性(Variability) :妨碍处理和有效管理数据的过程 真实性(Veracity) :数据的质量 复杂性(Complexity) :数据量巨大,来源多渠道 价值(Value) :合理运用大数据,以低成本创造高价值 Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。 它的设计是从单个服务器扩展到千数个机器,每个提供本地计算和存储。 Hadoop框架实现分布式最核心的设计: HDFS 和 MapReduce 其中HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。以及在Hadoop2.x内,YARN框架实现了分布式资源调度。 Hadoop 1.0到Hadoop 2.0架构的变化图如下

kafka 低级消费者javaapi

流过昼夜 提交于 2020-03-17 07:10:44
import kafka . api . FetchRequest ; import kafka . api . FetchRequestBuilder ; import kafka . cluster . BrokerEndPoint ; import kafka . javaapi . * ; import kafka . javaapi . consumer . SimpleConsumer ; import kafka . javaapi . message . ByteBufferMessageSet ; import kafka . message . MessageAndOffset ; import org . slf4j . Logger ; import org . slf4j . LoggerFactory ; import java . io . UnsupportedEncodingException ; import java . nio . ByteBuffer ; import java . util . * ; // CommonUtils是一个工具类,可以自行编写 /** * 功能描述:根据指定的topic,Partition,Offset来获取数据 * * @version 1.0 * @author yujianrong * @date:

Ceph

被刻印的时光 ゝ 提交于 2020-03-17 02:10:20
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、 分布式文件系统 。其命名和UCSC(Ceph 的诞生地)的吉祥物有关,这个吉祥物是 "Sammy",一个香蕉色的蛞蝓,就是头足类中无壳的软体动物。这些有多触角的头足类动物,是对一个 分布式文件系统 高度并行的形象比喻。 Ceph 生态系统架构可以划分为四部分: 1. Clients:客户端(数据用户) 2. cmds:Metadata server cluster,元数据服务器(缓存和同步分布式元数据) 3. cosd:Object storage cluster,对象存储集群(将数据和元数据作为对象存储,执行其他 关键职能 ) 4. cmon:Cluster monitors,集群监视器(执行监视功能) 作为 分布式文件系统 ,其能够在维护 POSIX 兼容性的同时加入了复制和容错功能。从 2010 年 3 月底,可以在Linux 内核 (从2.6.34版开始)中找到 Ceph 的身影,作为Linux的文件系统备选之一,Ceph.ko已经集成入 Linux内核 之中。虽然目前Ceph 可能还不适用于生产环境,但它对测试目的还是非常有用的。 Ceph 不仅仅是一个文件系统,还是一个有企业级功能的对象存储生态环境。 现在,Ceph已经被集成在主线 Linux 内核中,但只是被标识为实验性的

Azure Blob Storage从入门到精通

烈酒焚心 提交于 2020-03-15 13:45:11
今天推荐的是一个系列文章,让读者阅读完成后可以对Azure Blob Storage的开发有一个全面的了解,可谓是从入门到精通。 Azure在最初的版本里面就提供了非结构化数据的存储服务,也即Blob Storage。其是Azure中非常重要和基础的一项服务,支撑着很多其他服务的运行(比如虚拟机等)。前不久Azure出现故障,就是Blob Storage导致的。 Robin Shahan (女程序猿)发表了一个系列文章,全面的介绍Azure Blob Storage的开发。这个系列文章分为10个部分: 介绍:介绍了Azure Blob Storage的基本概念,用途,Blob的类型,访问地址,容错能力,计费方式。 入门:如何在Azure控制台中创建Blob Storage空间(容器),Management Studio的使用,上传下载文件。 Storage Client函数库的使用:主要讲的是.NET版本的SDK的使用,如何设置容器,基本的文件夹、文件操作。 上传大文件:讲述如何使用SDK中分割、串流化上传大文件的方式。 REST API:讲述SDK背后的REST API的细节和使用方式。 属性和元数据:解释Blob对象的一些属性和元数据的概念,如何获取这些元数据,如何自定义元数据等。 快照:讲述如何获得快照,列出现有快照,恢复快照,删除快照等。 Blob租用

外部配置属性值是如何被绑定到XxxProperties类属性上的?--SpringBoot源码(五)

岁酱吖の 提交于 2020-03-14 01:03:24
注:该源码分析对应SpringBoot版本为2.1.0.RELEASE 1 前言 本篇接 SpringBoot是如何实现自动配置的?--SpringBoot源码(四) 温故而知新,我们来简单回顾一下上篇的内容,上一篇我们分析了SpringBoot的自动配置的相关源码,自动配置相关源码主要有以下几个重要的步骤: 从spring.factories配置文件中加载自动配置类; 加载的自动配置类中排除掉 @EnableAutoConfiguration 注解的 exclude 属性指定的自动配置类; 然后再用 AutoConfigurationImportFilter 接口去过滤自动配置类是否符合其标注注解(若有标注的话) @ConditionalOnClass , @ConditionalOnBean 和 @ConditionalOnWebApplication 的条件,若都符合的话则返回匹配结果; 然后触发 AutoConfigurationImportEvent 事件,告诉 ConditionEvaluationReport 条件评估报告器对象来分别记录符合条件和 exclude 的自动配置类。 最后spring再将最后筛选后的自动配置类导入IOC容器中 本篇继续来分析SpringBoot的自动配置的相关源码,我们来分析下 @EnableConfigurationProperties

Mac用户的福音,手把手教你如何在Mac OS X下轻松获得Apple Lossless无损音频

雨燕双飞 提交于 2020-03-13 11:33:06
1月6日更新: 有锋友反映在使用XLD播放FLAC无损音频时会偶尔出现没有音乐声伴随的却是强烈的噪声现象,起初我并没有遇到,但是最近通过光纤向MD录制歌曲时确实出现了这种情况,起初以为是近期安装了类似Boom的音效增强软件导致,但是最后排出了这种可能。经过多次尝试 (断开光纤输出,重新连接),应该是XLD软件本身的问题。遇到这种情况的锋友不必惊慌,只需要关闭XLD再次重新打开,就能解决这个问题。 温馨提示: 我们这里介绍的方法主要适用于希望把无损音频导入到具有苹果音频播放功能的便携设备(iPod,iPhone以及iPad等)中的音乐发烧友。如果仅仅只是在Mac电脑里播放,还有其他方便的方法,这在最后再向大家介绍。 写这篇文章的动机: 最近从爱好音乐的朋友那里得到了他珍藏的一些后缀为APE,FLAC和WAV的无损音频,说来惭愧,接触无损音频有些晚了。对于像我这样对音质要求不高的人来说还真有些不知所措。作为多年的Mac用户都知道,要想将喜爱的歌曲导入到iPod,iPhone 以及iPad等设备中,使得能够随时随地的聆听自己喜爱的音乐,不可避免的要通过苹果自家的媒体管理软件iTunes。 对音质要求不高的人来说,一般的MP3音频(立体声位速率为160 kbps),或更高质量的MP3音频(立体声位速率为320 kbps,也有CBR恒定速率编码与VBR可变速率编码之分

Hive元数据的解析

a 夏天 提交于 2020-03-11 23:36:51
Hive体系结构的元数据(Metastore)是一个重要的组件,保存了Hive有关库、表、存储、分区等信息。元数据主要包括两个方面:一方面是元数据库,最常见的是采用MySQL;另一方面是元数据服务,与其他查询引擎共享,比如Presto或Impala等。 Hive元数据库 Hive支持两种类型的元数据库: 本地或嵌入的元数据库:Derby 远程的元数据库:MySQL 说明:嵌入的元数据库主要用于单元测试,并且一次只能有一个进程来连接,所以生产环境不推荐使用。实际上,线上使用最多的是采用MySQL作为远程的元数据库。 (1)配置Hive元数据库 <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://master:3306/hive?characterEncoding=UTF-8</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName<

JDBC的常用方法

一曲冷凌霜 提交于 2020-03-11 17:12:17
在上一篇文章我们讲了一些基本使用 JDBC-DBCP-MYBATIS 。 1.防止SQL注入 我们在写sql语句时,为了方便可能会进行拼接字符串,这样做的弊端就是可能被sql注入攻击,解决的办法也很简单。 //获取数据库连接 Connection connection = DBUtils.getConnection(); //在写sql语句时,使用?代替变量 String sql = "select * from user where username=? and password=?"; //使用预编译对象进行预编译,就不使用原始的Statement对象 PreparedStatement preparedStatement = connection.prepareStatement(sql); //预编译后进行?的替换 preparedStatement.setString(1,"csdn"); preparedStatement.setString(2,"csdn123"); ResultSet resultSet = preparedStatement.executeQuery(); while(resultSet.next()){ System.out.println(resultSet.getString(1)); } 2.SQL批量操作

ES(1):_source元数据返回

吃可爱长大的小学妹 提交于 2020-03-09 18:17:04
1.添加测试数据 PUT /test_index/test_type/1 { "test_content1":"my field1", "test_content2":"my field2" } 2.获取返回结果 GET /test_index/test_type/1 结果 { "_index": "test_index", "_type": "test_type", "_id": "1", "_version": 2, "found": true, "_source": { "test_content1": "my field1", "test_content2": "my field2" } } 3.通过指定参数返回相应内容 参数可以以逗号分隔 GET /test_index/test_type/1?_source=test_content1 结果 { "_index": "test_index", "_type": "test_type", "_id": "1", "_version": 2, "found": true, "_source": { "test_content1": "my field1" } } 来源: oschina 链接: https://my.oschina.net/u/4456229/blog/3190625

Linux文件管理-第二周

我是研究僧i 提交于 2020-03-09 15:26:44
第二周作业-文件管理 一、Linux发行版的系统目录名称命名规则以及用途。 1、文件名最长255个字节。 2、包括路径在内文件名称最长4095个字节。 3、蓝色-->目录 绿色-->可执行文件 红色-->压缩文件 浅蓝色-->链接文件 灰色-->其他文件 4、除了斜杠和NUL,所有字符都有效,但使用特殊字符的目录名和文件不推荐使用,有些字符需要引号来引用它们。 5、标准Linux文件系统(如ext4),文件名称大小写敏感。 例如:MAIL,Mail,mail,mAiL /boot:引导文件存放目录,内核文件、引导加载器都存放于此目录。 /bin:所有用户的使用的基本命令,不能关联至独立分区,OS启动即会用到的程序。 /sbin:管理类的基本命令,不能关联至独立分区,OS启动即会用到的程序。 /lib:启动时程序依赖的基本共享库文件以及内核模块文件。 /lib64:专用于x86_64系统上的辅助共享库文件存放位置。 /etc:配置文件目录。 /home/USERNAME:普通用户家目录。 /root:管理员的家目录。 /media:便携式移动设备挂载点。 二、描述文件的元数据信息有哪些,分别表示什么含义,如何查看?如何修改文件的时间戳信息?  1、元数据定义:   数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性