元数据

jvm监控命令-jstat

混江龙づ霸主 提交于 2020-03-26 03:49:37
jstat 用于查看服务器上某个服务的GC情况。 一般使用方式 jstat –gcpid 或 jstat –utilpid 时间间隔—每个一定时间(指定的时间间隔)输出一次进程pid的内存情况及gc情况。 类加载统计(-class) Loaded Bytes Unloaded Bytes Time 加载class的数量 所占用空间大小 未加载数量 未加载占用空间 时间 [lillcol@node1 lillcol]# jstat -class 22363 Loaded Bytes Unloaded Bytes Time 19410 39919.5 112 155.0 10.18 编译统计(-compiler) Compiled Failed Invalid Time FailedType FailedMethod 编译数量 失败数量 不可用数量 时间 失败类型 失败的方法 [lillcol@node1 lillcol]# jstat -compiler 22363 Compiled Failed Invalid Time FailedType FailedMethod 25021 2 0 71.64 1 org/apache/spark/ContextCleaner$$anonfun$org$apache$spark$ContextCleaner$$keepCleaning$1

使用reposync工具配置yum本地源

天大地大妈咪最大 提交于 2020-03-25 01:51:39
1、安装依赖服务 #命令 [root@kolla~]# yum install yum-utils createrepo yum-plugin-priorities reposync httpd -y 2、配置yum为阿里源,以openstack queens为例 #命令 [root@kolla~]# cd /etc/yum.repos.d/ [root@kolla~]# vim queens.repo [queens] name=queens baseurl=https://mirrors.aliyun.com/centos/7/cloud/x86_64/openstack-queens/ enabled=1 gpgcheck=0 3、同步到本地 #命令 [root@kolla~]# yum clean all [root@kolla~]# yum makecache [root@kolla~]# mkdir -p /data/openstack [root@kolla~]# reposync -p /data/openstack/ -n --repoid=queens [root@kolla~]# createrepo -po /data/openstack/queens/ /data/openstack/queens/ 4、http将本地源发布出来(也可以使用nginx来发布

元数据 概念及分类

家住魔仙堡 提交于 2020-03-23 17:32:59
转自 https://mp.weixin.qq.com/s/efh5JRmPfYmBTG5x8b30lA 1.物理元数据 描述物理资源的元数据,包括但不限于服务器、操作系统、机房位置等信息。 2.数据源元数据 描述数据源的元数据,通常包括四类信息: 数据源地址(IP、PORT等) 物理拓扑(主备、角色等) 权限(用户名、口令等) 库名、版本、域名等 3.存储元数据 描述对象存储的元数据,也是通常"狭义"上的元数据,包括几大类 管理属性(创建人、应用系统、业务线、业务负责人等) 生命周期(创建时间、DDL时间、版本信息等) 存储属性(位置、物理大小等) 数据特征(数据倾斜、平均长度等) 使用特征(DML、刷新率等) 数据结构 > 表/分区(名称、类型、备注等) > 列(名称、类型、长度、精度等) > 索引(名称、类型、字段等) > 约束(类型、字段等) 4.计算元数据 描述数据计算过程的元数据,通常可分为数据抽取(ETL)或数据加工(JOB)两类计算。每类计算又可以进一步细分 控制元数据(配置属性、调度策略等) 过程元数据(依赖关系、执行状态、执行日志等) 5.质量元数据 描述数据质量的一类元数据。通常情况下,是通过定义一系列质量指标反映数据质量。 6.操作元数据 描述数据是如何进行使用的一类元数据。 数据产生(产生时间、作业信息等) 表访问(查询、关联、聚合等) 表关联(关联表

元数据

假装没事ソ 提交于 2020-03-21 06:54:06
元数据描述数据的结构和意义,就象描述应用程序和进程的结构和意义一样。切记:元数据是抽象概念,具有上下文,在开发环境中有多种用途。 元数据是抽象概念 当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据。例如,在描述风、雨和阳光这些自然现象时,就需要使用"天气"这类抽象概念。还可以通过定义温度、降水量和湿度等概念对天气作进一步的抽象概括。 在数据设计过程中,也使用抽象术语描述现实世界的各种现象。人们把人物、地点、事物和数字组织或指定为职员、顾客或产品数据。 在软件设计过程中,代表数据或存储数据的应用程序和数据库结构可以概括为开发和设计人员能够理解的元数据分类方案。表或表单由对象派生出来,而对象又由类派生。 在元数据中有多个抽象概念级别。可以描述一个数据实例,然后对该描述本身进行描述,接着再对后一个描述进行描述,这样不断重复,直到达到某个实际限度而无法继续描述为止。通常情况下,软件开发中使用的元数据描述可扩展为二至三级的抽象概念。比如 "loan table" 数据实例可以描述为数据库表名。数据库表又可以描述为数据库表对象。最后,数据库表对象可以用一个抽象类描述,该抽象类确定所有派生对象都必须符合的固定特征集合。 元数据具有上下文 人们通常把数据和元数据的区别称为类型/实例区别。模型设计人员表述的是类型(如各种类或关系),而软件开发人员表述的是实例(如

阿里云PolarDB及其共享存储PolarFS技术实现分析(上)

て烟熏妆下的殇ゞ 提交于 2020-03-21 06:37:21
PolarDB是阿里云基于MySQL推出的云原生数据库(Cloud Native Database)产品,通过将数据库中计算和存储分离,多个计算节点访问同一份存储数据的方式来解决目前MySQL数据库存在的运维和扩展性问题;通过引入RDMA和SPDK等新硬件来改造传统的网络和IO协议栈来极大提升数据库性能。代表了未来数据库发展的一个方向。本系列共2篇文章,主要分析为什么会出现PolarDB以及其技术实现。 由于PolarDB并不开源,因此只能基于阿里云公开的技术资料进行解读。这些资料包括从去年下半年开始陆续在阿里云栖社区、云栖大会等场合发布的PolarDB相关资料,以及今年以来公开的PolarDB后端共享存储PolarFS相关文章。 PolarDB出现背景 MySQL云服务遇到的问题 首先来了解下为什么会出现PolarDB。阿里云数据库团队具备国内领先的技术能力,为MySQL等数据库在国内的推广起到了很大的作用。在阿里云上也维护了非常庞大的MySQL云服务(RDS)集群,但也遇到了很多棘手的问题。举例如下: 实例数据量太大,单实例几个TB的数据,这样即使使用xtrabackup物理备份,也需要很长的备份时间,且备份期间写入量大的话可能导致redo日志被覆盖引起备份失败; 大实例故障恢复需要重建时,耗时太长,影响服务可用性(此时存活节点也挂了,那么完蛋了)。时间长有2个原因

C#反射的特性

南笙酒味 提交于 2020-03-20 06:53:21
如果您现在对反射还不太了解的话,那么可以先看看这篇博文,来粗略的了解一下反射吧。 什么是反射   反射特性(Attribute)   1. C#内置特性介绍   特性是一个对象,它可以加载到程序集及程序集的对象中,这些对象包括 程序集本身、模块、类、接口、结构、构造函数、方法、方法参数等,加载了特性的对象称作特性的目标。特性是为程序添加元数据(描述数据的数据)的一种机制,通过它可以给编译器提供指示或者提供对数据的说明。 注意:特性的英文名称叫做Attribute,在有的书中,将它翻译为“属性”;另一些书中,将它翻译为“特性”;由于通常我们将含有get和/或set访问器的类成员称为“属性”(英文Property),所以本文中我将使用“特性”这个名词,以区分“属性”(Property)。 上面这个提示是在VS中的,大家在编程的过程中应该有遇到过的。 下面我们就引入第一个特性 1.1 System.ObsoleteAttribute 特性 我们通过如图示这个例子来看一下特性是如何解决上面的问题:我们可以给旧的SendMsg()方法上面加上Obsolete特性来告诉编译器这个方法已经过时,然后当编译器发现当程序中有地方在使用这个用Obsolete标记过的方法时,就会给出一个警告信息。 namespace TestObsolete { class Program { public class

构造数据仓库系统的元数据——读书笔记

烂漫一生 提交于 2020-03-18 05:24:52
数据仓库系统是以面向主题,面向决策的数据存储为基础,在企业内部实现的从数据采集,处理,存储到决策支持的 端到端的解决方案。 什么是元数据? 元数据 Metadata 可以定义为描述应用系统或业务流程中数据结构或意义的数据或文档,是关于数据的数据。 在数据仓库系统中,元数据可以分成两类: 技术元数据和业务元数据。 技术元数据是存储关于数据仓库系统技术细节的元数据,主要包括以下信息 业务元数据时保证用户能正确,方便的使用数据仓库系统所必需的,主要用来提供介于使用者和实际系统之间 的语义层,包括如下信息 为什么需要元数据 元数据是进行数据集成所必需的 数据仓库的集成性就是将不同时间,不同地点,不同系统中的数据采集,整理并且按照一定的模式存储在数据仓库中。 这个过程所必需的时间,地点信息,原始数据和数据仓库中数据的对应关系以及校验,转换,过滤的规则等都存放在 元数据库中。 元数据是实现应用程序间的数据通信,避免“自动化孤岛”所必需的 元数据是用户实现数据检索和数据挖掘所必需的 元数据提供了数据访问的入口,就像图书馆中的目录一样。每次用户或系统要查找输入仓库中的数据时, 首先要根据 某种标志 在元数据中找到该数据的存放位置,再进一步找到希望的数据。 元数据定义了语义层,实现了业务模型和数据模型之间的对应 在企业当前的信息系统中,使用者往往不能充分利用系统所提供的数据。

每日进步一点点:解读消息中间件—RabbitMQ(集群原理与搭建篇)

亡梦爱人 提交于 2020-03-17 22:51:53
摘要:实际生产应用中都会采用消息队列的集群方案,如果选择RabbitMQ那么有必要了解下它的集群方案原理 一般来说,如果只是为了学习RabbitMQ或者验证业务工程的正确性那么在本地环境或者测试环境上使用其单实例部署就可以了,但是出于MQ中间件本身的可靠性、并发性、吞吐量和消息堆积能力等问题的考虑,在生产环境上一般都会考虑使用RabbitMQ的集群方案。 对于RabbitMQ这么成熟的消息队列产品来说,搭建它并不难并且也有不少童鞋写过如何搭建RabbitMQ消息队列集群的博文,但可能仍然有童鞋并不了解其背后的原理,这会导致其遇到性能问题时无法对集群进行进一步的调优。本篇主要介绍RabbitMQ集群方案的原理,如何搭建具备负载均衡能力的中小规模RabbitMQ集群,并最后给出生产环境构建一个能够具备高可用、高可靠和高吞吐量的中小规模RabbitMQ集群设计方案。 一、RabbitMQ集群方案的原理 RabbitMQ这款消息队列中间件产品本身是基于Erlang编写,Erlang语言天生具备分布式特性(通过同步Erlang集群各节点的magic cookie来实现)。因此,RabbitMQ天然支持Clustering。这使得RabbitMQ本身不需要像ActiveMQ、Kafka那样通过ZooKeeper分别来实现HA方案和保存集群的元数据。集群是保证可靠性的一种方式

Facebook 如何管理150亿张照片

非 Y 不嫁゛ 提交于 2020-03-17 15:20:07
某厂面试归来,发现自己落伍了!>>> Facebook 的照片分享很受欢迎,迄今,Facebook 用户已经上传了150亿张照片,加上缩略图,总容量超过1.5PB,而每周新增的照片为2亿2000万张,约25TB,高峰期,Facebook 每秒处理55万张照片,这些数字让如何管理这些数据成为一个巨大的挑战。本文由 Facebook 工程师撰写,讲述了他们是如何管理这些照片的。 旧的 NFS 照片架构 老的照片系统架构分以下几个层: # 上传层接收用户上传的照片并保存在 NFS 存储层。 # 照片服务层接收 HTTP 请求并从 NFS 存储层输出照片。 # NFS存储层建立在商业存储系统之上。 因为每张照片都以文件形式单独存储,这样庞大的照片量导致非常庞大的元数据规模,超过了 NFS 存储层的缓存上限,导致每次招聘请求会上传都包含多次I/O操作。庞大的元数据成为整个照片架构的瓶颈。这就是为什么 Facebook 主要依赖 CDN 的原因。为了解决这些问题,他们做了两项优化: # Cachr: 一个缓存服务器,缓存 Facebook 的小尺寸用户资料照片。 # NFS文件句柄缓存:部署在照片输出层,以降低 NFS 存储层的元数据开销。 新的 Haystack 照片架构 新的照片架构将输出层和存储层合并为一个物理层,建立在一个基于 HTTP 的照片服务器上,照片存储在一个叫做

(ETL)ETL架构师面试题(转载)

懵懂的女人 提交于 2020-03-17 11:54:42
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL 项目组的作用是什么? 答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。 源数据库名:源数据库的实例名,或者连接字符串。 源表名: 源列名: 转换方法:需要对源数据做的操作,如Sum(amount)等。 逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。 2. What are the primary goals of the data discovery phase of the data warehouse project? 在数据仓库项目中,数据探索阶段的主要目的是什么? 答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data