集群

如何配置Kettle集群运行环境

感情迁移 提交于 2019-12-04 04:45:51
Kettle是一款开源的ETL工具,以其高效和可扩展性而闻名于业内。其高效的一个重要原因就是其多线程和集群功能。 Kettle的多线程采用的是一种流水线并发的机制,我们在另外的文章中专门有介绍。这里主要介绍的是kettle . Kettle 是一款开源的 ETL 工具,以其高效和可扩展性而闻名于业内。其高效的一个重要原因就是其多线程和集群功能。 Kettle 的多线程采用的是一种流水线并发的机制,我们在另外的文章中专门有介绍。这里主要介绍的是kettle的集群。 集群允许转换以及转换中的步骤在多个服务器上并发执行。 在使用 kettle 集群时,首先需要定义的是 Cluster schema 。所谓的 Cluster schema 就是一系列的子服务器的集合。在一个集群中,它包含一个主服务器( Master )和多个 从属服务器 服务器 (slave) 。如下图所示: 子服务器( Slave servers )允许你在远程服务器上执行转换。建立一个子服务器需要你在远程服务器上建立一个叫做“ Carte ”的 web 服务器,该服务器可以从 Spoon( 远程或者集群执行 ) 或者转换任务中接受输入。 在以后的描述中,如果我们提到的是子服务器,则包括集群中的主服务器和从属服务器;否则我们会以主服务器和从属服务器来进行特别指定。 选项 描述 服务器名称 子服务器的名称 主机名称或 IP

Hadoop上路_10-分布式Hadoop集群搭建

拥有回忆 提交于 2019-12-03 19:47:31
1. 创建模板系统: 参照前文。本例使用 ubuntu10.10 。初始化用户 hadoop ,密码 dg ,主机名 hadoop-dg 。 1 )解压 jdk 、 hadoop ,配置 bin 到环境变量: jdk1.7.0_17 hadoop-1.1.2 2 )配置 %hadoop%/conf/hadoop-env.sh : export JAVA_HOME=/jdk目录 3 )安装 openssh ,尚不配置无密码登陆: openssh-client openssh-service openssh-all 4 )配置网卡静态 IP 、 hostname 、 hosts : #查看网卡名称 ifconfig #配置网卡参数 sudo gedit /etc/network/interfaces auto eth0 iface eth0 inet static address 192.168.1.251 gateway 192.168.1.1 netmask 255.255.255.0 #重启网卡 sudo /etc/init.d/networking restart #修改hostname sudo gedit /etc/hostname hadoop-dg #修改hosts sudo gedit /etc/hosts 127.0.0.1 hadoop-dg 192.168.1

apache服务器 和 Tomcat的集群搭建处理

风流意气都作罢 提交于 2019-12-03 19:21:04
近期在公司项目需要集群部署,根据以前的经验及网上收集的资料搭建了集群环境,但是不太符合要求(至少要求是:将所有的 Tomcat 服务器隐藏在内网,对外暴露的只是 Apache 服务器 ),便对 Apache 、 Proxy 、 AJP 等相关的文档进行了粗略的阅读,无意间搭建出了对应的环境,与之前的环境进行了比较,发现了几点没有注意到的问题,网上也没有明确提出( 可能是默认如此的吧),总结了一下Apache 集群环境的搭建尤其是 Proxy 方式的集群环境需要注意一下几点 : 1 、集群分为两种 一种是采用 http 协议:这种是直接将请求分派到对应的 Tomcat 服务器,之后所有的请求均直接由该 Tomcat 来处理,该方式 Apache 与 Tomcat 对用户均是可见的,即 url 重定向; 一种是采用 ajp 协议: 将所有的 Tomcat 服务器隐藏在内网,对外暴露的只是 Apache 服务器 ,即所有的请求都交由 Apache 来处理, Apache 则在后台交由注册到 Apache 的 Tomcat 来完成,该协议为端口重定向,即根据 Tomcat 的 ajp 配置重定向端口,而请求 ip 地址不变。 2 、采用 http 方式配置集群, Apache 与 Tomcat 没有端口及环境的限制,可以配置在同一个环境上;采用 ajp 方式配置集群, Apache 与

搭建高可用mongodb集群(一)——配置mongodb

别等时光非礼了梦想. 提交于 2019-12-02 22:33:17
在大数据的时代,传统的关系型数据库要能更高的服务必须要解决高并发读写、海量数据高效存储、高可扩展性和高可用性这些难题。不过就是因为这些问题Nosql诞生了。 NOSQL有这些优势: 大数据量 ,可以通过廉价服务器存储大量的数据,轻松摆脱传统mysql单表存储量级限制。 高扩展性 ,Nosql去掉了关系数据库的关系型特性,很容易横向扩展,摆脱了以往老是纵向扩展的诟病。 高性能 ,Nosql通过简单的key-value方式获取数据,非常快速。还有NoSQL的Cache是记录级的,是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多。 灵活的数据模型 ,NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。 高可用 ,NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如mongodb通过mongos、mongo分片就可以快速配置出高可用配置。 在nosql数据库里,大部分的查询都是键值对(key、value)的方式。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中最像关系数据库的。支持类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。所以这个非常方便

quartz在集群环境下解决方案

≯℡__Kan透↙ 提交于 2019-12-02 14:30:49
在集群环境下,大家会碰到一直困扰的问题,即多个 APP 下如何用 quartz 协调处理自动化 JOB 。 大家想象一下,现在有 A , B , C3 台机器同时作为集群服务器对外统一提供 SERVICE : A , B , C 3 台机器上各有一个 QUARTZ ,他们会按照即定的 SCHEDULE 自动执行各自的任务。 我们先不说实现什么功能,就说这样的架构其实有点像多线程。 那多线程里就会存在“资源竞争”的问题,即可能产生脏读,脏写,由于三台 APP SERVER 里都有 QUARTZ ,因此会存在重复处理 TASK 的现象。 一般外面的解决方案是只在一台 APP 上装 QUARTZ ,其它两台不装,这样集群就形同虚设了; 另一种解决方案是动代码,这样就要影响到原来已经写好的 QUARTZ JOB 的代码了,这对程序开发人员来说比较痛苦; 本人仔细看了一下 Spring 的结构和 QUARTZ 的文档,结合 Quartz 自身可以实例化进数据的特性找到了相关的解决方案。 本方案优点: 1. 每台作为集群点的 APP SERVER 上都可以布署 QUARTZ ; 2. QUARTZ 的 TASK ( 12 张表)实例化如数据库,基于数据库引擎及 High-Available 的策略(集群的一种策略)自动协调每个节点的 QUARTZ ,当任一一节点的 QUARTZ

Centos6.5集群安装64位hadoop2.2.0

六月ゝ 毕业季﹏ 提交于 2019-12-02 07:05:07
Centos6.5集群安装64位hadoop2.2.0: 网络环境,整3台虚拟机或者物理机,配置好相应网络,编辑/etc/hosts, 如: ssh无密码登录,很简单,每台机器都生成公钥,密钥(事先建立一个统一的hadoop用户) // 生成key, 都不输入密码 ssh-keygen -t rsa // 于是在用户主目录下会有.ssh/文件夹生成, 文件有: id_rsa id_rsa.pub 将三台机器的id_rsa.pub的内容合并到一个authorized_keys文件,并复制到三台机器用户主目录/.ssh/下。 注意, Centos默认没有启动ssh无密登录,去掉/etc/ssh/sshd_config其中3行的注释: 完成后就可以无密ssh了,如: 安装hadoop: 解压,并做配置$HADOOP_HOME/etc/hadoop下: 详细配置可见: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html //1. hadoop-env.sh中添加JAVA_HOME, 如: # The java implementation to use. export JAVA_HOME=/usr/java/jdk1.7.0_45 //2. core-site

solr新版本环境搭建

情到浓时终转凉″ 提交于 2019-12-02 02:29:16
solr环境介绍 solr5.5 java1.7 mysql zookeeper solr这里使用的是solr5.5,因为该版本仍然支持jdk1.7适用性较广,但是该方法也能用在solr6.0上。 通过该方法我们会搭建一个可以从数据库导入数据的solr环境。 单机环境 首先我们解压下载到的solr压缩包 solr目录结构如下 加入依赖jar包 首先我们向dist目录中放入我们需要依赖的外部jar包,这里我们使用的是mysql数据库所以我们需要加入mysql的driver,mysql-connector-java-5.1.6.jar这个包可以去网上找一下很常见。 设定core配置文件 首先我们要建立自己的core配置文件,拷贝\solr-5.5.2\server\solr\configsets\data_driven_schema_configs文件夹到\solr-5.5.2\server\solr\,并将其改名为SolrTest,该配置文件将作为我们core配置文件的模板。下面还要对它稍作修改。 加入DataImportHandler 在新建立的SolrTest文件夹的\conf\solrconfig.xml文件中搜索<requestHandler name="/select"我们可以看到如下内容 <requestHandler name="/select" class="solr

完全分布式 hadoop 1.X集群部署

半腔热情 提交于 2019-12-01 23:08:06
准备工作:配置好两台以上能免密码ssh访问的Linux服务器;下载好jdk和hadoop-1.2.1-bin.tar.gz;确保iptables、selinux等防火墙已关闭 1、解压jdk $tar -xzvf jdk-7u71-linux-i586.tar.gz #将解压出来的jdk文件转移到usr目录下,也可以不转移,后面通过环境变量配置到相应的目录即可 $mv ./jdk1.7.0_71 /usr 2、解压hadoop,配置hadoop $tar -xzvf hadoop-1.2.1-bin.tar.gz #进入到hadoop-1.2.1下面的conf目录下 $cd hadoop-1.2.1/conf #配置环境变量 java_home $vi hadoop-env.sh #只修改这一行即可 export java_home=/usr/jdk1.7.0_71 #修改core-site.xml $vi core-site.xml <configuration> #自定义namenode的主机名 master.haddop,可以自定义,也可以是IP地址,如果是名称,需要修改hosts <property> <name>fs.default.name</name> <value>hdfs://master.hadoop:9000</value> </property>

Nginx+Tomcat+Redis实现负载均衡、资源分离、session共享

匆匆过客 提交于 2019-12-01 22:44:28
Nginx+Tomcat+Redis 实现负载均衡、资源分离、session共享 CentOS安装Nginx http://centoscn.com/CentosServer/www/2013/0910/1593.html CentOS安装Tomcat http://blog.csdn.net/zhuying_linux/article/details/6583096 CentOS安装Redis http://www.cnblogs.com/zhuhongbao/archive/2013/06/04/3117997.html 多个Tomcat负载均衡实例:可在服务器上复制出多个Tomcat分别修改Tomcat的 http访问端口(默认为8080端口) Shutdown端口(默认为8005端口) JVM启动端口(默认为8009端口) 1 、Nginx实现多Tomcat负载均衡 Tomcat服务 192.168.1.177:8001 192.168.1.177:8002 192.168.1.177:8003 Nginx配置 upstream mytomcats { server 192.168.1.177:8001; server 192.168.1.177:8002; server 192.168.1.177:8003; } server { listen 80; server

JBoss 系列二:使用Apache httpd(mod_cluster)和JBoss构架高可用集群环境

旧时模样 提交于 2019-12-01 20:04:54
什么是企业应用集群 集群是指把不同的服务器集中在一起,组成一个服务器集合,这个集合给客户端提供一个虚拟的平台,使客户端在不知道服务器集合结构的情况下可以对这一服务器集合进行部署应用,获取服务等操作。集群是企业应用的主要特点,它可以提供: 高扩展性:可以根据自己业务需求添加任意多的服务器到集群 高可用性:使用透明的负载均衡和容错机制,对客户端隐藏集群内部的错误 不管是扩展自己的集群的节点数,还是配置负载均衡、容错,集群中各节点之间状态必须保持一致,集群中状态保持一致需要借助与缓存机制实现(JBoss使用JGroups,Infinispan我们在后面的系列介绍)。如下图为一传统企业应用集群模式: 图-1传统企业应用集群 图 中各个步骤描述如下: 1. 客户端浏览器发送请求 2. 负载均衡器转发请求到节点1 3. 节点1处理业务时发生异常 4. 负载均衡切换请求到节点2 5. 节点2完成业务请求返回结果给客户端请求 上述业务请求完成过程中客户端不知道服务器端节点1发生异常。业务能够完成的核心是两个节点之间实时进行着状态复制,而状态复制需要借助于缓存框架和产品( JBoss使用JGroups,Infinispan我们在后面的系列介绍 )。 使用 Apache httpd 和 JBoss 构架高可用集群环境 Apache httpd