apache

spark小文件合并

点点圈 提交于 2021-02-14 08:58:09
package spark99 import java.io.IOException import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.log4j.Logger import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{SQLContext, SaveMode} /** * Created by hadoop on 下午11:54. */ object FilesManage { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("mergefile") val sc = new SparkContext(sparkConf) val sqlContext = new HiveContext(sc) val logger = Logger.getLogger("org") val fileSystem = FileSystem.get(sc

Nginx详解

梦想的初衷 提交于 2021-02-14 08:37:13
Nginx详解 一、Nginx介绍 nginx:开源的,高性能的。高并发的www服务器和代理服务    对静态资源处理能力强,占用资源极少,    高并发状态下容易造成崩溃 同类型web服务:apache、tomacat、resin、weblogic 反向代理:lvs、haproxy 前端缓存:squid、vanish 二、Nginx重要特性 ①支持高并发    ②资源消耗少 三、Nginx三大功能 ①web服务  ②前端缓存  ③反向代理 Nginx使用的是epoll模型 Apache使用的是select模型(初始模型,性能差) Apache在处理动态资源的时候比Nginx强 什么是epoll:异步I/O网络非阻塞模型 什么是select:同步I/O网络阻塞模型 四、Nginx安装 安装Nginx的支持包:pcre-devel openssl-devel 解压nginx包到/usr/local 进入nginx解压后的包进行编译: ./configure --user=www --group=www --prefix=/usr/local/nginx --with-http_stub_status_module --with-http_ssl_module && make && make install 做软连接或环境变量==>echo "PATH=$PATH:/usr/local

java 基于Tesseract实现图片文字识别

旧巷老猫 提交于 2021-02-14 03:49:06
摘自: https://www.cnblogs.com/yszd/p/12072145.html 一.简介    Tesseract是一个开源的文本识别【OCR】引擎,可通过Apache 2.0许可获得。它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言。该软件包包含一个ORC引擎【libtesseract】和一个命令行程序【tesseract】。Tesseract4添加了一个新的基于LSTM的OCR引擎,该引擎专注于行识别,但仍支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式进行工作。通过使用传统OCR引擎模式【--oem 0】,可以与Tesseract 3兼容。它还需要训练好的数据文件对旧引擎进行支持,例如tessdata目录下的数据文件。   特点:     1.具有Unicode【UTF-8】支持,并且可以“开箱即用”地识别100多种语言。     2.支持各种输出格式,纯文本,hOCR【HTML】,PDF,仅不可见文本的PDF,TSV。Master分支还对ALTO【XML】输出提供实验性支持。     3.在许多情况下,要想获得更好的OCR结果,需要提高提供给Tesseract的图像的质量。 二.在python环境中安装pytesseract      安装成功! 三.在Windows系统下安装Tesseract   

Linux安装部署jdk+tomcat+mysql

萝らか妹 提交于 2021-02-13 22:41:10
Linux安装部署测试环境 1. JDK安装下载 安装 yum search jdk 找到合适的jdk版本,以下图中的版本为例 yum install java-1.8.0-openjdk.x86_64 按照提示确认完成下载和安装,如遇需要确认的键入y(也可以在上一步用yum install -y免去确认步骤) 输入java -version确认安装信息,正确显示java版本则证明安装成功: yum安装jdk后,会建立usr/bin到jdk的软链接,所以不需要后续配置jdk环境变量即可使用。如遇找不到java的情况再考虑配置环境变量。 2. TomCat下载安装 下载 以tomcat-8为例 在windows下,去到官网 https://tomcat.apache.org/download-80.cgi 选择下载tar.gz包: 或者直接用以下链接下载 https://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-8/v8.5.43/bin/apache-tomcat-8.5.43.tar.gz 安装 在windows下,使用xftp将下载的tar.gz包上传至服务器指定目录 在linux下,去到该目录 使用tar -zxvf + 包名,解压刚上传的tomcat包 如遇权限不足,则chmod 755 + 包名赋予执行权限

Apache MINA --- [ProtocolCodecFilter]

混江龙づ霸主 提交于 2021-02-13 16:25:57
为什么使用它: TCP协议保证所有的包有正确的顺序,但是不保证发送端的一个写操作只导致接收端的一个读事件发生,用 MINA术语来描述 就是:没有ProtocolCodecFilter,发送端一个IoSession.write(...)能够导致接收端多个 messageReceived(...),多个write(...)也能被引导到一个messageReceived(...),也许在单机测试时我们 不会碰到这样的情况,但是我们的应用应该有能力处理这种问题. 大多数网络应用需要一种方式来找到当前信息的结束点和下一条信息的开始点. 我们能够在IoHandler中实现所有业务逻辑,但是添加ProtocolCodecFilter将使你的代码更加容易,清晰的维护. 它能帮助我们分离业务逻辑和协议逻辑. 怎么使用: 应用基本上仅仅接收字节流而且我们需要将它们转化成高层对象(message). 这里有三种通用技术来分割字节流到message: 1.使用固定长度的信息. 2.使用固定长度的消息头来指定的消息体的长度. 3.使用定界符(如:许多基于文本的协议会在每条消息末尾加上换行符). 例子: 本例中,我们将开发一个无用的图形字符服务来阐明如何实现自己的协议编解码器 Request: //一个简单的POJO代表一个请求 public class ImageRequest { private int

StreamNative 社区大使计划发布:携手贡献者,助推 Pulsar 中文社区快速成长

戏子无情 提交于 2021-02-13 12:06:22
为了拓展 Apache Pulsar 在中文开发者社区的影响力,增强 Apache Pulsar 中文社区活力,突出与表彰 Apache Pulsar 中文社区活跃成员,作为 Apache Pulsar 背后的商业支持公司,StreamNative 计划发起“社区大使计划”。 Apache Pulsar 中文社区是 Apache Pulsar 全球社区的重要组成,面向 Apache Pulsar 中文社区的“社区大使计划”也是 StreamNative 全球“社区大使计划”的重要组成。相信本计划的发布,也将加强 Apache Pulsar 中文社区与 Apache Pulsar 其他洲域社区的联络与合作,共同促进 Apache Pulsar 全球社区的发展与成长。 「因热爱而相聚,因你我而社区」 本计划面向 Apache Pulsar 中文社区全体成员开放,欢迎社区成员申请。 我们提出了一个响亮口号:因热爱而相聚,因你我而社区——意在表达我们对此计划的整体态度。我们不会追求社区大使的数量——这一虚假繁荣指标,而是为发现、携手真正热爱 Apache Pulsar 并愿意为之贡献的社区成员共同前行。 同时,我们也将遵循下面原则: • 支持主动申请与提名并举 文章底部有申请问卷,欢迎扫码填写个人申请信息。同时,我们也会根据大使计划管理委员会的建议,提名社区有着突出贡献的成员

Ignite笔记-NET嵌入Ignite

∥☆過路亽.° 提交于 2021-02-13 09:12:23
参考: 官方文档 https://apacheignite-net.readme.io/docs .NET 问题 跨平台 1.Nuget 安装 Apache Ignite 目前NETCORE版本无法安装 提示需要NET4.6.1 官网有NETCORE案例具体原因不明 2.启动代码: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using Apache.Ignite; using Apache.Ignite.Core; using Apache.Ignite.Core.Compute; namespace NetCmd { class Program { static void Main( string [] args) { using ( var ignite = Ignition.Start()) { var funcs = " Count characters using callable " .Split( ' ' ) .Select(word => new ComputeFunc { Word = word }); ICollection < int > res = ignite

解决spring-boot-maven-plugin插件打包,springboot启动时报找不到主main问题

半腔热情 提交于 2021-02-13 08:39:35
一:遇到的问题及解决方法 最近在搭建一个新项目时,使用spring-boot-maven-plugin插件打包,springboot项目在发布后启动时遇到找不到主main问题。 遇到这个问题当时感觉本地直接idea里启动springboot好好的,为什么用自动化发布工具发布后怎么就出现这个问题了呢? 就到线上打好的包解压看MANIFEST.MF文件里的内容如下: Manifest-Version: 1.0 Archiver-Version: Plexus Archiver Built-By: spy Created-By: Apache Maven 3.3.9 Build-Jdk: 1.8.0_74 只有一些简单的内容并没有启动类,主类什么的?所以报那个找不到主main就非常明确了。所以就怀疑是不是spring-boot-maven-plugin打包插件里些配置没有指定导致的? 后来通过网上查询与看官网的文档还真是这个原因: 我们这个的原因的是由于在spring-boot-maven-plugin插件里没有指定goal导致的: 出现在问题时的配置是这个样的: <plugins> <plugin> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-maven-plugin</artifactId>

常见开源协议介绍

社会主义新天地 提交于 2021-02-13 03:37:43
世界上的开源许可证(Open Source License)大概有上百种,今天我们来介绍下集几种我们常见的开源协议。大致有GPL、BSD、MIT、Mozilla、Apache和LGPL等。 BSD BSD是"Berkeley Software Distribution"的缩写,意思是"伯克利软件发行版"。 BSD开源协议:是一个给于使用者很大自由的协议。可以自由的使用,修改源代码,也可以将修改后的代码作为开源或者专有软件再发布。当你发布使用了BSD协议的代码,或则以BSD协议代码为基础做二次开发自己的产品时,需要满足三个条件: 如果再发布的产品中包含源代码,则在源代码中必须带有原来代码中的BSD协议。 如果再发布的只是二进制类库/软件,则需要在类库/软件的文档和版权声明中包含原来代码中的BSD协议。 不可以用开源代码的作者/机构名字和原来产品的名字做市场推广。 BSD代码鼓励代码共享,也允许使用或在BSD代码上开发商业软件发布和销售,因此很多的公司企业在选用开源产品的时候都首选BSD协议,因为可以完全控制这些第三方的代码,在必要的时候可以修改或者二次开发。 Apache Licence Apache Licence (Apache 许可证),是Apache软件基金会发布的一个自由软件许可证,最初是为Apache http服务器而撰写。 该协议和BSD类似

linux命令之系统管理命令(下)

耗尽温柔 提交于 2021-02-12 22:47:35
1.chkconfig:管理开机服务 该命令为linux系统中的系统服务管理工具,可以查询和更新不同的运行等级下系统服务的启动状态。 选项 说明 --list(常用) 显示不同运行级别下服务的启动状态 --add(常用) 添加一个系统服务 --del(常用) 删除一个系统服务 --level(常用) 指定运行级别 示例: 1)查看系统的服务状态 [root@boxiaoyuan ~]# chkconfig -- list NetworkManager 0 :关闭 1 :关闭 2 :启用 3 :启用 4 :启用 5 :启用 6 :关闭 abrt -ccpp 0 :关闭 1 :关闭 2 :关闭 3 :启用 4 :关闭 5 :启用 6 :关闭 abrtd 0 :关闭 1 :关闭 2 :关闭 3 :启用 4 :关闭 5 :启用 6 :关闭 关于运行级别的说明:0表示关机;1表示单用户模式;2表示没有网络的多用户模式;3表示完全的多用户模式;4表示没有使用的级别;5表示图形界面多用户模式;6表示重启。 2)管理系统服务 [root@boxiaoyuan ~]# chkconfig -- list sshd # 显示sshd不同运行级别下服务的启动状态 sshd 0 :关闭 1 :关闭 2 :启用 3 :启用 4 :启用 5 :启用 6 :关闭 [root@boxiaoyuan ~]#