大数据

我是培训机构出身的程序员,不敢告诉任何人

|▌冷眼眸甩不掉的悲伤 提交于 2021-02-18 17:50:37
点击上方 SQL数据库开发 ,关注获取 SQL视频教程 SQL专栏 SQL数据库基础知识汇总 SQL数据库高级知识汇总 来源 | InfoQ 作者丨褚杏娟 培训机构出身程序员和科班程序员之间,有鄙视链吗? 1 “谁都看不上培训机构的” “我是培训 + 外包出来的,确实有被甲方嫌弃过。”2016 年从电子信息专业毕业的小右说起这个话题有些落寞。 公务员考试失利的小右在大四上学期开始找工作,但因为学习成绩一般,工作找得并不顺利。这个情况持续一段时间后,小右决定去参加某培训机构的 Java 培训。“电子信息专业虽说属于计算机范畴,但其实和编程还不一样的,我也是没办法。”小右很无奈。 培训机构的课程对有一定 C、C++ 基础的小右来说还算比较轻松。他所在的那家培训机构的上课内容就是老师带着做做项目,教的代码在后面工作中可以复用。几个月后小右从培训机构毕业,第一份工作是北京当地蛮著名的一个外包机构,薪资 5K。 与同批毕业找到不错工作的同学们比,小右还是感到些许心酸。“上课的学费,我是走的贷款。和培训机构签过协议,毕业就可以找到工作。找不到,损失由培训机构承担;找得到,机构每个月要从我的薪资里面抽一部分还学费。“北京的生活成本本来就高,加上机构的抽成,对于刚毕业的小右来说,无疑压力很大。 在这家外包公司呆了一年后,小右跳槽了——仍旧是家外包公司。

分库分表的方案

戏子无情 提交于 2021-02-18 17:49:56
大数据量系统开发中,由于数据量很大,经常遇到数据存储在集群上的需求,这时候就需要在不同的方案中进行权衡选择了。 一种选择是利用现成的中间件,比如ES,HBASE,mongdb等,这些中间件自带集群扩展功能,业务代码无需关注水平扩展。 还有一种是关系数据库+分库分表路由的方式,典型的是shardingJDBC+多台mysql,通过shardingJDBC来进行路由到哪台mysql的方式完成。 第二种方式用起来比较费事,需要手工配置路由规则,因此最好的方式还是核心交易数据用这种方式,非核心数据还是用ES这种集群中间件来做,简化代码开发。 来源: oschina 链接: https://my.oschina.net/u/778683/blog/4955261

《工业互联网创新发展行动计划(2021-2023年)》解读

蹲街弑〆低调 提交于 2021-02-18 17:44:05
《工业互联网创新发展行动计划(2021-2023年)》解读 近日,工业互联网专项工作组印发《工业互联网创新发展行动计划(2021-2023年)》(工信部信管〔2020〕197号,以下简称《三年行动计划》)。现就《三年行动计划》有关内容解读如下: 1《三年行动计划》的出台背景是什么? 工业互联网 是新一代信息通信技术与工业经济深度融合的全新工业生态、关键基础设施和新型应用模式。它以网络为基础、平台为中枢、数据为要素、安全为保障,通过对人、机、物全面连接,变革传统制造模式、生产组织方式和产业形态,构建起全要素、全产业链、全价值链全面连接的新型工业生产制造和服务体系,对支撑制造强国和网络强国建设,提升产业链现代化水平,推动经济高质量发展和构建新发展格局,都具有十分重要的意义。 过去三年是工业互联网起步发展期,工业和信息化部会同工业互联网专项工作组各单位,实施《工业互联网发展行动计划(2018-2020年)》,发布实施十余项落地性文件,不断完善政策体系,实施工业互联网创新发展工程,带动总投资近700亿元,遴选4个国家级工业互联网产业示范基地和258个试点示范项目,打造了一批高水平的公共服务平台,培育了一批龙头企业和解决方案供应商。网络基础、平台中枢、数据要素、安全保障作用进一步显现,工业互联网新型基础设施不断夯实,新模式新业态创新活跃,产业生态不断壮大,各地方、产业各界共识不断凝聚

基于java的中文分词工具ANSJ

淺唱寂寞╮ 提交于 2021-02-18 16:00:13
ANSJ 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 分词的目的是创建一个高稳定可用的中文分词工具,可以利用到各种需要文字处理的场景中下面简单介绍一下Ansj中文分词的主要算法及特点. 数据结构 高度优化Trie树 在用户自定义词典以及各种类似于Map的场景中,大量使用的一个工具,众所周知,Trie具有高速的文本扫描能力,和较低的内存占用率,是最好的AC机之一,弦外之音,在我的认知范围内,貌似没有之一.相比其它结构在性能和构造上做到了很好的平衡,但是在java中,大量构建map尤其是hashmap,是一个非常昂贵的操作,通过对于一个map放入大量的key也注定其在自动拆箱装箱,以及解决冲突,大量hash匹配上做了过多的小消耗,虽然多数人认为,这种消耗属于纳秒级别的,但是对于动不动就上GB的文本来说,这个消耗是不可忽略的,所以作者在这里使用了首字母hash次字二分的方式来避免过多的消耗内存,也正应为有了这个机制.可以保证Ansj加载更多的用户自定义词典,有人问我具体的数字.大约500万词,1Gde 内存

MySQL老大难事务和锁,一次性讲清楚!

戏子无情 提交于 2021-02-18 14:09:39
点击上方蓝色“ java大数据修炼之道 ”, 选择“ 设为星标 ” 每晚九点: 技术干货 👉 必定奉上 本文来源:http://r6d.cn/acuaX 众所周知, 事务和锁 是mysql中非常重要功能,同时也是面试的重点和难点。本文会详细介绍 事务和锁 的相关概念及其实现原理,相信大家看完之后,一定会对 事务和锁 有更加深入的理解。 “ 本文主要内容是根据掘金小册《从根儿上理解 MySQL》整理而来。如想详细了解,建议购买掘金小册阅读。 ” 什么是事务 在维基百科中,对事务的定义是: 事务是数据库管理系统(DBMS)执行过程中的一个逻辑单位,由一个有限的数据库操作序列构成 。 事务的四大特性 事务包含四大特性,即 原子性(Atomicity) 、 一致性(Consistency) 、 隔离性(Isolation)和持久性(Durability) (ACID)。 原子性(Atomicity) 原子性是指对数据库的一系列操作,要么全部成功,要么全部失败,不可能出现部分成功的情况 。以转账场景为例,一个账户的余额减少,另一个账户的余额增加,这两个操作一定是同时成功或者同时失败的。 一致性(Consistency) 一致性是指数据库的完整性约束没有被破坏,在事务执行前后都是合法的数据状态 。这里的一致可以表示数据库自身的约束没有被破坏,比如某些字段的唯一性约束、字段长度约束等等

CDH 大数据平台搭建

我与影子孤独终老i 提交于 2021-02-18 12:31:12
一、概述 Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。 二、安装部署 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | -------- | | 1 | 172.20.2.222 | cm-server |centos7.3 | 2 | 172.20.2.203 | hadoop-1 |centos7.3 | 3 | 172.20.2.204 | hadoop-2 |centos7.3 | 4 | 172.20.2.205 | hadoop-3 |centos7.3 2.2.1 基础环境部署 a.修改主机名配置hosts systemctl stop firewalld hostnamectl set-hostname cm-server #更改个主机名 sed -i 's/SELINUX=enforcing/SELINUX=disable/g' /etc/selinux/config setenforce 0 cat >>/etc/hosts<<EOF

科大讯飞工程机械核心部件寿命预测挑战赛冠军方案分享

狂风中的少年 提交于 2021-02-18 08:50:48
本次分享从以下几个方面展开,尽可能做到有理有据,希望对读者有所帮助:赛题简介、赛题难点、数据预处理、特征工程、数据增强、模型构建、其他、总结。 1.赛题简介 预测性维护是工业互联网应用“皇冠上的明珠”,实现预测性维护的关键是对设备系统或核心部件的寿命进行有效预测。对工程机械设备的核心耗损性部件的剩余寿命进行预测,可以据此对于相关部件的进行提前维护或者更换,从而减少整个设备非计划停机时间,避免因计划外停机而带来的经济损失,比如导致整个生产现场其他配套设备等待故障设备部件的修复。本赛题由中科云谷科技有限公司提供某类工程机械设备的核心耗损性部件的工作数据,包括部件工作时长、转速、温度、电压、电流等多类工况数据。希望参赛者利用大数据分析、机器学习、深度学习等方法,提取合适的特征、建立合适的寿命预测模型,预测核心耗损性部件的剩余寿命。 2.赛题难点 针对数据量以及划分构造训练集的问题采用以下方案解决: 训练集与测试集的构造: a.一个训练样本按照寿命的一定比例进行构造多个小样本; 这里有两种方法,一是采用固定的比例列表,例如[0.45,0.55,0.63,0.75,0.85]。 二是采用多次选取随机比例构造。 b.测试集不变。 (队友周杰曾尝试过测试集也进行比例划分,有提升) 比如说一个样本的寿命为1000,我们截取450前的数据作为一个训练样本,其剩余寿命为550; 然后截取550前的数据

Kafka实战(四) -Kafka门派知多少

爷,独闯天下 提交于 2021-02-18 08:03:31
Kafka不是一个单纯的消息引擎系统,而是能够实现精确一次(Exactly-once)处理语义的实时流处理平台 Storm/Spark Streaming/Flink,在大规模流处理领域主流 Kafka经过这么长时间不断的迭代,现在已经能够稍稍比肩这些框架 Kafka社区对于这些框架心存敬意 目前国内鲜有大厂将Kafka用于流处理的尴尬境地,毕竟Kafka是从消息引擎“半路出家”转型成流处理平台的,它在流处理方面的表现还需要经过时间的检验。 从流处理平台扩展到流处理生态圈,Kafka更是还有很长的路要走 Kafka Streams提供了Kafka实时处理流数据的能力 但是其实还有一个重要的组件 Kafka Connect 在评估流处理平台时,框架本身的性能、所提供操作算子(Operator)的丰富程度固然是重要的评判指标, 但框架与上下游交互的能力也是非常重要的 能够与之进行数据传输的外部系统越多,围绕它打造的生态圈就越牢固,因而也就有更多的人愿意去使用它,从而形成正向反馈,不断地促进该生态圈的发展。 就Kafka而言,Kafka Connect通过一个个具体的连接器(Connector),串联起上下游的外部系统。 整个Kafka生态圈如下图所示 外部系统只是Kafka Connect组件支持的一部分而已 使用Kafka Connect组件的用户越来越多

大数据操作map最规范操作

自闭症网瘾萝莉.ら 提交于 2021-02-18 07:38:00
首先整上完整代码 package text10; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class maps extends Mapper<LongWritable, Text, Text, NullWritable> { Text k = new Text(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String rawvalue = Processdata(value.toString()); String band = getname(rawvalue, "phone

数据仓库之数据分析

余生颓废 提交于 2021-02-18 07:19:12
1. 数据仓库基本介绍   英文名称为 Data Warehouse ,可简写为DW或DWH。数据仓库的目的是 构建面向分析的集成化数据环境 ,为企业提供 决策支持 (Decision Support)。它出于分析性报告和决策支持目的而创建。   数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 2. 数据仓库的定义   数据仓库是 面向主题的 (Subject-Oriented )、 集成的 (Integrated)、 稳定性的 (Non-Volatile)和 时变的 (Time-Variant )数据集合,用以支持管理决策。 2.1、面向主题   数据仓库中的数据是按照一定的主题域进行组织。   主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.2、集成性   根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。 2.3、稳定性   数据的相对稳定性,数据仓库中的数据只进行新增,没有更新操作、删除操作处理。   反映历史变化,以查询分析为主。 2.4、时变性   数据仓库的数据一般都带有时间属性,随着时间的推移而发生变化,不断地生成主题的新快照 4.