技术文章

Spark 学习(四)RDD自定义分区和缓存

爷,独闯天下 提交于 2021-02-19 05:52:01
一,简介 二,自定义分区规则   2.1 普通的分组TopN实现   2.2 自定义分区规则TopN实现 三,RDD的缓存   3.1 RDD缓存简介   3.2 RDD缓存方式 正文 一,简介    在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。这个分配的规则我们是可以自己定制的。同时我们一直在讨论Spark快,快的方式有那些方面可以体现,RDD缓存就是其中的一个形式,这里将对这两者进行介绍。 二,自定义分区规则   分 组求TopN的方式有多种,这里进行简单的几种。这里尊卑一些数据: 点击下载   2.1 普通的分组TopN实现    实现思路一:先对数据进行处理,然后聚合。最后进行分组排序。 package cn.edu360.sparkTwo import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SubjectTopNone { def main(args: Array[String]): Unit =

各种提权姿势总结

柔情痞子 提交于 2021-02-19 05:51:51
提权技巧 1.cmd拒绝访问就自己上传一个cmd.exe,自己上传的cmd是不限制后缀的,还可以是cmd.com cmd.txt cmd.rar等 2.net user不能执行有时候是net.exe被删除了,可以先试试net1,不行就自己上传一个net.exe 3.cmd执行exp没回显的解决方法:com路径那里输入exp路径 C:\RECYCLER\pr.exe ,命令那里清空(包括/c )输入 net user jianmei daxia /add 4.有时候因为监控而添加用户失败,试试上传抓取hash的工具,如PwDump7.exe,得到hash之后可以进行破解,建议重定向结果到保存为1.txt cmd /c c:\windows\temp\cookies\PwDump7.exe >1.txt ,在条件允许的情况下也可以用mimikatz直接抓明文 5.有时候权限很松,很多命令都可以执行,但是就是增加不上用户,这时候你就要考虑是不是因为密码过于简单或是过于复杂了 6.用wt.asp扫出来的目录,其中红色的文件可以替换成exp,执行命令时cmd那里输入替换的文件路径,下面清空双引号加增加用户的命令 7.有时候可以添加用户,但是添加不到管理组,有可能是administrators组改名了,使用命令 net user administrator 查看管理组的名字 8

「面试原题 + 图文详解 + 实例代码」二叉搜索树-双指针-贪心 面试题汇总

余生颓废 提交于 2021-02-19 05:51:36
本文将覆盖 「字符串处理」 + 「动态规划」 方面的面试算法题,文中我将给出: 面试中的题目 解题的思路 特定问题的技巧和注意事项 考察的知识点及其概念 详细的代码和解析 开始之前,我们先看下会有哪些重点案例: 为了方便大家跟进学习,我在 GitHub 建立了一个仓库 仓库地址: 超级干货!精心归纳 视频、归类、总结 ,各位路过的老铁支持一下!给个 Star ! <br> 现在就让我们开始吧! <br> 二叉搜索树 二叉搜索树(Binary Search Tree),它或者是一棵空树,或者是具有下列性质的二叉树: 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值; 若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值; 它的左、右子树也分别为二叉搜索树。 <br> <br> 验证二叉搜索树 给定一个二叉树,判断其是否是一个有效的二叉搜索树。 假设一个二叉搜索树具有如下特征: 节点的左子树只包含小于当前节点的数。 节点的右子树只包含大于当前节点的数。 所有左子树和右子树自身必须也是二叉搜索树。 示例 : 输入: 5 / \ 1 4 / \ 3 6 输出: false 解释: 输入为: [5,1,4,null,null,3,6]。 根节点的值为 5 ,但是其右子节点值为 4 。 解题思路 乍一看,这是一道很简单的题。只需要遍历整棵树,检查 node.right

搭建一个jumpserver跳板机

霸气de小男生 提交于 2021-02-19 05:51:27
1,部署jumpserver 建立阿里云公网源yum仓库 清除缓存重新建立缓存 ip后面直接回车,下面输入y 地址端口账户密码直接回车 ,询问跳过输入y,是否继续输入y 用户名回车,输入自己要设置的密码,再次确认设置的密码,过滤一下8000端口查看开启状态 用浏览器去访问它,会出现下图这个界面,输入用户名和密码进行登录 登录成功后的界面如下图 经过以上操作后,跳板机jumpserver就搭建成功了。 特别注意的是:jumpserver的包绝不能解压在root目录里,会出现权限问题。 2,jumpserver的基本使用 ①添加用户 流程:用户管理-查看用户-添加用户 注册用户以后会出现下图所示:登陆密码及密钥密码,请务必作记录 ②修改用户的Web登陆密码 ③下载账户xshell远程登录密钥 下载密钥以后,妥善保存。 ④xshell远程登录工具导入密钥对 客户机xshell导入密钥:工具-用户密钥管理者 ⑤xshell建立通过密钥对访问的远程连接 ⑥账户资产授权 流程:资产管理-查看资产-添加资产 ⑦添加sudo 流程:授权管理-sudo-添加别名 ⑧添加系统用户 流程:授权管理-系统用户-添加 注意: 必须先在管理服务器主机上创建系统用户 ⑨推送系统用户 ⑩添加授权规则 ⑪再次测试登录 上传和下载文件(自己玩) 跳板机登陆日志审计 来源: oschina 链接: https://my

073. 互联网系统架构演进之路

无人久伴 提交于 2021-02-19 05:50:56
1. 互联网技术演进之路 1. 初生 无名的网站 -> 访问量低,一台服务器满足需求。 典型的技术 LAMP:Linux + Apache + MySQL + PHP 2. 发展问题 性能越来越差 越来越多的数据导致存储空间不足 3. 应用服务和数据服务分离 服务器对应不同的硬件需求 应用服务器:需要更快更强大的 CPU(处理大量的业务逻辑) 数据库服务器:需要更快的硬盘和更大的内存(快速磁盘检索和数据缓存) 文件服务器:需要更大的硬盘(存储大量用户上传的文件) 不同的服务器承担不同的角色 并发处理能力。 数据存储空间。 4. 发展问题 数据库压力太大导致访问延迟,进而影响整个网站的性能,用户体验受到影响。 5. 使用缓存改善性能 缓存 本地缓存(能存的数据量较少,并且会与应用程序争夺内存) 远程分布式缓存 6. 发展问题 能够处理的请求连接有限,网站访问高峰期,应用服务器成为整个网站的瓶颈。 7. 应用服务器集群 负载均衡 软件:Apache、Nginx、Reverse-proxy、pWEB、LVS 硬件:F5 DNS 负载均衡 8. 发展问题 有一部分读操作(缓存访问不命中,缓存过期)和全部的写操作要访问数据库,当用户达到一定规模后,数据库因为负载压力过高而成为整个系统的瓶颈。 9. 数据库读写分离 数据访问模块 在 Mybatis 中开发插件 Mycat Sharding

年轻人不讲code(抠德)

主宰稳场 提交于 2021-02-19 05:50:43
年轻人不讲code(抠德) 看到需求,嗖,就干起来了,很快啊! 左边一个if,右边一个else。 我说,小朋友,你们这样不行,写代码不能用死劲,要学会四两拨千斤,Martin、Eric、Robert、Frank都不是这么做事的。 他们不服气,又搬出了微服务、中台、codeless... 一开始还能防住,但很快就把系统整烂了,弄得满头包。 这样好吗?不好。 收拾残局的时候,我流泪了,这不是在做工程,是——骗!是——偷袭! 代码界,当以好代码为贵。 不要耍聪明,小聪明啊! 我只点到为止,你们耗子尾汁。 如果你正深陷烂系统的泥潭,妥于没有技术氛围的团队,困扰自己的能力成长。可以考虑来我的团队——阿里巴巴新零售,零售通技术部。 我们的业务、研发团队,都是很年轻的团队,充满活力,在我们的团队会极大的锻炼你的抽象能力、业务分析能力、领域建模能力、结构化和系统化思考力,提升商业思维能能力;我们有很好的技术氛围,我们会关注你的技术成长。 专注技术领域,掌握工匠技艺,请关注我的公众号“从码农到工匠” 本文分享自微信公众号 - 从码农到工匠(craftsman_frank)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4598342

Linux下ftp使用及nfs网络文件系统

拜拜、爱过 提交于 2021-02-19 05:50:29
ftp 是一个文件传输协议 ,是tcp/ip 文件传输协议的一种 ftp可以用与文件的共享也可以用于文件的固定IP的收集 Linux下使用说明: 首先我们需要安装ftp程序 yum - y install vsftpd #ftp在Linux里面的安装程序叫做vsftpd systemctl stop firewalld #关闭防火墙 setenforce 0 #将selinux设置为关闭状态 其共享文件夹为/var/ftp ftp如无特殊设置均可以访问和下载 下载方式说明: yum - y install lftpd #客户机在Linux下访问ftp服务器 需要安装lftp程序 lftp ftp: / / 192 . 168 . 88 . 134 # 通过lftp 访问ftp服务器 lftp 192 . 168 . 88 . 134:~> ls #可以查看当前共享文件 lftp 192 . 168 . 88 . 134:~> get cs01 . txt #get可以下载文件 下载到的目录为敲lftp命令时所在文件夹的目录 lftp 192 . 168 . 88 . 134:~> mirror cs #mirror可以下载文件夹 elinks ftp: / / 192 . 138 . 88 . 134 #也可以通过elinks访问ftp文件夹 wget ftp: / / 192 .

Excel常用函数公式小结

穿精又带淫゛_ 提交于 2021-02-19 05:50:16
日前在XX公司提供技术支持,用Excel处理数据较多。研究宏发现还没有直接用函数方便,索性VBA了解个皮毛就又弃之不顾。 T_T 双子座的三心二意伤不起啊~~~废话不说,先把最近用到的函数和公式总结一下。 一、 概念 Excel函数:预先定义,执行计算、分析等处理数据任务的特殊公式。以常用的求和函数SUM为例,它的语法是“SUM(number1,number2,......)”。 Excel公式:由用户自行设计对工作表进行计算和处理的计算式。 如果函数要以公式的形式出现,它必须有两个组成部分,一个是函数名称前面的等号,另一个则是函数本身。 二、 常用函数公式 (太懒了,直接粘贴吧,也会完整一些。工作中用到最多的是VLOOKUP、COUNTIF、IF,再辅助使用一些筛选什么的自带功能,小数据量的数据处理还是蛮快的。) 1、ABS函数    函数名称:ABS    主要功能:求出相应数字的绝对值。    使用格式:ABS(number)    参数说明:number代表需要求绝对值的数值或引用的单元格。    应用举例:如果在B2单元格中输入公式:=ABS(A2),则在A2单元格中无论输入正数(如100)还是负数(如-100),B2中均显示出正数(如100)。    特别提醒:如果number参数不是数值,而是一些字符(如A等),则B2中返回错误值“#VALUE!”。      2

Python基础——列表

旧城冷巷雨未停 提交于 2021-02-19 05:49:52
字符串列表 说明: 列表相当于其他语言的数组。可以用以下两种方式定义列表: name = [ ' honda ' , ' yamaha ' , ' suzuki ' ] bicycles = list( ' trek ' , ' cannondale ' , ' redline ' , ' specialized ' ) 列表的索引从0开始,用-1表示最后一项,而-2表示倒数第二项,以此类推例如: print (name[0]) # 'honda' print (name[-1]) # 'suzuki' 方法和函数: 方法: def append(self, p_object): # 无返回值,添加一个对象到最后 """ L.append(object) -> None -- append object to end """ pass def clear(self): # 无返回值,删除列表中所有项 """ L.clear() -> None -- remove all items from L """ pass def copy(self): # 返回一个浅复制列表 """ L.copy() -> list -- a shallow copy of L """ return [] def count(self, value): # 返回整数——参数value在列表中的个数 """

【推荐】阿里双11背后的技术:不一样的技术创新,阿里巴巴技术演进与超越

人盡茶涼 提交于 2021-02-19 05:49:35
时间如流水,2017年11月11日又快到了,意味着一年一度的阿里双11购物狂欢又要来了,而2016的双11仿佛如昨。 每年双11技术保障工作的顺利完成,是阿里技术积累和创新能力的集中展现。2016双11业务狂欢的背后,更是体现了阿里这两年来在人工智能、VR、云计算和大数据技术方面丰富的技术实践与突破。 1、《不一样的技术创新》 为了揭开双11背后的技术,阿里出品了《不一样的技术创新》一书,本书全面阐述阿里双11背后的技术实践与创新,包含基础设施、存储、中间件、云计算、业务架构、大数据、认知计算与人工智能、交互技术及安全等技术领域。 这27篇共计10万余字凝聚了阿里工程师的智慧和创造力的的技术干货。 本书目录 第一章 基础设施 1.1 万亿交易量级下的秒级监控 1.2 双11背后基础设施软硬结合实践创新 1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的 第二章 存储 2.1永不停止的脚步——数据库优化之路 2.2 AliCloudDB--双11商家后台数据库的基石 第三章 中间件 3.1 万亿级数据洪峰下的分布式消息引擎 第四章 电商云化 4.1 17.5W秒级交易峰值下的混合云弹性架构之路 4.2 集团AliDocker化双11总结 第五章 业务架构 5.1 内容+:打造不一样的双11 5.2 双11交易核心链路的故事 5.3 千亿访问量下的开放平台技术揭秘