数据集成

面试技巧篇01

拥有回忆 提交于 2019-12-16 12:36:37
1.问:你在 测试 中发现了一个 bug ,但是开发经理认为这不是一个 bug ,你应该怎样解决。   首先,将问题提交到 缺陷管理 库,类似禅道,进行备案,   根据需求文档,产品说明,设计文档等,确认实际结果是否与计划有不一致的地方,   如果没有文档,可以根据类似软件的一般特性来说明是否存在不一致的地方,来确认是否是缺陷;   根据一般用户的使用习惯,来确认   与设计人员、开发人员和客户代表等相关人员探讨,确认是否是缺陷;   合理的论述,向测试经理说明自己的判断的理由,注意客观、严谨,不参杂个人情绪   等待测试经理做出最终决定,如果仍然存在争议,可以通过公司政策所提供的渠道,向上级反映,并由上级做出决定。    2. 给你一个网站,你如何测试?   首先,查找需求说明、网站设计等相关文档,分析测试需求。   制定测试计划,确定测试范围和测试策略,一般包括以下几个部分:功能性测试;界面测试; 性能测试 ; 数据库 测试;安全性测试;兼容性测试   设计 测试用例 :   功能性测试可以包括,但不限于以下几个方面:   链接测试。链接是否正确跳转,是否存在空页面和无效页面,是否有不正确的出错信息返回。   提交功能的测试。   多媒体元素是否可以正确加载和显示。   多语言支持是否能够正确显示选择的语言等。   界面测试可以包括但不限于一下几个方面:   页面是否风格统一

UP!UP!UP! 看Informatica如何为你的Salesforce加油提速!

做~自己de王妃 提交于 2019-12-13 09:33:41
​Part 1 新消息“数递”: Informatica发布新版Informatica Salesforce Guide , 提升混合数据访问能力 近日,全球数据管理领导者Informatica在Dreamforce 2019大会上发布了Informatica Salesforce Guides for Hybrid Data Access(针对混合数据访问场 景 的Salesforce向导)。 Informatica Salesforce Guides提供了一种简明的工作流应用场景体验,它可以帮助用户自动处理Salesforce 任务,并实现对Salesforce云数据和本地数据的实时交互式访问,从而避免了复杂的集成工作。 这种新的解决方案的特别之处在于Informatica Guide Designer。 它向所有用户提供了一种快速实现工作流开发和交付的简单方法,这些工作流被嵌入到Salesforce用户接口,且无需编码。Informatica Salesforce Guides避免了管理分散数据源时容易出现的低效问题,并允许用户方便地输入和访问那些与销售、服务及市场活动有关的数据,例如,从销售线索到销售活动结束、全周期的销售过程以及呼叫中心的自动化处理过程。 Informatica Salesforce Guides for Hybrid Data Access

flowable 集成mongodb

萝らか妹 提交于 2019-12-12 01:59:58
学无止境,活到老学到老,每天都问自己进步了吗? 1.背景 由于公司每天有至少1500个表单发起,处理待办任务至少7000个,累计历史任务数据已经达到200多w条,时间一长,通过数据库查询已办的任何和我发起的流程巨慢 所以我们考虑到这些数据能不能放入ES或者是mongodb中 流程中心1.0版本集成的是ES,速度确实非常快,提升查询性能近万倍,但是由于ES是一个全文检索的系统,对我们这些业务数据来说,不是很适合,比方说 我们的表单数据,他直接给分词了,不符合业务的要求。 流程中心2.0版本我们就改成mongodb,速度一样达到es的查询效果,解决了以前分词的问题,而且数据结构化查询也非常方便。 2.集成mongodb策略 集成mongodb的策略有两种 2.1.利用flowable提供的mongodb的插件来集成,具体可以参考他们提供的demo 2.2通过流程实例id和任务id查询表数据,做加工处理,然后在通过消息队列的方式同步到mongodb中 第一种方式就相当于把历史表的数据全部搬到mongodb中,在关系型数据库中不存放任何历史数据,正是由于中原因,我担心历史数据的丢失,所以我采用的是 第二种策略,关系数据库中有一份数据,在mongodb中我也有一份加工后的数据,以保证万无一失。 3.具体实现 3.1 同步数据 @Component @RabbitListener(queues

数据集成工具Kettle、Sqoop、DataX的比较

耗尽温柔 提交于 2019-12-11 16:26:43
数据集成工具很多,下面是几个使用比较多的开源工具。 1、阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 2、Apache开源软件:Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。(摘自百科) 3、Kettle开源软件:水壶(中文名) Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换

医院信息集成平台(ESB)数据集成建设方案

不问归期 提交于 2019-12-11 12:41:50
一、数据资产目录建设 依据卫生部信息化工作领导小组办公室卫生部统计信息中心2011年3月发布的《基于电子病历的医院信息平台建设技术解决方案——业务部分》。 临床服务域 包含 12个二级类目:患者标识、患者服务、入出转、医嘱、病历文书、护理文书、检验、检查、手术麻醉、治疗、输血、健康体检,业务子域共计26个。 医院管理域 包含 4个二级类目:医疗管理、人力资源管理、财务管理、物资及 后勤服务管理。共有业务子域共 26个。 平台应用域 包含 5个二级类目:区域医疗协同、管理决策、临床决策、公共卫 生信息上报、患者公众服务。共有业务子域 20个。 梳理建设以业务活动为核心的数据资产目录,如图一:             图一:以业务活动为核心的数据资产目录 二、数据中心建设 根据业务活动创建主题,如图二: 图三:业务活动主题 梳理数据元标识符,保证每一个数据元的标识符具有唯一性(基本数据集:城乡居民健康档案、疾病管理、医疗服务、电子病历等) 1、数据元标识符“DE08.10.052.00”来源依据《TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方》,如图三: 图三:TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方 2、数据允许值“WS218--2002”来源依据《WS 218-2002 卫生机构(组织)分类与代码

算法交易系统架构,此篇足矣!

限于喜欢 提交于 2019-12-11 12:07:25
https://cloud.tencent.com/developer/article/1469568 本篇推文将分三个部分由浅到深,为大家介绍算法交易系统架构的细节: 算法交易系统概述 算法交易系统要求(重点) 算法交易系统架构(超重点) 第一部分:算法交易系统概述 算法交易是使用计算机算法自动做出交易决策,提交指令并在提交后管理那些指令。算法交易系统最好使用由三个组件组成的简单概念架构来理解,这些组件处理算法交易系统的不同方面,即数据 处理程序、策略处理程序和交易执行处理程序 。这些组件与上述算法交易的定义一一映射。在今天的推文中,我们扩展这个架构来描述如何构建更智能化的算法交易系统。 概念算法交易系统 系统更智能化意味着什么?在算法交易的背景下,我们将通过系统自我适应和自我感知的程度来度量智能化。首先让我们详细说明算法交易系统概念架构中的三个组件。 数据组件 算法交易系统可以使用结构化数据、非结构化数据或者两者兼用。如果数据是按照预定结构组织的,那么它是结构化的。示例包括电子表格、CSV文件、JSON文件、XML、数据库以及数据结构。与市场相关的数据(如日内价格、日终价格和交易量)通常以结构化格式提供。经济和公司财务数据也以结构化格式提供。Quandl和Wind是两个很好的示例结构化财务数据的来源。 如果数据没有按照预定结构进行组织,那么它就是非结构化的。示例包括新闻

SpringBoot集成Redis来实现缓存技术方案

你。 提交于 2019-12-11 03:27:51
概述 在我们的日常项目开发过程中缓存是无处不在的,因为它可以极大的提高系统的访问速度,关于缓存的框架也种类繁多,今天主要介绍的是使用现在非常流行的NoSQL数据库(Redis)来实现我们的缓存需求。 Redis简介 Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件,Redis 的优势包括它的速度、支持丰富的数据类型、操作原子性,以及它的通用性。 案例整合 1、在Maven pom.xml文件中加入Redis包 <!--redis--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-redis</artifactId> <version>${boot.version}</version> </dependency> 2、SpringBoot配置文件中配置Redis连接(YAML方式配置) spring: application: name: spring-boot-redis redis: host: 192.168.145.132 port: 6379 timeout: 20000 cluster: nodes: 192.168.211.134:7000,192.168.211.134:7001

集成学习 - Bagging

心已入冬 提交于 2019-12-07 23:45:27
认识 Bagging 的全称为 (BootStrap Aggregation), 嗯, 咋翻译比较直观一点呢, 就 有放回抽样 模型训练? 算了, 就这样吧, 它的Paper是这样的: Algorithm Bagging: Let n be the number of bootstrap samples 这步非常关键: 对训练样本进行 有放回抽样 , 这样就可达到,将原来只有一个数据集,现在有n个数据集了. for i = 1 to n do: ​ 3. Draw bootstrip sample of size \(m, D_i\) \(D_i\) 表示第 i 个采样的数据集 Train base classifier \(h_i\) on \(D_i\) 与之前的 voting 不同在于, 这里 hi 算法没有变, 只是数据变了 \(\hat y = mode(h_1(X), h_2(X)..)\) mode 是众数的意思, 民主投票, 来确定最终结果 BootStrap 有放回采样 假设数据是均匀分布的, 然后我们有采样了一个样本 X, 假设有 n 条数据, 则每条数据, 被抽中的概率是均等的, 都是: $P(x_i) = \frac {1}{n} $ 没有被抽中的概率是: \(1-P(x_i) = 1-\frac {1}{n}\) 现在进行有放回抽样, 该条数据在

springboot集成redis

痞子三分冷 提交于 2019-12-07 18:02:22
springboot集成redis springboot集成redis 前言 1、maven导入依赖包 2、编写工具类-方便调用 3、在controller中调用 4、解决key值和value值乱码 前言 最近使用springboot做项目,使用了springboot+mybatis完成了一些基础接口的开发,其中有个接口,客户端大概需要每个10秒调用一次,每次调用都会连接一次数据库,然后查询,关闭连接,返回。大量频繁的连接数据库,增加了服务器性能的消耗,同时也使接口请求速度变慢。于是使用redis缓存来解决这一问题。 如果有redis不会安装的,可查看我之前的一篇博客,进行安装,地址 https://blog.csdn.net/u012489412/article/details/81218983 1、maven导入依赖包 springboot中要使用redis,先要导入相关的依赖包spring-boot-starter-data-redis,我这里使用maven进行导入。 <!-- redis缓存 --> < dependency > < groupId > org.springframework.boot </ groupId > < artifactId > spring-boot-starter-data-redis </ artifactId > </

这些传统数据集成的痛,你还在经历吗?

て烟熏妆下的殇ゞ 提交于 2019-12-06 14:47:17
20多天后,我们将步入2020年。在即将过去的2019年,人工智能、5G、数字货币等技术不断冲击着传统的数据治理模式,你所在的企业是否同样感受到了冲击?在这些难以言说的痛中间,又有多少是传统数据集成所带来的? 今年,随着数据驱动决策的理念逐渐深入人心,越来越多的企业开始逐步对存量的数据资产进行消费,在数据消费过程中引入各种数据集成的工具,来解决数据打通的问题,并用于后端数据消费:如分析报表、数据查询、和数据挖掘等工作。 大数据时代的到来,不仅意味着数据来源更加广泛,数据存储量增加,同时对于数据及时性要求也越来越高,传统数据集成工具的瓶颈越发明显。其中主要表现在以下几点,看完后,你正在经历哪几种? 一、数据及时性 各行各业的业务部门对于数据时效性的看法是:希望越快越好。金融行业的客户经理希望第一时间得到客户的动账通知;客户在申请贷款时,希望能够秒批秒贷;数字化营销部门的负责人希望能根据渠道投放的实时反馈及时调整投放策略;连锁零售门店也希望能实时掌握各个门店的库存,避免外卖的骑手取货时才发现货品已经售罄,而客户不得不提出退款;而在互联网行业,任何用户的行为分析都需要实时,以便在客户短暂的上线时间段能抓住客户的需求点。业务追求的是增长,快对于业务的改变不仅仅是减少低效的投入,及时止损,快速试错,更重要的是能加快业务的微创新,提升客户的体验,在更短的周期内快速迭代,应对千变万化的市场。