DCC

对命名实体识别进行基准测试:StanfordNLP,IBM,spaCy,Dialogflow和TextSpace

天大地大妈咪最大 提交于 2020-08-20 09:00:17
作者|Felix Laumann 编译|VK 来源|Towards Data Science NER是信息提取的一个子任务,它试图定位并将非结构化文本中提到的指定实体划分为预定义的类别,如人名、组织、位置、医疗代码、时间表达式、数量、货币。 我们创建了我们自己的小型测试数据集,其中11个示例来自谷歌的Taskmaster 2数据集,该数据集于2020年2月刚刚发布。我们将此数据集视为NER解决方案中未来研究和产品的基准数据集。我们用该数据集来探索TextSpace。 这个数据集中的句子可能在长度和包含的信息上有所不同,但是我们选择了其中包含大量实体的句子,因此我们可以根据最新的NER解决方案来区分优劣。我们测试集中的句子来自不同的领域,因为我们想看看我们在这篇文章中比较的解决方案有多灵活。请注意,这些示例中使用了Dialogflow聊天机器人,因此我们也希望Dialogflow在这些例子上能够执行得很好。 我们将首先详细地看两个例子,最后会有一个总结。 机票预订 让我们以一个想要预订航班的用户的句子为例: "So, I would like to fly out sometime tonight and fly back in the evening in 4 days. From I’m looking to go to Denver. I’m flying out of San

软件吃软件,编程工作会越来越多吗?

强颜欢笑 提交于 2020-08-18 16:46:21
1、 最近,国外有一篇文章,标题很有趣,叫做《软件吃掉软件》。 作者认为,大型软件和通用软件越来越强大,将会取代小软件和专门软件,相当于把后者都吃掉了。 他以自己的经历举例,云服务就取代了很多小软件。 "我亲眼目睹了这种情况发生的速度。我的第一份工作是在一家小型创业公司,我们拥有大量的物理服务器。现在,很难想象有任何一家 Web 创业公司会直接管理服务器,人们都是在亚马逊 AWS 控制台上点击几个按钮和链接。" 框架的发展,也使得从头编写代码的需求越来越少。 "程序员曾经需要从头开始构建东西,但是软件库的发展速度超过了我们的使用速度,甚至软件可以自己生成新的软件,这也是为什么你看到如此之多的"无代码"或"低代码"解决方案突然出现的原因。现在,自己编写代码的理由越来越少,你要做的只是将不同的产品集成在一起。" 他的结论就是,软件自动化技术的发展,可能将会减少对软件工程师的需求,未来的程序员可能会比现在少。 更多机器学习相关内容 2、 我对这个话题很感兴趣,因为这是在预测未来的重大变化,而且跟就业趋势直接相关。如果未来软件的规模化和自动化,会抑制对程序员的需求,那么就不应该鼓励年轻人都来当程序员。 Hacker News 论坛对这篇文章进行了热烈的讨论。大部分人(都是职业程序员)的看法是, 这种观点已经说了几十年了,根本是杞人忧天,实际情况恰恰相反,程序员变得越来越多。 "10岁时

AI时代你需要知道的:知识图谱技术原理

时光总嘲笑我的痴心妄想 提交于 2020-08-18 14:37:49
知识图谱是什么? 知识图谱最早由谷歌发布,为了提升搜索引擎返回答案的质量以及用户查询的效率,在知识图谱辅助下,搜索引擎可以洞察到用户查询背后的一个语义信息,然后返回更为精准结构化的信息,从而更大可能的去满足用户的一个查询需求。 更多机器学习内容 当我们进行搜索时,搜索结果右侧的联想,来自于知识图谱技术的应用。我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。搜索、地图、个性化推荐、互联网、风控、银行……越来越多的应用场景,都越来越依赖知识图谱,可以说无处不在。 知识图谱应用场景 1.智能搜索 比如说谷歌,我们搜索A的时候,谷歌在最初的分词会分出,与A相关的A1、A2和A3,A3就是A的关键词,在引入了知识图谱之后,搜索引擎就会明白A和A1、A2的试题关系,,并且能把A2的一个详细的一个表给反映出来,也就是用户画像。 更多机器学习内容 2、团伙欺诈作案的风险规避 银行信用卡的申请欺诈包括个人欺诈、团伙欺诈、中介包装、伪冒资料等,是指申请者使用本人身份或他人身份或编造、伪造虚假身份进行申请信用卡、申请贷款、透支欺诈等欺诈行为。 欺诈者一般会共用合法联系人的一部分信息,如电话号码、联系地址、联系人手机号等,并通过它们的不同组合创建多个合成身份。比如

rust 返回 impl Future 的三种写法。

不羁岁月 提交于 2020-08-17 04:14:50
use futures::{future, Future}; use futures::future::{FutureExt, Ready}; use std::result::Result; use std::error::Error; // 返回 impl Future 的三种写法 async fn f() -> Result<usize, Box<dyn Error>> { if false { let a: Ready<Result<usize, Box<dyn Error>>> = futures::future::ok(1); let b = a.map(|x| Ok(x.unwrap() + 1)); b.await } else if true { async{1}.map(|x|Ok(x+1)).await } else { let a = async {1}; let b = a.map(|x|Ok(x+1)); b.await // then() 的使用: // b.then(|x:Result<usize, Box<dyn Error>>| async {Ok(x.unwrap()+1)}).await } } fn main() { let a = f(); let c = futures::executor::block_on(a); println!(

移动磁盘提示无法访问提示需要格式化,里面的数据怎样找到

∥☆過路亽.° 提交于 2020-08-16 03:20:12
问题描述: 提示需要格式化说明这个盘的文件系统结构损坏了。移动磁盘提示无法访问提示需要格式化,里面的数据怎样找到具体恢复方法可以看正文了解(不格式化的恢复方法) 工具/软件:极限数据恢复软件 步骤1:先百度搜索并下载软件运行后,直接双击需要恢复的分区. 步骤2:软件找到资料后,会放到与要恢复盘卷标名相同的目录中 步骤3:勾上所有需要恢复的资料,接着点右上角的《另存为》按钮,将勾上的文件COPY出来。 步骤4:最后一步只需要等软件将文件复制完成就好了 。 注意事项1:想要恢复移动磁盘提示需要格式化需要注意,一定要先恢复数据再格式化。 注意事项2:提示需要格式化恢复出来的数据需要暂时保存到其它盘里。 来源: oschina 链接: https://my.oschina.net/u/4520286/blog/4333407

记录OOM GC问题

时光总嘲笑我的痴心妄想 提交于 2020-08-15 21:52:57
首先排查TOP 查看哪个进程占用CPU比例高 执行 jstack java 4372(进程号) >> cpu.txt ,将进程线程使用情况输出到文件内 执行top -H -p 4372 查看线程 4377 将其转成 16 进制 为 1119,到刚才 jstack导出来的cpu.txt中搜索1119线程 然后执行 jmap -dump:format=b,file=heapdump.bin 4372 将其dump下来, 最后用 MemoryAnalyzer 工具打开,分析具体排查问题 来源: oschina 链接: https://my.oschina.net/u/3370769/blog/4293720

大数据学习笔记之一基本概念

社会主义新天地 提交于 2020-08-15 21:47:00
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。 如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题,本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点 一大数据技术栈 大数据整体流程涉及很多模块,每一个模块都比较复杂,下图列出这些模块和组件以及他们的功能特性,后续会有专题去详细介绍相关模块领域知识,例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。 二、lambda架构和kappa架构 目前基本上所有的大数据架构都是基于lambda和kappa架构,不同公司在这两个架构模式上设计出符合该公司的数据体系架构。lambda 架构使开发人员能够构建大规模分布式数据处理系统。 它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性,关于lambda架构可以在网上搜到很多相关文章。而kappa架构解决了lambda架构存在的两套数据加工体系,从而带来的各种成本问题,这也是目前流批一体化研究方向,很多企业已经开始使用这种更为先进的架构。 Lambda架构

ros 伪随机修改mac和ssid脚本,所谓的ros试玩脚本

情到浓时终转凉″ 提交于 2020-08-15 14:12:49
原文: http://bbs.routerclub.com/forum.php?mod=viewthread&tid=104819&extra=page%3D2&page=1 mirktotk route ROS 伪随机修改mac和ssid脚本,所谓的试玩脚本就是指这东西? mac.txt文件为 mac地址前缀,主要目的是尽量模拟 IEEE分配的真实mac范围 mac.txt可要可不要,看懂了的稍微改个注释就行了。 ============添加规则 { :for aa from=1 to=10 do={ /interface wireless { add disabled=no keepalive-frames=disabled master-interface=wlan1 multicast-buffering=disabled name=("v-wifi" . $aa) security-profile=profile1 ssid=("v-ssid" . $aa) } /ip address { add address=("192.168." . $aa . ".254/24") interface=("v-wifi" . $aa) network=("192.168." . $aa . ".0") } /ip pool { add name=("v-pool" . $aa)

哪款录音软件比较专业?迅捷录音软件不止专业操作还简单!

只谈情不闲聊 提交于 2020-08-15 03:05:42
哪款录音软件比较专业?说到录音软件,很多人都想到了手机自带的录音机,电脑自带的录音器等等,但是在录音软件前面加上专业两个字,符合的录音软件就少之又少了。 今天小编就给大家推荐一款非常专业的录音软件,迅捷录音软件,下载之后也可以叫做迅捷音频录制工具。在浏览器中搜索迅捷录音软件,进入官网,点击下载安装,然后打开软件跟小编一起看看这款软件到底专业在哪吧。 打开软件,我们可以看到软件的主页面非常小,占用的屏幕区域有限,这使得我们在进行录制的时候,可以打开文本或者其他辅助工具页面,帮助录制提高录制效果。 很多录音软件在进行音频录制的时候,都会默认选择MP3格式,想要进行调整,并不容易。在迅捷录音软件中,一眼就能看到格式选项,一键就能实现格式切换,简化了操作步骤。 使用电脑进行录音的时候,声音来源主要有三种,仅系统声音、仅麦克风声音和两者混合声音,将鼠标移到声音来源的选项中进行选择就可以了,然后进行保存位置的选择,选择好之后点击开始录制就可以了。 一款专业的录音软件并不需要多么复杂,关键在于它的录制功能有多强,迅捷录音软件可以实现实时音频高清录制,不限制录制时间,不压缩音频大小,还原无损音质。面对这么一款操作简单、功能强大的专业录音软件,小伙伴们还不去下载尝试吗? 来源: oschina 链接: https://my.oschina.net/u/4536976/blog/4290412

个人新站正式上线啦,欢迎关注,谢谢啦!https://www.damon8.cn

霸气de小男生 提交于 2020-08-14 13:36:22
个人新站 技术分享网站 正式上线啦,分享最新的、前沿的技术:k8s部署、硬件容器化监控、GPU虚拟化、微服务架构设计、自动化测试、部署,一站式paas服务落地、边缘计算等等。欢迎大家围观!!! 本文分享自微信公众号 - 程序猿Damon(Damon4X)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4186967/blog/4415710