Pseudo

如何让爬虫正确提取伪元素

时光毁灭记忆、已成空白 提交于 2020-12-13 12:42:43
我们来看一个网页,大家想想使用 XPath 怎么抓取。可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求。 我们来看一个网页,大家想想使用 XPath 怎么抓取。 可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求: 网页也没有发起任何的Ajax 请求。那么,这段文字是从哪里来的? 我们来看一下这个网页对应的 HTML: 整个 HTML 里面,甚至连 JavaScript 都没有。那么这段文字是哪里来的呢? 有点经验的同学,可能会想到看一下这个example.css文件,其内容如下: 没错,文字确实在这里面。其中::after,我们称之为伪元素(Pseudo-element)[1]。 对于伪元素里面的文字,应该如何提取呢?当然,你可以使用正则表达式来提取。不过我们今天不准备讲这个。 XPath 没有办法提取伪元素,因为 XPath 只能提取 Dom 树中的内容,但是伪元素是不属于 Dom 树的,因此无法提取。要提取伪元素,需要使用 CSS 选择器。 由于网页的 HTML 与 CSS 是分开的。如果我们使用 requests 或者 Scrapy,只能单独拿到 HTML 和 CSS。单独拿到 HTML 没有任何作用,因为数据根本不在里面。单独拿到 CSS,虽然有数据,但如果不用正则表达式的话

迁移学习 材料集合

谁都会走 提交于 2020-12-03 13:11:55
迁移学习 材料集合 目录 迁移学习 材料集合 Book novel_papers 1) novel_papers on transfer learning 2) novel_papers on related fileds 更多 DA awesome​​​​​​​ 入门参考 小结 Excellent Scholars 新论文追踪 科研方法论 Presentation 大部分内容 转自 GitHub: https://github.com/yuntaodu/Transfer-learning-materials Book 《迁移学习简明手册》 https://github.com/jindongwang/transferlearning-tutorial novel_papers 1) novel_papers on transfer learning number Title Conference/journel + year Code Keywords Benenit for us 54 Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID ( paper ) NIPS 2020 code contrastive learning, DA, Re-ID

2020 Domain Adaptation 最新论文:插图速览(三)

生来就可爱ヽ(ⅴ<●) 提交于 2020-12-01 10:32:44
2020 Domain Adaptation 最新论文:插图速览(三) 目录 Learning to Combine: Knowledge Aggregation for Multi-Source Domain Adaptation Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive Object Detector A Balanced and Uncertainty-aware Approach for Partial Domain Adaptation Spatial Attention Pyramid Network for Unsupervised Domain Adaptation Two-phase Pseudo Label Densification for Self-training based Domain Adaptation Learning to Detect Open Classes for Universal Domain Adaptation Online Meta-Learning for Multi-Source and Semi-Supervised Domain Adaptation On the Effectiveness of Image

汇总|3D目标检测文章(CVPR2020)

落花浮王杯 提交于 2020-10-30 05:39:23
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 前言 今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。 1. CVPR20 室内目标检测文章 ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes

Learning Conditioned Graph Structures for Interpretable Visual Question Answering

烈酒焚心 提交于 2020-10-28 11:54:24
Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:43 Paper : http://papers.nips.cc/paper/8054-learning-conditioned-graph-structures-for-interpretable-visual-question-answering.pdf Code : https://github.com/aimbrain/vqa-project 1. Background and Motivation : 最近的计算机视觉工作开始探索图像的高层表达(higher level representation of images),特别是利用 object detector 以及 graph-based structures 以进行更好的语义和空间图像理解。将图像表达为 graphs,可以显示的进行模型交互,通过 graph iterms(objects in the image) 无缝进行信息的迁移。这种基于 graph 的技术已经在最近的 VQA 任务上应用上。这种方法的一个缺点是:the input graph structures are heavily engineered,

结合jquery的前后端加密解密 适用于WebApi的SQL注入过滤器 Web.config中customErrors异常信息配置 ife2018 零基础学院 day 4 ife2018 零基础...

生来就可爱ヽ(ⅴ<●) 提交于 2020-10-13 06:38:32
在一个正常的项目中,登录注册的密码是密文传输到后台服务端的,也就是说,首先前端js对密码做处理,随后再传递到服务端,服务端解密再加密传出到数据库里面。Dotnet已经提供了RSA算法的加解密类库,我们只需要引用下就好,前端js也有对RSA算法的封装,解决了加解密算法之后,剩下的就是要确保公私钥的传输了,前端使用公钥加密,服务端使用私钥解密,如此才能成功,要不然会出问题。同时,在前端,我们可以首先使用bootstrapValidator来约束密码的类型,因为可能会遇到一些"+"什么的不能加密,建议在前端使用$.trim()去掉空格,再进行密码的加密。同时,如果注册失败,应该清空文本框,重新输入密码. Asp.Net Core中使用RSA加密 一文基于asp.net core mvc结合jquery很好的完成了前后端的加解密,我已经从头到尾跑了一遍,没有问题。完全可以部署在我们的项目中。 适用于WebApi的SQL注入过滤器 开发工具:Visual Studio 2017 C#版本:C#7.1 最有效的防止SQL注入的方式是调用数据库时使用参数化查询。 但是如果是接手一个旧的WebApi项目,不想改繁多的数据库访问层的代码,应该如何做。 我的解决方案是加一个过滤器。 先写过滤方法,上代码 using System; using System.Collections.Generic;

【GNSS发展历史】

試著忘記壹切 提交于 2020-10-07 05:31:44
1957 年10月4日,世界上第一颗人造地球卫星"火花号”(Sputnik)在苏联拜科努尔发射场发射,标志着人类航天时代来临。 1958 年,美国约翰·霍普金斯大学科研人员注意到卫星信号的多普勒频移(Doppler shift),发现可利用卫星信号多普勒频移精确定轨,并转而利用精确的卫星轨道确定地面观测点的位置,从而开启了多普勒定位的理论研究和多普勒卫星及接收机的研发。 1964 年,美国军方研制成功第一代多普勒卫星定位导航系统-子午卫星系统,又称海军导航卫星系统(Navy Navigation Satellite System,NNSS).同期,苏联建 立了用于船舶导航的“圣卡达”(CICADA)多普勒卫星导航系统。但是 NNSS 和CICADA 系统存在卫星数目少、无线电信号经常间断、观测所需时间较长、精度低等缺陷。 1967~1974 年,美国海军研究实验室发射三颗“Timation”计划试验卫星,试验并实现了原子钟授时系统。同期美国空军在“621-B”计划中成功研发了伪随机 噪声码(pseudo random noise code,PRN)调制信号的现代通信手段。 1968 年,美国国防部成立导航卫星执行指导小组(Navigation Satellite Executive Group,NAVSEG),筹划下一代导航定位系统。 1973 年

把因果干预用到弱监督语义分割上!这篇NeurIPS 2020 oral论文不简单

邮差的信 提交于 2020-10-04 13:35:02
     作者 | 张冬   编辑 | 陈大鑫   本文介绍一篇今年被NeurIPS 2020收录的一篇oral文章:   《 Causal Intervention for Weakly-Supervised Semantic Segmentation》   这篇论文提出的基于因果干预的Context Adjustment (CONTA)模型主要有以下几个优势:   1、CONTA是 第一个使用因果图来分析弱监督语义分割模型中各component之间的关系 ,从而找出了造成现有的pseudo-mask不准确的本质原因是因为数据集中的上下文先验是混淆因子。在此基础上,作者又进一步提出了使用因果干预切断上下文先验和图像之间的关联,从而提升pseudo-mask的质量。   2、不同于以往的基于graph neural network或复杂的attention机制的弱监督语义分割模型, CONTA的设计简洁,并没有很复杂的操作和训练步骤在其中。   3、作者在4种不同的弱监督语义分割模型上都进行了实验,结果表明 CONTA可以提升模型CAM、pseuso-mask和segmentation mask的质量 ,从而验证了CONTA的通用性和有效性。   作者 相信CONTA在将来也可以被应用到其他的弱监督语义分割模型上。      论文第一作者张冬:  

使用 Horoscope 测试 TiDB 优化器

半城伤御伤魂 提交于 2020-10-03 06:35:10
优化器在数据库中一直位于至关重要的位置,性能调优也常常需要围绕优化器来进行。作为数据库厂商,我们希望在各类复杂的业务场景中,TiDB 都能够给出比较理想的执行计划,因此在优化器和执行器上做了非常多的工作和努力,但是选错执行计划或者索引的情况仍然是日常中最为常见的一个问题。 优化器有关的问题可以简单归结为两种: 统计信息准确的情况下给出了错误的执行计划。 另一类则是在统计信息过期的情况下给错了执行计划。 选错索引是其中比较常见的一种情况,用户希望添加索引来加速查询速度,某些情况下,优化器可能会走到全表扫的物理执行计划或者选错索引使得实际执行效果退化成全表扫的情况。 针对上述情况,我们需要从更微观的层面来度量优化器的执行计划和索引选择的性能,评估在优化器上做的改进工作能否切实起到期望的效果。 为什么我们要开发 Horoscope? 为了测量优化器和执行器,从去年开始我们构建了daily benchmark 平台 perf.pingcap.com,覆盖常见的几种复杂查询的测试场景,包含 TPC-H、TPC-DS、Star Schema Benchmark 等,跟踪每天开发分支上这些查询的执行速度情况。 通过 daily benchmark,我们观测和定位到了若干次性能提升以及性能回退的情况。有些提升或者回退是优化器组件上的优化导致的,有些则是 TiDB 其他组件,或者存储层引发的。 虽然

伪激光雷达:无人驾驶的立体视觉

有些话、适合烂在心里 提交于 2020-09-30 16:24:48
点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 激光雷达成本高,用廉价的立体视觉替代它可行吗? 作者:Jeremy Cohen 编译:McGL 转载自:PyVision 深度学习和计算机视觉在自主系统中已经疯狂地流行起来,现在到处都在使用。计算机视觉领域在过去的十年中发展迅速,尤其是障碍物检测。 像 YOLO 或 RetinaNet 这样的障碍物检测算法提供了2D的边界框,边界框给出了障碍物在图像中的位置。今天,大多数的目标检测算法都是基于单目 RGB 摄像头,不能返回每个障碍物的距离。 为了返回每个障碍物的距离,工程师们将摄像头与激光雷达(LiDAR)传感器融合,激光雷达可以返回深度信息。利用传感器融合技术将计算机视觉和激光雷达的输出信息进行融合。 这种方法的问题是激光雷达很贵。工程师们使用的一个有用的技巧是对齐两个摄像头,并使用几何学来确定每个障碍物的距离: 我们称之为伪激光雷达(Pseudo-LiDAR)。 单目视觉 vs 立体视觉 伪激光雷达利用几何构建了一个深度图,并将其与目标检测图结合起来得到3D距离。 如何利用立体视觉实现距离估计? 为了得到距离,下面是5步伪代码: 1. 校准两个摄像头(内部和外部校准) 2. 创建极线模式(epipolar scheme) 3. 建立一个视差图(disparity map),然后一个深度图