搜索引擎技术

html

蓝咒 提交于 2019-11-30 00:50:30
阅读目录 web标准介绍 浏览器介绍 开发工具介绍 html介绍 html规范 html结构 html颜色 html标签 html特殊字符 回到顶部 web标准介绍 web标准: w3c:万维网联盟组织,用来制定web标准的机构(组织) web标准:制作网页遵循的规范 web标准规范的分类:结构标准、表现标准、行为标准。 结构:html。表示:css。行为:Javascript。 总结说明: 结构标准:相当于人的骨架。html就是用来制作网页的。 表现标准: 相当于人的衣服。css就是对网页进行美化的。 行为标准: 相当于人的动作。JS就是让网页动起来,具有生命力的  如果大家还不明白,请看下图 回到顶部 浏览器介绍 浏览器是网页运行的平台,常用的浏览器有IE、火狐(Firefox)、谷歌(Chrome)、猎豹浏览器、Safari和Opera等 浏览器内核 : 浏览器  内核 IE trident chrome blink 火狐 gecko Safari webkit PS:「浏览器内核」也就是浏览器所采用的「渲染引擎」,渲染引擎决定了浏览器如何显示网页的内容以及页面的格式信息。 总结:渲染引擎是兼容性问题出现的根本原因。 回到顶部 开发工具介绍 Sublime Text的使用 Sublime Text使用技巧 Visual Studio Code编辑器 WebStorm

c#蜘蛛

大兔子大兔子 提交于 2019-11-29 06:03:37
C#写一个采集器 using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Web; using System.IO; using System.Collections; using System.Text.RegularExpressions; namespace chinaz { class Program { static void Main(string[] args) { string cookie = null; using (StreamReader sr = new StreamReader("cookie.txt")) { cookie = sr.ReadToEnd(); sr.Close(); } //string tmp = SRWebClient.GetPage( // "http://bbs.chinaz.com/Members.html? // page=1&sort=CreateDate&desc=true&keyword=", // Encoding.UTF8, cookie); int a = int.Parse(Console.ReadLine()); int b = int.Parse(Console

Elasticsearch - 倒排索引原理

半城伤御伤魂 提交于 2019-11-28 19:02:29
关于es为什么搜索快,大家应该有所了解,但是到底什么是倒排索引?网上找到一篇介绍通俗易懂,转载如下:   见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置。 得到正向索引的结构如下: “文档1”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。 “文档2”的ID > 此文档出现的关键词列表。   一般是通过key,去找value。 当用户在主页上搜索关键词“华为手机”时,假设只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,找出所有包含关键词“华为手机”的文档,再根据打分模型进行打分,排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字,这样的索引结构根本无法满足实时返回排名结果的要求。 所以,搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

python爬虫搜索引擎学习心得

孤人 提交于 2019-11-27 16:38:17
pyton爬虫打造搜索引擎的学习心得 1.创建虚拟机:virtualenv scrapytest 2.启动虚拟机:进入虚拟机:cd scrapytest然后cd Scripts然后执行activate.bat,如果退出虚拟机则执行deactivate.bat 3.用python3.5创建虚拟机:在虚拟环境scrapytest下Scripts下运行virtualenv -p D:\WorkSpace\python3.5.3\python.exe scrapypy3 4.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目 5.镜像: https://pypi.douban.com/simple/ 6.安装django:先下载压缩包,解压到与python同目录下,进入django目录,执行命令:python setup.py 7.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目 8.爬取网站:进入项目根目录,然后执行scrapy genspider jobbole blog.jobbole.com 9.启动spider:例如启动jobbole,需要进入项目根目录,然后安装pypiwin32,执行命令pip install

Python快速开发分布式搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式

自闭症网瘾萝莉.ら 提交于 2019-11-27 05:40:47
我们自定义一个main.py来作为启动文件 main.py #!/usr/bin/env python # -*- coding:utf8 -*- from scrapy.cmdline import execute #导入执行scrapy命令方法 import sys import os sys.path.append(os.path.join(os.getcwd())) #给Python解释器,添加模块新路径 ,将main.py文件所在目录添加到Python解释器 execute(['scrapy', 'crawl', 'pach', '--nolog']) #执行scrapy命令 爬虫文件 在学习过程中有什么不懂得可以加我的 python学习资源qun,855 408 893 群里有不错的学习视频教程、开发工具与电子书籍。 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request import urllib.response from lxml import etree import re class PachSpider(scrapy.Spider): name = 'pach' allowed

浅谈人工智能

╄→гoц情女王★ 提交于 2019-11-26 12:19:55
一,历史 各个文明中都有杰出的工匠发明了自动机器来代替人类劳动,早在春秋时期鲁班就发明了世界上第一个机器人,可在空中飞翔‘三日不下’;三国时期蜀汉的诸葛亮发明了‘木牛流马’来运送战备物资,称得上是最早的军用机器人;古希腊人希罗发明了世界上第一部蒸汽机......可见,自古以来人类就渴望通过自动机器来解放劳动,但前期的发展只是减少了简单的体力劳动,十九世纪中叶人工智能思想的出现使机器转向复杂体力劳动和脑力劳动的发展。1950年阿兰.图灵在一片划时代的论文《计算机器与智能》中给出了人工智能的定义,并发明了图灵测试来检验智能。1956年的夏天一场在美国达特茅斯大学召开的学术会议上肯定了由麦卡锡提出的新术语:人工智能,这标志着人工智能作为一门学科正式出现。 人工智能发展自其诞生起大致可以分为两个阶段。第一阶段主要是研究人的认知与思维过程并将其机械化,使计算机可以模拟人的思考过程,即机械化推理又或形式推理。对于形式推理我国古代,古希腊与公元前一千年就有所研究,并对后世思维过程产生了重大的影响,推动了亚里士多德的三段论与归纳法。十七世纪德国数学家和哲学家莱布尼兹认为一切现实事件都可以通过物理符号将其逻辑化并进行推理,即‘万能符号’理论,这为数理逻辑发展奠定了基础,也是第一阶段人工智能思想的萌芽。但是人们渐渐发现基于模拟人类思维过程的人工智能应用范围很小,只能解决一些简单的问题