首页

文章

什么网络爬虫?

发布网友 发布时间:2022-03-03 20:20

我来回答

4个回答

热心网友 时间:2022-03-03 21:49

多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。

说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?

那么不同的地方在哪里?

1】 网络爬虫高度可配置性。
2】 网络爬虫可以解析抓到的网页里的链接
3】 网络爬虫有简单的存储配置
4】 网络爬虫拥有智能的根据网页更新分析功能
5】 网络爬虫的效率相当的高

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?

1】 url 的遍历和纪录
这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如:
cat [what you got]| tr \" \\n | gawk '{print $2}' | pcregrep ^http://
就可以得到一个所由的 url 列表

2】多进程 VS 多线程
各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。

3】时间更新控制
最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。
通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。

如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

注意,效率是取胜的关键之一。

4】爬的深度是多少呢?
看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。
如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道:

网页深度:网页个数:网页重要程度
0 : 1 : : 10
1 :20 : :8
2: :600: :5
3: :2000: :2
4 above: 6000: 一般无法计算

好了,爬到*就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。”

5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

apache webserver里面纪录的 304 一般就是被cache的了。

6】请有空的时候照看一下robots.txt

7】存储结构。
这个人人见智,google 用 gfs 系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。

给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:

NAME=`echo $URL |perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'`
mkdir -p $AUTHOR
newscrawl.pl $URL --user-agent="news.booso.com+(+http://booso.com)" -outfile=$AUTHOR/$NAME

Posted at November 10, 2004 01:04 PM by Liang at 01:04 PM | Comments (2) | TrackBack(0) | Booso!|

热心网友 时间:2022-03-03 23:07

什么是爬虫?
这是当初我学习开发爬虫的时候,脑海里浮现的第一个问题。不论网上怎么介绍爬虫,是spider、crawler也好,是robots也罢。我的理解就是:「模拟人的行为从网页上获取的数据的程序」。更具象一些:在Java中爬虫是Jsoup.jar,在Python中爬虫是requests模块,甚至Shell中的curl命令也可以看做是爬虫。
爬虫库可以分为两个部分。一是请求部分,主要负责请求数据,例如Python的requests;二是解析部分,负责解析html获取数据,例如Python的BS4。
爬虫做了什么工作?
模仿人的行为从网页获取数据。一个人,需要先打开浏览器、输入网址,从网站后台获取网页并加载到浏览器展示,最后才能获取数据。爬虫的请求部分,就相当于浏览器的角色,会根据你输入的url从网站后台获取html,而解析部分就会根据预先设定的规则,从html中获取数据。
而开发者的工作,一是装饰请求部分,例如在请求头中添加User-Agent、Cookie等,让网站觉得是一个人通过浏览器来访问的,而不是一个程序。二是通过选择器来编写规则,从页面获取数据。

热心网友 时间:2022-03-04 00:42

python是一种计算机的编程语言,是这么多计算机编程语言中比较容易学的一种,而且应用也广,这python爬虫是什么意思呢?和IPIDEA全球http去了解一下python爬虫的一些基础知识。

一、python爬虫是什么意思

爬虫:是一种按照一定的规则,自动地抓取万维*息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

即:打开一个网页,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是爬虫。

Python爬虫架构组成:

1.网页解析器,将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。

2.URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。

3.网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)

4.调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。

5.应用程序:就是从网页中提取的有用数据组成的一个应用。

二、爬虫怎么抓取数据

1.抓取网页

抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是*的。这是我们需要模拟user agent的行为构造合适的请求,比如模拟用户登陆、模拟session/cookie的存储和设置。

2.抓取后处理

抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。上文介绍了python爬虫的一些基础知识,相信大家对于“python爬虫是什么意思”与“爬虫怎么抓取数据”有一定的的认识了。现在大数据时代,很多学python的时候都是以爬虫入手,学习网络爬虫的人越来越多。通常使用爬虫抓取数据都会遇到IP*问题,使用高匿代理,可以突破IP*,帮助爬虫突破网站*次数。

热心网友 时间:2022-03-04 02:50

网络写手
手机导航地图语音怎么下载 如何分别真金和仿金首饰 怎样区分真金和仿金首饰呢 小学生新年晚会主持人的串词!!(不要太多)急 大大后天就需要了!!!_百度... 周年晚会策划公司 奥格瑞玛传送门大厅在哪 奥格瑞玛传送门大厅怎么走 锻炼颈椎的几个动作 水多久能结冰 冰能在多长时间内形成 请问水低于0度会结冰吗? 如何防止脱发严重 嘴唇上有黑印用蜜蜡和棉线去除了胡须 软柿子的热量 孕妇可以吃软柿子吗不是西红柿 脆柿子和软柿子的区别 脆柿子好还是软柿子好 软柿子可以多吃吗 “鱼悬洁白振清风”的出处是哪里 用大自然的声音评课好吗? 妇产科博士找超声科工作容易吗 怎能把微信6.2.0版本换回6.1.2版 微信群6.2.4怎么增加人数上限 微信6.2.2如何备份手机通讯录 电脑桌面图标不能放大? 有什么好用的识图软件 识图认人哪个软件最好 手机识图软件什么软件能识别图片位置 小米手机自动锁屏时间怎么修改 小米手机屏幕锁定时间设置教程 能举起100斤算大力吗 中医美容专业是什么 中医美容证有什么用 单声道音频什么意思(开启单声道音频有什么好处) 单声道音频是什么,有什么用处? 户口还未迁移到婆家 娘家户口怎么就没了呢 我结婚没有迁户口,现在娘家也没有怎么办 没领证生的孩子一般会判给谁 没领证生的孩子会判给谁 信用卡卡种有哪些 找一首古风歌曲 男声 低配电脑装w10还是w7流畅 电脑配置低装win7还是win10好 低配电脑适合装WIN7系统还是WIN10系统? ...500s-15isk这个联想笔记本的内存条尺寸是什么型号的有没有知道的... 越快越好.怎样减肥.而且胸部不缩水 请问徐闻县海安长途汽车客运站客服是多少? 过了平台期还会瘦吗 悦耳的意思悦耳的解释 重庆师范大学应用心理学专业的权威性如何? 打印机laserjetm1136mfp怎样设置无线打印 经典电影赏析之1:《精武英雄》 爆米花用的什么玉米 糯玉米哪个好 有机糯玉米的营养价值如何? 四大直辖市换帅原因 什么是网络爬虫? 华为nova4有地震预警功能么 华为手机应急预警通知为什么打不开 新怎么设置支付密码 液化气灶打不着火怎么解决? 微信里收藏的文件删掉后还能找回来吗 液化气灶打不着火是什么原因 微信收藏的文件删除了怎么找回? 煤气灶打不着火怎么解决 电子表格里怎样插入斜线表头 煤气灶打不着火原因和处理方法? 液化气灶打不着火原因和处理方法大型 qq邮箱在哪里能看到 手机号码被短信验证码轰炸可以报警吗 word如何计算不同单元格的总和 如何看电脑配置 qq勋章点亮加速在哪里 qq我的勋章强怎么找到 新版qq如何查看自己的勋章 电脑怎么看电脑配置 各种语言写网络爬虫有什么优点缺点 怎样备考计算机二级啊 怎么把微信表情保存到电脑 如何报考全国计算机二级考试 计算机二级报考office怎么样 关于计算机二级,我应该考哪个? 想报考计算机二级 excel怎么做数据筛选 请问怎样得到excel表格中用来筛选的筛选项?比如把一列数据筛选后,得到12种类别,怎样得到这12类别名字? 蒸好的包子可以冷冻吗 手机中病毒了,该怎么办? 怎么用电脑无线连接打印机打印 笔记本怎么无线连接打印机打印 蒸好的包子放冷藏可以保存多久? 苹果手机home键进水失灵了怎么办 速冻奶黄包蒸多久能熟 放冰箱是冷冻还是冷藏 苹果手机home键按不动了怎么办 包子蒸熟后保存小妙招 苹果手机的home键失灵了要怎么办?是怎么回事? vivo手机如何把游戏隐藏起来没有隐藏图标
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com