首页

文章

python爬虫框架哪个好用?

发布网友 发布时间:2022-03-27 06:30

我来回答

6个回答

热心网友 时间:2022-03-27 08:00

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

资料来源:网页链接

希望我的回答对你有帮助~

热心网友 时间:2022-03-27 09:18

爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:

抓取、更新调度多站点的特定的页面

需要对页面进行结构化信息提取

灵活可扩展,稳定可监控

pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

通过web化的脚本编写、调试环境。web展现调度状态

抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

pyspider的架构主要分为 scheler(调度器), fetcher(抓取器), processor(脚本执行):

各个组件间使用消息队列连接,除了scheler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheler 负责整体的调度控制

任务由 scheler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheler),形成闭环。

每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回*制解析动作。

热心网友 时间:2022-03-27 10:52

Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。

Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。

热心网友 时间:2022-03-27 12:44

Python爬虫常用框架有:
grab:网络爬虫框架;
scrapy:网络爬虫框架,不支持Python3;
pyspider:一个强大的爬虫系统;
cola:一个分布式爬虫框架;
portia:基于Scrapy的可视化爬虫;
restkit:Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
demiurge:基于PyQuery的爬虫微框架。

热心网友 时间:2022-03-27 14:52

爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

热心网友 时间:2022-03-27 17:16

用讯代理爬虫,我自己的事可以无限切换IP
如何分别真金和仿金首饰 怎样区分真金和仿金首饰呢 小学生新年晚会主持人的串词!!(不要太多)急 大大后天就需要了!!!_百度... 周年晚会策划公司 奥格瑞玛传送门大厅在哪 奥格瑞玛传送门大厅怎么走 锻炼颈椎的几个动作 水多久能结冰 冰能在多长时间内形成 请问水低于0度会结冰吗? 如何防止脱发严重 嘴唇上有黑印用蜜蜡和棉线去除了胡须 软柿子的热量 孕妇可以吃软柿子吗不是西红柿 脆柿子和软柿子的区别 脆柿子好还是软柿子好 软柿子可以多吃吗 “鱼悬洁白振清风”的出处是哪里 用大自然的声音评课好吗? 妇产科博士找超声科工作容易吗 怎能把微信6.2.0版本换回6.1.2版 微信群6.2.4怎么增加人数上限 微信6.2.2如何备份手机通讯录 电脑桌面图标不能放大? 有什么好用的识图软件 识图认人哪个软件最好 手机识图软件什么软件能识别图片位置 小米手机自动锁屏时间怎么修改 小米手机屏幕锁定时间设置教程 能举起100斤算大力吗 中医美容专业是什么 中医美容证有什么用 单声道音频什么意思(开启单声道音频有什么好处) 单声道音频是什么,有什么用处? 户口还未迁移到婆家 娘家户口怎么就没了呢 我结婚没有迁户口,现在娘家也没有怎么办 没领证生的孩子一般会判给谁 没领证生的孩子会判给谁 信用卡卡种有哪些 找一首古风歌曲 男声 低配电脑装w10还是w7流畅 电脑配置低装win7还是win10好 低配电脑适合装WIN7系统还是WIN10系统? ...500s-15isk这个联想笔记本的内存条尺寸是什么型号的有没有知道的... 越快越好.怎样减肥.而且胸部不缩水 请问徐闻县海安长途汽车客运站客服是多少? 过了平台期还会瘦吗 悦耳的意思悦耳的解释 重庆师范大学应用心理学专业的权威性如何? 打印机laserjetm1136mfp怎样设置无线打印 经典电影赏析之1:《精武英雄》 爆米花用的什么玉米 糯玉米哪个好 有机糯玉米的营养价值如何? 四大直辖市换帅原因 四大直辖市换帅为啥 电脑如何不让它弹出广告来? 怎么让电脑不弹出广告窗口 电脑如何设置不跳广告? 橙子和橘子有什么区别吗? 橙子和橘子营养价值一样吗?有啥区别? 橘子和橙子的区别? 已授权 微信登录 怎么解除 如何使用网上身份证查询系统? 微信怎么退出绑定的手机号码 如何解除手机绑定 如何在公安网上查询身份证 怎么解除绑定的手机号 如何在网上查询身份证照片? 如何解除手机号绑定 身份证在网上怎么查询 绑定了手机号怎么解除 怎么在网上查身份证照片? 我的手机号绑定了一个。怎样解除绑定? 怎样在网上查自己的个人身份证信息? 网上如何查到自己的身份证? 电脑怎么能不弹广告 怎么不让电脑弹出垃圾广告 如何选购智能电视?最实用的选购技巧 怎么挑选彩电 彩电选购技巧有哪些 手机短信字体大小怎么设置 怎么调手机短信字体大小 选购电视该注意什么? 如何调小短信字的大小 买液晶电视要注意什么 买液晶电视选购技巧 短信字体大小怎么调 电视机的挑选技巧,你学会了吗? 买网络电视应该如何选择?什么品牌可靠? 手机短信字体怎么变小? 如何调节短信字体大小 win7磁盘占用100%怎么解决 win7磁盘使用率精彩100% 怎么办 公司Win7系统后硬盘占用率达100%怎样解决 怎样调节短信字体大小 求助win7磁盘使用率一直是100%求大神解决〒 手机短信,收到的短信字体大,怎么设置,小点
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com