python学习(二)百度爬虫0.1
时间:2022-03-21 06:17
参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。
因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;
第二:新建TieBaSpider爬虫;
第三:新建外部关键字库dictionary.txt文件,贴吧地址配置url.txt文件;
第一步参考晚上案例。
从第二步开始,编写爬虫,同时创建实例对象以及创建管道。
爬虫代码:
在settings.py中配置管道信息。
管道的配置:
ITEM_PIPELINES = { ‘tutorial.pipelines.JsonWithEncodingPipeline‘ :300 }
python学习(二)百度爬虫0.1,布布扣,bubuko.com