您的位置:首页 > 博客中心 > 编程语言 >

python学习(二)百度爬虫0.1

时间:2022-03-21 06:17

参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。

我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。

因此,基于需求,分如下步骤:

第一:基于Scrapy创建爬虫项目;

第二:新建TieBaSpider爬虫;

第三:新建外部关键字库dictionary.txt文件,贴吧地址配置url.txt文件;

第一步参考晚上案例。

从第二步开始,编写爬虫,同时创建实例对象以及创建管道。

爬虫代码:

gxlsystem.com,布布扣

在settings.py中配置管道信息。

管道的配置:

ITEM_PIPELINES = {
        ‘tutorial.pipelines.JsonWithEncodingPipeline‘ :300
    }

python学习(二)百度爬虫0.1,布布扣,bubuko.com

本类排行

今日推荐

热门手游