博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
手把手教你如何新建scrapy爬虫框架的第一个项目(下) ...
阅读量:6267 次
发布时间:2019-06-22

本文共 1119 字,大约阅读时间需要 3 分钟。

前几天小编带大家学会了,今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明。

5d7e5d6ca8de4c8791132fa3caaf5d90

在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

9308c2d6b36540ed8c26b78db20f2ea8

根据提示,该模板创建的位置为article.spiders.jobbole,此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外,在spiders文件夹下确实是多了一个jobbole.py文件,如下图所示。

4c3fd40ee90f4bac81a75e103ae5e65c

当然了,爬虫模板不一定非得用Scrapy爬虫项目自带的模板,也可以自定义的进行创建,但是基本上Scrapy提供的模板是足够使用的了。

接下来,将整个爬虫项目导入到Pycharm中去,点击左上方“file”à“open”,找到爬虫项目创建的文件夹,点击确认即可。

3dbe6b4d348d443e8a4398be94a05db9

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话,则先选中spiders文件夹,尔后右键,点击“Synchronize spider”,代表与spiders文件夹进行同步的意思,尔后便可以看到jobbole.py就会被加载出来。

8fd41ec474de4717a7ed31667b6e2851

点击jobbole.py文件进行查看内容,如下图所示。可以看到该文件已经默认的填充了部分Python代码,其实是从源模板中进行复制创建的。

1245713cfd3d45f98c7b5aef80154dff

可以看到该文件中有当前Scrapy爬虫项目的名字name,Scrapy爬虫项目所允许的域名范围allowed_domains,以及Scrapy爬虫项目的起始URL,即start_urls。

接下来最后检查一下该项目的Python解释器,点击Pycharm的setting,然后输入“interpreter”,找到解释器所在的位置,如下图所示。

b579e35cd67948c496460828fa59d707

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境,则点击“Project Interpreter”的右侧的设置按钮,如下图所示。

3704acdc80b8451694ed9e4a3c999322

然后点击“Add local”,如下图所示。

2bf518013ff64fb0a842bc80d442b1d1

找到该项目对应的虚拟环境Python解释器,进行添加即可,如下图所示。

616068412c4f4431b8d095bc0adc84a9

至此,Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成,接下来我们要开始写入爬虫逻辑,以及数据提取等,敬请期待~~

转载地址:http://rbcpa.baihongyu.com/

你可能感兴趣的文章
RDS SQL Server - 最佳实践 - 高CPU使用率系列之索引缺失
查看>>
socket属性设置与初始化操作
查看>>
[LeetCode] Maximum Product Subarray
查看>>
JavaScript权威设计--JavaScript变量,作用域,声明提前(简要学习笔记四)
查看>>
DIV+CSS导航学习笔记
查看>>
设计素材管理软件 PinCap:测评与优惠
查看>>
sqoop详解
查看>>
【SQL】SQL Server登录常见问题
查看>>
8天玩转并行开发——第七天 简要分析任务与线程池
查看>>
OEA 中 WPF 树型表格虚拟化设计方案
查看>>
简洁的序列预测算法
查看>>
元素的click与dblclick
查看>>
用FMDB 还是 CoreData
查看>>
数据库分析与设计总结
查看>>
在source insight中加入TortoiseSVN的功能
查看>>
通过Cloudera Manager安装CDH
查看>>
《Ext JS 4 First Look》翻译之一:新特性
查看>>
这是半年前翻译的pojos in action,之前发在其他的blog,现在搬过来(第二部分)...
查看>>
2期:独家揭秘——阿里云如何玩转MySQL(原云栖速递)
查看>>
剑指offer系列之十一:数值的整数次方
查看>>