招聘网站源码（基于Scrapy框架的Python3就业信息Jobspiders爬虫智联招聘拉勾网）|快速备案

基于Scrapy框架的Python3就业信息Jobspiders爬虫Items.py : 定义爬取的数据pipelines.py : 管道文件，异步存储爬取的数据spiders文件夹 : 爬虫程序settings.py : Srapy设定，请参考官方文档scrapy spider爬取三大知名网站,使用三种技术手段第一种直接从网页中获取数据，采用的是scrapy的基础爬虫模块，爬的是51job第二种采用扒接口,从接口中获取数据，爬的是智联招聘第三种采用的是整站的爬取,爬的是拉钩网获取想要的数据并将数据存入mysql数据库中，方便以后的就业趋势分析完整项目源码下载地址：文章末尾。实现功能：从三大知名网站上爬取就业信息，爬取发布工作的日期，薪资，城市，岗位有那些福利，要求，分类等等，并将爬到的数据存到mysql数据库中。使用教程：运行前需要安装的环境Python3 Ubantu16.04自带，sudo apt-get install python3.5mysql ： sudo apt-get install mysql-server安装虚拟环境和虚拟环境的wrappersudo apt-get install python-pip python-dev build-essential
sudo pip install –upgrade pip
sudo pip install –upgrade virtualenv
sudo pip install virtualenvwrapper
配置virtualenvwrapper的工作空间cd ~mkdir .virtualenvssudo find / -name virtualenvwrapper.shvim ~/.zshrc 注意vim自己当前所用的shell，$SHELL查看，用的是bash就vim ~/.bashrc,末行加上export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh
注意替换自己find到的virtualenvwrapper.sh位置其次就是安装一些模块，提供三种最简单的方法 pip install -r requirements.txt第2种方式如果安装了virtualenv和virtualenvwrapper就直接运行以下命令安装mkvirtualenv –python=/usr/bin/python3 py3scrapy
workon py3scrapy
安装好scrapy框架：
pip install scrapy
– 安装时遇到一个错误twisted/test/raiser.c:4:20: fatal error: Python.h: No such file or directory，解决办法：先安装 **python-dev，python3-dev**，再安装
– 可以使用豆瓣源加速安装
pip install -i https://pypi.douban.com/simple scrapy
pip install fake-useragent
sudo apt-get install libmysqlclient-dev
pip install mysqlclient -i https://pypi.douban.com/simple
其余的在pycharm中alt enter安装
如果没有安装虚拟环境可以在pycharm中进行安装，alt+enter选择，如果没有正确的模块，就在setting中的project中的解释器Interpreter，再点击+号在里面搜索2019-3-10更新发现一个问题环境问题，就是现在的Scrapy版本最新的1.6的，但是一点六的移除了一些组件导致安装的时候会报一个 “ImportError: No module named ‘scrapy.contrib’ “，所以自己去github上搜索scrapy通过源码编译安装1.5.1运行项目git clone https://github.com/wqh0109663/JobSpiders.git把下好的项目在pycharm中打开新建一个数据库叫jobspider，编码用utf-8 ，运行jobspider.sql文件create database jobspider charset utf8;use jobspider;source sql路径;运行main文件，打开注释内容，运行需要的spider即可，运行拉勾网的时候要改动谷歌浏览器的驱动chromedriver位置或者直接在命令行中运行scrapy runspider XX某某spider使用拉钩网模块的时候注意改成自己的拉钩网账号(我的已经改密码了，老是提示我的异地登陆)，还有就是更改chromedriver的位置分析步骤首先www.zhaopin.com是智联招聘网站的首页，进行搜索后，比如搜Java，点右键查看网页源代码可以看到，网页里面搜到的内容是异步加载的如图所示：然后点击f12打开开发者工具，如图：再点击刷新查看发送的异步请求，并进行分析：可以看到发送了两个异步请求，发现第二个是个后端接口，直接拿到postman中进行测试，如图：发现是标准的接口，直接调用接口即可爬取到网站的数据，也就避免了对网页进行分析，返回的是json数据，还有需要注意的地方是pageSize请求的是60但是返回的却是62：然后查看网页中填充的数据条目是62条。其他的就比较简单了，直接根据url拼接发送请求，对每一个item进行解析即可，其中还需要进行url编码。下载地址：https://github.com/wqh0109663/JobSpiders/archive/master.zip

相关文章