当前位置:酷我小说>科幻灵异>程序员修炼生涯> 第二章 爬虫第项目
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第二章 爬虫第项目(1 / 2)

 羽方慢慢的已经习惯了每天的工作,也熟悉了python的使用,在工作中更是完成越来越多的任务,协助者范平海完成分配的任务。

八月份的一天,范平海给他分配了一个任务,是做一个爬虫的项目,主要是给蜀川的一个运营商局点做的,两个人分配了任务,范平海负责整个代码的架构设计和内容的检测模块,而羽方主要负责爬虫的获取和解析模块。

说道这里,我们先普及一下爬虫的概念,爬虫呢,也就是网络爬虫,有时候也称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。羽方他们要完成的爬虫,自然是一个程序了,是限定了网络域名的简单爬虫。

羽方接到了任务以后,自然是马不停蹄的开始了工作。首先是查找资料,怎么获取网页内容,然后通过什么样的接口传递给网页解析模块,这些内容都需要设计的。虽然说主要的设计工作由范平海完成,但是羽方也必须考虑网页获取以及模块内部的设计工作。

首先羽方确认了要使用多线程来进行开发,因为很明显获取网页的操作是一个IO耗时的操作,这种操作非常适合使用多线程来进行的,所以就确定了使用多线程来开发。至于获取网页内容的网络库,就直接使用系统的urllib库就好了。至于接口,范平海和前端的同事侯东确定定了使用MySQL数据库来进行数据传递,所以爬取的结果把内容文件路径使用数据库来传递就可以了。

代码虽然不算很复杂,但是羽方还是写了将近一个星期的时间,才完成了代码的编写工作。之后是和范平海一起进行代码的联调工作,不过由于范平海这段时间还有其他的任务,所以主要是羽方在进行联调。经过了两天左右的联调,总算是把第一个版本给完成了,就等着到二十五号在蜀川那边部署了。

二十三号的时候,工程部的同事张朋出差到了蜀川的运营商局点,和局点的人进行沟通和准备相应的软硬件系统,以便于接下来的系统部署工作。下午上班的时候,范平海突然对羽方说:“蜀川的那个项目你后天支持一下安装和测试吧,我需要到新疆出差一趟,到了那边网络都不通,到时候有问题的话电话进行沟通吧。”

“我来支持?可是我都不会啊?”羽方心里一突。

“没事的,这个项目没有那么重要,就当是你的第一个项目支持了。你尽力就好,如果有不会的就问一下工程部的张朋,还是很简单的。”范平海安慰似的说道。

“好吧,我试一试,到时候有问题的话再问你。”羽方也是无奈,只能这么说。

“嗯,好的。你能行的。”

就这样,范平海去新疆出差了,而羽方则需要自己对蜀川的爬虫项目进行支持。

二十五号,张朋发消息说蜀川那边的机器已经部署好了,问需要安装那些软件,然后程序应该这么部署,同时让羽方把程序打包发送给他。

羽方:“需要安装ActivePython,MySQLDB,还有lxml,其他的应该就不需要了。然后程序放在D盘下面,新建一个spider目录好了。”

张朋:“好的,你稍等,我装一下。”

十分钟后,张朋回复到:“已经装好了,怎么运行啊?”

羽方:“你把程序解压缩,然后执行pythonstartup。py就可以了。”

张朋:“解压缩了,可是怎么执行啊?在运行里吗?我刚才执行了,可是黑屏幕一闪就没有了啊。这样是执行成功了吗?”

羽方:“没有成功,不是在运行里,是在命令提示符下。你先运行cmd,然后cd到程序目录,在执行pythonstartup。py。”

张朋:“好的。还是不行啊,提示python不是一个有效的命令。”

上一章 目录 +书签 下一页