素材牛VIP会员
Python深度爬取一个网站
 Am***ze  分类:SQL代码  人气:1233  回帖:3  发布于6年前 收藏

毕业设计项目需要从coursera,edx等大型MOOC网站爬取大量公开课课程信息,尝试着爬取了coursera的课程信息,但是每次都要重新在python代码中写入新的url,如:coursera.org/computer/database和coursera.org/computer/algorithm才可以分别爬去database和algorithm的信息,可是coursera中有10大类,平均每类课程又分有6-8个小分类,也就是我需要该大概80次链接,感觉虽然已经比手动录入快很多了,但是自动化程度仍旧带来了一个效率低下的问题,请问有什么方法可以深度爬取一个网站的信息,让人工操作的的工序少一些呢?了解过深度搜索和广度搜索的算法,但是不知道在这里应该如何使用呢?P.S.在这里我是用的python中beautifulsoup4的package进行的html代码解析从而实现crawler。
码渣跪求,大神们能配合代码或者伪码来指导一下就最好啦!thx!

讨论这个帖子(3)垃圾回帖将一律封号处理……

Lv3 码奴
上***水 职业无 6年前#1

先爬列表页,然后爬子页面,你现在子页面已经处理好了,多爬加个列表页就行了
用不着什么深度广度算法

Lv2 入门
熊***子 学生 6年前#2

爬的时候把这些url加入到一个url数组中,依次爬取url数组中的url就可以了,可以把这个理解为广度优先搜索

Lv5 码农
Am***ze JS工程师 6年前#3

直接用scrapy

 文明上网,理性发言!   😉 阿里云幸运券,戳我领取