pyspider 在index_page中爬取链接地址时，如果页面定义了<base href="">，则详细页地址获取错误。_Python_论坛

pyspider 在index_page中爬取链接地址时，如果页面定义了<base href="">，则详细页地址获取错误。

鸭***咬分类：Python 人气：1274 回帖：1 发布于6年前收藏

1.问题
pyspider 在index_page中爬取链接地址时，如果页面定义了<base href="">，则详细页地址获取错误。
2.代码

    @every(minutes=5 * 60)
        def on_start(self):
            self.crawl('http://jhsjk.people.cn/result/?keywords=&button=%E6%90%9C%E7%B4%A2', callback=self.index_page)
    
    def index_page(self, response):
            for each in response.doc('div.fr ul.list_14 li a').items():
                print(each.attr.href)
                if each.attr.href.startswith("http://") or each.attr.href.startswith("https://"):
                    self.crawl(each.attr.href, callback=self.detail_page)
                else:
                    self.crawl(urljoin(baseurl, each.attr.href), callback=self.detail_page)

3，程序运行结果
代码获取到的each.attr.href是由http://jhsjk.people.cn/result/。。。 和链接指向的地址如："article/29613458"合成的，url为http://jhsjk.people.cn/result/article/29613458。

但是，实际上页面自己定义了<base href="http://jhsjk.people.cn/" />，因此，url地址应该是http://jhsjk.people.cn/article/29613458。

希望能够改正上面的问题

标签：pyspider python

讨论这个帖子（1）垃圾回帖将一律封号处理……

Lv5 码农

陌***3 PHP开发工程师 6年前#1

文明上网，理性发言！ 😉 阿里云幸运券，戳我领取