模拟登陆后如何获取跳转的网页？_Python_论坛

模拟登陆后如何获取跳转的网页？

qq***qq 分类：Python 人气：961 回帖：5 发布于6年前收藏

爬取虾米音乐时，模拟登陆网页版地址https://login.xiami.com/member/login后，返回的是一串字符（包括status、jumpurl以及账号信息等），但无法获取跳转后的网页（http://www.xiami.com/）；通过HttpFox发现：为了得到网页，必须发送登录时获取的cookie，于是添加cookie再进行爬取就可以了！奇怪的是，登陆手机版的网址不需要发送cookie就可以获取到，所以也想请教下原因。如果不采用登陆后再添加cookie的方法，如何直接获取到登陆跳转后的网页？
附录的代码：

#! /usr/bin/env python2.7
# encoding=utf-8

import re
import urllib,cookielib,urllib2

cookie = cookielib.CookieJar()    
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) 

postdata = urllib.urlencode({
    'email' : '（省略）',
    'password' : '（省略）',
    'submit' : '%E7%99%BB%E5%BD%95',
    '_xiamitoken' : '（省略）',
    'done' : 'https://www.xiami.com',
    'from' : 'web',
    'havanaId' : ''
})

postdata = postdata.encode('utf-8')

login_headers = {
    'Referer' : 'https://www.xiami.com/',
    'User-Agent' : 'Chrome/45.0.2454.101',
}

url = 'https://login.xiami.com/member/login'

req = urllib2.Request(url,postdata)
#result = opener.open(req)
result = urllib2.urlopen(req)

print result.read()

获取到的字符串：
{"status":true,"message":"success","data":{"user_id":"（省略）","nick_name":"（省略）"},"jumpurl":"https:\/\/www.xiami.com"}

标签：网页爬虫 python

讨论这个帖子（5）垃圾回帖将一律封号处理……

Lv3 码奴

wj***37 页面重构设计 6年前#1

根据你的描述登录接口返回数据，那基本就是前台完成的控制跳转，所以你只能用你的爬虫程序自行完成cookie携带请求

Lv5 码农

mi***02 学生 6年前#2

cookie = cookielib.CookieJar()    
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

爬取的时候，就在开始加上这两句话　就可以带cookie访问了啊　别的你就不用管了，　有些请求是必须发送某些cookie的吧，而且感觉跳转不用管吧，就算跳转了，cookie也会在本地存着呢。你要爬取的东西都可以通过分析请求来得到吧。　不知道你的问题与我的回答有没有在一条路上。。。

Lv1 新人

ze***an UI设计师 6年前#3

requests能自动跳转

Lv4 码徒

c2***31 交互设计师 6年前#4

模拟操作的时候，个人推荐使用requests库，可以自动提交cookie，免去手动操作的烦恼
手机可以不用cookie直接获取内容，感觉关键在于ua，有条件可以抓包看一下

Lv4 码徒

be***ar 产品经理 6年前#5

好像urllib2的302跳转会不带Cookies。
请看http://www.hawkwithwind.net/blog/2013/08...

文明上网，理性发言！ 😉 阿里云幸运券，戳我领取