该选择哪个语言开发爬虫？_PHP代码_论坛

该选择哪个语言开发爬虫？

十***刻分类：PHP代码人气：2219 回帖：23 发布于6年前收藏

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API，会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的，其次才是PHP。在没办法的情况下，才会考虑使用python进行开发！
网上大概了解了下，很多采集程序都是使用python来开发的。因为python的网络库很多，很丰富，开发起来方便快捷。
PHP的也有个snoopy类库，C++的就不清楚了。
不知道，C++中有没有这方面的爬虫类库推荐呢？

标签：网页爬虫 mfc 数据采集 c++php

讨论这个帖子（23）垃圾回帖将一律封号处理……

Lv2 入门

熊***子学生 6年前#1

node.js的jquery也不错。。。

Lv1 新人

陌***人 PHP开发工程师 6年前#2

用python 没有原因

Lv7 码师

ha***23 职业无 6年前#3

golang 是个不错的选择

Lv1 新人

qi***hu 职业无 6年前#4

毫不犹豫golang

Lv1 新人

岛***疤页面重构设计 6年前#5

用javascript也可以写爬虫在云端编写和执行源码地址：
https://github.com/ShenJianSh...

Lv1 新人

编***魔职业无 6年前#6

python 唯一的好处就是 request 库真的很方便

我以前都是用 php 做爬虫的，现在都改用 python 了

其实用 JavaScript 也是很好的，node 或者 phantomJS

因为很多时候你不仅要把 HTML 爬下来，还要解析；而 python 的 DOM 库简直糟糕透顶；比如 BeautifulSoup，很多操作就非常不方便；相比之下，js 进行 DOM 操作就方便多了

Lv6 码匠

坐***来技术总监 6年前#7

爬虫无非就是获取网页内容，解析内容，正则出想要的数据，其实对于网页内容获取，任何语言都能获取，注意代理服务器防封IP，并行抓取等技术，个人感觉php 获取网页内容还是不错的，至于解析网页内容，基本上都是DOM的操作，那最佳选择还是nodejs，里边的cheerio很好的解决树形结构数据。

Lv1 新人

Al***ay 职业无 6年前#8

表示采用java，jsoup，http://www.husters.cn/ 抓爬的

Lv5 码农

us***es 职业无 6年前#9

需要开发个采集腾讯、新浪微博的评论数据。

目的明确了，解决的思路也不难。你的爬虫的主要功能就是

能向服务器进行通信，返回你需要页面的内容
解析页面源码，挖掘出你需要的信息
python是一个不错的推荐，解决两个问题都有完善的库。
比如urllib2解决http请求，lxml 解决页面源码的解析(解析成html树)。
关键步骤就是在解析后生成的html树中，找到所需信息，需要自己完成：
分析信息在html树中所在的位置，并告诉你的程序去对应位置(利用xpath来定位)抓信息
写过一个python抓取douban日志名称，URL，评论数，发布时间的爬虫。
能解决基本的挖掘需要后，再来考虑如何能更快及应对大型数据，目前了解的方法有iterparse方法，多线程等。

p.s
为什么是lxml?参考lxml performance

Lv3 码奴

懒***材职业无 6年前#10

建议用node， phamtomjs， node的jQuery，还有jsdom， node下面很多解析html的包，非常方便

文明上网，理性发言！ 😉 阿里云幸运券，戳我领取