素材牛VIP会员
该选择哪个语言开发爬虫?
 十***刻  分类:PHP代码  人气:2217  回帖:23  发布于6年前 收藏

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

讨论这个帖子(23)垃圾回帖将一律封号处理……

Lv6 码匠
坐***来 技术总监 6年前#1

弱弱的推荐一下 php 的 goutte

Lv6 码匠
好***下 职业无 6年前#2
  1. 有较好地html获取和解析支持。
  2. 有较好地并行控制。
  3. 方便处理异步任务。
  4. 容易开发DSL。(假如你需要用户自定义抓取路径的话。)

以前写过好几个版本的爬虫,供参考。http://niejason.sinaapp.com/?p=66

Lv5 码农
牛***满 产品经理 6年前#3

啥都不说,肯定是python

Lv3 码奴
te***es 产品经理 6年前#4

用python吧,你会发现有很多优点。。。

Lv1 新人
BO***OS 职业无 6年前#5

我觉得不是说选择哪个语言,主要是看开发者对哪个语言最熟悉。

Lv6 码匠
Fo***ou 职业无 6年前#6

推荐Python。有requests等类库。
也有scrapy这样的框架。

Lv4 码徒
日***天 职业无 6年前#7

每个语言都可以,基本的爬虫只要涉及到一些HTTP请求和文档解析就能做出来。
Python有Scrapy等框架,上手比较快,可以研究一下。

Lv3 码奴
空***子 职业无 6年前#8

参考

C/C++ 网络爬虫

Lv3 码奴
威***军 职业无 6年前#9

Perl
竟然没人推荐..

Lv6 码匠
Ga***er 软件测试工程师 6年前#10

snoopy类库很久以前用过,不过感觉不是很好用。功能一般。
其实爬虫最网页请求那一块比较容易实现,也没有什么好说的。其实最主要是对请求回来的数据处理,分析。
所以我觉得用node.js会是很好的选择。

看看那位童鞋推荐下node.js有什么好的库。

上一页123下一页
 文明上网,理性发言!   😉 阿里云幸运券,戳我领取