正在加载...

怎么抓取新浪微博

如何抓取新浪微博?说实话,新浪微博是比较难抓取的。在weibo.com里面可以发现,为了防止抓取,做了很多的功课。那么有没有什么方法能够绕过这些功课呢 ?从以前的经验来看,其实,完全可以考虑通过手机版的weibo来进行抓取。这样就可以了。入口:[http://m.weibo.cn/][1] [1]: http://m.weibo.cn/

阅读全文 →



网页解析4 - 分析网页内容(中)

上篇讲了html_handler。本篇讲html_parser。各位看管应该等着急了。不罗嗦,直接上代码:**html_parser.py** #coding=utf-8 import re class HtmlParser(object): def __init__(self, handler, mask=None): ...

阅读全文 →


网页解析3 - 分析网页内容(上)

上篇讲明了如何解析标签。有了上篇的基础。我们要做的事情就是解析这个html的内容了。根据以往的解析xml的经验,可以采用sax的方式。这样更加清晰,代码也更加好写。我们的设计是有一个 HtmlHandler 和 HtmlParser。有HtmlHandler里面保留html的可见内容。而HtmlParser进行真正的解析。目前,需求就是解析网页的内容。不需要里面的标签。所以,我们只需要有一个简单的...

阅读全文 →


网页解析2 - 解析标签

分析网页内容的工具有很多。为了动手解决实际问题,让代码便得可控性。我重复造就了轮子。这个部分讲如何进行网页里面标签块的解析。例如: 解析出里面的href 和 class 分别是什么。作用就是这样。但是要做到下面的几个方面1. 可以检查标签是否可见,这个有利于以后的html分析,从而知道这个内容是否要显示出来2. 支持不规范的标签,比方说只有...

阅读全文 →


网页解析1 - 准备和思考

对于crawler, parse html 是一个必不可少的工作。现阶段有很多的开源库,python中也有自己的标准库。都是为了方便的解析html的。但是,由于我们的需求可能会变得很奇怪,比方说:对于script的东西也许也要解析。对于comment的东西可能也要分析。或者,还有其它的需求。为此,我重新造个轮子。记录一下下:1. html 由 标签,内容组成2. 标签由标签名,attr=value...

阅读全文 →


一些关于垂直网站爬虫的思考

**一些关于垂直网站爬虫的思考**------基本指标和难点===1. 实时性 - 新的内容,需要很快的抓到2. 全面性 - 老的内容和新的内容都需要能抓到,不能只侧重某一方面 - 新的内容在一定时间后就是老的内容了 - 基于1,可能新内容要抓取的优先级更高,但不能只抓新的,不要旧的3. 去除重复 - 不同的网站可能有相同的内容,抓完后可能需要去掉重复的内容 - 有写网站的url后面带有随机数,或...

阅读全文 →