正在加载...

网页解析1 - 准备和思考

对于crawler, parse html 是一个必不可少的工作。

现阶段有很多的开源库,python中也有自己的标准库。都是为了方便的解析html的。

但是,由于我们的需求可能会变得很奇怪,比方说:对于script的东西也许也要解析。对于comment的东西可能也要分析。

或者,还有其它的需求。为此,我重新造个轮子。记录一下下:

  1. html 由 标签,内容组成
  2. 标签由标签名,attr=value 的属性对组成
  3. 标签可以是自关闭的,也可以显示关闭的,有些标签只有1个。有些是1对
  4. 对于 也可以当成是特殊的标签
  5. 同理, 也是特殊的标签
  6. 对于文本,其实也是一个特殊的标签,可以隐式的认为name='', attr=''
  7. 所以 需要有:
    • 解析标签的工具
    • 遍历网页,找出标签的东西
    • 找出标签,并且解析后,存放解析后的数据的东西 嗯,差不多就这些吧