包含标签 python 的文章

用PhantomJS抓取js渲染的网页

在用python抓取网页时,一般情况下,用urllib2,requests等库差不多够用,但是有的页面里的某些div里的元素,是由js动态渲染,或者某些div,是在window页面滑到该区域才开始加载的。对于这种网页,你直接抓取然后审查页面信息,会看到div为空,或者div的内容为”加载中…”。 那么怎么抓取这类动态页面呢,在window下,可以使用selenium,但在Linux平台,就需要用PhantomJS配合selenium来完成了。

……

阅读全文