Python抓取的具体应用解答

来源:http://www.sh-fengwen.com 作者:家常菜谱 人气:105 发布时间:2019-09-05
摘要:如果你在Python抓取中遇到问题,查了很多地方不知道怎么解决,你可以通过以下的文章对Python抓取有一个详细的了解,通过对它的了解你可以在股票信息等其他信息中获取自己想要查询

如果你在Python抓取中遇到问题,查了很多地方不知道怎么解决,你可以通过以下的文章对 Python抓取有一个详细的了解,通过对它的了解你可以在股票信息等其他信息中获取自己想要查询的东西。

我们今天将会通过这篇文章,为大家详细介绍一下Python抓取网页内容的两种不同方法。大家可以以此为参考对象,在实际应用中选择一种适合自己的应用方式来帮助我们完成实际开发中的需求。

需要在python上加点东西,做起来就简单了。 jquery在做html内容提取,分析的时候很方便。而python做类似的工作就麻烦一点,原来我都是用正则表达式或者HtmlParser的 。两者用着都不是太爽,今天发现了一个好东西 pyquery ,一个类似jquery的python库。
摘抄一段使用说明 :

Python抓取网页内容方法一、用urllib2/sgmllib包,将目标网页的所有URL列出。

from pyquery import PyQuery as pq    from lxml import etree    d = pq(" <html> < span>html>")    d = pq(etree.fromstring(" <html> < span>html>"))    d = pq(url='http://google.com/')    d = pq(filename=path_to_html_file)    Now d is like the $ in jquery:    d("#hello")   [ <p#hello.hello>]    p = d("#hello")   p.html()   'Hello world !'    p.html("you know <a href='http://  python.org/'>Python < span>a> rocks")   [ <p#hello.hello>]    p.html()   'you know <a href="http://python.org/"> Python < span>a> rocks'    p.text()   'you know Python rocks'    
import urllib2  from sgmllib import SGMLParser   class URLLister(SGMLParser):  def reset(self):   SGMLParser.reset(self)  self.urls = []  def start_a(self, attrs):   href = [v for k, v in attrs if k=='href']   if href:  self.urls.extend(href)  f = urllib2.urlopen("http://www.donews.com/")  if f.code == 200:  parser = URLLister()  parser.feed(f.read())  f.close()  for url in parser.urls: print url 

简单吧,安装也很简单解压缩 python setup.py install 就可以了,可能要安装ezsetup现在的版本是0.3,还有一些jquery的东西没有实现,比如:radio,:password,以及一些ajax的功能,通过以的介绍你就可以更好的了解Python抓取的应用了,赶紧试试吧。

Python抓取网页内容方法二、用python调用IE抓取目标网页Require win32com, pythoncom)的所有图像的url和大小

本文由美高梅游戏平台网站发布于家常菜谱,转载请注明出处:Python抓取的具体应用解答

关键词:

上一篇:没有了

下一篇:Python抓取的具体应用解答

最火资讯