王锋 2010年05月26日 星期三 09:49 | 2312次浏览 | 1条评论
 #-*- coding: utf8 -*-
 
 import re
 
 
 html = """
 
     <div class="box-s1-l">
 
         <div class="col"> <span  class="day_s">白天</span>
 
             <div class="w-icon"><img alt='多云'  src='http://www.sinaimg.cn/dy/weather/images/yb2/45_45/duoyun_0.gif'  /></div>
 
             <h2>多云</h2>
 
             <div class="w-number"> <span  class="tpte">14℃</span> </div>
 
         </div>
 
         <div class="col"> <span  class="day_s">夜间</span>
 
             <div class="w-icon"><img alt='多云'  src='http://www.sinaimg.cn/dy/weather/images/yb2/45_45/duoyun_1.gif'  /></div>
 
             <h2>多云</h2>
 
             <div class="w-number"> <span  class="tpte">6℃</span> </div>
 
         </div>
 
     </div>
 
 """
 
 
 if __name__ == '__main__':
 
     p = re.compile('<[^>]+>')
 
     print p.sub("", html)</pre>
 
 
 <p> 这个是去掉所有HTML标签。你可以把你需要提取数据的那行HTML用这个正则把非HTML标签的内容提取出 来</p>
 
 <p> </p>
 
 <p>例如:</p>
 
 <p>取天气</p>
 
 <p>
 
 </p>
 
 <pre name="code" class="python">#!/usr/bin/env  python
 
 #-*- coding: utf8 -*-
 
 import re
 
 
 html = """
 
     <h2>多云</h2>
 
 """
 
 
 if __name__ == '__main__':
 
     p = re.compile('<[^>]+>')
 
     print p.sub("", html)</pre>
 
 
 <p> 取温度</p>
 
 <p>
 
 </p>
 
 <pre name="code" class="python">#!/usr/bin/env  python
 
 #-*- coding: utf8 -*-
 
 import re
 
 
 html = """
 
     <div class="w-number"> <span  class="tpte">14℃</span> </div>
 
 """
 
 
 if __name__ == '__main__':
 
     p = re.compile('<[^>]+>')
 
     print p.sub("", html)</pre>
Zeuux © 2025
京ICP备05028076号
回复 王锋 2010年05月26日 星期三 11:11