[問題] 如何抓取網頁原始碼中單引號內的內容

作者: liataian (T-PANY FOREVER)   2014-12-15 13:56:51
各位好,想請教一下
我想用python3的正則式抓取某個網頁原始碼中的某個單引號中的內容
該內容長度非常長,可能長度大於100000
比起網頁原始碼中其他單引號中的內容還要長很多
我想說先抓取原始碼中的所有單引號中的內容
接著再用長度來判斷長度大於100000的內容才符合條件
想問這樣的正則式應該怎麼下呢?
我目前是寫如下這樣
import urllib.parse,urllib.request
html = urllib.request.urlopen("該網址") #html形態為物件
s_html = html.read().decode('utf-8') #s_html形態為字串
將html物件轉成s_html字串後才可以用正則式去parse
不過這邊我就不知道怎麼寫正則式去抓出s_html裡面的所有單引號中的內容了@@
還請各位指點一下,謝謝!!
作者: liataian (T-PANY FOREVER)   2014-12-15 14:44:00
已經解決,自己回自己問題@@

Links booklink

Contact Us: admin [ a t ] ucptt.com