[問題] 如何抓取網頁原始碼中單引號內的內容 liataian PTT批踢踢實業坊

[問題] 如何抓取網頁原始碼中單引號內的內容

作者: liataian (T-PANY FOREVER) 2014-12-15 13:56:51

各位好，想請教一下
我想用python3的正則式抓取某個網頁原始碼中的某個單引號中的內容
該內容長度非常長，可能長度大於100000
比起網頁原始碼中其他單引號中的內容還要長很多
我想說先抓取原始碼中的所有單引號中的內容
接著再用長度來判斷長度大於100000的內容才符合條件
想問這樣的正則式應該怎麼下呢?
我目前是寫如下這樣
import urllib.parse,urllib.request
html = urllib.request.urlopen("該網址") #html形態為物件
s_html = html.read().decode('utf-8') #s_html形態為字串
將html物件轉成s_html字串後才可以用正則式去parse
不過這邊我就不知道怎麼寫正則式去抓出s_html裡面的所有單引號中的內容了@@
還請各位指點一下，謝謝!!

作者: liataian (T-PANY FOREVER) 2014-12-15 14:44:00

已經解決，自己回自己問題@@

繼續閱讀

Re: [問題]請問正規表示式如何抓取這樣的字串CindyLinz [問題] VBA 2010的regular expression如何非貪婪gecer Re: [問題]請問正規表示式如何抓取這樣的字串CindyLinz [問題]請問正規表示式如何抓取這樣的字串erthe Re: [討論] JSON ParseCindyLinz [討論] JSON Parseb60413 [問題] 用 preg_match 找出網址的部分woominin [問題] 抓取html table 裡面的中文woominin Re: [問題] java instance nameLPH66 Re: [問題] java instance namePeruheru