Re: [討論] 資料擷取程式發想

作者: VVll (李奧納多皮卡丘)   2014-05-13 00:24:56
※ 引述《d25702 (DOTA)》之銘言:
: 我想要做一隻可以從網路擷取資料並分析利用的程式,
: 我的初步想法如該圖 http://ppt.cc/a3Ve
: 1.擷取網頁碼我算用httpwebrequest(httpWebresponse)或WebBroswer技術
: 2.分析資料用regularExpression
: 3.介面顯示用datagridview
: 4.資料EXCEL匯出則用NPOI
: 但目前我苦無想法與來源來為這隻程式注入生命,
: 大家有什麼idea嗎?
: 註:個人使用語言是VB.NET
以最近工作在碰的來說
不停抓不同來源網站的資料
C# .Net
主要用了兩個方法
1. webClinet
優點
可以設定非同步下載,跟設定proxy,還有completed事件好處理
缺點
無timeout可使用,若使用到有狀況的網路情況, 連線會卡住
必須自己寫個timer去處理逾時
無法處理javascript,它只能抓純文字資料/檔案內容
2. webBrowser
優點
可執行javascript,其實它就是個瀏覽器,是以ie為基底
若要設定proxy的話,比較特別是直接設定ie瀏覽器的proxy
所以若同時用webbrowser抓不同來源的資料,又需要設定proxy就會很恐怖
缺點
沒有明確的download completed事件可以處理,它就是瀏覽器
會一直保持連線,所以要判斷資料有沒有正確抓下來得到就很麻煩
還有proxy使用也是
作者: TonyQ (自立而後立人。)   2014-05-13 01:54:00
要用 web browser 的話倒不如用 phantomjs. XD
作者: d25702 (DOTA)   2014-05-13 14:09:00
感謝,受教了~

Links booklink

Contact Us: admin [ a t ] ucptt.com