PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Soft_Job
[請益] crawler and API?
作者:
njpp
(正妹真難找)
2014-06-26 17:49:58
想問下各位前輩
目前要開發擷取網頁的技術
一個是有API 直接讓C#去讀取XML資料
一個是不提供 API 直接用crawler方式 去抓
但是crawler方式 似乎無法跟讀取 XML節點一樣
有效整理我所要的擷取內容
crawler似乎只能傳一堆網站資料進來
但我如何用crawler技術有效擷取我所要的資訊
謝謝!
作者: pig22022 (宏)
2014-06-26 17:57:00
Crawler應該可以照你想要抓的tag來撈資料 只是撈回來自己要再parse
作者:
StupidGaGa
(笨嘎嘎)
2014-06-26 18:00:00
你這問題應該要在C#板上問我可以給你一個關鍵字,Html Agility Pack我自己也開發過爬蟲專案,這東西不錯用
作者:
wakaw
(哇靠)
2014-06-26 19:36:00
推HAP
作者:
kiii210
(HelloWorld!)
2014-06-26 20:35:00
xpath..regular expression都可以啊
作者:
StupidGaGa
(笨嘎嘎)
2014-06-27 02:28:00
樓上,你別鬧了,正規表示法根本不好用。xpath…請問你是用什麼東西搭配xpath?
作者: up9cloud (九天)
2014-06-27 03:57:00
推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料那你說的很對,但若不是。我只能ㄏㄏ了...
作者: leeheng (LHMa)
2014-06-27 09:28:00
正規表示法不好用?可是你用的parser跟compiler都是用正規表示法再爬抓回來的網頁和你的程式耶
作者:
chatnoir
(對不起)
2014-06-27 12:10:00
正規表示法不好用....
作者:
StupidGaGa
(笨嘎嘎)
2014-06-27 16:03:00
請用HAP,用正規表示法的我只能說,根本自爽我用過單純字串處理、正規表事法、HAP,相信我HAP第三方的dll真的好用太多了,尤其是解析網頁而且HAP也是用xpath去解析,不僅靈活度高,易讀性也高PTT C#版人多,不過大多都學生,有時候業界人的話會無法認同如果樓主無法決定用哪個,你就兩個都用,你就知道差異另外C#抓XML沒人再用HAP也沒用正規,是用class去轉up9cloud真的寫過C#嗎?我很懷疑你的經驗
作者:
gary62107
(Felix)
2014-06-28 01:41:00
兩個都用過,正規表示式學習曲線高,但彈性 powerfullHAP方便,但過於依賴也不太好...
作者:
iceonly
(只有冰)
2014-06-28 15:36:00
順便問問有沒有java的,然後完美解決ajax的htmlunit不穩定
作者:
coronach
(...)
2014-06-28 22:42:00
要完美解決ajax要做的事太多了 htmlunit已經不錯了...
作者:
HYL
(@EVERYWHERE)
2014-06-28 23:47:00
Google花了 15 年才解決 AJAX 的問題,這問題不好解阿~
繼續閱讀
[請益] 該如何切入軟體產業?
kage01
Re: [請益] 小弟目前非資工系大三,未來方向請益
StupidGaGa
[徵才] 海外工作機會,誠徵PHP/iOS/android程式
peric053
[心得] iOS 面試心得 Pchome,CSI,FlyFit....
Boska
Re: [請益] 小弟目前非資工系大三,未來方向請益
SirChen
[URL] 華山論劍 - 程式,架構,開發論壇。
qrtt1
Fw: [請益] 台灣yahoo工程師的薪水
Angil
[請益] 寫財經相關軟體的工作
bubba
[請益] Offer選擇
marquee801
[徵才] 長期工讀生 (協助軟體開發)
LoveCl
Links
booklink
Contact Us: admin [ a t ] ucptt.com