[請益] 如果我想要手動抓下一個網站要如何開始?

作者: oiolong (龍龍龍)   2017-07-13 10:08:11
請問一下
我想要把一個網站裡面的所有資訊拿下來到資料庫裡面
我要怎麼開始呢?
google 過有很多 github 的 source code
但由於是初學者,想要自己造輪子
我的構思大概是這樣
1 用 curl 去拿到 sourcecode
2 用 php 去分析內容 (regular expression or xpath or .... ?)
3 存入db
目前卡在2 的選型上面,
想請教版上的大大們
哪種方式比較好呢?
作者: MOONRAKER (㊣牛鶴鰻毛人)   2017-07-13 10:30:00
以2而言,弄一個HTML parser應該比較方便
作者: shadowjohn (轉角遇到愛)   2017-07-13 11:04:00
2 有 simplehtmldom、phpquery 可以用,re稍累簡單的用getBetween就好了,php manual滿多人分享

Links booklink

Contact Us: admin [ a t ] ucptt.com