Re: [請益] parser 文字

作者: shadowjohn (轉角遇到愛)   2014-09-25 16:52:09
※ 引述《woominin (沒事就好)》之銘言:
: 不好意思,小弟剛接觸php不久
: 有關於parser的問題想要詢問一下
: 比方說,我有一個網頁想要parser
: http://house.ilantravel.com.tw/
: 而這個網頁最下方有一堆民宿的文字超鏈結
: 請問我要怎麼parser這些超鏈結的文字部份呢
: 檢查了原始碼,比方說
: <td><span class="s1">.</span></td>
: <td><font size="2">
: <a href="bnb/kite.htm" target="_blank">風箏小木屋民宿</a></font></td>
: 這是其中一個
: 我要怎麼parser出來 風箏小木屋民宿 這串文字呢 ??
: 我有用 simple_html_dom.php
: $dom = file_get_html('http://house.ilantravel.com.tw/');
: $result = $dom->find('a');
: foreach($result as $v) {echo $v->href . '<br>';}
: 這樣只能parser出超鏈結,但無法辨認,哪個鏈結是誰
: 麻煩前輩解惑,謝謝
<?php
include '/var/www/html/inc/simplehtmldom/simple_html_dom.php';
$dom = file_get_html('http://house.ilantravel.com.tw/');
$result = $dom->find('a');
foreach($result as $v) {
$title = $v->innertext; // 用這個直接抓 <a xxx>這裡的內容</a>
echo "(" . $title .")" . $v->href . "\n";
}
(關於我們)aboutus.htm
(宜蘭民宿)http://bnb.icsp.com.tw
(宜蘭住宿)http://www.goez.tw
(宜蘭民宿)http://house.ilantravel.com.tw
(花蓮民宿)http://house.netete.com
(台東民宿資訊網)http://www.ttbnb.com.tw
(宜蘭民宿 )http://www.ilanbnb.tw
(花蓮民宿)http://www.bnb.idv.tw
(宜蘭民宿)http://www.ilanbnb.com.tw
(台東民宿)http://www.travel123.com.tw
(宜蘭美食)http://www.399.com.tw
(礁溪溫泉)http://jiaoxi.ilantravel.tw
(羅東夜市 )http://luodong.ilantravel.tw
(宜蘭包棟民宿 )http://www.goyilan.com
(童玩節)http://child.ilantravel.com.tw/
(宜蘭生活)http://life.goez.tw/
(羅東住宿)http://lotong.yilanminsu.com.tw/
大概會長這樣吧~
作者: shadowjohn (轉角遇到愛)   2014-09-25 16:53:00
可以加上 strip_tags、str_replace 去掉多餘的東西http://simplehtmldom.sourceforge.net/Quick start 就有教學了,很簡單~
作者: powyo (光子郎)   2014-09-25 16:58:00
他那裡面有很多不需要的連結 這樣會全部抓到吧
作者: shadowjohn (轉角遇到愛)   2014-09-25 17:02:00
這時搭配 is_string_like 就解決了~_~simplehtmldom 就是設計的像jquery好選,然後再分

Links booklink

Contact Us: admin [ a t ] ucptt.com