[問題] 非結構化資料結構化?

作者: Nancy010006 (Nancy)   2017-11-13 20:01:05
各位版上大大好
最近修了一門課 老師希望我們做一個網站出來
原本想說用爬蟲去抓 就用了PYTHON來做
我的想法是
同學目前都只能透過FB上的某個校內打工媒合的社團來找工作
那我就做一個類似104的那種媒合網站出來
老師建議我可以從FB的社團先將資料撈出來SHOW在我打算新建出來的網站上
這樣可以讓大家更快的想要來使用這個網站而不是從0篇文章開始要慢慢等
於是我找了FB的API 目前可以將社團的貼文作者時間種種抓出來
可是 完全不知道要怎麼進行結構化....
貼文可能長成以下這樣
1.
*日月潭OO*
誠徵 寒假民宿小幫手
工作內容:客房與環境整理,協助廚房出餐
工作地點:南投.....
工作時間:寒假春節
薪資待遇:133/hr,春節加倍薪
性別:不拘
官網:http://www.sunm...............
有興趣的同學再歡迎私訊或加line:XXXXXOOOO 劉先生
感謝~~
2.
<代PO>誠徵
XX補習班誠徵 課輔助理老師
工作內容:批改作業,協助指導國小學生完成功課
地點:XX鎮XX路XX號
上班時間:12點30到3點30 (星期一五OR一四五,)
工作氣氛超友善,小朋友乖巧
薪資:133元/時
意者請洽09OOOOOOOO
我主要需要將工作名稱 工作時間 工作薪資 聯絡方式 抓出來塞進資料庫
但是因為每篇PO文都有些許差異 像是工作薪資就有可能是薪水 薪資 每日工資 種種
但是找了很久都想不到應該怎麼做
有找過JIEBA之類的 但是也想不到該怎麼用
很好奇真的是可行的嗎!?
作者: f496328mm (為什麼會流淚)   2017-11-13 23:23:00
我也想問類似問題
作者: TakiDog (多奇狗)   2017-11-13 23:58:00
社團上格式不要差太多 應該都可以硬A出來
作者: froce (froce)   2017-11-14 11:28:00
同義詞列表。

Links booklink

Contact Us: admin [ a t ] ucptt.com