[請問] 批次下載的圖檔jpg和png混雜的問題

作者: poeta (鍵盤詩人)   2017-03-06 16:07:19
HathiTrust Digital Library這個典藏網站,歐美名校有合作關係的,可以點選
畫面的 Download whole book (PDF),沒有合作的學校只能一頁一頁抓了。
像我看到的這份資料,想要抓其中一卷,線上觀看的網址是這個:
https://babel.hathitrust.org/cgi/pt?id=nnc1.cu04711483;view=2up;seq=3
按右鍵就可以看到他的原始連結,也可以下載,網站本身是沒有禁止的,所以我
寫了一個迴圈的語法,顯示我要抓的1~30頁超連結。
不過遇到的問題是,他的圖檔是jpg和png混雜
例如第3頁是jpg檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=3
第5頁則是png檔
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=6
因此我用firefox的downthemall插件,快速抓下來以後,即使是按時間排列,圖
檔的順序仍會錯亂。所以想問這個網站,應該要用什麼軟體來下載呢?
作者: rick65134   2017-03-06 16:23:00
抓的時候沒辦法自動自訂檔名嗎?
作者: poeta (鍵盤詩人)   2017-03-06 16:35:00
我怎麼沒想過這個問題...害我還打這一大串...應該是可以,我去研究一下...真是一語驚醒
作者: rick65134   2017-03-06 17:29:00
然後大部分的看圖軟體應該可以無視副檔名自動判斷格式所以你也不必去糾結它到底是jpg還是png 直接存成*.jpg
作者: poeta (鍵盤詩人)   2017-03-06 17:32:00
我成功了 QQ 打這篇花20分鐘 解決只要2秒..我是要整合成pdf所以還是要副檔名正確,那個批次軟體設成 *inum*.*ext*就搞定了。
作者: rick65134   2017-03-06 17:36:00
^-^

Links booklink

Contact Us: admin [ a t ] ucptt.com