[問題] PDF的格式比對

作者: uioty (uioty)   2015-12-10 15:36:21
各位好,
關於PDF格式比對的問題是這樣的:
假設系統要求PDF文件檔案的格式如下:
邊界設定N inch
字體需為 a, b, c 三種其中一種
字體大小介於10-12pt之間
頁數用阿拉伯數字編排
等等
然後這個系統可以上傳PDF,回傳此份PDF是否符合格式
更進一步的可以說明格式哪裡不符
我自己的想法有兩個
一個是轉成word,然後去抓word檔案的metadata來比對
可是轉成word似乎會有格式跑掉的風險
假設PDF中有表格或者圖片
轉換格式容易跑掉,這樣處理邊界問題可能就會有誤
不過轉成word的話
我覺得至少可以解決字體、字體大小以及頁數是否用阿拉伯數字編排的問題
另個想法是用影像處理的想法去做
所以需要先有一個標準的sample檔案
然後把pdf轉成圖檔以後用圖像的方式比對
我覺得這應該可以解決邊界及字體大小的問題
不曉得有沒有其他的方法或者想法呢?
謝謝

Links booklink

Contact Us: admin [ a t ] ucptt.com