[問題] 存檔和LOOP

作者: ibgvdlbj (:))   2019-08-18 14:54:50
Hi 各位大大 我又上來請教大家了
目前想用python識別pdf檔 做 key word 查尋
也就是 optical character recognition
昨天朋友說 pytesseract 只能識別圖片 不能識別 pdf檔
所以我先手動把其中一個pdf檔 存成圖檔 當測試
寫了一段code 成功的輸出在 cmd裡
目前在思考 能不能儲存成text檔(格式會跑掉嗎?)
然後讓程式讀取資料夾內的下一個 pdf 檔案 自行轉成 圖檔後 再跑~~
如果以上有可能的話
該怎麼寫呢? 麻煩各位大大 謝謝^^"
以下放code:
from PIL import Image
import pytesseract
import argparse
import cv2
import os
# construct the argument parse and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-i", "
作者: eamansf96xs (草爺)   2019-08-18 19:28:00
這版有點少人。。。 幫你推個
作者: mirror0227 (鏡子)   2019-08-18 20:33:00
我猜你在尋找 pickle
作者: s860134 (s860134)   2019-08-18 23:32:00
for loop 和 os. path 就可以做完了
作者: ibgvdlbj (:))   2019-08-19 06:51:00
請問S大,應該要放在哪裡呢? 謝謝!

Links booklink

Contact Us: admin [ a t ] ucptt.com