[問題] pip install pdfplumber遇到encoding問題 jasonhsu14 PTT批踢踢實業坊

[問題] pip install pdfplumber遇到encoding問題

作者: jasonhsu14 (小健人) 2020-11-18 15:17:16

因工作需求
需要用讀取pdf上的表格
雖然試用過tabula，但其顯現的效果不太好
所以想嘗試換用pdfplumber
但在pip install pdfplumber的過程中遇到ERROR
看起來是UniDecodeError的問題
'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte
sequence
不知道如何pip 的時候解決這個問題.....
另外我的PYTHON是3.8
雖然上網GOOGLE過相關辦法
sys.setdefaultencoding("utf-8")
但上述辦法似乎在好幾個版本前就被拿掉
所以還想請問版上大大有成功安裝過pdfplumber的經驗分享
或我該如何解決這個問題
或是面臨稍微有點複雜的pdf表格，該如何讀取
說是複雜，其實他就是沒有明確的表格只用空格來區隔
所以導致我用tabula時候會某A欄的資料跑到隔壁欄去
先謝謝願意看到這邊了解我問題的版友們

作者: AndCycle (AndCycle) 2020-11-18 16:30:00

pip install UnicodeDecodeError #304pdfplumber 的 bug, 才剛修

作者: noworneverev (小朋友) 2020-11-18 21:14:00

我Python是3.7.4 pdfplumber是0.5.21裝的時候沒有問題之前要轉表格寫了個小工具可以給你參考https://github.com/noworneverev/PDF2Excel

作者: annheilong (方格子) 2020-11-19 17:47:00

Windows? 試試這篇 https://bit.ly/32ZNPul下載後修改 setup.py 再用 pip 安裝

作者: froce (froce) 2020-11-21 15:16:00

嗯...以前我會叫你去改安裝源碼，現在我會叫你用docker或是wsl2然後win10 20H1以上應該在語言選項有一個使用unicode的beta功能可以試試

作者: x246libra (æ¥“) 2020-11-29 09:12:00

cp950噩夢啊，讓我轉linux的關鍵非常煩的編碼問題，但沒有簡單肯定解法，浪費時間解這種問題，會很不爽，而且不同套件，可能都會遇到一次

繼續閱讀

[閒聊] youtube-dl 原地復活！chickengod [問題] SymPyDeprecationWarning: 訊息出現iread [問題] 有可能把任意尺寸的圖片存到numpy陣列嗎?art1 [問題] python 新手求教 txt輸出問題ck237 [問題] input輸入編號如何取得變數內容piligo [問題] df.apply是否有辦法取得前一列的資料jasonhsu14 plotly 單一html顯示多圖fetobow Re: [閒聊] 把字串以固定長度分割ian15937 [閒聊] Guido van Rossum宣布加入微軟LukeSkywaker Re: [心得] 入門：使用聲音進行預測性維護catcatcatcat