[問題] pip install pdfplumber遇到encoding問題

作者: jasonhsu14 (小健人)   2020-11-18 15:17:16
因工作需求
需要用讀取pdf上的表格
雖然試用過tabula,但其顯現的效果不太好
所以想嘗試換用pdfplumber
但在pip install pdfplumber的過程中遇到ERROR
看起來是UniDecodeError的問題
'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte
sequence
不知道如何pip 的時候解決這個問題.....
另外我的PYTHON是3.8
雖然上網GOOGLE過相關辦法
sys.setdefaultencoding("utf-8")
但上述辦法似乎在好幾個版本前就被拿掉
所以還想請問版上大大有成功安裝過pdfplumber的經驗分享
或我該如何解決這個問題
或是面臨稍微有點複雜的pdf表格,該如何讀取
說是複雜,其實他就是沒有明確的表格 只用空格來區隔
所以導致我用tabula時候會某A欄的資料跑到隔壁欄去
先謝謝願意看到這邊了解我問題的版友們
作者: AndCycle (AndCycle)   2020-11-18 16:30:00
pip install UnicodeDecodeError #304pdfplumber 的 bug, 才剛修
作者: noworneverev (小朋友)   2020-11-18 21:14:00
我Python是3.7.4 pdfplumber是0.5.21裝的時候沒有問題 之前要轉表格寫了個小工具可以給你參考https://github.com/noworneverev/PDF2Excel
作者: annheilong (方格子)   2020-11-19 17:47:00
Windows? 試試這篇 https://bit.ly/32ZNPul下載後修改 setup.py 再用 pip 安裝
作者: froce (froce)   2020-11-21 15:16:00
嗯...以前我會叫你去改安裝源碼,現在我會叫你用docker或是wsl2然後win10 20H1以上應該在語言選項有一個使用unicode的beta功能可以試試
作者: x246libra (楓)   2020-11-29 09:12:00
cp950噩夢啊,讓我轉linux的關鍵非常煩的編碼問題,但沒有簡單肯定解法,浪費時間解這種問題,會很不爽,而且不同套件,可能都會遇到一次

Links booklink

Contact Us: admin [ a t ] ucptt.com