[問題] 當read_csv遇到utf-8-BOM locka PTT批踢踢實業坊

[問題] 當read_csv遇到utf-8-BOM

作者: locka (locka) 2018-03-21 15:24:59

各位好:
我使用readr::read_csv讀取csv檔
ex:a <- read_csv("xxx.csv")
按下enter後出現幾行字:
Parsed with colum specification:
cols(
`<U+FEFF>id` = col_character(),
...
)
當時沒有想太多, 因為View(a)看起來都很正常
接著要把 a 跟其他的 dataFrame merge的時候總是會出現錯誤:
Error in fix.by(by.x, x) : 'by' must specify a uniquely valid column
用dplyr::left_join()則是會出現:
Error in left_join_impl(x, y, by$x, by$y, suffix$x, suffix$y) :
'id' column not found in rhs, cannot join
懷疑應該是那個`<U+FEFF>id`在作怪
用關鍵字找到這篇
https://github.com/tidyverse/readr/issues/263
不過看完還是不知道發生了甚麼事[email protected]@a
不曉得有人可以協助解釋嗎?
1. UTF-8-BOM 跟 UTF-8 的差別? (之前讀csv檔從來沒注意過有這個問題)
2. R 要怎麼正確的讀取 UTF-8-BOM 的檔案呢?
任何觀念的釐清小弟都很歡迎
先謝謝各位了！！！
ps.
最後我是用很笨的方法
a <- a %>% select(id=`<U+FEFF>id`...)
把欄位改名後就可以成功merge（但還是想知道大家遇到這問題都怎麼處理的）
補充:
用names(a), colnames(a), summary(a)看起來欄位都顯示正常
不過head(a)會顯示以下的東西
# A tibble: 6 × 5
`<U+FEFF>id`
<chr>
......

作者: obarisk (OSWALT) 2018-03-21 18:28:00

不要用read_csv就可以了吧

作者: kimball (我在抗拒什麼...) 2018-03-21 21:18:00

BOM 是 windows 在存 utf-8 csv 的時候在開頭加入的三個byte……手動修改的話可以用 notepad++ 讀入後存成非BOMutf-8 的格式

作者: andrew43 (討厭有好心推文後刪文者) 2018-03-21 23:40:00

因為BOM是没有「外觀」的，而你看到的亂碼能方便顯示這類没有外觀但又存在的字符要用R去除BOM也不難，google R read utf-8 BOM資料很多參考看看 https://goo.gl/Q3Sc9g 但我相信read_csv()未來更新後會處理

作者: Wush978 (拒看低質媒體) 2018-03-22 09:57:00

可以先用 readBin 讀進來之後丟掉前三個 bytes, 然後用connection 丟給 read.table 處理

繼續閱讀

[問題] increasing 'x' and 'y' values expectedAndrewShi Re: [問題] 迴圈轉向量或apply,關於股票macd技術指標clansoda [問題] Parse JSON (httr)tus [問題] 迴圈轉向量或apply,關於股票macd技術指標a3236852 [心得] 免費R入門課程，有人會想要嗎？paranoia5201 [問題] shiny中的checkboxgroup的選擇a3236852 Re: [問題] NLP英文文章處理Darlsa [問題] shiny跑出來的速度很慢a3236852 Re: [問題] 分割data.frame裡的文字(像excel資料剖析)clansoda [問題] 分割data.frame裡的文字(像excel資料剖析)a3236852