[問題] 挑出千分位錯誤的數字

作者: liquidbox (樹枝擺擺)   2020-03-13 19:32:41
使用語言:Python 3
使用環境:Windows 10
我想製作一個小工具,檢查公司所需的文章,其格式是否存在一致性
其中一個格式是,阿拉伯數字必須要加千分位,
例如:123,000元(正確)、123000元(錯誤)
我知道在這條件下,正確的數字格式應該是:r'\d{1,3}(,\d{3})*(\.\d)?'
可是我現在想要做的是反過來,
就是檢查時,遇到不符合的數字就要標記起來,再以人眼確認
以免誤修到原本就不是用來表示數值的阿拉伯數字,如西元年份
我想到的條件很簡單,
就是只要連續四個以上的阿拉伯數字但中間沒逗號就是有嫌疑,所以寫r'\d{4,}'
我想請教的是,有沒有辦法用一條表達式,
在不根據數字後面的文字是年份或貨幣判斷下,
把至少1900~2099年間的西元年份給排除掉
因為每篇文章要檢查的條件可能高達千種以上,每種都要用一條表達式檢查
數字的千分位格式只是其中一個規定,
所以我希望,不到最後一刻別用if條件判斷式去排除西元年份,以免可讀性變差
才想說看能否整合成一個表達式
作者: CMJ0121 (請多指教!!)   2020-03-13 20:12:00
先撈出來 再轉成 int 判斷可能比較快
作者: art1 (人,原來不是人)   2020-03-17 09:01:00
(?!(19[0-9][0-9]|20[0-9][0-9]))\d{4,}測試資料有 1989、2010、1,358、4052用這條規則可以篩選出最後的 4052(?!\d{1,3}(,\d{3})(,\d{3})?(\.\d)?)(?!((?=19|20)[0-9][0-9]))\d{4,} 加上前面那段就能得到4052前一條規則是用來排除有千分位的數字,後一條排除西元年份3(?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對(?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對(?!(?:(?:19[0-9]|20[0-2])[0-9])) 這樣排除西元感覺更好
作者: liquidbox (樹枝擺擺)   2020-03-19 19:39:00
謝謝我晚點來試看看,原來還有(?!)(?:)層層套疊的用法
作者: adrianshum (Alien)   2020-03-26 11:20:00
negative look ahead 能做到嗎?你的「連續4數字沒逗號」會miss掉逗號錯位的case 吧...
作者: asglay (收收收尾)   2020-04-18 06:10:00
\d{5,}|(?:0[0-9]|1[0-8]|2[1-9])\d{2}

Links booklink

Contact Us: admin [ a t ] ucptt.com