小弟想要把網路上截取的留言做資料清洗
只留下中文字
在網路上看到以下編碼
#!/usr/bin/env python
# -*- encoding: utf8 -*-
import re
sample = u'I am from 美国。We should be friends. 朋友。'
for n in re.findall(ur'[\u4e00-\u9fff]+',sample):
print n
1.想請問這unicode是只有簡體字的範圍嗎
還是可以改成大五碼嗎
2.有其他推薦方法可以只留下中文字
去處全形標點符號跟表情符號嗎
感謝!