Re: [問題] 棄蝦米 從倉頡 值不值得?

作者: bibo9901 (function(){})()   2017-09-17 09:19:57
※ 引述《ANGELB (神仙B)》之銘言:
: 十五年前學了蝦米
: 那時聲勢如虹 打字比賽接連冠軍
: 在網路資訊較不如現今易於搜尋的時期
: 一度以為蝦米是王道
: 學成之後 細細回想其實這輸入法也還好而己
: 不知十幾年前嘸蝦米贏過倉頡這股潮流根據的事實從何而來
: 後來看了這一系列的比較文 有條有理
: https://goo.gl/5U4zp
這篇文章對於重碼字的分析很不嚴謹,
首先,只給出「重碼表」而沒有附上編碼表的來源,不知如何檢驗起
其次,論證看似有條理,但實際上有大漏洞,
1. 只考慮 Big5 字,也沒考慮字的出現機率。
自然語言有「齊夫定律」的現象,高頻字出現的機率會是低頻字的數百甚至數萬
倍,高頻字(如「精」、「睛」)重碼就很令人困擾,低頻字(如「筶」、「簹」
、「艡」)重碼就沒什麼關係。
2. 重碼率高,選字率就高,這是事實,但不代表打得慢!
嘸蝦米多數 2~3 碼,即使要加上 VRSF 或 1234 選字,也不過是 3~4 碼,比起倉
頡動不動就 4~5 碼的,誰快誰慢很難說。
不能像原來裡用一句「這項統計資料沒有原始來源可供驗證」來代過,更不能直
接推論選字率高等於需要的碼數較多
第五代倉頡和嘸蝦米的編碼表,在網路上都可以搜到,我統計出兩種輸入法的
總字數 重碼字數 允許多種拆法的字數 平均碼長
倉 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76
嘸 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64
可以發現
1. 重碼字數被嚴重低估了。尤其是嘸蝦米的重碼字數更是直破天際。但其中大
多數是因為標點、符號等,例如「,J」就有 18 個候選字
2. 倉頡四碼起跳是基本,而嘸蝦米很少超過四碼。符合上面第二點的質疑,嘸
蝦米即使要選字也不會比較慢
3. 倉頡幾乎沒有容錯空間,一個字就一種拆法,罕見字或異體字不會寫就沒救了
為了測試真實打字的情形,我從 Clueweb09 https://lemurproject.org/clueweb09/
取樣了共2000萬字當作語料庫。這是 2009 年爬下來的中文網頁,應該很符合現代人
輸入的需要。我統計出一份字頻表
https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json
另外,考慮實際輸入,重碼字也直接增加 1 碼,如「囧」原來拆 OBN 三碼,因為選字
變成 OBN2、OBNR 直接視為四碼,假設一律用最短碼輸入,計算碼長以字頻加權:
最常使用的 13806 字 (語料庫共 209491942 字)的情形
總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長
倉 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519
嘸 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328
嘸* 3.507 +- 0.65 2.651
嘸** 3.579 +- 0.63 2.841
*: 假設只有 50% 的字用了最短碼
**: 假設只有 30% 的字用了最短碼
結論也很明顯:
1. 如同網頁所說,嘸蝦米用了一堆簡碼來解決重碼問題,效果實在不怎麼樣,
就算背了全部的簡根(100%),比起幾乎不背(30%) 大概兩個字只省 1 碼
2. 嘸蝦米的一碼二碼字的安排比傳統倉頡好太多了,倉頡只能省掉 0.5 碼,嘸
蝦米可以省掉 1 碼左右
3. 總地來說,嘸蝦米還是比倉頡快上 25% ~ 52% [註]
同場加映大新倉頡
總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長
大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042
大新* 3.553 +- 0.71 2.431
大新** 3.601 +- 0.70 2.614
毫無疑問地樂勝嘸蝦米,尤其平均 2 碼真是太銷魂了 :)
由此可見重碼、容錯都不是問題,只要常用字夠短,速度就會快。
TL;DR
大新倉頡 > 嘸蝦米 >> 傳統倉頡
原始碼都在 https://github.com/iamalbert/ime-analysis
[註] 打字速度(理論上)就是加權碼長的反比。我相信這樣算是很準的,
嘸蝦米加權碼長/大新加權碼長 = 2.138/2.042 = 114.39%
大新最快記錄/嘸蝦米最快記錄 = 238每分 / 209每分 = 113.88%
: 其實都被他說完了
: 說實在的 輸入法不夠理想是其次
: 重要的是使用不方便
: 現在公領域中 很常會用到電腦
: 購物啦
: 誠品書店查書的iPad啦
: 等等
: 根本沒有蝦米可打
: 不開放是一回事
: 不管什麼系統
: 行易的動作總是慢吞吞
: 支援度很差
: 反之
: 倉頡無處不在
: 連PS4遊戲機的OS繁中底下的輸入法
: 竟然只有兩種
: 一為注音
: 一為倉頡
: 倉頡的方便性
: 可能是拆字輸入法的第一名吧
: 不知道棄蝦米從倉頡
: 砍掉重練 投資報酬率值不值得?
這其實真的還好,就忍受那一兩分鐘而已,平常打game時的速度比較重要
作者: weiih (weiih)   2017-09-17 10:57:00
認真給推
作者: deltazone (洋蔥)   2017-09-17 14:59:00
推!
作者: magicbe (魔幻小鱉)   2017-09-17 20:21:00
神の分析,與2183一樣,非常棒的參考資料
作者: goldie (阿良)   2017-09-18 00:31:00
推!
作者: Tsai07 (蔡小豪)   2017-09-18 19:14:00
弱弱問一下什麼是重碼率?
作者: goldie (阿良)   2017-09-18 22:46:00
重碼率… 多字同一拆碼的字數總和… 比上全部字數…的比例。
作者: vaper (風雨飄搖的世代)   2017-09-29 18:49:00
字碼多,重碼率就低,反之亦然。嘸的優勢就限制在四碼雖然重碼率較高,但再輔以二碼常用字,整體消長下是較優的光譜兩端沒有孰是孰非,只是平衡與效率的問題簡單說,如果你用注音就能快嘴嗆爆對方,何必用其他輸入法
作者: ming12345   2017-10-09 14:55:00
嘸蝦米加選字,和倉頡四五碼的按鍵數相比,未必會輸,但選字簡碼要另記,倉頡則完全依照規則,各有利弊原文是:[嘸蝦米 6000 字有 311 個選字,2000 字有 33個選字,1000 字有 8 個選字。這項統計資料沒有原始來源可供驗證。]所以是嘸蝦米低重碼的資料沒有原始來源,不是倉頡低重碼的資料沒有原始來源,你拿這句話來批,是不是斷章取義了
作者: oktryit (Dino)   2017-10-26 05:31:00
我個人也是覺得日常用字應該是嘸 >>> 倉,效率樂勝之前也有接觸一下大新倉頡,也蠻快的就是惹,但先學先贏這是不爭的事實,反正嘸蝦米打夠快惹,就懶得換大新。附註一下,我大概用了 70% 以上的簡根,二碼字,有一些會反手的就不用二碼字,例如,跟 =qz,汽 = wz,債 = dz貴 = qa 也蠻少用的,我反而會打 cemb,主要是小指按的字一來會轉換成其他方式,一來就是小指沒什麼力氣結論是,我認為要打的過,按鍵的順序性也有差,不然就不會有人轉換 Dvorak 鍵盤來打字,嘸蝦米似乎沒考慮到這好在,q 或 z 的字根不多,但是 a 的字根就很多就是了。

Links booklink

Contact Us: admin [ a t ] ucptt.com