今日連結 (2006-11-21)
今日連結:
- 等待新漢碼 - 「當今的一字一碼架構也就成了漢文字生機的死胡同!」使「漢字停止演化!」
- 清廉不是民主政治的核心價值 - 「尊重人民的選擇權」才是。
- 如何调试程序的 Release 版本?(转)
- Borland's CodeGear upgrades Java IDE
- 放一隻 GNU Go 到 KGS 上
- 葡萄酒裡的木塞味
- 這位大叔你哪位? - 終於知道這位是誰了。
- Booker.tw - 在頻寬成本不斷下降的現在,不僅掀起了 blog、web 2.0 的革命,未來這類私人經營的服務分享網站,如 findbook.tw、look.urs.tw 等,亦會不斷地冒出頭來。
- 不列百家姓的光輝氏族 - faki 是什麼意思?
- 「這些出色的阿美族棒球選手裏,又有個出名的氏族,來自同一個地方,都是一家人,有著一個不列入百家姓中的姓。」
- 「這個氏族名 Pacidal,pacidal 一語有『曬太陽』之意,而 cidal 是『太陽』,這麼一來大家就不難理解為什麼他們會姓『陽』了。」
- 簡約與繁複 - 從 Win32 SDK 出發



16 Comments
和中文有關的編碼也不過是最近二十年的事情, 可以扯到這麼遠也真是服了他了
而且會搞成這種混亂狀況, 也是華人自己捅的僂子, 關那些洋人什麼事呢?
我倒是覺得他說的有幾分道理,
也不是說關使用非象形字的人什麼事,
而是兩種文字系統相差太大。
感覺那篇文章的作者也許能去跟朱邦復聊聊天,
也許能想出個解決方法。
不過關於中文進化被電腦限制住,這的確是個長久的問題。
不大會寫文章, 只以幾點看法分享:
1. 中文字其實一直在減少中, 舉例來說, 我們小時候用的"裏"和"裡", 請問現在還有人分的出來之間的差別嗎? 舉出康熙字典很好, 但是你知道這裡面有多少字是在電腦誕生之前早就死掉了嗎?
2. 探究這麼大量文字死掉的原因, 竊以為就是因為我們根本就不需要這麼多的字來"過生活", 所以我們創造出詞彙來取代這麼多的字, 在近代, 不夠用的還去跟日本人借
3. 這麼多的字分享這麼少的音符, 造成了溝通的困難, 所以使用詞彙來避免誤會也是比較好的方法
4. 中文並不是往簡潔優雅的方向發展, 從而也降低了新字的需求, 除非作者想要完全抹煞白話文運動的目的與成果, 讓我們一起回到文言的時代
5. 捨棄已有的辭彙來另造新字取代, 這種需要真的存在嗎? 如果不存在的話, 我們為什麼要捨棄現有的編碼去設計一個新的來滿足這種沒有人需要的需要?
6. 所謂中文字的進化到底是什麼? 就我看來是越來越多的少用字被淘汰, 或是更多的詞彙被創造出來, 至於倉頡造字, 我不認為這會發生, 即使電腦不存在也是一樣
7. 一字一碼不好, 那該如何? 一字多碼? 多字一碼? 如果真的要"以筆書寫,自由創造", 我看大概就根本不要用字碼了, 或是你可以自由創造, 但是沒人可以跟你交換
8. 這些現象就我看來是在電腦誕生之前就發生的, 根本不關電腦的事, 不要把所謂"中華文化的沒落"隨便找個東西牽拖會比較好
9. 作者提到排序的問題的確存在, 這點不可否認
10. "我們所能做的,就只是用現有的字碼來組新詞,就是無法造新字", 這不是電腦的限制, 而是我們的選擇
補充一下
為什麼秦始皇要書同文車同軌, 就是為了要交換
就我看來, 交換的方便才會讓文字保持活力
隨隨便便創一堆字讓大家天天學習, 這種文字不死也難
西方文字還可以用聲音來幫助記憶
最好我們的方塊字也可以這樣搞....
基本上我也不覺得造新字是主要的需求,不過 Unicode 其實有 combining sequence,因為世界上有不少書寫系統需要 stacking(藏文、韓文、阿拉伯文),也有不少書寫系統可以把字符和重音符號分開處理(歐語、拉丁化的語言如越南文);說起來,漢字沒道理不能這樣做,只是漢字的部件沒有定論,而且很少有人會寫那些 render 字型的程式。CJK 表意字符被「認同」掉的不少,但寫法只差一點點卻因為不同地區習慣而被保留下來的更多。這也使得 Unicode consortium 變成另一個政治角力的場域。
最近新聞有一個火星文情書,這就是造字的極大化,
不過大家應該都拿來當八卦.
為什麼要有這種標準,一是地名,二是姓名,三是古藉,四是未來之用.
組字的標準,例如用類似 ansi 碼來作交換,
用倉頡組字法的字根,展開
例如有個字
[CJ金金金] 是類 ansi 的sequence.
如果展開就會看到 [CJ金金金]
不展開就會看到 [鑫]
印象中字典有一個超多筆劃的字,四個龍疊在一起
不知唸什麼...
只要定一個政府交換字根ESCAPE SEQUENCE的標準
和組字成bitmap的engine,供閱讀和列印之用就夠了.
就可以解這個問題了.
我比較擔心的是,「寫字」這門藝術可能終將消逝,不管是寫硬筆字,還是寫軟筆字。
前陣子有天在誠品看閒書,有本書在介紹日常生活的禮儀,因為是日文翻譯過來的,所以寫的是日本的生活禮儀。其中有個禮儀就是,在寫書信、請帖、致謝函等等時,禮貌上應該要用毛筆寫。我覺得這樣的禮儀蠻好的,既可以保存「寫字」的藝術,更可顯出書寫者的誠意。
所以,情書還是要用筆寫喔。^o^y
(換句話說,以後教小孩字要寫好,可以用這個理由。-.-a)
就我的觀點, 寫字是否消失和編碼的技術應該關聯性不大
我對stacking沒有認識, 所以想請教一下, 象形字可以用stacking來做編碼嗎?
To Brent,
Unicode combining sequence 至少可以處理上下相疊;加上左右成為二維組合的話,最大的障礙在於沒有公認的部件(字根)。如果有部件,那麼甚至可能可以將書法作品以向量方式保存,也許對寫字有所助益。
謝清俊老師和莊德明先生有一套部件和組字的系統,也能實際應用在罕見的少數民族字符上。其實,不光是象形字有這種需求,韓文字母也可以用二維方式重組,而著名的精靈語也是那樣的系統。相對地說來,藏文或天城體和阿拉伯文算簡單的,而最複雜的就是漢字。
《一字一碼的時代困境 》不是一個好思維, 那不一定是真困境。
《中文在一字一碼的架構中固化了》所舉的例, 等於把用字造新辭的好處全抹煞了, 要模擬成英文或拼音文形式的演化, 那不是一個好語文。英文辭彙已達一百萬, 許多專業新名詞即是新拼法, 完全無法憑已知單詞去瞭解, 每個單詞都要重新學習背頌。舉幾個新字來看吧: 1. 腈:即是現在大家通稱的蛋白質protein, 烴:CnHm即是通稱的碳氫化合物hydrocarbon, 羥基:-OH即通稱氫氧基的hydroxyl group,羰基:即-OC即碳氧基carbonyl group, 巰基:-HS即氫硫基sulfhydryl group, 這些不都是對應英文新名詞的新造字嗎? 其普遍性還不如後來的以二或三字組成的新詞。看: 小羊叫lamb, 公羊叫ram, 母羊叫ewe,羊肉叫mutton, 山羊叫goat, 綿羊叫sheep, 複數又要加個s(sheep複數卻是與單數同,破壞了單複數表示規則), 在單數名詞其後的動詞要加s而在複數名詞其後的動詞用原形不加s...同是「羊」卻在不同類型的羊中變成另一個單詞, 全是要背頌死記。中文字的特性造成一字一碼, 但一字一碼卻並不見得太多害處, 而從另方面看反而是好處。拼音文的cpu(central processing unit中央處理單元), ram(random access memory隨機存取記憶體), NMR(Nuclear magnetic resonance核磁共振)....一大堆科技名詞, 其實正表現出拼音文字的缺點, 新名詞無法有效用既有的字母創新,便走上了中文子造詞的路, 於是新創單越造越長, 最後只好用第一字母湊成縮寫, 但這種縮寫只能是在特定場合中使用, 作為一個代表符號而已, 不能算作字詞。借用另一個常用的縮寫「新詞」ppm, 在這裡http://en.wikipedia.org/wiki/Ppm使可以看到, 有一大堆的ppm, 各代表了不同的意義, 總計有二十個, 事實應該更多。這種縮寫式只能是在某一場合或文章中的一個暫代用符號而已。尤如把「x pages per minute, x parts per million」的「x頁每秒, x份每百萬」寫成「xㄧㄇㄇ, xㄈㄇㄅㄨ」一樣的暫代符號。
關於化學本世紀的新造字,烷基、醛基又該怎麼說?要說「甲火完」、「乙火完」、「甲酉荃」嗎?
「《中文在一字一碼的架構中固化了》所舉的例, 等於把用字造新辭的好處全抹煞了, 要模擬成英文或拼音文形式的演化,」原作者說的是因為文明演化,一個辭使用頻率大為提高,如果本來表意缺乏效率,造字是很需要的,這個功能不應因為電腦技術沒處理好而抹煞掉。
漢字不是5000年前倉頡一口氣通通想出來,是與時俱進逐漸演化,如果造字真這麼邪惡,那大家是否都不要寫千來年代代不斷演進出來的各種合體字了?原文同一句,改成《中文在一字一石馬白勺力口木木冉中囗古亻匕》,這樣好讀嗎?
以前在帝制時代,要當皇家的抄寫員,最低要求是要「識字」一萬以上,我們現在「認字」的能力有多少?有一半就要偷笑了,我個人差不多在一兩千左右。
我認為,文中說的「造字」其實是「組字」,因為這些字是「有形無體」,就算造出來又如何?這並不能掩飾我們識字能力低下、國學程度低落的事實!文字要使用才會存在,我不反對造新字,但不能為了造字而造字。
另外一點,目前電腦程式要作快速處理,一個蘿蔔一個坑是最快的(查表法),次之是用一個數學公式,再次之是一組函數。我可以接受一字兩碼,例如:天干地支紀年。但是,文中說要拋棄一字一碼,那字要如何定序?
tokimeki,
現在的中文字碼定序,也是定假的,不是嗎?那個順序,是電腦學家硬是訂出來的,根本沒有道理,不是嗎?
jeffhung,
就算是定假的,至少有字碼才能排序,不管你是一字一碼還是一字兩碼等等,總會有一個「絕對」大小的字碼(碼 = 數字)。
文中我只看到作者舉了一些不很恰當的例子來說明,如何實現他一字多碼,我實在看不出來。
"因為文明演化,一個辭使用頻率大為提高,如果本來表意缺乏效率,造字是很需要的,這個功能不應因為電腦技術沒處理好而抹煞掉。"
語言不是拿來追求效率, 而是追求溝通的順暢, 造新字剛好是個開倒車的行為
所以我的想法也很簡單: "是因為沒這個需要, 所以電腦也沒這個設計, 而不是因為電腦沒這個設計, 導致大家的需要被犧牲"
FYI.
《如何用中文招財進寶?》
Post a Comment