【艺术部落】

 找回密码
 注册

QQ登录

只需一步,快速开始

楼主: 艺术部落
打印 上一主题 下一主题

【汉字艺术思维3D图示|闻正】

[复制链接]
61
 楼主| 发表于 2004-12-4 13:43:47 | 只看该作者

【汉字艺术思维3D图示|闻正】

汉字输入技术与应用研讨会论文集
论汉字编码的理论模式 
李格  石兰
  
【摘  要】本文定义和描述了汉字编码理论模式,并对三种规范编码模式的优缺点进行了分析。本文还对汉字编码的评测提出了新思路,并探讨了汉字编码的发展方向。  
一、汉字编码的理论模式
  
我们从一个实例中,概括或抽象出汉字编码的理论模式。

汉字编码的4种理论模式是存在的,从现有编码来看,拼音码、区位码是0级模式的产品。笔画码如五笔画,是属于Ⅲ级模式的产品。现有的绝大多数形码属Ⅱ级模式,如五笔字型等等。“万码奔腾”就出现在该级模式上,然而Ⅱ级模式是不规范的(它不符合《汉字部件规范》[1])。而Ⅰ级模式的唯一产品是笔者发明的逻辑拼形码,它由中国中文信息学会主持鉴定“在形码整体方案方面处于当前国际领先水平。”[2]需要指出,许多编码方案是介于Ⅱ级与Ⅲ级模式之间的作品,如两笔字型,以及众多的数码汉字输入方案。
需要强调指出,笔者就是在上述理论模式的指导下成功地发明了逻辑拼形码、逻辑二笔码[3]等实用方案。
  
二、汉字编码模式的定义与描述
  
0级模式的定义:
对汉字整字编码,无需对汉字进行任何拆分的方案。如拼音输入法,区位码输入法都是0级模式的方案。
Ⅰ级模式的定义:
是通过“部首不可拆分、交重结构不可拆分、独体不可拆分”的三条文字学原则有效地控制拆分下限,从而确定部件与部件拆分问题。Ⅰ级模式的部件是:部首、交重结构、独体。
部首是指201部首。
独体以《现代汉语模范字典》[4]定义为准。
Ⅰ级模式是文字学与汉字编码相统一的模式。汉字的音形义主要集中在这一模式的部件上。
部首不可拆分,从《说文解字》开始,在古今中外的汉语辞书中都找不到对部首拆分的任何理据。部首在文字学上的意义主要是充当汉字的“义”符。例如:“爷、爹、爸”中的“父”是义符,而“斧、釜”的“父”是声符,“父”是部首,因此不可拆分,从此例中可看出文字学与编码对汉字的拆分保持了一致。
独体在汉字中主要充当声符、义符。独体不可拆分在文字学中是没有争议的。
交重结构,大多数文字学家将之视为新的独体,同时,交重结构从编码学上看,如果要拆分,就会有二义性。例如:“曲”→“冂、曰‖、口艹、井凵”。另外,交重不可拆分也是《汉字部件规范》的一个原则。
Ⅰ级模式是一个比《汉字部件规范》要求更高的新一代部件输入模式。《汉字部件规范》中规定的不可拆分的基础部件共计560个,而Ⅰ级模式的部件数量却超过了600个。
Ⅱ级模式是指不规范的部件输入模式,不符合《汉字部件规范》的要求。
Ⅲ级模式的定义:
将汉字按笔顺规范[5]拆分至笔画输入的方案。规范的笔画有28种[3]。
  
三、汉字编码模式的综述:
  
我们把0级模式称为整字输入模式,把Ⅰ级模式称为部件输入模式,把Ⅲ级模式称为笔画输入模式。
(1)整字输入模式:
汉字输入要解决三个方面的问题,即单字输入、词组输入、整句输入。任何一个方案都要设法处理字、词、句问题。(键盘输入、手写输入、语音输入都要设法解决这三个问题,否则就是一个不完备的系统)。整字输入模式,以拼音码为代表,困难在于单字输入:一是不认识的字与读不准的字无法输入;二是编码空间太小,只有416个编码空间,重码过多,在处理大字符集如GB18030时,每输入一字,平均就有66(27484/416)个重码;三是编码过长效率不高。而拼音输入的优势在于整字输入而无任何拆分,因而较好地解决了词输入,尤其是句输入。例如:智能狂拼。但是处理单字不方便的系统,还不能认为是一个理想系统。
(2)部件输入模式:
“汉字的音形义永远是第一位的”[6],由于规范的部件输入法对汉字进行了符合文字学原则的拆分,能有助于更好地理解汉字的音、形、义,因而能与识字教育相互相成。
部件码是单字输入的主导产品,它的优势在于处理单字和词组,它的困难在于句子的处理。另一个困难在于部件的分类与键位的映射。
逻辑拼形码是一个优秀的部件码,它很好地解决了部件的分类与键位映射的问题。
(3)笔画输入模式:
笔画输入近年来受到了特别的重视,主要是手机迅速普及所致。
笔画输入的优势在于简单,无需学习和记忆。
笔画输入的困难在于单字输入重码多、词组输入效率低、句子输入则困难。
笔画模式中多采用“札”字法,即把笔画分为横、竖、撇、捺、折。但就中文信息处理而言并不实用,因为空间太小,重码过多。笔者发明了逻辑二笔码[2]很好地克服了这个问题,将28种笔画分为8类基本笔画——横、竖、撇、点、捺、横折、竖折、撇折。这样将编码空间适当扩大,重码方面取得了明显的效果。也使手机上的8键输入更为有效,且与电脑键盘输入完全一致。
近年来也出现了很多将几个常用部件与笔画混合的方案,虽然这些方案有实用性,尤其是重码处理方面所改进(无根本性改进),但却增加了拆字困难,增加了学习与记忆的负担,同时也步入了不规范的歧途。
  
四、汉字编码方案的评测
  
汉字编码方案的评测已有多种方案,也有相关国标。本文关于汉字编码评测的两点建议是:
(1)按不同编码模式分别评测。
汉字输入要统一到一种方式上来是不现实的。本文提出的观点是,按三种规范的编码模式分别评测,即整字编码模式方案的评测、部件编码模式方案的评测、笔画编码模式方案的评测。通过评测得到不同模式下的统一方案。
(2)评测的重点是方案的字、词、句处理能力。
三种规范编码模式均按处理字、词、句的能力进行评测,评测重点应该是编码方案本身,而不是软件的智能化程度(通用的汉字输入软件智能化平台可专门评测)。
  
  
  
五、汉字编码音形结合的发展方向
  
根据以上分析,三种规范的编码模式都有各自的优缺点。汉字编码正沿着不同模式之间相结合的方向发展,在形式上则表现为音形结合方式,包括音和部件的结合(0级模式与Ⅰ级模式的结合),音和笔画的结合(0级模式与Ⅲ级模式的结合)等。这些方案往往在处理单字时以Ⅰ级或Ⅲ级模式为主,例如“李”的编码为“L木子”或“L一一”[3],处理词时以0级模式为主,例如“计算机”的编码为“JSJ木”或“JSJ”,这样避免了字形的拆分,实现了整字输入。音形结合的方式已成为汉字编码发展的主流。
  
  
参考资料
[1]  GF3001-1997.信息处理用GB13000.1字符集汉字部件规范.1997-12-01发布,1998-05-01
  实施.
[2]  周文斌.“逻辑拼形码”通过鉴定.北京:光明日报,2001.5.1.
[3]  石兰,李格.论逻辑二笔码的重要进展与突破.
[4]  许嘉璐等.现代汉语模范字典.北京:中国社会科学出版社,2000.
[5]  GF3002-1999. GB13000.1字符集汉字笔顺规范.1999-10-01发布,2000-01-01实施.
[6]  佟乐泉,张一清.小学识字教学研究.广州:广东教育出版社,1999.
71
发表于 2004-12-4 14:09:47 | 只看该作者

【汉字艺术思维3D图示|闻正】

下面引用由黑客2004/12/04 01:22pm 发表的内容:
如何用图示表述汉字艺术的美与丑?
艺术当不分美与丑,倘若你真要倔强的话...你不妨看看左上角的小图示,
阐释如下:“正”即为“美”,“负”即为“丑”,呵呵,略作牵强言。
81
发表于 2004-12-6 11:19:39 | 只看该作者

【汉字艺术思维3D图示|闻正】

汉字?载体?我认为基本元素不重要,重要的是视觉形式。
91
发表于 2004-12-10 12:27:22 | 只看该作者

【汉字艺术思维3D图示|闻正】

侃爷过眼,严厉批评。
101
发表于 2004-12-15 11:47:46 | 只看该作者

【汉字艺术思维3D图示|闻正】

这么看汉字艺术,比书法视野开阔多了/
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|联系我们|【艺术部落】 ( 京公网安备1101140085号  

GMT+8, 2024-4-19 15:16 , Processed in 0.121662 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表