论文关键词语文词典收词质的标准量的依据 论文摘要文章从词与短语、新词与旧词、语文词与百科词、语言义与言语义四个方面讨论汉语语文词典的收词问题,认为语文词典收词应该把质的标准和量的依据结合起来,既要做到收词标准明确,执行标准严格,标准具有可操作性,又要兼顾词条的总量控制以及量的平衡和量的统计、力避收词增义的主观随意性。 2005年3月至6月,笔者有机会参加了《现代汉语规范词典》(李行健主编,外语教学与研究出版社、语文出版社,2004。以下简称《规范》)的审订修改工作,负责T、W两个字母的全部词条。在审阅过程中产生了一些想法。在查阅《现代汉语词典》(商务印书馆,2005。以下简称《现汉》)的过程中,也有一些感触。下面即以这两部词典为据,讨论语文词典收词的若干问题。 一、词与短语 词典,顾名思义,应当只收词和功能与词相当的固定短语。但由于受语文辞书收词立目传统习惯的影响,目前汉语语文辞书往往字、词典功能不明,词典往往兼具字典的功能。笔者曾主张区分两者功能,让它们各司其职。挨眦儿lt;口gt;受批评;受训斥。(《规范》) 挨斗遭受批判斗争。(《规范》) 挨蒙遭受欺骗。(《规范》) 挨批遭受批评或批判。(《规范》) 挨批受到批评或批判。(《现汉》) 挨日子艰难痛苦地度时日。(《规范》) 按时间无所事事,苦等时间过去。(《规范》) 挨整遭受打击迫害。(《规范》) 挨整受到打击迫害。(《现汉》)挨揍挨打。(《规范》) 挨(),两词典都收录遭受;忍受、困难地度过(岁月)、拖延三个义项。《规范》对语素和词都标注词性,《现汉》只有词才标注词性,因此,《现汉》标注词性的单位可以认为是词。根据《现汉》的词性标注和举例,挨()的三个义项都可以独立成词,呲儿(申斥;斥责)、斗(斗争)、蒙(欺骗)、批(批判;批评)、日子、时间、整(使吃苦头)、揍(打)都可以独立成词,两部词典都有解释。也就是说,整体意义等于成分意义的加合,而且每个成分都可以独立成词。因此没有理由作为词收录。如果这样收词的话,挨鞭子、挨棍子、挨冻、挨饿、挨骂、挨训都可以收,那么词典就会变得臃肿不堪。 即使注有转义的几条也有商榷的余地。比如挨打,《规范》的解释是遭受殴打;比喻遭受批评或处罚。《现汉》未收。这个比喻义到底是否凝固成了词义?再如挨宰,两部词典都收了宰的比喻义比喻向买东西或接受服务的人索取高价,都注了动词,那么挨宰就可以通过成分义相加得出。因此,挨宰是不是词也要打个问号。 还有,《规范》收了鹅蛋、鸭蛋(认为有转义,如今天考数学,吃了个鸭蛋),不收鸡蛋、鸟蛋、龟蛋;收了岸边,不收河边、水边、地边、路边;收了猜着、猜中,不收猜对、猜透。《现汉》均不收。 二、新词与旧词 毫无疑问,词典应该及时增补反映社会变化的新词和新义。例如,《现汉》收录了欧元,《规范》收录了欧共体、欧盟、欧元,笔者认为有增补的必要。再如,在垃圾条下,《现汉》增补了比喻失去价值的或有不良作用的事物的义项,举了垃圾邮件、清除社会垃圾的例子。《规范》也增补了类似的比喻义。这种增补就很有必要。但增补的词条却有商榷的余地。《规范》收了垃圾电站、垃圾股、垃圾邮件、垃圾债券4条,《现汉》只收垃圾股、垃圾邮件2条。《现汉》和《规范》都收了水电站,即利崩水力发电的设施,与此相类,垃圾电站是利用垃圾发电的设施,而不是废弃无用的电站的意思,照顾到系统性,可收。但垃圾股、垃圾邮件、垃圾债券中的垃圾用的都是比喻义,像垃圾一样的东西的意思,两部词典都有解释,而不是整个词语有比喻义,我们认为没有必要增补。我们用百度搜索引擎搜索浏览了一下网页,就发现有垃圾短信、垃圾网页、垃圾文件、垃圾食品等许多说法,为什么这些词语不收?新词和新义随时都会出现,哪些该收,哪些不收,应该有个标准。笔者认为,对拟收新词,一要看是不是符合上面讲的收词标准,二要考虑使用度(通用面使用频率),应以语料统计数据作支撑。不能看新就收,以避免滥收。 跟新词相对的是旧词。旧词是产生时间较长的词。根据在现代语文生活中的使用频率,大致可以分为三类:一是仍在频繁使用的词,如人、我、看、大、很等这些基本词,可称为传承词。二是只在一些语体或特殊场合里使用的词,又分为文言词和历史词。文言词如兹、此、故(因此)、其、之等,形成庄重、典雅的风格;历史词如朕、太监、妃子等,在描述历史事件时要用到。三是现代已经不再使用的词,如印(我)、汝(你),可称为古语词。 对前两类,现代汉语词典收录一些常用的是必要的。对第三类,我们认为没有必要收录。因为我们编纂的是现代汉语词典,应立足于现代汉语这个共时平面。但《规范》《现汉》都不约而同地收了印等古语词。究其原因,可能有两个方面:一是编者可能觉得工具书应满足查考的需要,为方便读者,酌收一些古语词。二是由长期以来字典、词典不分的传统造成的。如果不收这些古语词,有些字在词典里就没有了,如印便是。词典编纂者内心里还是觉得多收些字为好。笔者认为,这两点考虑都是没有必要的。不同词典的功能不同,要查这些字(或词),找古汉语字典(或词典)便是。一旦收了这些词,就会引发其他问题,比如哪些该收,哪些不收,用何标准。比如收了印(我),同属于上古第一人称代词的我、吾、余、予、朕、台都得收录并给予解释,但《现汉》和《规范》对台的第一人称代词用法都没有解释。如果都一一交代,则又侵吞了古汉语词典的领地。这在理论上和实践上都是不可取的。另外,在《现汉》中出现而今安在这样的例句,就像在现代社会里突然见到一个古人一样别扭。 因此,编纂现代汉语词典,还需要站稳现代脚跟,在现代口语和书面语里都不用的词不应该收录。 三、语文词与百科词 语文词典收词自然以一般的语文词语为主。人类知识是个庞杂的系统,语文词语与百科词语(含专科词语)并没有截然的分界线。基于词典的工具性,语文词典适量地收录百科词语是必要的,但应有所控制。如何把握这个度,是个需要认真探讨的问题。目前的语文辞书对百科词语并没有明确的收录标准。我们比较了一下《现汉》和《规范》字母A下的条目,《现汉》共列字头、词目526条,《规范》共565条。 两词典均收的百科词语是: 阿昌族、阿斗、阿Q、阿拉伯人、阿拉伯数字、阿片、锕、埃(长度单位)、锿、癌、艾滋病、砹、爱克斯射线、爱神、瑷珲(爱辉)、安(安培的简称)、安瓿、安乐死、安理会、安培、安息日、安慰赛、桉、氨、氨基、氨基酸、氨气、氨水、铵、按揭、胺、暗场、暗射地图、暗物质、暗转、盎司、凹版、凹面镜、凹透镜、奥林匹克运动会、奥运村、奥运会、澳抗。(计43条) 《现汉》收而《规范》不收的百科词语是: 阿尔茨海默病、阿尔法粒子、阿尔法射线、阿伏伽德罗常量、阿是穴、埃博拉出血热、艾叶豹、艾鼬、爱斯基摩人、馒尼、安全玻璃、盎格鲁撒克逊人、澳门币。(计13条) 《规范》收而《现汉》不收的百科词语是: 阿凡提、阿米巴、阿摩尼亚、阿司匹林、阿托品、埃博拉、爱鸟周、安哥拉兔、安全填埋、桉油、鞍鼻、奥林匹克精神、奥赛、奥申委、奥斯卡金像奖、奥委会、奥校、澳币、澳洲。(计19条)通过抽样调查,可以得到这样的认识:不同词典对百科词语的收录差别很大,没有明确的标准。表现在: (1)收词差别率较高; (2)同一词语词形却不同,如《现汉》是埃博拉出血热,《规范》是埃博拉,《现汉》是澳门币,《规范》是澳币; (3)收词带有一定的随意性,比如《现汉》收了不太常见的阿尔茨海默病,却不收常用西药阿司匹林,《规范》收了阿拉伯人,却不收爱斯基摩人、盎格鲁撒克逊人,如此等等。 四、语言义与言语义 再如,《规范》对替班、替补、替工三词的释义分别是: 替班团代替别人上班:他今天请假,我来。名替班的人:他是。 替补动替换填补:由你三号队员。固替换别人填补空缺的人:充当。 替工动代替别人做工:姐姐有病,妹妹去。名代替别人做工的人:他是临时去当的。 《现汉》三词皆收,但只有替工注了名词用法。先看实际语言用例(2007年9月8日笔者用google搜索,只取前两个阿页的部分内容), (1)今天开始就要连上七天了,因为同事要年休,而我就要替班。 (2)明天下班时,你提前在店里替一会儿班,效果就出来了。老婆强压,局长只好魁强为之。第二天下班,吴局长果然站在小店里打起了替班。 (3)本人22岁,开挖掘机两年半多,开过大中小多种机型,专门帮人替班 (4)这个中心还提供替班司机调度服务。 (1 2)掘金替补赴意大利淘金,前六号新秀竟难在联盟立足 (1 3)而董方卓则在三轮联赛后,在曼联队锋线伤兵众多的情况下历史上第一次进入替补席。 (1 4)然而即便是这样,近四场比赛只获得了两次替补上场机会,岑登心中总有些觉得不爽。 (1 5)当替补时显然比他今天首发要表现得好一点。 (1 6)成品汽油的替补品复合元铅汽油横空入世。 (1 7)勇士队急缺替补 (30)小S待产,《康熙》再找替工,蔡康永首选张小燕。 (3 1)仲裁委认为,无论崔某属于何种性质的员工,只要有为A公司工作的事实存在,A公司就应依法与其签订劳动合同,并为其缴纳各种社会保险,临时替工并不能成为公司免除此项义务的理由。 (3 2)明天要去当一天的替工,朋友外出进货,临时拉我去充当打工老板。 根据对用例的初步调查,替班还未发展出指人的意义,即使有,也是临时性用法,不能作为词典收录的依据;替补的情况复杂一些,例 (1 2)、 (1 5)、 (1 7)都可以理解成指人的名词,只有根据更大范围的语料统计才能确定,但至少可以认为替补的名词用法正在发展之中;替工的名词用法已很确定。 根据上面分析,《现汉》只为替工注名词义是稳妥的,《规范》为替班注名词义,失之轻率。对于替补这样正在发展中的语言现象,不同词典可以有不同的处理。我们认为,先观察一段时间,不必急于确定,待稳定下来再作处理。当然,如果编纂的是新词词典或描写型词典,可以积极一些,而规范型词典收词和收义必须慎重。 总之,语文词典收词应该有个度,既要有质的标准,也要有量的依据。质的标准指收词标准要明确,哪些词或词义该收,哪些词或词义不该收,应该有个可操作的标准。量的依据既包括词条的总量控制,不能无限膨胀;也包括量的平衡,比如语文词与百科词保持多大比例比较合适;还包括量的统计,对词语使用进行较大规模的语料统计,力避收词增义的主观随意性。