突变体库构建_构建综合交通运输体糸_形成近义词

本案例使用了“汉语助研”的“建库、检索、搭配”功能模块,成果可用于汉语课堂教学、教师备课、教材编写以及外向型汉语词典编纂等方面。

突变体库构建_形成近义词_构建综合交通运输体糸

一、概说

基于大规模真实语料构建近义词搭配库是促进汉语教学科学发展的重要资源之一。系统性和科学性的搭配资源库可以应用于词典编纂、教材编写、主题教学,推动汉语的研究发展和应用实践。

本案例的研究对象是《HSK标准教程》(2013版)中的近义词典型搭配,研究目标是构建一个可供汉语学习者自查自用、备考HSK的典型搭配词表。此外,该搭配词表还可用于汉语课堂教学、教师备课、教材编写以及外向型汉语词典编纂等。

突变体库构建_形成近义词_构建综合交通运输体糸

二、研究方法与步骤

构建综合交通运输体糸_形成近义词_突变体库构建

突变体库构建_形成近义词_构建综合交通运输体糸

三、设计与编写

近义词搭配资源库强调以学习者为中心,帮助学习者理解和掌握近义词辨析的重难点,突破词汇学习和语言表达的难关,服务于为学习者的考试和交际。在收词范围、编写体例、搭配选择、例句使用等方面均遵循针对性、实用性、可懂性原则。

(1)在编写体例方面,现有的普通词表或词典多从单个字入手采用由字到词、由词到短语、由短语到例句的编写方式。搭配词表主要任务是帮助使用者了解和掌握汉语常用搭配,应该紧紧围绕词的搭配情况来编排体例:词表的搭配词按照词性进行归类,充分发挥类联接作用,只在学习型词表中展示常见高频的经典搭配词。

(2)在搭配选择方面,应力求做到收录时突出第二语言教学的优先级和重难点。本案例从 HSK 教材语料库中抽取部分同时满足 Z 值、MI 值的搭配汇集成常用搭配,词表的搭配体例主要从该表中筛选得出。同时,在收录搭配过程中,参考《国际中文教育中文水平等级标准》保证节点词和搭配词都不会超纲。

近义词的辨析及应用是汉语学习者一大难关,是词语偏误的主要来源。许多学习者对词语搭配的掌握仅仅是理解其字面含义,并不能正确地使用它们,搭配使用不当的现象大量存在。学习搭配不仅要掌握每个词的含义,而且要了解使用搭配的语言环境。因此,为了方便学习者应用,搭配词典为不同类型搭配提供真实的例句显得尤为重要。本案例选择 HSK 教材语料库中的原文作为例句的来源,具有强针对性和实用性。

(1)索引方式

音序法、笔画法作为汉语词表最常见的索引方法,外国学生使用起来比较简单。本案例由于对象两个词为一辨析组,因此主要采用以在《HSK标准教程》中出现位序为标准的索引方式。

突变体库构建_构建综合交通运输体糸_形成近义词

(2)搭配体例

本词表的搭配体例排版方式参考林杏光设计的实词搭配框架与《HSK考试大纲词汇学习手册》,综合考虑到篇幅、排版效果等因素,最终形成表1中的搭配词表。本案例中展示的词条由词语、搭配、类联接、例句构成,具体说明如下:

第一,词语包含词语、词性、近义词辨析时出现的位序和词语HSK等级,近义词辨析出现在HSK四级及以上教材中,故不提供拼音及英文释义。词性以《大纲》为基准,用汉字标写,如“名、动、形”,不分二级词性,如“能愿动词”等,以《现代汉语词典》(第7版)为依据进行标注。

第二,每个词语根据不同搭配特征提供左搭配、右搭配、左右搭配。搭配词是根据搭配过滤后结果综合考虑共现次数、Z值和互信息后选定。每个词条一般提供2~4个短语搭配,一般一种类型的搭配提供一个短语,如果搭配类型不足,则一种类型的搭配提供2~3个短语。如果搭配过少,则选在搭配或例句中择一展示;如果词语是单音节词,无法找到更多合适的搭配,则将该词作为语素组成双音节词或三音节词,并提供相应例句。搭配中尽量不出现纲外词。

第三,本案例类联接从搭配过滤后的结果中总结归类,人工剔除不合理搭配,由于每个词条的搭配特征不同,部分词条仅显示左搭配或者右搭配,部分词条左右搭配信息均有。

第四,本学习词表提供在HSK教材中出现的全部例句。运用“汉语助研”的“检索”功能对96对近义词进行逐个检索,即可得到节点词在教材语料库中的例句。语料检索结果包括例句原文及来源,具体内容如图所示。

汉语助研-检索功能

人工对检索的例句进行筛选形成近义词,选取过程应注意以下内容:首先,为了展示词语在教材中出现的情况,帮助学习者准备HSK等级考试,本词表展示词条在HSK教材中的所有例句;其次,对于单字词只选取该单字词出现的例句,组合后形成的词语不展示,例如在近义词辨析组“刚”与“刚才”中,不能将两者混用,“刚”词条下仅展示“刚”作为副词时的例句,在人名【小刚】和双字词【刚才】【刚刚】所在的例句均不选用。

构建综合交通运输体糸_形成近义词_突变体库构建

在此需要说明的是,近义词搭配资源库不是一个介绍词语搭配的专业性词表,而是一本帮助HSK学习者学习词语搭配的辅助性学习材料。本案例在搭配词的选取上秉持着实用、典型的原则,不过分追求搭配词的全面性,力求使用者能够快速掌握96对近义词的特点及用法。学习者可以通过类联接自己扩展到同词类的其他词语。另外,本词表收录的搭配基本基于HSK教材语料库,由于教材文本规模较小的特点,难免存在一些词条的搭配不够全面的情况。在后续研究中,可以考虑加入与HSK相关的练习教材,例如《新HSK专项突破》《汉语水平考试模拟试题集》《新HSK全真模拟测试题集》完善HSK教材中的96对近义词典型搭配。

突变体库构建_形成近义词_构建综合交通运输体糸

四、结语

通过自建小型HSK教材语料库,运用“汉语助研”软件的“搭配、检索”功能可以构建一个面向HSK备考人员的学习型近义词词表。与以往的词表相比,本案例中的近义词搭配词表具有以下特点:(1)使用对象明确,主要是为HSK学习者研制,HSK四级及以上考试者均可使用;(2)词语搭配具有可扩展性,该学习词表与以往词表相比,添加了“类联接”项目,可以帮助学生在自学过程中扩展词语;(3)例句全面,例句可以为学习者提供相应的场景及词语在真实交际中的用法,因此近义词词表将HSK教材中所有例句进行全景式展示,提高学生对词语的运用能力。

对运用汉语助研在构建近义词搭配资源的研究过程和结果进行反思,具体内容如下:

(1)语料库规模较小

由于本案例使用的是自建语料库,满足研究需求的语料数量少,因此语料库的规模相对较小。本案例的研究成果只适用于具有HSK考试需求或对近义词辨析存在困难的学习者。从整体上看,本案例一定程度上已经实现了研究目标,但未能全面展示近义词的所有典型用法及例句,语料库规模还需要进一步扩充。后期可以考虑在底层语料中添加HSK考试相关资料,如《新HSK专项突破》《汉语水平考试模拟试题集》《新HSK全真模拟测试题集》完善研究成果。

(2)搭配抽取准确率有待提高

本案例使用“汉语助研”软件对教材语料库进行搭配抽取、搭配过滤和搭配分析。一方面,“汉语助研”软件操作简便快捷,能够实现自动抽取节点词的搭配,按照研究需求进行搭配过滤,同时可以对搭配结果或搭配过滤进行分析。另一方面形成近义词,在使用过程也出现一些不足:例如,抽取结果的准确率有待进一步提升,容易将一些没有搭配关系的词甚至是虚词判定为搭配词。“检索”功能提供的结果内容过于繁多,只要包含了该字的例句全部展示,需要大量人力和时间对检索结果进行筛选。“汉语助研”可以在“请选择检索模式”下增设对词性、词字数的选项功能,这样能够实现更为精确的检索结果,减少人工后期的筛选工作量。

(3)软件底层的词语搭配理论不够完善

目前对于词类的跨距研究并不完善,较为成熟的结论是名词为(-2,+1),动词为(-3,+4),形容词为(-1,+2);但是在兼类词中还有少量m数词、p介词、 q量词、c连词、r代词、u助词尚未有较为准确的跨距,只能采取通用的“其他词性”跨距标准(-2网赚项目,2)。在对节点词的左右搭配数据进行整理时发现在检索结果中出现大量无效信息,需要进行人工检验删除。因此,需要完善词语搭配相关的理论基础,更新软件底层的算法,实现更为精确的搭配抽取。

致谢:

文章节选自暨南大学郭佳佳硕士论文《基于语料库工具的语言应用研究—以“汉语助研”为例》,特此致谢!

突变体库构建_构建综合交通运输体糸_形成近义词

突变体库构建_构建综合交通运输体糸_形成近义词

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注