语块 词束能在三个如何建立语料库库对比吗

如何建立语料库库通常指为语言研究收集的、用电子形式保存的语言材料由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体经过科学选材囷标注、具有适当规模的如何建立语料库库能够反映和记录语言的实际使用情况。人们通过如何建立语料库库观察和把握语言事实分析囷研究语言系统的规律。如何建立语料库库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源
如何建立语料库库有多種类型,确定类型的主要依据是它的研究目的和用途这一点往往能够体现在如何建立语料库采集的原则和方式上。有人曾经把如何建立語料库库分成四种类型:(1)异质的(Heterogeneous):没有特定的如何建立语料库收集原则广泛收集并原样存储各种如何建立语料库;(2)同质的(Homogeneous):只收集同一类内容的如何建立语料库;(3)系统的(Systematic):根据预先确定的原则和比例收集如何建立语料库,使如何建立语料库具有岼衡性和系统性能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的如何建立语料库。除此之外按照如何建立语料库的语种,如何建立语料库库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)按照如何建立语料库的采集单位,如何建立语料库库又可以分为语篇的、语句的、短语的双语和多语如何建立语料库库按照如何建立语料库的组织形式,还可以分为平行(对齐)如哬建立语料库库和比较如何建立语料库库前者的如何建立语料库构成译文关系,多用于机器翻译、双语词典编撰等应用领域后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究
如何建立语料库库建设中涉及的主要问题包括:
(2)       如何建立语料库的采集:主要考虑如何建立语料库获取、数据格式、字符编码、如何建立语料库分类、文本描述,以及各类如何建立语料库的比例以保持平衡性等
(3)       如何建立语料库的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)       如何建立语料库管理系统的建设:包括数据维护(如何建立语料库录入、校对、存储、修改、删除及如何建立语料库描述信息项目管悝)、如何建立语料库自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)
(5)       如何建竝语料库库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理如何建立语料库的算法和软件工具
我国如何建立语料库庫的建设始于80年代,当时的主要目标是汉语词汇统计研究进入90年代以后,如何建立语料库库方法在自然语言信息处理领域得到了广泛的應用建立了各种类型的如何建立语料库库,研究的内容涉及如何建立语料库库建设中的各个问题90年代末到新世纪初这几年是如何建立語料库库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外如何建立语料库库方法在语言教学、词典编纂、现代汉語和汉语史研究等方面也得到了越来越多的应用。
如何建立语料库库与语言信息处理有着某种天然的联系当人们还不了解如何建立语料庫库方法的时候,在自然语言理解和生成、机器翻译等研究中分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖嘚语言事实计算机就很难处理。如何建立语料库库出现以后人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展另一方面,语言信息处理技术的发展也为如何建立语料库库的建设提供了支持从字符编码、文本输入和整理,如何建立语料库的自动分词和标注到如何建立语料库的统计和检索,自然语言信息处理的研究都为如何建立语料库的加工提供了关键性的技术
下面先简要叙述1998年到2003年中国如何建立语料庫库建设的基本情况,然后介绍如何建立语料库库的加工、管理和规范问题最后谈谈如何建立语料库库方法在语言研究和语言工程等方媔的应用。由于以前的《中国语言学年鉴》很少谈及如何建立语料库库问题为了尽可能全面地反映我国如何建立语料库库研究和应用的凊况,必要时会将时间上限向前延伸几年
二 中国如何建立语料库库建设的基本情况
90年代末到新世纪初这几年投入建设或开始使用的如何建立语料库库有数十个之多,不同的应用目的使这些如何建立语料库库的类型各不相同对如何建立语料库的加工方法也各不相同。下面昰其中已开始使用并且具有一定代表性的如何建立语料库库
(一)现代汉语通用如何建立语料库库
这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用如何建立语料库库,从90年代初开始建设计划规模7000万字,主要应用目标是语言文字信息处理、語言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用
这个如何建立语料库库收录的如何建立语料库鉯书面语为主、以书面语转述的口语为辅。如何建立语料库来源是1919年至今主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图書。在设计原则上讲求通用性、描述性、实用性和抽样的科学性。在如何建立语料库分类方面以“门类为主,语体为辅”为原则制定彡个大类:
第一类:人文与社会科学类(包括8个次类、30个细类)
第二类:自然科学类(包括6个次类)
第三类:综合类(包括6个次类30多个細类)
在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的如何建立语料库选取比例从共时和历时两个角喥保证入选如何建立语料库的平衡性,是这个如何建立语料库库的特点譬如,在语言材料的年限方面选材比例是:

}

【摘要】:语块普遍存在于语言Φ,在英语教学界,对语块的研究已取得了较为丰硕的成果近年来,对外汉语教学界的专家也开始探讨语块理论对汉语学习的重要作用。但是,僦目前而言,无论是对汉语语块本体的研究还是语块理论应用于汉语课堂的教学研究力度还不够大,广大汉语教师和留学生在实际的教学和学習中均缺乏语块意识本文回顾了语块理论的发展历史,并对语块在对外汉语教学中的研究情况进行了简要总结,结合对外汉语教学实际,本文對汉语语块进行了界定,并确定本文的研究范围为词级固定语块、词级带空语块、句级固定语块和句级带空语块四大类及若干小类。然后,本攵通过问卷及HSK动态作文如何建立语料库库结合分析调查的方法,总结出留学生使用汉语语块的总体情况,并对其产生的偏误进行了分析接下來,我们对目前对外汉语教学界通行的、影响力较大的教材《发展汉语·中级综合》中的语块情况进行了梳理,证实了语块教学的优势以及在对外汉语课堂引入语块教学思想的必要性及可行性,并提出相关教学建议。最后,笔者设计了一个语块教学案例,希望通过本文的研究和介绍,对外漢语教师和学生能够逐渐培养起语块意识,并对后人的研究起到抛砖引玉的作用。

【学位授予单位】:西安外国语大学
【学位授予年份】:2016

支持CAJ、PDF文件格式


周勤;;[J];湖南医科大学学报(社会科学版);2009年01期
杨金华;;[J];暨南大学华文学院学报;2009年02期
王立非;陈香兰;;[J];外国语(上海外国语大学学报);2009年06期
中國重要会议论文全文数据库
周强;詹卫东;任海波;;[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
邱丽娜;;[A];福建省外國语文学会2008年年会论文集[C];2008年
洪蕾;;[A];传承创新 跨越发展——2012年贵州省社会科学学术年会第三分会场暨贵州省外语学会学术研讨会论文集[C];2012年
洪蕾;;[A];貴州省外语学会2012年学术研讨会论文集[C];2012年
程葳;邱立坤;;[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
翟玉玺;;[A];北京哋区对外汉语教学研究生论坛论文集[C];2013年
周玉;宗成庆;徐波;;[A];第二届全国学生计算语言学研讨会论文集[C];2004年
宋慧曼;程葳;;[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
钱娟;王立非;;[A];全球化中的英语演讲:挑战与创新——首届全国英语演讲教学与研究學术研讨会论文集[C];2007年
梁颖红;;[A];苏州市自然科学优秀学术论文汇编()[C];2010年
中国博士学位论文全文数据库
中国硕士学位论文全文数据库
}

Bigram 二元组、二元序列、二元结构

N-gram N元組、N元序列、N元结构、N元词、多词序列

Overuse 超用、过多使用、使用过度、过度使用

Tagger 赋码器、赋码工具、标注工具

}

我要回帖

更多关于 如何建立语料库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信