如何获得bcc现代汉语语料库库和汉语知识库的知识

讲座:现代汉语构式的语义表征与构式知识库的构建
现代汉语构式的语义表征与构式知识库的构建&
主讲人:詹卫东教授&
时间: 15:10&
地点:北大哲学系B114(地下)&
简介: 传统的基于词汇语义组合的句义表示框架,在应用于真实语料的句法语义分析和内容理解任务时,虽可以覆盖一般的情况,但还是碰到不少问题,其中构式(construction)的语义该如何分析,就是一个很大的问题,是面向语义计算的语料库标注中需要解决的难题。本文在借鉴国外形式化构式语法理论研究(如Sign-based Construction Grammar以及基于框架网的构式语料标注研究(FrameNet Construction)基础上,探讨汉语构式的语义表征问题。本文把构式看作是词和短语之外的语言单位。作为基于语块(chunk)的语言单位,构式是对基于词的常规语法组合的必要补充。构式的语义描述,需要在语块中区分常项和变项,融汇词语与结构的语义模式、综合内部和外部的约束条件,进行分层描写,给出语义描述框架。&
在语言工程层面,构式的知识描述更适合采用类似词库的方式。为此,我们收集了现代汉语1300多条构式,大体分为四种类型:(1)短语型构式;(2)复句型构式;(3)半凝固型构式;(4)实例化构式。现阶段重点分析了短语型构式(484条,占37%)的句法形式和语义构成特征,大体有六种情况:(1)异常组配(例如:那个紧张啊);(2)同型复现(例如:一天比一天严重);(3)成分省略(例如:糊涂得可以);(4)成分冗余(例如:像做贼似的);(5)语序异常(例如:老百姓一个);(6)论元结构异常(例如:跑了我一身汗)。在此基础上,本文通过示例方式,介绍目前初步提出的一个分层级描写构式语义的框架,包括:(1)字面义;(2)命题义;(3)指称义;(4)交际义。其中字面义对构式内部成分所属的基本概念范畴加以描写。命题义对构式所包含的基础谓词事件结构加以描写(还有待扩展到复合事件内部关系语义描述)。指称义则说明构成成分中名词性成分取内涵语义还是外延语义。交际义是构式语义描写的重点,对说话人的交际意图,构式适用语境,交际效果(如修辞色彩)等加以说明。&
* 本文研究工作得到国家重点基础研究发展计划(2013),教育部人文社科重点研究基地重大项目(13JJD740001),国家社科基金重大项目(12&ZD175)和国家社科基金面上项目(12BYY061)资助,特此致谢。&
主讲人简介: 詹卫东 男,1999年获北京大学博士学位后留校任教。现为北京大学中文系教授,计算语言学研究所副所长。主讲课程&现代汉语&&自然语言处理导论&&语言工程与中文信息处理&&计算语言学概论&等。主要研究领域为现代汉语语法、词汇语义学、语言知识工程、语文文字规范研究等。著有《面向中文信息处理的现代汉语短语结构规则研究》(清华大学出版社2000年),合编应用语言学教材《计算语言学概论》(商务印书馆2003年),主编《出版物上数字用法》国家标准(中国标准出版2011年)。&
欢迎老师和同学们参加!
北京大学语言、逻辑、认知、计算跨学科论坛
发布者:hamburger
发布时间: 12:45:41
· 版权所有 Copyright 2013
CCL网站维护: 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
基于大规模语料库的中文新词识别
下载积分:1998
内容提示:基于大规模语料库的中文新词识别
文档格式:PDF|
浏览次数:40|
上传日期: 06:16:40|
文档星级:
该用户还上传了这些文档
基于大规模语料库的中文新词识别
官方公共微信构建现代汉语框架语义知识库技术研究--《上海师范大学》2006年博士论文
构建现代汉语框架语义知识库技术研究
【摘要】:
本论文的研究工作是一个面向自然语言处理的现代汉语语义资源建设系统工程“现代汉语框架语义知识库构建”的一部分,即以Fillmore的框架语义学为基础,构建基于语料库的现代汉语框架语义知识库。本文承担的工作包括:(1)通过引进、消化、吸收语言学理论和国外已有语义知识库项目成果,初步确立构建现代汉语语义知识库的基本体系和技术路线;(2)通过对一个小范围、小规模的现代汉语框架语义知识库的构建技术的具体研究,对该体系和技术路线进行应用性实践。全文共六章。
第1章分析了认知科学背景下自然语言处理技术的发展方向以及目前的处理水平,以此为背景,确立了本论文研究的方向为现代汉语语义知识库的构建。在考查当前几种主要的语义知识库工程的基础上,认为基于认知的框架语义学和美国加州大学伯克利分校的FrameNet数据库最符合自然语言语义处理技术的要求,从而确定本文的研究工作是将框架语义学以及FrameNet的理论原则和体系思想吸收到汉语语义知识库的构建工作中,并探讨如何结合汉语实际,构建汉语框架语义知识库(Chinese FrameNet,简称CFN)。
第2章立足于构建语义知识库的实际需要,有侧重地对Fillmore的框架语义学的基本思想进行引介;然后对基于框架语义学理论的语义知识工程FrameNet进行调研,考查其语义知识表示体系和内容,吸收其语义知识描述方法,从而指导汉语框架语义知识库的构建实践。
第3章着眼于构建汉语框架语义知识库的整体研究,介绍该研究的语料和软件准备情况,通过比较和论证,确立构建语义知识库的技术路线,在吸收FrameNet已有方法的基础上进一步提出构建汉语语义知识库的基本原则。
第4章利用以上技术路线和构建原则,以现代汉语中表示认知活动的词语为研究范围,尝试构建现代汉语认知活动框架库。本章首先明确研究对象的范围,解决哪些词语是表示认知活动的词语的问题;然后通过实践探讨如何确定框架类别、如何定义和描述框架语义知识。
第5章以认知活动框架库为主要素材,从真实例句的标注中总结框架语义标注方法和词汇库构建方法。例句标注部分从句法功能类型、短语类型和框架元素标注三方面加以总结,重点讨论如何处理句法和语义不一致造成的一些特殊情况,并通过比较其他语义标注语料库的研究,明确CFN框架语义标注的特点。关于词汇库的构建方法,主要确定词语释义方法,研究标注报告体系和抽取方法,并通过具体的构建结果说明词汇库的应用价值。
第6章对全文的研究工作进行总结,包括具体的研究成果以及研究工作中产生的一些对语言学研究的思考,最后对进一步的研究工作进行了比较具体的规划。
就理论方面来说,本文首次将Fillmore的框架语义学思想引入汉语词汇语义分析;在实践方面,则用语料库方法对构建现代汉语框架语义知识库做了探索性研究,并得出了具体成果。其直接意义在于为中文信息处理的语义分析提供语义知识库构建方法和具体构建成果;同时,对于现代汉语本体研究来说,本文提供的丰富的语义描写则可以深化对语言本体的认识。
【关键词】:
【学位授予单位】:上海师范大学【学位级别】:博士【学位授予年份】:2006【分类号】:H13【目录】:
内容提要3-4
Abstract4-8
第1章 引言8-17
1.1 认知科学背景上的中文信息处理研究8-10
1.2 前人的研究10-12
1.3 本文的研究内容12-13
1.4 开展本文研究工作的基础13-15
1.5 本文的结构安排15-17
第2章 框架语义学理论及FrameNet工程实践17-40
2.1 框架语义学17-23
2.1.1 用“框架”描述语义理解过程17-22
2.1.2 框架语义学和其他语义学的关系22-23
2.2 FrameNet工程23-33
2.2.1 FrameNet数据库的内容23-29
2.2.2 框架和词元的关系29-30
2.2.3 文本标注30-32
2.2.4 FrameNet数据库的特色32-33
2.3.FrameNet数据库的构建方法33-36
2.3.1 整体安排33-34
2.3.2 数据库内容的编写34-36
2.4 其他语种的FrameNet研究36-37
2.5 FrameNet数据库的应用价值37-40
第3章 现代汉语框架语义知识库构建总体设计40-54
3.1 语料准备40-42
3.1.1 语料库构成40-42
3.1.2 分词和词性标注42
3.1.3 抽取例句42
3.2 数据库结构设计及软件准备42-44
3.3 构建现代汉语框架语义知识库的技术路线的制定44-54
3.3.1 构建目标44-45
3.3.2 描述对象的确定45
3.3.3 技术路线的制定45-50
3.3.4 框架语义描述的基本原则50-54
第4章 现代汉语认知活动框架库的构建技术54-76
4.1 界定和采集汉语认知活动词语集合54-56
4.2 汉语认知活动框架和框架元素描写方法56-69
4.2.1 框架的确定56-60
4.2.2 框架元素的确定60-66
4.2.3 定义方法66-68
4.2.4 示例方法68-69
4.3 词元的确定69-70
4.4 框架—框架关系的构建70-72
4.5 认知活动框架语义描述的特点72-76
第5章 现代汉语例句标注方法和词汇库构建技术76-95
5.1 待标例句集合的构建76-77
5.1.1 初始例句集合76
5.1.2 分词和词性标注76
5.1.3 例句筛选76-77
5.2 例句标注体系77-85
5.2.1 短语类型标注体系78-79
5.2.2 句法功能标注体系79-83
5.2.3 零碎成分的标注83-85
5.3 通用非核心框架元素的规定85-86
5.4 几种特殊情况的处理86-89
5.4.1 零形式框架元素86
5.4.2 框架元素融合86
5.4.3 框架元素分裂86-87
5.4.4 关于兼语结构87
5.4.5 关于连谓结构87-89
5.5 现代汉语框架语义例句标注的特点89-90
5.6 词汇库的构建方法90-95
5.6.1 词元释义91
5.6.2 框架元素的句法实现方式汇总91-92
5.6.3 词元的语义搭配模式汇总92-95
第6章 结语95-98
6.1 本文研究工作总结95-96
6.2 本文研究意义96
6.3 进一步的研究计划96-98
附录1 现代汉语认知活动框架98-108
附录2 通用非核心框架元素108-113
参考文献113-118
作者在攻读博士学位期间公开发表的论文118-119
后记119-121
欢迎:、、)
支持CAJ、PDF文件格式
【引证文献】
中国期刊全文数据库
尹晓丽;;[J];长春工业大学学报(自然科学版);2012年02期
刘开瑛;;[J];中文信息学报;2011年06期
毛海燕;;[J];外语学刊;2010年04期
周领顺;;[J];外语教学;2008年01期
殷杰;董佳蓉;;[J];自然辩证法研究;2008年03期
中国博士学位论文全文数据库
富涛;[D];内蒙古大学;2011年
李茹;[D];山西大学;2012年
肖开容;[D];西南大学;2012年
中国硕士学位论文全文数据库
邢欣;[D];山西大学;2011年
阿里甫.库尔班;[D];电子科技大学;2011年
孟庆超;[D];青海民族大学;2011年
刘焘;[D];山西大学;2007年
白鹏洲;[D];太原理工大学;2008年
陈颖聪;[D];湖南师范大学;2008年
王晓庆;[D];中国海洋大学;2008年
杨杏丽;[D];山西大学;2010年
郭珊珊;[D];湖南农业大学;2010年
【参考文献】
中国期刊全文数据库
顾阳;[J];国外语言学;1994年01期
张伯江;[J];汉语学习;1989年01期
鲁川,林杏光;[J];汉语学习;1989年05期
张国宪;[J];汉语学习;1994年04期
尤昉,李涓子,王作英;[J];中文信息学报;2003年01期
周强;[J];中文信息学报;2004年04期
由丽萍,范开泰,刘开瑛;[J];中文信息学报;2005年06期
周明,黄昌宁;[J];中文信息学报;1994年03期
刘丹青;[J];南京师大学报(社会科学版);1987年03期
,范晓;[J];新疆师范大学学报(社会科学版);1985年02期
【共引文献】
中国期刊全文数据库
袁健惠;;[J];安徽大学学报(哲学社会科学版);2010年02期
赵嫚;;[J];合肥师范学院学报;2008年04期
何诗穹;;[J];安徽广播电视大学学报;2009年01期
周四贵;;[J];安徽电子信息职业技术学院学报;2010年02期
于小芸;;[J];安徽农业大学学报(社会科学版);2008年05期
周国光,黎洪;[J];安徽师范大学学报(人文社会科学版);2001年01期
高晖;;[J];安徽文学(下半月);2008年11期
罗吉宏;;[J];安徽文学(下半月);2008年11期
刘晶晶;;[J];安徽文学(下半月);2009年04期
杨帆;;[J];安徽文学(下半月);2010年04期
中国重要会议论文全文数据库
李艳娇;杨尔弘;;[A];中国计算语言学研究前沿进展()[C];2011年
宋彦;黄昌宁;揭春雨;;[A];中国计算语言学研究前沿进展()[C];2011年
周强;王俊俊;陈丽欧;;[A];中国计算语言学研究前沿进展()[C];2011年
殷国光;华建光;;[A];和谐社会:社会建设与改革创新——2007学术前沿论丛(下卷)[C];2007年
高永欣;;[A];福建省外国语文学会2006年年会暨学术研讨会论文集(下)[C];2006年
徐德宽;;[A];第六届汉语词汇语义学研讨会论文集[C];2005年
郭曙纶;陆汝占;陈玉泉;高峰;;[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
王玉婷;;[A];江西省语言学会2005年年会论文集[C];2005年
郭中;;[A];江西省语言学会2006年年会论文集[C];2006年
魏亮珍;;[A];江西省语言学会2006年年会论文集[C];2006年
中国博士学位论文全文数据库
韩巍峰;[D];上海外国语大学;2010年
徐莉娜;[D];上海外国语大学;2010年
姚文琳;[D];中国海洋大学;2009年
李秉震;[D];南开大学;2010年
彭懿;[D];湖南师范大学;2010年
李青;[D];吉林大学;2011年
彭吉军;[D];华中科技大学;2011年
吴淑琼;[D];西南大学;2011年
方清明;[D];暨南大学;2011年
王俊;[D];华中师范大学;2011年
中国硕士学位论文全文数据库
吴艺彬;[D];哈尔滨师范大学;2010年
赵桂阳;[D];哈尔滨师范大学;2010年
张友学;[D];上海外国语大学;2010年
刘君章;[D];上海外国语大学;2010年
刘洋;[D];哈尔滨工程大学;2010年
杨佳;[D];辽宁师范大学;2010年
黄巍;[D];辽宁师范大学;2010年
王倩;[D];辽宁师范大学;2010年
张雪丽;[D];湘潭大学;2010年
王玉丹;[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库
高永照;[J];安徽农业大学学报(社会科学版);1999年02期
邓志鸿,唐世渭,张铭,杨冬青,陈捷;[J];北京大学学报(自然科学版);2002年05期
黄婉秋,黄筱霞,贾旭光;[J];北京工商大学学报(自然科学版);2002年03期
田久乐;赵蔚;;[J];吉林大学学报(信息科学版);2010年06期
姚琴;;[J];重庆交通大学学报(社会科学版);2007年05期
陶明忠;马玉蕾;;[J];当代语言学;2008年01期
吴云芳;;[J];当代语言学;2009年02期
徐烈炯,沈阳;[J];当代语言学;1998年03期
李向阳;张亚非;;[J];电子科技大学学报;2007年01期
于江德;樊孝忠;庞文博;余正涛;;[J];Journal of Southeast University(English Edition);2007年03期
中国重要会议论文全文数据库
刘开瑛;由丽萍;;[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
董静;孙乐;吕元华;冯元勇;;[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
刘开瑛;;[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库
王建华;[D];复旦大学;2003年
张春泉;[D];复旦大学;2003年
盛若菁;[D];复旦大学;2003年
李小博;[D];山西大学;2004年
李勇忠;[D];复旦大学;2004年
陈宝勤;[D];四川大学;2004年
吴平;[D];北京语言大学;2005年
刘艳茹;[D];吉林大学;2005年
刘高岑;[D];山西大学;2004年
达胡白乙拉;[D];内蒙古大学;2005年
中国硕士学位论文全文数据库
张爱珍;[D];福建师范大学;2002年
呼叙利;[D];福建师范大学;2003年
于鹤;[D];大连海事大学;2003年
李永秋;[D];西南师范大学;2003年
李苗;[D];湖南师范大学;2003年
刘蕾;[D];吉林大学;2005年
李丽;[D];西南师范大学;2005年
李毅;[D];烟台师范学院;2005年
卢水林;[D];华中师范大学;2006年
马腾;[D];电子科技大学;2006年
【二级引证文献】
中国期刊全文数据库
王慧兰;;[J];北京大学学报(自然科学版);2013年01期
钟俊;张丽;;[J];西华大学学报(哲学社会科学版);2013年05期
王志嘉;薛质;;[J];信息技术;2010年12期
谈鑫;胡东平;;[J];南京工程学院学报(社会科学版);2012年01期
殷杰;董佳蓉;;[J];科学技术与辩证法;2009年02期
周领顺;;[J];外语研究;2009年06期
施栋琴;;[J];外语研究;2012年05期
李国臣;张立凡;李茹;刘海静;石佼;;[J];中文信息学报;2013年04期
林丽;;[J];中文信息学报;2013年06期
周领顺;;[J];外语教学与研究;2011年06期
中国博士学位论文全文数据库
刘朝涛;[D];重庆大学;2010年
李勤超;[D];解放军信息工程大学;2011年
周亦鹏;[D];北京科技大学;2012年
李茹;[D];山西大学;2012年
谢晴宇;[D];北京中医药大学;2013年
张乃静;[D];中国林业科学研究院;2013年
中国硕士学位论文全文数据库
王伟娜;[D];上海外国语大学;2010年
闫志刚;[D];华北电力大学(北京);2011年
赵杰;[D];湖南师范大学;2011年
李巍;[D];内蒙古农业大学;2011年
高亚慧;[D];山西大学;2011年
康旭珍;[D];山西大学;2011年
王振佶;[D];电子科技大学;2011年
胡长春;[D];上海交通大学;2009年
哈清华;[D];哈尔滨工业大学;2009年
周向根;[D];哈尔滨工业大学;2009年
【二级参考文献】
中国期刊全文数据库
冯志伟;;[J];国外语言学;1983年01期
戴浩一;[J];当代语言学;2002年01期
鲁川,林杏光;[J];汉语学习;1989年05期
周明,黄昌宁,张敏,白栓虎,吴升;[J];计算机研究与发展;1994年02期
,俞士汶;[J];中文信息学报;2002年04期
周明,黄昌宁;[J];中文信息学报;1994年03期
刘伟权,王明会,钟义信;[J];中文信息学报;1996年02期
周强,张伟,俞士汶;[J];中文信息学报;1997年04期
刘丹青;;[J];语文研究;1983年04期
李临定;;[J];语文研究;1984年04期
中国重要会议论文全文数据库
周强;;[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库
宗成庆;曹右琦;俞士汶;;[J];语言文字应用;2009年04期
齐言;[J];语文建设;1992年09期
周领顺;;[J];中国外语;2009年04期
徐颂列;[J];语言教学与研究;1993年04期
王会琴;[J];宜宾学院学报;2005年08期
郭曙纶;[J];韶关学院学报;2002年06期
杜健;[J];语言文字应用;1999年02期
万学仁;[J];中文信息;1996年01期
胡莉;;[J];北方文学(下半月);2011年03期
黄昌宁;[J];语文建设;1994年07期
中国重要会议论文全文数据库
徐德宽;;[A];第六届汉语词汇语义学研讨会论文集[C];2005年
王惠;俞士汶;詹卫东;;[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
贾君枝;刘焘;李景峰;;[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
由丽萍;刘焘;刘开瑛;;[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
于丽丽;丁德鑫;曲维光;陈小荷;石民;;[A];中国计算机语言学研究前沿进展()[C];2009年
;[A];第五届全国青年计算语言学研讨会论文集[C];2010年
俞士汶;王治敏;朱学锋;;[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
潘新玲;;[A];2007年福建省辞书学会第18届年会论文提要集[C];2007年
孙现瑶;付莉;;[A];语言与文化研究(第二辑)[C];2008年
李志江;;[A];中国辞书论集2000[C];2000年
中国重要报纸全文数据库
史金生 解放军外国语学院;[N];中国社会科学报;2010年
华中师范大学语言与语言教育研究中心;[N];中国社会科学报;2011年
段佳;[N];大众科技报;2009年
北京师范大学 邓 赟;[N];中国信息报;2005年
刘醒龙;[N];中华读书报;2006年
徐通锵(北京大学中文系教授);[N];中国新闻出版报;2004年
北京大学教授 苏培成;[N];中国教育报;2005年
北京师范大学,辽宁师范大学
刁晏斌;[N];社会科学报;2007年
王东;[N];中国图书商报;2008年
迟兰英;[N];人民日报海外版;2002年
中国博士学位论文全文数据库
由丽萍;[D];上海师范大学;2006年
方向红;[D];上海师范大学;2004年
詹卫东;[D];北京大学;1999年
齐璇;[D];国防科学技术大学;2002年
尹海良;[D];山东大学;2007年
颜红菊;[D];首都师范大学;2007年
张红军;[D];山东大学;2007年
洪淼;[D];南京师范大学;2004年
宋春阳;[D];上海师范大学;2003年
周卫华;[D];华中师范大学;2007年
中国硕士学位论文全文数据库
张丽芬;[D];西北师范大学;2009年
傅成宏;[D];南京师范大学;2007年
张明芹;[D];广西师范大学;2006年
阮贵义;[D];北京语言大学;2007年
简榕蓉;[D];华中科技大学;2006年
邹卉;[D];湖南师范大学;2008年
唐琦;[D];华北电力大学(北京);2009年
彭笠;[D];首都师范大学;2008年
谢慧萍;[D];湘潭大学;2005年
徐瑞;[D];苏州大学;2006年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备74号基于多种数据源的中文知识图谱构建方法研究--《华东理工大学》2015年博士论文
基于多种数据源的中文知识图谱构建方法研究
【摘要】:自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。
本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:
1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建的知识图谱的质量。
2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。
3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。
4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。
5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。
最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。
【关键词】:
【学位授予单位】:华东理工大学【学位级别】:博士【学位授予年份】:2015【分类号】:TP391.1【目录】:
摘要5-7Abstract7-14第1章 引言14-29 1.1 研究背景14-16 1.2 研究现状和存在的问题16-24
1.2.1 本体构建16-21
1.2.2 现有本体构建方法的不足21-22
1.2.3 知识图谱构建22-23
1.2.4 知识图谱相关研究存在的问题23-24
1.2.5 中文知识图谱构建的特殊性24 1.3 研究内容及意义24-26
1.3.1 研究内容24-25
1.3.2 主要研究贡献25-26 1.4 本文的组织26-29第2章 知识图谱构建过程29-35 2.1 知识图谱的本体学习29-32
2.1.1 术语抽取29-30
2.1.2 同义关系抽取30
2.1.3 概念抽取30-31
2.1.4 分类学关系抽取31
2.1.5 非分类关系学习31-32
2.1.6 公理和规则学习32 2.2 实体层的学习32-33
2.2.1 实体学习32
2.2.2 实体数据填充32-33
2.2.3 实体对齐33 2.3 知识图谱的数据更新33-34
2.3.1 数据模式层的更新33-34
2.3.2 数据层的更新34 2.4 通用知识图谱和行业知识图谱构建的区别34 2.5 本章小结34-35第3章 知识图谱构建的可用数据源分析35-54 3.1 数据源分析35-40
3.1.1 结构化数据35
3.1.2 机器可读的开放本体或辞典35-36
3.1.3 开放链接数据与开放知识库36-38
3.1.4 行业知识库和行业垂直网站38
3.1.5 在线百科38-40
3.1.6 文本40 3.2 数据源采集40-44
3.2.1 开放链接数据采集41
3.2.2 百科采集41-42
3.2.3 文本信息采集42-44 3.3 数据清洗44-53
3.3.1 常用的网页内容抽取方法44-45
3.3.2 基于启发式规则的网页正文内容抽取方法45-50
3.3.3 网页正文内容抽取方法评估50-51
3.3.4 论坛内容的抽取51-53
3.3.5 其它类型网页中内容的抽取53 3.4 本章小结53-54第4章 基于多数据源的通用知识图谱构建54-92 4.1 概念和实体学习54-55
4.1.1 从开放链接数据集中抽取概念和实体54
4.1.2 从百科中抽取概念和实体54
4.1.3 同名多义概念或实体54-55
4.1.4 概念或实体的摘要信息55 4.2 实体对齐(同义关系学习)55-72
4.2.1 从开放链接数据集中抽取同义关系55
4.2.2 基于百科结构化数据的百科实体对齐55-56
4.2.3 基于SVM的自监督百科实体对齐方法56-61
4.2.4 开放链接数据集与百科间的实体对齐61
4.2.5 基于语言学模式的方法61
4.2.6 基于CRF的开放同义关系学习61-72 4.3 上下位关系学习72-76
4.3.1 从开放链接数据集中抽取上下位关系72-73
4.3.2 从百科中抽取上下位关系73-74
4.3.3 基于语言学模式的上下位关系抽取方法74
4.3.4 基于CRF的开放上下位关系学习方法74-75
4.3.5 分类树整合75-76 4.4 属性学习76-79
4.4.1 概念的属性学习(数据模式的学习)76
4.4.2 从开放链接数据集中抽取概念属性76
4.4.3 从百科中抽取实体属性76-77
4.4.4 实体属性升级成为概念属性77-78
4.4.5 概念属性的人工校验78
4.4.6 实体属性值的学习78-79 4.5 规则和公理学习79 4.6 学习过程中的冲突解决79-81
4.6.1 冲突发生点分析79-80
4.6.2 冲突检测80
4.6.3 冲突解决方法80-81 4.7 知识图谱的更新81-82
4.7.1 数据模式层的更新81
4.7.2 数据层的更新81-82 4.8 实验与结果分析82-90
4.8.1 学习语料82
4.8.2 知识图谱评估方法82
4.8.3 知识图谱结果概览82-83
4.8.4 概念评估83-84
4.8.5 实体评估84
4.8.6 实体对齐与同义关系评估84-85
4.8.7 基于SVM的自监督百科实体对齐方法评估85
4.8.8 基于语言学模式的同义学习方法评估85-86
4.8.9 基于CRF的开放同义关系学习方法评估86-88
4.8.10 上下位关系学习结果评估88-89
4.8.11 属性学习结果评估89
4.8.12 对比分析89-90 4.9 小结与讨论90-92
4.9.1 本章小结90
4.9.2 知识图谱构建讨论90-92第5章 基于多数据源的行业知识图谱构建92-102 5.1 行业知识图谱构建92-93 5.2 从结构化数据中学习知识93-94
5.2.1 D2R93
5.2.2 结构化数据映射工具93-94
5.2.3 结构化数据知识映射94 5.3 行业知识库与行业网站的自动发现与抽取94-96 5.4 行业数据源解析96-98 5.5 从开放链接数据和在线百科中学习知识98
5.5.1 实体对齐98
5.5.2 实体的添加98
5.5.3 属性知识的学习98 5.6 从文本中学习知识98-99 5.7 实验与结果分析99-100
5.7.1 D2R分析99
5.7.2 行业知识库和行业专业网站的自动发现99
5.7.3 行业数据源解析与抽取99-100
5.7.4 从百科中学习鱼类知识图谱100
5.7.5 从文本中学习鱼类知识图谱100 5.8 本章小结100-102第6章 知识图谱编辑与学习平台102-116 6.1 现有的知识编辑工具102-104 6.2 知识图谱协作编辑与学习平台设计104-105 6.3 功能详述105-109
6.3.1 知识学习配置106
6.3.2 数据模式定义106
6.3.3 基础知识编辑106
6.3.4 知识图谱的完整性和一致性106-107
6.3.5 并发协作编辑107
6.3.6 版本管理107
6.3.7 知识存储107-108
6.3.8 数据备份108
6.3.9 用户与权限管理108-109 6.4 编辑平台与学习算法的衔接109 6.5 知识图谱的应用109-115
6.5.1 语义检索109-112
6.5.2 知识导航112
6.5.3 决策支持112-114
6.5.4 知识图谱在行业中的应用114-115 6.6 本章小结115-116第7章 总结和展望116-118 7.1 全文总结116 7.2 展望116-118参考文献118-128致谢128-129附录1 攻读学位期间发表的学术论文129-130附录2 攻读学位期间参加的科研项目130
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
杜波,田怀凤,王立,陆汝占;[J];计算机工程;2005年14期
郑家恒,卢娇丽;[J];计算机工程;2005年18期
温春;石昭祥;辛元;;[J];计算机工程;2009年24期
贾文娟;何丰;;[J];计算机技术与发展;2011年06期
孙镇;王惠临;;[J];现代图书情报技术;2010年06期
陆勇;章成志;侯汉清;;[J];中国图书馆学报;2010年01期
中国博士学位论文全文数据库
连莉;[D];山东大学;2010年
【共引文献】
中国期刊全文数据库
许高程;张文君;王卫红;;[J];安徽农业科学;2009年06期
管翠萍;;[J];安徽农业科学;2010年24期
刘婷婷;;[J];安徽农业科学;2011年28期
高闯;王立东;周世宇;;[J];辽宁科技大学学报;2009年03期
云晓燕;王春英;;[J];辽宁科技大学学报;2009年06期
王逢鑫;[J];北京大学学报(英语语言文学专刊);1992年02期
王逢鑫;[J];北京大学学报(外国语言文学专刊);1999年S1期
汪廷华;田盛丰;黄厚宽;廖年冬;;[J];北京交通大学学报;2007年05期
吴娜炯;;[J];办公自动化;2010年08期
尚磊;刘风进;;[J];兵工自动化;2007年03期
中国重要会议论文全文数据库
;[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
;[A];第二十六届中国控制会议论文集[C];2007年
吕蓬;柳亦兵;马强;魏于凡;;[A];第二十六届中国控制会议论文集[C];2007年
;[A];第二十七届中国控制会议论文集[C];2008年
蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;[A];第二十七届中国控制会议论文集[C];2008年
王海丰;李壮;任洪娥;赵鹏;;[A];第二十九届中国控制会议论文集[C];2010年
;[A];中国自动化学会控制理论专业委员会A卷[C];2011年
晋朝勃;胡刚强;史广智;李玉阳;;[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
刘英林;刘洪鹏;査星云;宋扬;;[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
戴明洋;杨大利;徐明星;;[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库
赵莹;[D];哈尔滨工程大学;2010年
殷志伟;[D];哈尔滨工程大学;2009年
柏坚;[D];中国地质大学(北京);2010年
姚志明;[D];中国科学技术大学;2010年
陈志国;[D];江南大学;2010年
张慧斌;[D];南开大学;2010年
张目;[D];电子科技大学;2010年
宋国明;[D];电子科技大学;2010年
邓斌;[D];电子科技大学;2010年
刘建明;[D];浙江大学;2010年
中国硕士学位论文全文数据库
朱杰;[D];河北大学;2007年
樊敬川;[D];河北大学;2009年
李金华;[D];山东科技大学;2010年
孙岭;[D];山东科技大学;2010年
江达秀;[D];浙江理工大学;2010年
李朋勇;[D];郑州大学;2010年
刘松;[D];郑州大学;2010年
付红艳;[D];哈尔滨工程大学;2010年
孔胜;[D];大连理工大学;2010年
方宇;[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库
邓志鸿,唐世渭,张铭,杨冬青,陈捷;[J];北京大学学报(自然科学版);2002年05期
强彦;谢红薇;;[J];电脑开发与应用;2007年11期
辛日华;[J];呼伦贝尔学院学报;2003年03期
唐旭日;;[J];湖北广播电视大学学报;2007年07期
雷玉霞,眭跃飞,曹宝香;[J];计算机工程与应用;2004年03期
张承立;陈剑波;齐开悦;;[J];计算机工程与应用;2006年17期
李林;刘贺欢;刘椿年;;[J];计算机工程;2006年13期
徐德智;郑春卉;K. P;[J];计算机应用;2006年01期
王丹;樊兴华;;[J];计算机应用;2009年01期
廖剑;冷静;李艳燕;黄荣怀;;[J];计算机应用研究;2007年11期
中国重要会议论文全文数据库
郑家恒;杜永萍;宋礼鹏;;[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库
王斌;[D];中国科学院研究生院(计算技术研究所);1999年
于洋;[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库
陆勇;[D];南京农业大学;2005年
陈韵霞;[D];哈尔滨工程大学;2006年
邱莎;[D];四川大学;2006年
【相似文献】
中国期刊全文数据库
陈卓君;陈军华;;[J];计算机工程与科学;2008年07期
王志;孙涌;张书奎;王永山;;[J];计算机技术与发展;2009年07期
张志强;刘丽霞;谢晓芹;潘海为;方一向;;[J];计算机学报;2012年11期
祝官文;王念滨;王红滨;;[J];电子学报;2013年02期
陈小伟;林家骏;张洁;;[J];华东理工大学学报(自然科学版);2006年12期
黄黎;赵朋朋;方巍;崔志明;孙振强;;[J];计算机工程;2010年08期
黄维篁;李国良;冯建华;;[J];计算机科学与探索;2010年10期
万雅奇;岳俊江;;[J];中国考试;2006年11期
陈小伟;林家骏;张洁;;[J];计算机工程;2006年24期
许学标,刘宏亮,王轶彤,顾宁,施伯乐;[J];计算机研究与发展;1999年07期
中国重要会议论文全文数据库
黄维篁;李国良;冯建华;;[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
张春海;刘群;李华;;[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
李实;;[A];中国化工学会2003年石油化工学术年会论文集[C];2003年
刘鸿宁;王志强;陈顺德;江樱;;[A];2013电力行业信息化年会论文集[C];2013年
刘鸿宁;王志强;陈顺德;江樱;;[A];2013电力行业信息化年会论文集[C];2013年
郭超;宁洪;王挺;张朝阳;;[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
洪晓光;郑永清;魏振;;[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
邓松;万常选;;[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
刘德祥;刘安宇;宋懿;;[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
邓松;万常选;刘喜平;江腾蛟;雷刚;;[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国重要报纸全文数据库
刘小如;[N];中国计算机报;2005年
葛运溥;[N];中国交通报;2007年
倪显利;[N];计算机世界;2001年
谢胜春 张砀平 魏民;[N];中国城乡金融报;2004年
博文 编译 Duane M[N];计算机世界;2007年
PALADIN;[N];电脑报;2003年
;[N];健康报;2003年
;[N];计算机世界;2003年
D[N];电脑报;2003年
本报记者 周蓉蓉;[N];计算机世界;2005年
中国博士学位论文全文数据库
邓松;[D];江西财经大学;2013年
胡芳槐;[D];华东理工大学;2015年
贺金鑫;[D];吉林大学;2008年
周建芳;[D];华中科技大学;2009年
方巍;[D];苏州大学;2009年
中国硕士学位论文全文数据库
胡代勇;[D];哈尔滨工程大学;2012年
王燕妮;[D];南方医科大学;2009年
卢宾;[D];浙江大学;2010年
刘丽霞;[D];哈尔滨工程大学;2012年
胡俊;[D];上海交通大学;2012年
杨勇生;[D];天津大学;2008年
祝官文;[D];哈尔滨工程大学;2012年
李亚;[D];成都理工大学;2013年
刘富江;[D];哈尔滨工程大学;2010年
王志军;[D];哈尔滨工程大学;2012年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备74号}

我要回帖

更多关于 北语汉语语料库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信