论文如何提取关键词怎么确定

毕业季:写论文中的关键字如何精確提取

论文如何提取关键词是从论文的题名、提要和正文中选取出来的,是对表述论文

的中心内容有实质意义的词汇论文如何提取关鍵词是用作计算机系统标引论文内容

特征的词语,便于信息系统汇集以供读者检索。 每篇论文一般选取

3-5个词汇作为论文如何提取关键词另起一行,排在“提要”的左下方

主题词是经过规范化的词,在确定主题词时要对论文进行主题分

析,依照标引和组配规则转换成主题词表中的规范词语(参见《汉语

主题词表》和《世界汉语主题词表》)。

不论国内还是国外的论文关键字的选取都是遵循一定规范的,是为了满足文献标引或检索工作的需要而从论文中选取出的词或词组 论文如何提取关键词包括主题词和自由词2个部分:主题词是專门为文献的标引或检索而从自然语言的主要词汇中挑选出来并加以规范了的词或词组;自由词则是未规范化的即还未收入主题词表中的詞或词组。

}

textRank(pageRank的变种):利用词共现制作无姠有权图通过设置贡献窗口长度k,也就是在词w的前k个和后k个出现的词都与w有线相连初始化相同噢工的随即权重,迭代运算直至前后权偅变化小与某个很小的值时词的权重就确定了。权重越大词越重要,相当于w相连的词给w打分

TF/IDF:计算去除停用词后的每句话中词的权偅和,权重大的为摘要

将每个句子看成图中的一个节点,若两个句子之间有相似性认为对应的两个节点之间有一个无向有权边,权值昰相似度

通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。

论文中使用下面的公式计算两个句子Si和Sj的相似度:

分子是在两个句孓中都出现的单词的数量|Si|是句子i的单词数。

由于是有权图PageRank公式略做修改:

(1)可以使用句子向量的欧式距离,或者余弦相似度:

可以使用word2vec的词向量组成句子的句子向量对于不同长的句子可以通过填充或截取。

可以使用doc2vec提取的句子向量计算

可以使用tf/idf 获得的词权重的向量表示句子然后计算相似度

BM25算法,通常用来作搜索相关性平分一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后对于每个搜索结果D,计算每个语素qi与D的相关性得分最后,将qi相对于D的相关性得分进行加权求和从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:

可以看成Query中每个词di相对于某一个文档的词di的tf/idf值的  和。W可以堪称tfR可以看为idf,和越大越相似

}

我要回帖

更多关于 论文如何提取关键词 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信