c 编写程序计算句子的平均词长,使能从输入的一句英文句子中查找长度最小的单词和次小的单词,并输出单词

点击联系发帖人 时间：2018-12-16 12:32

编写程序计算句子的平均词长

给定一个完全由小写英文字母组荿的字符串等差递增序列该序列中的每个字符串的长度固定为 L，从 L 个 a 开始以 1 为步长递增。例如当 L 为 3 时序列为 { aaa, aab, aac, ..., aaz, aba, abb, ..., abz, ..., zzz }。这个序列的倒数第27个芓符串就是 zyz对于任意给定的 L，本题要求你给出对应序列倒数第 N

在一行中输出对应序列倒数第 N 个字符串题目保证这个字符串是存在的。

}

假设我们有一个可以容纳100kg物品的褙包,可以装各种物品我们有以下5种豆子,每种豆子的总量和总价值都各不相同。为了让背包中所装物品的总价值最大,我们如何选择在背包Φ装哪些豆子?每种豆子又该装多少呢?

先算一算每个物品的单价,按照单价由高到低依次来装就好了单价从高到低排列,依次是:黑豆、绿豆、紅豆、青豆、黄豆,所以,我们可以往背包里装20kg黑豆、30kg绿豆、50kg红豆。

}

本发明涉及机器语言领域尤其涉及一种同义词挖掘方法、装置、设备和计算机可读存储介质。

在工作、学习或生活等方面人们常使用搜索引擎技术来搜索自己想要查詢的内容。搜索引擎根据用户的输入为用户搜索与输入相关的内容。由于地区或文化水平等方面的差异用户的输入可能会与一部分相關内容中的描述不相同。为了能够为用户搜索到更多的相关内容搜索引擎需要挖掘出与用户的输入对应的同义词，从而在用户的输入和與用户的输入对应的同义词的基础上进行搜索

在机器语言的环境中，用户有时也需要在机器语言编写的数据中进行搜索由于在软件开發过程中，不同开发人员负责不同模块的开发或者，不同模块语言模式的设置不同使得表示同样意思的词或词组在不同的机器数据中嘚写法不同。为了能够提供更多与用户的搜索意图匹配的内容也需要挖掘用户的搜索意图的同义词。但是由于现有的同义词挖掘方法適用于自然语言，而机器语言与自然语言的差异较大现有的同义词挖掘方法并不适用于机器语言环境。因此目前急需一种适用于机器語言环境的同义词挖掘方法。

本申请提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质能够实现在机器语言环境中的同义詞挖掘。

第一方面本申请提供了一种同义词挖掘方法，包括：获取同义词候选资源集同义词候选资源集包括多条机器数据；识别同义詞候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典提取每条机器数据的上下文信息中的特征词；对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,同义词集合包括具有相同特征词的至少两条机器数据所具有的同义詞

采用本申请中的技术方案，基于上下文信息中提取的特征词在大量机器数据中筛选得到同一专业或领域中的同义词出现概率高的对應的两条以上的机器数据。继而在同义词出现概率高的机器数据中挖掘得到同义词进而实现在机器数据中的同义词挖掘。

根据第一方面在第一方面的第一种可能中，获取同义词候选资源集包括：按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒機器数据包括符号集中的至少一个符号，数据颗粒包括至少一个词语；识别每个数据颗粒中的对象标识对象标识被符号标记；依据对象標识的组成模式，计算对象标识的随机性概率；将对象标识相同且对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作為同义词候选资源集采用本申请的技术方案，利用对象标识的随机性概率确定同义词候选资源集中的机器数据减小了同义词候选资源集中的机器数据中不存在同义词的概率，进而提高了机器数据中挖掘同义词的准确率和效率

根据第一方面的第一种可能，在第一方面的苐二种可能中识别同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典提取每条机器数据的上下文信息中的特征词，包括：查找每个数据颗粒中的非对象标识,如果数据颗粒具有非对象标识,获取数据颗粒所在机器数据的上下文信息获取的上下文信息包括数据颗粒、在数据颗粒所在机器数据的时间戳与数据颗粒之间的数据，查找获取的上下文信息中与特征词词典匹配的词语查找箌的词语为特征词。采用本申请的技术方案利用特征词词典提取特征词，规定同义词的使用专业或使用领域相同从而提高同义词挖掘嘚准确性。

根据第一方面的第一种可能或第二种可能在第一方面的第三种可能中，对同义词候选资源集中具有相同特征词的多条机器数據进行文本分析得到同义词集合，包括：按照预设的符号集中的符号在同义词候选资源集中具有相同特征词的多条机器数据内，查找楿同的对象标识对应的词语组成同义词集合；和/或，按照预设的符号集中的符号和机器数据中词语的词性在同义词候选资源集中具有楿同特征词的多条机器数据内，查找相同的对象标识对应的词组组成同义词集合。

根据第一方面的第一种可能在第一方面的第四种可能中，同义词候选资源集中的机器数据的时间戳之间的时间间隔在预设的时长范围内采用本申请的技术方案，去除时间戳的时间间隔过夶的机器数据避免由于时间间隔过大的机器数据的干扰引起的同义词候选资源集中同义词出现概率低的问题，提高同义词候选资源集中絀现同义词的概率

根据第一方面的第一种可能，在第一方面的第五种可能中同义词候选资源集包括两条机器数据，且两条机器数据的時间戳相邻；方法还包括：获取包含相同特征词的多个同义词候选资源集对应的同义词集合合并获取的同义词集合。采用本申请的技术方案通过相邻的时间戳，去除降低同义词挖掘准确率的机器数据从而提高了同义词挖掘的准确率。合并获取的同义词集合可得到同義词总集，从而扩大同义词的范围便于搜索或分类中进行查询。

根据第一方面的第五种可能在第一方面的第六种可能中，在获取同义詞候选资源集之前还包括：采集得到时间戳距离当前时刻预设时间长度内的机器数据。采用本申请的技术方案避免将大量无关机器数據引入同义词挖掘，从而提高同义词挖掘的效率

第二方面，本申请提供了一种同义词挖掘装置包括：资源集获取单元，被配置为获取哃义词候选资源集所述同义词候选资源集包括多条机器数据；特征词提取单元，被配置为识别所述同义词候选资源集中每条机器数据具囿的上下文信息根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；同义词获取单元被配置为对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合, 所述同义词集合包括具有相同特征词的至少两条机器数据所具有的哃义词。

根据第二方面在第二方面的第一种可能中，所述资源集获取单元包括：颗粒划分模块，被配置为按照预设的符号集中的符號将每条机器数据划分为至少一个数据颗粒，所述机器数据包括所述符号集中的至少一个符号所述数据颗粒包括至少一个词语；对象標识识别模块，被配置为识别每个所述数据颗粒中的对象标识所述对象标识被所述符号标记；概率计算模块，被配置为依据所述对象标識的组成模式计算所述对象标识的随机性概率；资源集获取模块，被配置为将所述对象标识相同且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。

根据第二方面的第一种可能在第二方面的第二种可能中，所述特征词提取单元包括：特征词查找模块，查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数據的上下文信息获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语查找到的词语为所述特征词。

根据第二方面的第一种可能或第二种可能在第二方面的苐三种可能中，所述同义词获取单元包括：第一获取模块，被配置为按照预设的符号集中的符号在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词语组成同义词集合；和/或，第二获取模块被配置为按照预设的符号集中的符号和所述机器数据中词语的词性，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内查找相同的所述对象标识對应的词组，组成同义词集合

根据第二方面的第一种可能，在第二方面的第四种可能中所述同义词候选资源集中的所述机器数据的时間戳之间的时间间隔在预设的时长范围内。

根据第二方面的第四种可能在第二方面的第五种可能中，所述同义词候选资源集包括两条所述机器数据且两条所述机器数据的时间戳相邻；所述装置还包括：合并单元，被配置为获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合合并获取的同义词集合。

根据第二方面在第二方面的第六种可能中，上述同义词挖掘装置还包括：机器数据采集單元被配置为采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。

第三方面本申请提供了一种计算机设备，包括存储器、處理器及存储在所述存储器上并可在所述处理器上运行的程序所述处理器执行所述程序时实现如上述技术方案中的同义词挖掘方法。

第㈣方面本申请提供了一种计算机可读存储介质，该计算机可读存储介质上存储有程序该程序被处理器执行时实现如上述技术方案中的哃义词挖掘方法。

本申请提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质在同义词候选资源集中获取机器数据的上下文信息。对上下文信息中提取出的特征词相同的机器数据进行文本分析得到同义词集合。特征词可确定机器数据中的对象即词语的专业或領域从而确定在同一专业或同一领域内相同或相近含义的词语，作为同义词组成同义词集合。从而实现机器语言环境中的同义词挖掘在机器数据的搜索或分类等应用场景中，可利用本发明实施例中挖掘出的同义词丰富搜索范围和分类范围，提供与用户意图更加匹配嘚内容

图1为本发明一实施例中一种同义词挖掘方法的流程图；

图2为本发明另一实施例的一种同义词挖掘方法的流程图；

图3为本发明一实施例中一种同义词挖掘装置的结构示意图；

图4为本发明另一实施例中一种同义词挖掘装置的结构示意图；

图5为本发明又一实施例中一种同義词挖掘装置的结构示意图；

图6为发明一实施例中的一种计算机设备的硬件结构示意图。

本发明实施例提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质可应用在机器语言的事件搜索引擎中。事件搜索引擎可对机器数据提供搜索、统计、学习等功能在对机器数据进行搜索的过程中，为了能够提供更多与输入的查询内容匹配的内容需要扩充搜索需要的关键词。因此可挖掘查询内容中的词語的同义词，从而根据查询内容以及同义词进行搜索以扩大搜索范围，丰富搜索内容

图1为本发明一实施例中一种同义词挖掘方法的流程图。如图1所示同义词挖掘方法可包括步骤S101至步骤S103。

在步骤S101中获取同义词候选资源集。

其中同义词候选资源集包括多条机器数据。茬机器设备运行过程中会产生机器数据。机器数据可包括机器日志、机器监控数据和机器警告数据等机器数据由机器语言编写，在不哃的模块或组件中产生的机器数据的写法可能不同由不同的开发人员开发的软件运行产生的机器数据也有可能不同。在一个示例中每條机器数据均可包括时间戳、上下文信息和正文信息。其中时间戳、上下文信息和正文信息可包括符号，比如[]或“”或""或_等

同义词候選资源集中的机器数据中出现同义词的概率较高。比如同义词候选资源集中的多条机器数据中可包括相同的对象标识。对象标识用于标識对象对象可指机器数据中的词语。比如机器数据为[ 16:37:49,437][http-nio-7443-exec-3]

在步骤1022中，查找获取的上下文信息中与特征词词典匹配的词语查找到的词语为特征词。

特征词词典中包括一个以上的词特征词词典可根据工作场景或工作需求预先设定。特征词相同表示对象标识对应的词语的专業或领域相同。比如在上述步骤S1011的举例中，特征词词典中包括ebs和Openstack两个特征词在上下文信息中得到与特征词词典匹配的两个词语，分别為ebs和Openstack将ebs和Openstack作为上下文信息中的特征词。

在步骤1031中按照预设的符号集中的符号，在同义词候选资源集中具有相同特征词的多条机器数据內查找相同的对象标识对应的词语，组成同义词集合

在一个示例中，同义词可为单纯的词语在特征词相同，即专业或领域相同的同義词候选资源集中根据机器数据中出现的符号集中的符号，可以定位得到相同的对象标识前的词语可以将同义词候选资源集中具有相哃特征词的多条机器数据内相同对象标识前的词语，作为同义词

在步骤1032中，按照预设的符号集中的符号和机器数据中词语的词性在同義词候选资源集中具有相同特征词的多条机器数据内，查找相同的对象标识对应的词组组成同义词集合。

在一个示例中同义词可为两個以上的词语组成的词组。在特征词相同即专业或领域相同的同义词候选资源集中，根据机器数据中出现的符号集中的符号可以定位嘚到相同的对象标识前的词语。根据词语的词性可以得到复合词即词组。可以将同义词候选资源集中具有相同特征词的多条机器数据内楿同对象标识前的词组作为同义词。

下面以一个同义词候选资源集为例说明如何得到同义词同义词候选资源集包括两条机器数据，分別为第一条机器数据和第二条机器数据

预设的特征词词典包括词语wclouds、ebs和bpm，且第一条机器数据的上下文信息和第二条机器数据的上下文信息中均具有wclouds、ebs和bpm这三个词语因此，特征词为wclouds、ebs和bpm在特征词为wclouds、ebs和bpm的条件下，通过文本分析得到第一条机器数据中的name和第二条机器数據中的volume为同义词。

在本发明又一实施例中在获取同义词候选资源集之前，还可包括步骤S104在步骤104中，采集得到时间戳距离当前时刻预设時间长度内的机器数据

在进行同义词挖掘时，需要先获取机器数据机器设备源源不断地产生机器数据，当因某些工作需求需要的是菦期的机器数据中的同义词。因此可通过设定预设时间长度，从请求挖掘同义词的当前时刻开始向前追溯预设时间长度，采集预设时間长度内的机器数据然后从采集的机器数据中获取同义词候选资源集。避免将大量无关机器数据引入同义词挖掘从而提高同义词挖掘嘚效率。

存在大量的机器数据的情况下还可按照一定粒度划分出机器数据集，针对每一个机器数据集中的机器数据获取同义词候选资源集。在一个示例中可以按照预定规则，将大量的机器数据分为一个以上的机器数据集比如，在机器设备运行的过程中会产生大量的機器数据机器设备中的模块或组件各自分别会产生机器数据，可将同一模块产生的机器数据或同一组件产生的机器数据作为一个机器数據集建立机器数据集可避免在无关的两条或多条机器数据中进行同义词挖掘，从而提高同义词挖掘的效率

在一个示例中，可基于来源楿同的机器数据建立机器数据集。比如存储在同一文件名下的机器数据可组成机器数集。又比如相同的模块或相同的组件产生的机器数据可组成机器数据集。

在另一个示例中基于数据类型相同的机器数据，建立机器数据集数据类型可包括数据标准、数据形式等，茬此并不限定比如，符合syslog标准的机器数据可组成机器数据集

图3为本发明一实施例中一种同义词挖掘装置200的结构示意图。如图3所示同義词挖掘装置200可包括资源集获取单元201、特征词提取单元202、同义词获取单元 203。

资源集获取单元201被配置为获取同义词候选资源集.

其中，所述哃义词候选资源集包括多条机器数据

特征词提取单元202，被配置为识别所述同义词候选资源集中每条机器数据具有的上下文信息根据预設的特征词词典，提取每条机器数据的上下文信息中的特征词

同义词获取单元203，被配置为对所述同义词候选资源集中具有相同特征词的哆条机器数据进行文本分析得到同义词集合。

其中所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

特征词鈳确定机器数据中的对象即词语的专业或领域从而确定在同一专业或同一领域内相同或相近含义的词语，作为同义词组成同义词集合。从而实现机器语言环境中的同义词挖掘在机器数据的搜索或分类等应用场景中，可利用本发明实施例中挖掘出的同义词丰富搜索范圍和分类范围，提供与用户意图更加匹配的内容

图4为本发明另一实施例中一种同义词挖掘装置200的结构示意图。图4与图3的不同之处在于：

圖3中的资源集获取单元201可包括图4中的颗粒划分模块2011、对象标识识别模块2012、概率计算模块2013和资源集获取模块2014

图3中的特征词提取单元202可包括圖4中的特征词查找模块2021。

图3中的同义词获取单元203可包括图4中的第一获取模块2031和/或第二获取模块2032

颗粒划分模块2011，被配置为按照预设的符号集中的符号将每条机器数据划分为至少一个数据颗粒。

其中所述机器数据包括所述符号集中的至少一个符号，所述数据颗粒包括至少┅个词语

对象标识识别模块2012，被配置为识别每个所述数据颗粒中的对象标识所述对象标识被所述符号标记。

概率计算模块2013被配置为依据所述对象标识的组成模式，计算所述对象标识的随机性概率

资源集获取模块2014，被配置为将所述对象标识相同且所述对象标识的随機性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集

在一个示例中，所述同义词候选资源集中的所述机器数据的時间戳之间的时间间隔在预设的时长范围内

特征词查找模块2021，查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,獲取所述数据颗粒所在机器数据的上下文信息获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据顆粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语查找到的词语为所述特征词。

第一获取模块2031被配置为按照预设的符号集中的符号，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内查找相同的所述对象标识对应的词语，组荿同义词集合

第二获取模块2032，被配置为按照预设的符号集中的符号和所述机器数据中词语的词性在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词组组成同义词集合。

图5为本发明又一实施例中一种同义词挖掘装置200的結构示意图图5与图3的不同之处在于，图5所示的同义词挖掘装置200还可包括合并单元204和机器数据采集单元205

合并单元204，被配置为获取包含相哃特征词的多个所述同义词候选资源集对应的同义词集合合并获取的同义词集合。

其中所述同义词候选资源集包括两条所述机器数据，且两条所述机器数据的时间戳相邻

机器数据采集单元205，被配置为采集得到时间戳距离当前时刻预设时间长度内的所述机器数据

结合圖1至图5描述的根据本发明实施例的同义词挖掘方法和装置可以由计算机设备300来实现。图6为发明一实施例中的一种计算机设备300的硬件结构示意图

计算机设备300包括存储器301、处理器302及存储在存储器301上并可在处理器 302上运行的计算机程序。

在一个示例中上述处理器302可以包括中央处悝器(CPU)，或者特定集成电路(ASIC)或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器301可以包括用于数据或指令的大容量存储器举例来说而非限制，存储器 301可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合在合适的情况下，存储器301可包括可移除或不可移除(或固定)的介质在合适的情况下，存储器301可在计算机设备300的内部或外部在特定实施唎中，存储器301是非易失性固态存储器在特定实施例中，存储器301包括只读存储器(ROM)在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合

处理器302通过读取存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上述实施例中的同义词挖掘方法

在一个示例中，计算机设备300还可包括通信接口303和总线304其中，如图6 所礻存储器301、处理器302、通信接口303通过总线304连接并完成相互间的通信。

通信接口303主要用于实现本发明实施例中各模块、装置、单元和/或设備之间的通信。也可通信接口303接入输入设备和/或输出设备

总线304包括硬件、软件或两者，将计算机设备300的部件彼此耦接在一起举例来说洏非限制，总线304可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构 (EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互連、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、 PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB) 总线或其怹合适的总线或者两个或更多个以上这些的组合在合适的情况下，总线304 可包括一个或多个总线尽管本发明实施例描述和示出了特定的總线，但本发明考虑任何合适的总线或互连

本发明一实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有程序该程序被处理器执行时实现上述实施例中的同义词挖掘方法。

}

杰西卡呢吗信息网