?很多机器学习的任务都是通过將节点与关系嵌入并计算三元组置信度得分,然后最大化正例的得分得到嵌入向量但究竟哪一部分对最终的得分起作用是难以解释的,本文模型有个三个模块分别是两个agent和 judge,对于待查询三元组:q=(sq?,pq?,oq?)两个agent分别寻找证据链证明此三元组为True和False,并有Judge整合所有证据得箌最终结果。(听起来有点像GAN但看下去会发现并不是)
et(i)?为第i个agent在t时刻查询的位置,则目前的状态可记为:St(i)?=(et(i)?,q)出发所有可能到达的節点集合(即et(i)?的邻居集),记做
? 用LSTM网络对上一步的信息进行編码:
? 根据上一步编码的信息和这一步待选的行动空间计算每个行动的分数作为新行动的选择策略:
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。