矩阵问题运算的问题

    在自然语言处理中最常见的两個分类问题分别是:将文本按主题归类(比如将所有介绍奥运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种运动的項目名称归成体育一类)。    

    新闻分类乃至各种分类问题其实是一个聚类问题关键是计算两篇新闻的相似度。为了完成这个过程我们要將新闻变成代表它们内容的实词,然后在变成一组数具体说是向量,最后求出这两个问题的夹角

    在矩阵问题A中,每一行对应一篇文章每一列对应一个词。其中第 i 行、第 j 列的元素,是字典中第 j 个词在第 i 篇文章中出现的加权词频(比如用词的TF-IDF值)共5000亿个元素。

    奇异值汾解就是把大矩阵问题分解成三个小矩阵问题相乘。共1.5亿个元素不到原来的三千分之一。

    矩阵问题X是对文本的分类结果每一行对应┅篇文本,每一列对应一个主题这一行中每个元素表示这篇文档在不同主题中的相关性。

    中间矩阵问题B表示文章的类和词的类之间的相關性

    矩阵问题Y是对词进行分类的一个结果,它的每一列表示一个词每一行表示一个语义相近的词类,或者简称为语义类这一列的每┅个非零元素表示这个词在每个语义类中的重要性(或者说相关性),数值越大越相关

    因此,只要对关联矩阵问题A进行一次奇异值分解就可以同时完成近义词分类和文章的分类。另外还能得到每个主题和每个词的语义类之间的相关性。

2 奇异值分解的方法和应用场景

    首先将矩阵问题A变换成一个双对角矩阵问题。

    第二步将双对角矩阵问题变换成奇异值分解的三个矩阵问题。

}

我要回帖

更多关于 矩阵问题 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信