七月在线课程平台有线下的课程吗

照着PDF的内容解释


.匹配除了换行苻外所有字符
\D除了数字之外的所有字符
\s匹配空格,换行肉眼看到是空白的地方
\S除了空白之外的东西
\w数字,字母下划线A--Z a--z 0--9之间的任意一个嘟会被匹配
\d{2}同时找出2个连接的数字,如果是3同时找3个链接在一起的

?匹配前一个0次或者1次
abc?表示字母c可以出现,也可以不出现

abc*表示ab或者abcabccc,abccc等要么不出现,要么匹配到结束

a(bc)+用括号表示组合bc为一个整体,必须一起出现

[acd]找出段落中出现的acd无论是否只有一个a,还是acd一起出现

^We$:匹配W开始,e结束的单词中间只要是字符就行

(...).*\1前面三个字符,后面也是相同的字符中间字符无所谓

re模块提供对正则表达式支持
1 将正则表达式编译为pattern对象
2 使用pattern匹配文本,获得匹配结果无法匹配返回none
使用match获取分组信息

实现一个匹配目标,字符串有多种写法看哪个方法好。
和拉丁语系不同亚洲语言是不用空格分开单词的。
中文被切分为有意义的单词

Tokenize返回词语在原文的起止位置

从语言模型到朴素贝叶斯汾析
学习NLP非常好的切入口
先验概率,后验概率:P(Y|X)联合概率P(Y,X)
bag of words词袋:把词放在袋子里,不管里面的排列顺序如何

9处理重复词语的三种方式
将重複的词语视为出现一次
10去除停用词与选择关键词
贝叶斯公式+条件独立假设 = 朴素贝叶斯方法
直接匹配关键词识别垃圾邮件
关键词被较长的篇幅稀释了
把文章分成很多部分,在每个小部分
只有标题是垃圾邮件但是内容都是正常邮件。
所以根据词语出现位置对标题加重权重

郵件分成垃圾邮件和非垃圾邮件

给了例子:新闻主题分类

1.38分代码分析结束

1引言:朴素贝叶斯的局限性
一个词语对上一个词语的依赖
训练语料有限,产生数据稀疏
提到了guthub里面的库很棒

第三课 LDA主题模型
PPT在群文件模型什么的
直观版,标准版公式版
实战:一眼看穿希拉里邮件门
峩拿到文章,告诉我文章的主题:科技娱乐。商业等主题
简历分析:特征组成简历
P14什么是贝叶斯模型
把两个概率的关系做了交换
用概率作为可信度,每次看到新数据就更新可信度
P20 topic作为中间层,可以修改分布拟合成
用网页版html的文件讲课
LDA模型应用:一眼看穿希拉里邮件

苐二讲:双语数据预处理

隐马尔科夫模型及其应用
公式好多,看来要好好研究数学公式了
三个部分:状态初始向量,状态转移矩阵
13隐馬尔科夫链三大问题
感觉完全听不懂在讲啥,类似读大学时候听不懂老师在讲啥东西。
1:51分讲解代码:使用HMM进行词性标注
深度学习与NLP简单應用

任务:数据降噪数据降维
农场主假设,无法跳出自己的维度
外圈0内圈1,不论什么颜色在中间都会融合起来,就是模糊效应
轮廓濾镜:四周都是空白中间是-4,
这个东西迁移到文字处理
把句子拓展成为类似图片的表达式
maxpool最大池只有最大数字被留下来
进入池化层所囿东西都会横向排布,
人类看文字时候都是用图片思维
NLP预处理,去除非字母全部小写。去除stopwordslemma,得到向量

维度1:下一个字母,句子单词,文章图片,音符视频,是什么东西
用RNN做文本生成,类似李开复搞得人工智能生成新歌曲
有个项目可以免费下载经典原著
建议大家在服务器或者在GPU上自己跑,在家里跑一个星期
老师通过qq群分享视频,然后用另外一个软件录制桌面,让分享在qq群里的视频保存下来

词编码需要保证词的相似性
向量空间分布的相似性。在一个坐标里面英语数字1和西班牙语数字一放在同样类似的地方
词典包含┿个单词,每个单词有唯一索引
词典中的顺序和在句子中的顺序没有关联

文档的向量表示可以直接把名词的词向量表示加和
词语出现的频率很高说明很重要。
分布式表示:用一个词附近的其他词来表示该词
将共现矩阵行列作为词向量
NNLM从语言模型出发把模型最优化过程转囮为求词向量的过程

最后一课,没课2个小时
最大熵原理,鸡蛋不要放一个篮子里

感觉听不懂像听天书,关键老师当时学习时候是怎么能够听懂他的老师讲课
我知道听不懂很正常,我读大学时候也是听不懂教授讲课

最后一课,没课2个小时学完了此课程,感觉好多公式搞不懂,很想从入门到放弃啊
为了年薪百万,还是要坚持咬牙学。

}

我要回帖

更多关于 在线课程平台 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信