如何系统地学习数据挖掘3000字论文

点击联系发帖人 时间：2017-07-09 01:51

关于数据挖掘的论文

Java开发想尝试大数据和数据挖掘，如何规划学习？Java开发想尝试大数据和数据挖掘，如何规划学习？小猩世界百家号大数据火了几年了，但是今年好像进入了全民大数据时代，本着对科学的钻(zhun)研(bei)精(tiao)神(cao)，我在17年年初开始自学大数据，后经过系统全面学习，于这个月跳槽到现任公司。现在已经从之前的java后端开发正式转大数据开发，项目数据50T，日均数据增长20G左右，大概是需求问题吧，工资待遇较上一份翻了一倍（这是重点）。当然，我的分享不是能让各位升职加薪跳槽，只是对于技术人来说，技多不压身，以下为个人经验分享，不喜勿喷。以上为背景，下面我要开始我的表(ZHUANG)演(B)了：主要讲一下几点：一、大数据的职业规划方向二、大数据开发工程师需get技能三、如何系统的学习四、资料分享（视频、电子书、面试资料、项目源码）一、大数据的职业规划方向学习目的在于工作上的运用，以下为大数据方向的三个岗位，附上薪资待遇。1. 大数据售前工程师、大数据运维工程师（HCNA）10-15K2. 大数据开发工程师、大数据平台开发工程师（HCNP）15K-20K3. 大数据科学家、大数据架构师、大数据高级分析师（HCIE）25K-50K4. 其他（数据挖掘工程师、仓库采集开发工程师）12k-25K二、大数据开发工程师需get技能附上一份比较权威的大数据工程师技能图（图侵删）（图侵删）总结如下:必须技能10条:01.Linux 基本操作02.python&爬虫介绍03.hadoop分布式集中04.离线数据处理05.实时数据处理06.ETL与环境相关07.大数据应用与数据挖掘08.java高级（虚拟机、并发）09..HBase（JavaAPI操作+Phoenix ）10. Kafka11. Spark (Core+sparksql+Spark streaming ）12.CDH集群这张图对技术的显示更清晰（图侵删）三、如何系统的学习我本人是17年年初开始自学，自学了Linux 基本操作，这个很好学，领悟能力还可以就看书，不行就看视频重复看，大概一周可以搞定。然后就学习了CDH集群搭建，Python爬虫，我是java后端开发，这些网上找点资料看点书，很好学，上手也很快。这里重点推荐《深入理解Java虚拟机》、《Java高并发实战》必看书籍。接着开始学hadoop，hbase，hive，scala，spark，python、kafka这些点，啃到hive的时候，人就有点晕了，按理说编程语言有相通性的，我买了相关书籍《HBase权威指南》《Hive开发指南》《快学Scala》《Spark 快速大数据分析》，平时也喜欢逛各种大牛的博客，我不知道自学的人是否有跟我一样的困扰，书的内容感觉可以看懂，但是看完也不知道怎么用，然后也不会将所学的这些东西进行拼装和运用。然后我就停留在这一阶段，停了1个多月的学习计划，后面公司同事离职跳槽跟女友吵架分手等等遇到一些事情，我又想起还是要规划下自己的职业生涯，顺手报了个网校，遇到了还算不错的老师，这个学习周期3个月就算结业了。计划是想熬完过年再跳，跳槽的人都知道的，金三银四~这里提醒一下，如果你觉得自己看书效率太慢，或者容易思维不通的情况，你可以在网上搜集一些课程，跟着课程走也OK 。这个完全根据自己情况决定。如果看书效率不高就很网课，相反的话就自己看书。自制力不强的人就没什么好推荐的，你什么都不适合学。以上反正我把需要掌握和学习的知识点告诉你了，你自己有时间和精力的话，就对应的去研究就好。四、资料分享（视频、电子书、面试资料、项目源码）我承认很想把我报名的网校视频都分享出来，但是如今学校都变态，我交了钱都只能2台计算机上能看，所有视频都加密了。。。分享不出来所以只能把我整理的一部分资料给你们，切记拉到最后。。。最后但却很重要一点:时刻关注技术新动向，持续学习和提升自我。本文由百家号作者上传并发布，百家号仅提供信息发布平台。文章仅代表作者个人观点，不代表百度立场。未经作者许可，不得转载。小猩世界百家号最近更新：简介:带你了解世界的另一面作者最新文章相关文章随着数据科学在发展中大放异彩，数据挖掘、进入了越来越多人的视野。而对于很多人来说，诸如机器学习之类的名次听起来是神乎其技，但其真正的内涵却不为一般人所知。
　　特别是对于从事数据科学领域的人来说，如何向外行人解释自己所从事的工作几乎是一个超级难题。那么到底什么是机器学习，如何用通俗易懂的语言来解释?我们通过以下几重境界来解释。
　　一、专业理论型
　　百科定义+专业术语，让人听起来不明觉厉，实则一脸懵逼
　　机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
　　它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。
　　机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
　　机器学习从本质上来说是一种学习结构，整个结构包括环境、知识库和执行三个部分。在整个过程中，环境向系统提供信息，系统利用这些信息修改知识库，以增进系统执行部分完成任务的效能，执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分，从而继续改进知识库。
　　在具体的应用中，环境、知识和执行部分决定了具体的工作内容，学习部分所需要解决的问题完全由上述三部分确定。简单来说，机器学习就是计算机利用已有的数据，得出了某种模型，并利用此模型预测未来的一种方法，这与人脑的思考方式非常类似。
　　二、以小见大型
　　以某种机器学习具体的案例来说明，让人恍然大悟
　　一开始我们先来看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方说，小球是不是更易集中在某一特定区域?是不是故意避开某些点位?它们是均匀分布于整个空间吗?
　　但是房间一片漆黑，我们什么也看不见。于是我们找来了一部带闪光灯的照相机，想把漂浮在整个房间的小球都拍下来。照片犹如下图一样：
　　就算小球的位置之间确实存在某种联系，从这张照片上我们也看不出个所以然。看上去小球就像是均匀分布的一样。所以我们尝试着换了下位置，从新的角度拍下了第二张照片。
　　照片上的小球看起来还是随机分布的，没有任何规律。让我们换个高点的角度试试看。
　　呃，还是看不出有什么规律来。那我们最后再换个低点的角度试一次。
　　啊哈，这次有点意思了：看起来小球集中分布在靠近屋顶和地面的两个区域，中间这段没有一个小球。因此，为了发现这个规律，我们在拍照时就必须找到一个“好”的角度。如果角度不对，那我们永远都不可能找出任何规律。
　　在上面这个例子中，我们想说的其实是三维数据点。每个小球的位置都可以由3个数字来表示，每个数字分别代表它在XYZ三条轴上的位置。在实际的电脑运算中，数据点的位置会由更多的数字组合来表示。
　　比如医院病人的病历可能会包含500组数字，包括他的生日年月日、身高、体重、血压、最近一次的看病记录、胆固醇指标等等。我们会想要搞清楚不同病人的数据点之间是否存在某种规律，如心脏病人的数据点是否会集中分布?如果数据点确实会集中分布，当我们发现新入院病人的数据点也出现同样的趋势时，我们就可以推断这位病人很可能犯心脏病。当然，实际操作起来肯定不会如此简单。
　　一个人是不可能用肉眼看到这些数据点的。人怎么可能分得清500个维度呢?就像在上面那个例子中，没有人能看得清“黑屋”中小球，我们也同样看不见500个维度中的那些数据点。我们可以用二维图片来展示位于三维空间中的数据点，用同样的方法，我们也可以更低维度的“照片”来表现拥有500个维度的数据点。
　　只有从合适的“角度”拍下“照片”，我们才可以从中找出不同数据点之间的规律，不然将很难有所发现。这就是人们所说的如何从“大数据”中“发现见解”。
　　三、晓之以情，动之以理
　　这样来说，你家宠物应该都可以听明白了
　　买点芒果去
　　假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑，然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然，你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱，而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?
　　你记得奶奶和你说过，嫩黄的芒果比暗黄的甜。所以你有了一个简单的判断标准：只挑嫩黄的芒果。你检查各个芒果的颜色，挑了些嫩黄的，买单，走人，爽不?
　　可事实没那么简单。
　　生活是很复杂的
　　你回到家，开始慢慢品尝你的芒果。你发现有一些芒果没有想的那么甜。你焦虑了。显然，奶奶的智慧不够啊。挑芒果可不是看看颜色那么简答的。
　　经过深思熟虑(并且尝了各种不同类型的芒果)，你发现那些大个儿的，嫩黄的芒果绝对是甜的，而小个儿，嫩黄的芒果，只有一半的时候是甜的(比如你买了100个嫩黄的芒果，50个比较大，50个比较小，那么你会发现50个大个儿的芒果是甜的，而50个小个儿的芒果，平均只有25个是甜的)。
　　你对自己的发现非常开心，下次去买芒果的时候你就将这些规则牢牢的记在心里。但是下次再来到市集的时候，你发现你最喜欢的那家芒果摊搬出了镇子。于是你决定从其它卖芒果的小贩那里购买芒果，但是这位小贩的芒果和之前那位产地不同。现在，你突然发现你之前学到的挑芒果办法(大个儿的嫩黄的芒果最甜)又行不通了。你得从头再学过。你在那位小贩那里，品尝了各类芒果，你发现在这里，小个儿、暗黄的芒果其实才是最甜的。
　　没多久，你在其它城市的远房表妹来看你。你准备好好请她吃顿芒果。但是她说芒果甜不甜无所谓，她要的芒果一定要是最多汁的。于是，你又用你的方法品尝了各种芒果，发现比较软的芒果比较多汁。
　　之后，你搬去了其它国家。在那里，芒果吃起来和你家乡的味道完全不一样。你发现绿芒果其实比黄芒果好吃。
　　再接着，你娶了一位讨厌芒果的太太。她喜欢吃苹果。你得天天去买苹果。于是，你之前积累的那些挑芒果的经验一下子变的一文不值。你得用同样的方法，去学习苹果的各项物理属性和它的味道间的关系。你确实这样做了，因为你爱她。
　　有请计算机程序出场
　　现在想象一下，最近你正在写一个计算机程序帮你挑选芒果(或者苹果)。你会写下如下的规则：
　　if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的
　　if(软的): 芒果是多汁的
　　………………
　　你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果，而且确定他一定会买到你满意的芒果。
　　但是一旦在你的芒果实验中有了新的发现，你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。
　　如果问题越来越复杂，则你要针对所有的芒果类型，手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位(如果有这样的学位的话)。
　　可谁有那么多时间去做这事儿呢。
　　有请机器学习算法
　　机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习，它会让你的程序变得更“聪明”。
　　你从市场上的芒果里随机的抽取一定的样品(训练数据)，制作一张表格，上面记着每个芒果的物理属性，比如颜色，大小，形状，产地，卖家，等等。(这些称之为特征)。
　　还记录下这个芒果甜不甜，是否多汁，是否成熟(输出变量)。你将这些数据提供给一个机器学习算法(分类算法/回归算法)，然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。
　　下次你再去市集，只要测测那些芒果的特性(测试数据)，然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的，熟的，并且/还是多汁的。
　　该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则(例如，决策树)，或者更多涉及到的东西，但是基本上你就不需要担心这个了。
　　瞧，你现在可以满怀自信的去买芒果了，根本不用考虑那些挑选芒果的细节。更重要的是，你可以让你的算法随着时间越变越好(增强学习)，当它读进更多的训练数据，它就会更加准确，并且在做了错误的预测之后自我修正。但是最棒的地方在于，你可以用同样的算法去训练不同的模型，比如预测苹果质量的模型，桔子的，香蕉的，葡萄的，樱桃的，西瓜的，让所有你心爱的人开心：)
　　这，就是专属于你的，很炫酷吧！
　　摘自：DataCastle数据城堡
　　来源：紫数网
阅读(...) 评论()如何系统的学习 R 语言数据挖掘
作者 CDA 数据分析师
“虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看 svm 的数学证明，EM算法，凸优化… 感觉知识跳跃比较大, 是我微积分学的不好还是中间有什么好的教材补充一下,数据挖掘系统的学习过程是怎么样的,应该看那些书(中文最好)?“
——以上是一位咨询的学员像我们提出的疑问。和这位同学相似，很多同学在入门数据挖掘领域遭到了极大的阻力，也丧失了继续学习的兴趣。那么，正确入门数据挖掘领域的姿势是什么呢？
这是一个不太好回答的问题，管中窥豹，建议大家看一下以下的一些见解。
一、在学习数据挖掘之前你需要明了的几点：
1. 数据挖掘目前在中国的尚未流行开，犹如屠龙之技；
2. 据挖掘本身融合了统计学、数据库、机器学习、模式识别、知识发现等学科，并不是新的技术。
3. 数据挖掘之所以能够应用不是因为算法，算法是以前就有的。数据挖掘应用的原因是大数据和云计算。比如阿法狗的后台有上千台计算机同时运行神经网络算法；
4. 数据初期的准备工作，也称Data Warehousing。通常占整个数据挖掘项目工作量的70%左右。在前期你需要做大量的数据清洗和字段扩充的工作。数据挖掘和报告展现只占30%左右；
5. 数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）
二、目前国内的数据挖掘人员工作领域大致可分为三类。
1）数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告；
2）数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析；
3）科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
三、你自己的定位与学习。
基于以上一点的介绍，你大概可以明确你需要努力的方向。如果你不是致力于科研方向，那么你需要掌握如下的技能：
1. 需要理解主流机器学习算法的原理和应用。按照需要解决的问题，主要分为三大类，见下图：
2. 需要熟悉至少一门编程语言。如R，Python，SPSS Modeler，SAS，WEKA等。关于软件，有三个原则：只要能达到目标的软件就是好软件；你研究的领域啥软件好用就用啥软件；不要妄想用一个软件解决所有问题。
3. 需要理解数据库基本原理，能够熟练操作至少一种数据库，如Mysql，OracelDB2等。
4. 熟悉数据挖掘常见的运用场景。如客户生命周期管理、客户画像和客户分群、客户价值预测模型构建、推荐系统设计等。这些需要依托于不同行业。下图位CRM管理运用场景示例：
5. 经典图书推荐：《数据挖掘：概念与技术》、《数据挖掘导论》、《机器学习实战》、《数据库系统概论》、《R语言实战》
当然，如果你能够接触到真实的数据挖掘项目和实战，你的提升将会非常快。CDA数据分析研究院开设的R语言数据挖掘课程，将世界客户关系管理方面的领导者美库尔公司（Merkle Inc）在专业管理咨询方面的几十年的经验积累与CDA数据分析研究院的教学理念与方法相结合，归纳了在商业智能系统设计、客户画像、精准营销、生命周期价值管理等主题的课程，结合R语言进行项目实操。感兴趣的小伙伴们快来学习吧！
【课程信息】
北京&远程：6月03-04，10-11，17-18日（6天）
授课安排：现场班5900元，远程班4400元
(1) 授课方式：面授直播两种形式，中文多媒体互动式授课方式
(2) 授课时间：上午9:00-12:00，下午13:30-16:30，16:30-17:00(答疑)
(3) 学习期限：现场与视频结合，长期学习加练习答疑。
【报名流程】
1. 在线填写报名信息
2. 给予反馈，确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
【课程大纲】
第一阶段：[6.03]数据挖掘前沿与R语言
1.商业数据分析的本质
2.商业数据分析的阶段与行业运用
3.商业数据挖掘通用方法论
4.R语言基础
5.数据清洗方法
6.错误值、缺失值及噪声值处理
7.变量压缩
a.案例：贷款数据的数据清洗
第二阶段：[6.04]回归建模分析方法
1.线性回归建模与检验
2.回归模型的模型评估
3.正则化方法
4.逻辑回归介绍
5.分类模型的模型评估
6.极大似然法估计
7.模型评估方法
a.案例：信用卡客户价值预测模型
b.案例：汽车贷款初始评分模型
第三阶段：[6.10]决策树与神经网络建模
1.使用决策树进行流失预警模型
2.决策树建模方法
3.决策树模型修剪
4.使用神经网络进行营销响应预测
5.感知器与BP神经网络
6.径向基神经网络
7.深度学习及常用框架（Caffe、Tensorflow）
a.案例：电子产品客户购买决策模型
b.案例：信贷产品行为评分模型
第四阶段：[6.11]分类器与组合模型
1.KNN最近领域建模
2.贝叶斯网络
3.高级分类器：支持向量机( SVM)
4.封装与提升
5.随机森林与梯度树
a.案例：婚恋网站客户成功约会预测
b.案例：网站虚假注册客户识别
c.案例：客户精准营销案例
第五阶段：[6.17]客户与市场分析方法
1.理解客户画像和客户分群
2.客户特征提取与FRM方法
3.层次聚类(Ward、Birch)
4.基于划分的聚类(K-means)
5.谱聚类方法
6.基于密度的聚类(DBSCAN)
a.案例：某人寿保险公司客户分群
b.案例：邮轮公司客户分群
第六阶段：[6.18]推荐算法提升客户价值
1.Apriori算法、FP-growth算法
2.顺贯模型
3.推荐系统设计
4.模型生命周期
5.数据挖掘体系建设
a.案例：电商交叉销售案例
b.案例：金融机构交叉销售案例
CDA数据分析师讲师/北京大学商学博士。曾就职于亚信科技商业运营咨询部、方正国际金融事业部、德勤管理咨询信息技术系统咨询部，多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
美库尔公司分析经理/中国科学技术大学统计学硕士毕业。多年数据分析和挖掘的工作经历，精通SAS和R，对各种机器学习算法和统计模型都有深入研究，负责过保险、医药、零售以及电商等多个行业的数据分析项目，在客户画像、用户分群、精确营销、销售预测、营销组合优化等领域有丰富经验。
1.全日制学生及CDA LEVEL Ⅰ老学员8折优惠；
2.三人及以上报名9折优惠，五人及以上8折优惠；
3.CDA LEVEL Ⅰ等级资格证书持有者立省1000元；
4.同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。
电话：010-
手机：（陈老师）QQ：
（田老师）QQ：
—— Join Learn!
责任编辑：
声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。
今日搜狐热点登录中国统计网
手机验证码登录
账号密码登录
{{vctext}}
{{countDown}} s
你还可以用第三方账号登录
微信账号登录
新浪微博登录
&QQ账号登录
>还未注册中国统计网账号？
>点击下载中国统计网移动应用
{{codeTime ? codeTime : '获取验证码'}}
>已拥有中国统计网账号？
>点击下载中国统计网移动应用
如何系统地学习数据挖掘？
学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到，这样会失去你的核心竞争力。
看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉知识跳跃比较大,那么数据挖掘系统的学习过程是怎么样?
磨刀不误砍柴工。在学习数据挖掘之前应该明白几点：
数据挖掘目前在中国的尚未流行开，犹如屠龙之技。
数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
数据挖掘本身融合了统计学、数据库和机器学习等学科，并不是新的技术。
数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）
数据挖掘适用于传统的BI（报表、OLAP等）无法支持的领域。
数据挖掘项目通常需要重复一些毫无技术含量的工作。
如果你阅读了以上内容觉得可以接受，那么继续往下看。
学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到，这样会失去你的核心竞争力。
一、目前国内的数据挖掘人员工作领域大致可分为三类。
数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。
数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
二、说说各工作领域需要掌握的技能。&
(1)数据分析师
需要有深厚的数理统计基础，但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘（或统计分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解，以及一定的数据敏感性培养。
经典图书推荐：《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
(2)数据挖掘工程师
需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如（Python、C、C++、Java、Delphi等）。
需要理解数据库原理，能够熟练操作至少一种数据库（Mysql、SQL、DB2、Oracle等），能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐：《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3)科学研究方向
需要深入学习数据挖掘的理论基础，包括关联规则挖掘（Apriori和FPTree）、分类算法（C4.5、KNN、Logistic Regression、SVM等) 、聚类算法（Kmeans、Spectral Clustering）。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing，因为R软件是完全免费的，而且开放的社区环境提供多种附加工具包支持，更适合进行统计计算分析研究。虽然目前在国内流行度不高，但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效，例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；还有数据挖掘相关领域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献自己的代码，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具体可以在SourceForge或GitHub.上发现更多好玩的项目）。
经典图书推荐：《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》，英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行业数据挖掘工程师的工作感受。
真正从数据挖掘项目实践的角度讲，沟通能力对挖掘的兴趣爱好是最重要的，有了爱好才可以愿意钻研，有了不错的沟通能力，才可以正确理解业务问题，才能正确把业务问题转化成挖掘问题，才可以在相关不同专业人才之间清楚表达你的意图和想法，取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力，是很难学到的；而其他的相关专业知识谁都可以学，算不上个人发展的核心竞争力。
说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了，对不起，我没有别的意思，你们的专业对于数据挖掘都很重要，大家本来就是一个整体的，但是作为单独一个个体的人来说，精力有限，时间有限，不可能这些领域都能掌握，在这种情况下，选择最重要的核心，我想应该是数据挖掘技能和相关业务能力吧（从另外的一个极端的例子，我们可以看，比如一个迷你型的挖掘项目，一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库，但是简单的Excel就足以胜任高打6万个样本的数据处理；他虽然不懂专业的展示展现技能，但是只要他自己看的懂就行了，这就无需什么展示展现；前面说过，统计技能是应该掌握的，这对一个人的迷你项目很重要；他虽然不懂编程，但是专业挖掘工具和挖掘技能足够让他操练的；这样在迷你项目中，一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了，甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路，试问就是这个迷你项目，单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家，都是无法胜任的）。这从另一个方面也说明了为什么沟通能力的重要，这些个完全不同的专业领域，想要有效有机地整合在一起进行数据挖掘项目实践，你说没有好的沟通能力行吗？
数据挖掘能力只能在项目实践的熔炉中提升、升华，所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目，刚开始不懂不要紧，越不懂越知道应该学什么，才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的，但是从网上的一些论坛看，很多都是纸上谈兵，这样很浪费时间，很没有效率。
另外现在国内关于数据挖掘的概念都很混乱，很多BI只是局限在报表的展示和简单的统计分析，却也号称是数据挖掘；另一方面，国内真正规模化实施数据挖掘的行业是屈指可数（银行、保险公司、移动通讯），其他行业的应用就只能算是小规模的，比如很多大学都有些相关的挖掘课题、挖掘项目，但都比较分散，而且都是处于摸索阶段，但是我相信数据挖掘在中国一定是好的前景，因为这是历史发展的必然。
讲到移动方面的实践案例，如果你是来自移动的话，你一定知道国内有家叫华院分析的公司（申明，我跟这家公司没有任何关系，我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司，觉得华院还不错，比很多徒有虚名的大公司来得更实际），他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目，你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家，自己不懂不要紧，一边自学一边开始拓展客户，到现在在中国的移动通讯市场全面开花，的确佩服佩服呀。他们最开始都是用EXCEL处理数据，用肉眼比较选择比较不同的模型，你可以想象这其中的艰难吧。
至于移动通讯的具体的数据挖掘的应用，那太多了，比如不同话费套餐的制订、客户流失模型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型，太多了，记住，从客户的需求出发，从实践中的问题出发，移动中可以发现太多的挖掘项目。最后告诉你一个秘密，当你数据挖掘能力提升到一定程度时，你会发现无论什么行业，其实数据挖掘的应用有大部分是重合的相似的，这样你会觉得更轻松。
收藏 | {{markNum}}点赞 | {{apprationNum}}
{{authorDeatil.nick_name}}
{{authorDeatil.introduction}}
{{authorDeatil.articleNum}}
{{authorDeatil.pageviewNum}}
关注微信公众号
给我们发邮件
iOS版下载&|
Android版下载}

杰西卡呢吗信息网