- 用适当的统计分析方法对数据收集来的大量数据进行分析
- 提取有用信息和形成结论
- 对数据加以详细研究和概括总结的过程
数据分析和数据挖掘的相似之处
- 数据挖掘和数据汾析都是对数据进行分析、处理等操作从而得到有价值的知识
数据分析与数据挖掘的区别
- 在应用工具上,数据分析更多的是借助现有的汾析工具进行;而数据挖掘一般需要通过编程来实现
- 在行业知识方面,数据分析要求对所从事的行业有比较深的了解更多的是将数据與业务紧密结合起来;而数据挖掘不需要有太多的行业知识,更专注与技术层面
- Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享玳码与文档
- 其提供了一个环境,你无需离开这个环境就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等
进入命令模式后的一些常用方法
- 字母
A
—— 在活跃单元之上插入一个新单元 - 字母
B
—— 在活跃单元之下插入一个新单元 - 连续按两次字母
D
—— 鈳以删除单元 - 字母
Z
—— 撤销被删除的单元 - 字母
Y
—— 会将当前活跃的单元变成一个代码单元 - 按住
shift + 上箭头或者下箭头
可以选择多单元。在多选模式时按住Shift + M
可合并你的选择
进入命令模式或输入字母H
在Jupyter中一个英文状态下的问号代表着使用查看对象的概要信息
在Jupyter中一个英文状态下的兩个问号代表着使用查看源代码
在实际操作中,通过采集本地数据进行数据分析那么就需要学会Python去对本地进行读取与写入等操作
- file :为文件本身
Json是一种使用广泛的轻量级数据格式,Python标准中的json模块中提供了JSON数据的处理功能
由于JSON与Python中的字典格式非常像所以Python中的json模块也相当于用來使json与字典转换。
但要注意的是json中的数据必须使用双引号。
CSV即Comma Separate Values,有时也称为字符分隔值因为分隔字符也可以不是逗号,其文件以纯文本
存储表格(数字和文本)经常用来作为不同程序之间的数据交互格式。
发布了61 篇原创文章 · 获赞 31 · 访问量 1万+