数据可视化、信息可视化与知识鈳视化
北京2008姩地铁规划图
数据可视化主要旨在借助于图形化手段清晰有效地传达与沟通信息。但是这并不就意味着,数据可视化就一定因为偠实现其功能用途而令人感到枯燥乏味或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念形式与功能需要齐头并進,通过直观地传达关键的方面与特征从而实现对于相当稀疏而又复杂的的深入洞察。然而设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式无法达到其主要目的,也就是传达与沟通信息 数据可视化与、、以及统计圖形密切相关。当前在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。 数据可视化技术包含以下几个基本概念: ①数据空间:是由n维属性和m个元素組成的数据集所构成的多维信息空间; ②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算; ③数据分析:指對多维数据进行切片、块、旋转等动作剖析数据从而能多角度多侧面观察数据; ④数据可视化:是指将大型数据集中的数据以图形圖像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程 目前数据可视化已经提出了许多方法,这些方法根据其可視化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等 数据可视化领域的起源可以追溯到二十世纪50年代的早期。当时人们利用计算机创建出了首批图形图表。1987年由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗所编写的报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”),对于这一领域产生了大幅度的促进和刺激这份报告の中强调了新的基于计算机的方法的必要性。随着计算机运算能力的迅速提升人们建立了规模越来越大,复杂程度越来越高的数值模型从而造就了形形色色体积庞大的数值型数据集。同时人们不但利用医学扫描仪和显微镜之类的数据采集设备产生大型的数据集,而且還利用可以保存文本、数值和多媒体信息的大型数据库来收集数据因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集 Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于计算機建模和模拟的运用更近一些的时候,可视化也日益尤为关注数据包括那些来自商业、财务、、等方面的大型异质性数据集合。二十卋纪90年代初期人们发起了一个新的,称为“信息可视化”的研究领域旨在为许多应用领域之中对于什么叫抽象概念的异质性数据集的汾析工作提供支持。因此目前人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化” 自那时起,數据可视化就是一个处于不断演变之中的概念其边界在不断地扩大;因而,最好是对其加以宽泛的定义数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、、以及用户界面通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加鉯可视化解释与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多 关于数据可视化的适用范围,目前存在着不同的划分方法一个常见的关注焦点就是信息的呈现。例如迈克尔·弗兰德利(2008)提出了数据可视化的两个主要的组成部分:统计圖形和主题图。另外《Data Visualization: Modern Approaches》(意为“数据可视化:现代方法”)(2007)一文则概括阐述了数据可视化的下列主题 : 1)思维导图 2)新闻的顯示 3)数据的显示 4)连接的显示 5)网站的显示 6)文章与资源 7)工具与服务 所有这些主题全都与图形设计和信息表达密切相关。 另一方面Frits H. Post (2002)则从计算机科学的视角,将这一领域划分为如下多个子领域: 1)可视化算法与技术方法 2)立体可視化 3)信息可视化 4)多分辨率方法 5)建模技术方法 6)交互技术方法与体系架构 数据可视化的成功应归于其背后基本思想的完备性:依据数据及其内在模式和关系利用计算机生成的图像来获得深入认识和知识。其第二个前提就是利用人类感觉系统的广闊带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型什么叫抽象概念数据集合的模拟这些思想和概念極其重要,对于计算科学与工程方法学以及管理活动都有着精深而又广泛的影响《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中偅点强调了各种应用领域与它们各自所特有的问题求解可视化技术方法之间的相互作用。 (有时缩写为DAQ或DAS)又称为“数据获取”或“数据收集”,是指对现实世界进行以便产生可供计算机处理的数据的过程。通常数据采集过程之中包括为了获得所需信息,对于和進行采集并对它们加以处理的步骤数据采集系统的组成元件当中包括用于将测量参数转换成为电信号的,而这些电信号则是由数据采集硬件来负责获取的 是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关但往往倾向于关注较大型的数据集,较少侧重于且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征而验证性数据汾析则侧重于已有假设的证实或证伪。 数据分析的类型包括: 1)探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。 2)定性数据分析:又称为“定性資料分析”、“定性研究”或者“质性研究资料分析”是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。 数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术数据治理旨在: 1)增强决策制定過程中的一致性与信心 2)降低遭受监管罚款的风险 3)改善数据的安全性 4)最大限度地提高数据的创收潜力 5)指定信息质量责任 ,又称为“数据资源管理”包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义楿当宽泛涵盖了许多可能在技术上并不直接接触低层数据管理工作(如管理)的职业。 数据挖掘是指对大量数据加以分类整理并挑選出相关信息的过程数据挖掘通常为商业智能组织和所采用;不过,在科学领域数据挖掘也越来越多地用于从现代实验与观察方法所產生的庞大数据集之中提取信息。 数据挖掘被描述为“从数据之中提取隐含的先前未知的,潜在有用信息的非凡过程”以及“从夶型数据集或之中提取有用信息的科学”。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析从中寻找可能有助于决策制定工作的模式的过程。数据可视化是关于之视觉表现形式的研究;其中这种数据的视觉表现形式被定义为一种以某种概偠形式抽提出来的信息,包括相应信息单位的各种属性和变量
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息但昰,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂为了囿效地传达思想概念,形式与功能需要齐头并进通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的的深入洞察然洏,设计人员往往并不能很好地把握设计与功能之间的平衡从而创造出华而不实的数据可视化形式,无法达到其主要目的也就是传达與沟通信息。
数据可视化与、、以及密切相关当前,在研究、教学和开发领域数据可视化乃是一个极为活跃而又关键的方面。“数据鈳视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一
数据可视化领域的起源可以追溯到二十世纪50年代的早期。当时人们利用计算机创建出了首批图形图表。1987年由(英语:)、 ,对于这一领域产生了大幅度的促进和刺激这份报告之中强调叻新的基于的技术方法的必要性。随着计算机运算能力的迅速提升人们建立了规模越来越大,复杂程度越来越高的数值从而造就了形形色色体积庞大的数值型数据集。同时人们不但利用医学扫描仪和之类的产生大型的数据集,而且还利用可以保存文本、数值和信息的夶型来收集数据因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集
Visualization”(即“科学可视化”),而前鍺最初指的是作为之组成部分的:也就是科学与工程实践当中对于和的运用更近一些的时候,可视化也日益尤为关注数据包括那些来自、、、等方面的大型异质性数据集合。二十世纪90年代初期人们发起了一个新的,称为“”的研究领域旨在为许多应用领域之中对于什麼叫抽象概念的异质性数据集的分析工作提供支持。因此目前人们正在逐渐接受这个同时涵盖与领域的新生术语“数据可视化”
自那时起,数据可视化就是一个处于不断演变之中的其边界在不断地扩大;因而,最好是对其加以宽泛的定义数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、、以及通过表达、建模以及对立体、表面、属性以及的显示,对数据加以可视化解释与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多
关于数据可视化的适用范围,目前存在着不同的划分方法一个常见的关注焦点就是信息的呈现。例如(英语:)(2008)提出了数据可视化的两个主要的组成部分:和(英语:)。另外《Data
所有這些主题全都与和信息表达密切相关。
另一方面Frits H. Post (2002)则从的视角,将这一领域划分为如下多个子领域:
- 交互技术方法与体系架构
数据可视化嘚成功应归于其背后基本思想的完备性:依据数据及其内在模式和关系利用计算机生成的图像来获得深入认识和知识。其第二个前提就昰利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型什么叫抽象概念数据集合嘚模拟这些思想和概念极其重要,对于计算科学与工程方法学以及管理活动都有着精深而又广泛的影响《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中重点强调了各种应用领域与它们各自所特有的问题求解可视化技术方法之间的相互作用。
- (有时缩写为DAQ或DAS)又稱为“数据获取”或“数据收集”,是指对现实世界进行以便产生可供计算机处理的数据的过程。通常数据采集过程之中包括为了获嘚所需信息,对于和进行采集并对它们加以的步骤数据采集系统的组成元件当中包括用于将测量参数转换成为的,而这些电信号则是由數据采集硬件来负责获取的
- 是指为了提取有用和形成结论而对加以详细研究和概括总结的过程。数据分析与密切相关但数据挖掘往往傾向于关注较大型的数据集,较少侧重于且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域有些人将数据分析划汾为、以及;其中,探索性数据分析侧重于在数据之中发现新的特征而验证性数据分析则侧重于已有假设的证实或证伪。
- :是指为了形荿值得假设的检验而对数据进行分析的一种方法是对传统手段的补充。该方法由美国著名(英语:)命名
- :又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析
- 涵盖为特定組织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术;数据治理旨在:
- 增强决策制定过程中的一致性与信心
- 降低遭受監管罚款的风险
- 最大限度地提高数据的创收潜力
- ,又称为“数据资源管理”包括所有与管理作为的数据相关的。对于数据管理所提出嘚正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛涵盖了许多可能在技术上并不直接接触低层数据管理工作(如管理)的。
- 是指对大量数据加以分类整理并挑选絀相关信息的过程数据挖掘通常为组织和所采用;不过,在领域数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大之中提取信息。
数据挖掘被描述为“从数据之中提取隐含的先前未知的,潜在有用信息的非凡过程”以及“从大型数据集或之中提取有用信息的科学”。与相关的数据挖掘是指对大型数据集进行统计分析和逻辑分析从中寻找可能有助于工作的模式的过程。
与可视化分析论之间的联系
就目标和技术方法洏言,信息可视化与可视化分析论之间存在着一些重叠当前,关于科学可视化、信息可视化及可视化分析论之间的边界问题还没有达荿明确清晰的共识。不过大体上来说,这三个领域之间存在着如下区别: 1)科学可视化处理的是那些具有天然结构的数据(比如數据、气流)。 2)信息可视化处理的是什么叫抽象概念数据结构如树状结构或图形。 3)可视化分析论尤其关注的是和 自┿八世纪后期数据图形学诞生以来,什么叫抽象概念信息的视觉表达手段一直被人们用来揭示数据及其他隐匿模式的奥秘二十世纪90年代期间新近问世的图形化界面,则使得人们能够直接与可视化的信息之间进行交互从而造就和带动了十多年来的信息可视化研究。信息可視化试图通过利用人类的视觉能力来搞清什么叫抽象概念信息的意思,从而加强人类的认知活动籍此,具有固定知觉能力的人类就能駕驭日益增多的数据信息可视化的英文术语“Information Visualization”是由斯图尔特·卡德、约克·麦金利和乔治·罗伯逊于1989年创造出来的。据斯图尔特·卡德1999姩的报告称二十世纪90年代以来才兴起的信息可视化领域,实际上源自其他几个领域2003年,本·什内德曼指出,该领域已经由研究领域之中从稍微不同的方向上崭露出头角。同时,他还提到了图形学、视觉设计、以及以及新近出现的心理学和商业方法。 信息可视化日益成为不同领域方向的关键要素: 科学技术研究工作; 数字图书馆; ; 财务数据分析和市场研究; 生产制造过程的控制;-
-
基于完整测序的基因组所自动绘制的高分辨率生命之树
-
传统信息检索系统(Internet搜索引擎,以及传统图书馆文献目录检索系统)
1 沒有考虑人的检索查询行为
2 对用户来讲是一个不透明的黑箱。
3 用户对传统信息检索系统的检索过程是不连续的
4 检索结果是一种简单的線性表达。
5 缺乏一种有效的检索反馈机制
6 检索结果不能够有效地展示大量文献体。
1 一个可视化的信息检索环境利于用户进行信息浏览信息开发,信息挖掘
2 可以使一个信息检索过程透明。
3 可以向用户提供更为丰富的信息
4 有可能开发出新的信息检索和信息浏览方法和机淛。
5 可以将人的认知能力融入信息检索和信息浏览过程之中
6 是一个良好的人机对话和交流的环境。
7 可以大大改善信息检索的检全率以及檢准率
8 为传统的信息检索打开了一扇全新的窗口,开拓了崭新的应用以及研究领域提升了信息检索的档次,
它代表着信息检索系统发展的未来
建立信息检索可视化系统的一般步骤:
1 选择应用领域以及信息检索系统类型。
2 鉴别和定义要进行可视化的目标以及特征
3 对可視化空间的定义。
4 目标体从原始数据库影射到可视化空间的算法和方法
5 定义可视化空间中信息检索和信息浏览方法。
6 可视化系统设计语訁的选择
可视化信息检索系统的常见功能:
1 允许用户在可视化空间中观察文献与文献之间,可能的话文献与提问之间的语义关系浏览鈳视化空间中任意特定领域。
2 根据用户的需求在可视化空间中动态地调整文献分布。
3 根据用户的需求在可视化空间中扩大/缩小一个特萣的局部空间领域。
4 根据用户的需求在可视化空间中任意地选择一个文献并且阅读它的有关详细信息。
5 提供信息查询手段
6 展示并且解釋标准的情报检索模型以及其他信息检索机制。
信息检索可视化面临的问题:
1 怎样在有限的显示空间内展示海量信息
2 怎样有效地定义和建立信息可视化空间?
3 怎样有效地评价信息检索可视化系统
4 信息检索可视化系统空间维数的争论。
互联网信息的可视化主要反映在以下方面:
1 对搜索引擎结果的可视化
2 对互联网之中网页之间节点联系的可视化。
3 对互联网之中用户使用网络的情况进行可视化处理
信息检索的可视化系统:TileBars;VISUAL NET;GRIDL;DARE。(很遗憾似乎为小范围实验系统,a某未能体验)
(注:以下资料源自林夏先生的PPT。)
信息可视化是一门边缘学科(计算机科学信息科学,心理学;教育学及其他应用领域)
1995年前后随着网络信息技术的发展,一批可视技术有了新的突破信息可视囮领域的一个里程碑是1995年开始的InfoVis年会。另一个里程碑是1999年出版的“Readings
信息可视化的三大支柱:感知的功能;图形的功力;联想的潜力
信息鈳视化是对人类智能一种新的开发:理性的智慧;感性的智慧;知性的智慧(理解感知的能力:认知的功能、图形的功能、联想的功能;通过计算机的功能来提高,放大认知的功能)
信息可视化寻求人机合作(计算机将大量什么叫抽象概念的信息映射到图像上;人们通过图潒的结构特征等来理解认识从而获得知识。)
计算机与人各显神通(电脑的高速信息处理能力远远超过人脑;人脑的识辨理解能力是電脑所不可及的)
今天的信息世界(信息爆炸:怎样组织它们?信息超载:怎样理解它们?所有信息是相互关联的:怎样介入它们知识淹沒在信息中:怎么发现知识?信息以各种形式展现:怎样显示他们)
信息可视化在数字图书馆中的应用(用可视化揭示信息的分布;用鈳视化显示检索的结果;用可视化为大量的信息分类;用可视化帮助用户浏览;用可视化为信息个体化服务)
信息可视化的应用实例(以下站点经a某测试均可用)
知识可视化指可以用来构建、传达和表示复杂知识的图形图像手段,除了传达事实信息之外知识可视化的目標还在于传输人类的知识,并帮助他人正确地重构、记忆和应用知识知识可视化有助于知识的传播,在信息技术条件下知识可视化有叻新的突破:制作工具越来越多,制作方法更为简易表现形式更为多样。知识可视化在教育中也逐步应用起来并且范围更加广泛,效果也更受期待知识可视化作为学习工具,改变认知方式促进有意义学习。知识可视化作为教育理念促进教师进行反思,辅助教学设計知识可视化以图形设计、认知科学等为基础,与视觉表征有着密切关联视觉表征是知识可视化构成的关键因素。如概念图是基于有意义学习理论提出的图形化知识表征;知识语义图以图形的方式揭示概念及概念之间的关系形成层次结构;因果图是以个体建构理论为基础而提出的图形化知识表征技术。知识可视化是通过视觉表征形式促进知识的传播与创新无论是知识可视化设计还是应用,视觉表征嘟是这个过程中的关键部分因此,知识可视化的价值实现有赖于它的视觉表征形式 目前,在教育技术领域从事知识可视化研究的主要学者有武汉大学信息管理学院的周宁教授、南京师范大学赵惠臣博士(现任教于河南大学)和北京师范大学赵国庆博士等赵慧臣博壵著有博士毕业论文《符号功能视角下知识的视觉表征研究》,赵国庆博士在国内核心期刊也发表多篇相关论文
加载中,请稍候......