呈现数据背后的故事--典型BI可视化技术综述

2019-01-22 10:38:09

商业智能(Business Intelligence,简称BI)从技术层面讲就是综合运用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术等进行数据分析;从实际应用角度上看,它将企业内部或者竞争对手的数据收集整理、进行分析和处理,将其转化成知识、分析和结论,从而帮助决策者做出正确决策,提升企业决策质量。因此,商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链,其核心目的就是把初始的操作型数据变成决策所使用的商业信息。

然而,商业信息与各级决策者之间还存在一条认知理解的天堑,如何变通途,这就需要商业智能可视化技术。

随着大数据的兴起,在商务智能领域逐渐催生了几类特征鲜明的信息类型,主要包括文本、网络或图及多维数据等。如何实现这些与大数据密切相关的信息类型可视化就成为当今商务智能可视化技术的研究热点。


一、文本可视化

文本信息是非结构化数据类型的典型代表,是互联网中最主要的信息类型。文本可视化的意义在于,能够将文本中蕴含的语义特征(如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来。文本可视化的主要技术包括:

1. 基于词汇的文本可视化--通过对文本中词汇的不同呈现,展现文本的特征。

2. 基于篇章内容的文本可视化--在词汇可视化的基础上,通过标注、计算、统计、推断等技术手段,发现文章中特定的隐含语义关系。

3. 基于时间序列的文本可视化--引入时间轴概念,针对文本的时间关系进行可视化研究。

4. 基于主体领域的文本可视化--从大规模文本中发现特定的一个或者多个主题领域,并反映主题领域之间的关系。


二、网络可视化

网络关联关系是大数据中最常见的关系。层次结构数据也属于网络信息的一种特殊情况。基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一。而大数据背景下对各类大规模复杂网络如社会网络和互联网等的演化规律的探究,将推动复杂网络的研究方法与可视化领域进一步深度融合。现有的网络可视化应用有600多种,可以采用不同指标对其进行分类,如任务主题、可视方法等。目前比较典型的分类方法是Ben Schneiderman 提出的按照网络节点的布局方法进行分类:

1. 力导引布局--基本思想是将网络看成一个顶点为钢环、边为弹簧的物理系统,系统被赋予某个初始状态以后,弹簧弹力(引力和斥力)的作用会导致钢环移动,这种运动直到系统总能量减少到最小值时停止。

2.地图布局--该类方法能够产生用户极易理解的网络布局,它以一幅世界(大洲、国家、省或市)地图作为背景,根据网络节点的地理坐标将其布局在背景图上,然后根据节点间的连接关系绘制网络边。

3.圆形布局--该方法在圆心放置一个或一组节点,在同心圆周上按顺序布局其余节点.它能利用通过圆心的十字线产生优良的布局。

4.相对空间布局--该方法以“参照体”的空间位置为基础,根据网络各节点与“参照体”的关系计算其坐标。

5.聚类布局--该方法根据节点的属性及相互间的连接关系,通过人机交互或应用算法(如MDS、自组织网络(SOM)和Sam/lion映射等)来聚类分组网络节点。

6.时间布局--该方法的基本原理是根据节点的时间属性对其进行排布,其典型布局是将历史节点排列在屏幕顶(左)端,当前节点摆放在屏幕底(右)端。同一时间的节点放置在同一排(列)。

7.层布局--该方法首先根据节点的分类属性将屏幕划分为几个区域,然后在对应的区域中布局网络节点。

使用产品: BI 大数据