一分钟科普“数据湖”

2019-01-22 10:37:55 小智

什么是数据湖?

数据湖(Data Lake)概念最早由CITO Research Web的CTO Dan Woods 于2011年提出。数据湖简单的说就是一个可以存储大量数据的并行信息系统,可以在不需要另外移动数据的情况下进行数据运算、分析。

数据湖的价值?

目前,人们已经见证了大数据在进行决策制定、降低运营成本、优化产能等方面产生的巨大商业价值。而数据湖是目前大数据分析领域最新最火的概念,很多厂商都声称数据湖是推动和充分利用大数据分析技术的关键。数据湖的设计理念允许将不同来源的数据都集中到一个未经管理的数据湖当中,而不是保持各种独立管理的数据集合,其设计初衷就是为了解决信息孤岛的问题。

数据湖系统将数据集中存储在一个存储盘阵,使得所有数据能够快速积极的响应商业环境和研究目的的变化。同时,数据湖不再局限于结构化或半结构化数据,而是能够对几乎所有类型的数据在不需要预定义模型的情况下进行分析。因此,数据湖能够提供多维度、全方位、实时的数据信息支持,其数据架构体系也更加灵活,扩展性也更强。

数据湖的缺陷?

数据湖作为目前还在研发、探索当中的新的数据架构模式,其关注重点一直放在如何保存不同类型的数据,却忽视了如何使用数据以及为什么要使用数据、如何监管数据、如何定义和分类数据,以及如何确保数据安全等问题。具体表现:

首先,数据湖中的数据质量难以保证。理论上讲,数据湖可以在不受任何监督或管理的条件下接收任何类型的数据。然而,事实证明,如果不对数据进行合理的定义和维护,那数据湖很快就会变成数据沼泽,因此有效的数据治理是数据湖技术的核心。

其次,数据湖存在安全风险。数据在不受内容监管的情况下被放入数据湖当中,而目前的安全防范和访问控制技术仍不成熟,这就意味着很多隐私数据将暴露于风险之下。从企业的角度,安全保护必须贯穿整个数据的生命周期,从接收数据的第一天起就正视安全问题,明确规定可以引入数据湖的数据类型,并制定和及时调整数据湖中的各类数据的使用权限。

如何构建数据湖?

综数据湖一般由四部分组成:结构化或非结构化数据源、信息存储系统、数据治理系统、数据分析系统。具体搭建一个有效的数据湖解决方案非常复杂:首先,必须为每个分析用例部署并配置正确的分析系统;然后,为其分配相应的存储;一旦设置环境被创建,则要求数据必须在所有正确的访问权限和管理应用到数据集的情况下加载。

数据湖的愿景?

成熟的数据湖将支撑大数据分析成为企业战略的核心组成部分,使得企业能够消除所有业务应用和分析应用之间的壁垒,建立一个全覆盖、单一的企业平台。

唯真实,可信任,唯体验

或拨打服务热线:400 6364 119