连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

亚马逊曾经是 Oracle 全球数据库最大的用户,我们使用了75PB 的数据库,用了7500 多个数据库的例子,整个亚马逊里面 1000 多个不同的团队,从运营、电商、市场营销、库存,几乎业务的很多方面原来都是基于 Oracle 的数据库。 

我们在过去一年半到两年的时间做了一件事情,就是全方位的迁出了 Oracle 的数据库,去年大概 11 月份我们全部迁移了 Oracle 的数据库,迁移到了我们自己相对应的产品。这个迁移解决了原来扩展困难、费用昂贵,像 Oracle 支持高额费用等等一系列的问题,减少了数据库费用成本 60%,减少了管理费用 70%,增加的性能高达 40%。

  在近日的一场媒体沟通会上,AWS 首席云计算企业战略顾问张侠如此感慨。这相似的一幕,雷锋网编辑曾经两次在 AWS re:Invent 现场听到亚马逊 CTO 沃纳·威格尔提起过。 

  然而,当年那场大获全胜的“去O”仅仅只是开始,实际上 AWS 多年来对于数据做了相当多的细致工作。

  就在 3 月 24 日这天,AWS 连续宣布 2 个新产品正式在由西云数据运营的 AWS 中国(宁夏)区域上线:AWS Glue 和 Amazon Athena。 

  从具体功能来看: 

  AWS Glue 在由西云数据运营的 AWS 中国(宁夏)区域正式上线。AWS Glue 是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用 AWS Glue,在几分钟之内便可以准备好数据用于分析。由于 AWS Glue 是无服务器服务,客户在执行 ETL 任务时,只需要为他们所消耗的计算资源付费。 

  Amazon Athena 在由西云数据运营的 AWS 中国 (宁夏) 区域正式上线。Amazon Athena 是一种交互式查询服务,它让客户可以使用标准 SQL 语言、轻松分析 Amazon Simple Storage Service (Amazon S3) 中的数据。由于 Athena 是一种无服务器服务,因此客户不需要管理基础设施,而且只为他们运行的查询付费。Athena 可以自动扩展,并行执行查询,所以即便是大型数据集和复杂的查询,也能很快获得查询结果。 

  这 2 个发布,也意味着 AWS 在数据湖和数据分析的解决方案上越趋完整。 

  沟通会上,张侠也对 AWS 的数据工作进行了深入阐释,对 AWS 的数据服务、产品、重要概念及操作手法做了介绍,同时揭示了 AWS 构建数据湖进行分析的背后逻辑。

  雷锋网特在其原话基础上做了不改变原意的编辑与整理。 

  亚马逊是怎么来实现数据湖的概念的? 

  数据湖的概念大概最早是 2011 年 5 月份提出来的,所以到现在只有八九年的时间。 

  亚马逊在很早的时间就推动了有关数据湖的内容,首先亚马逊有一个最基础的云服务,这个服务叫做 Amazon S3,是 2006 年 3 月 14 日白色情人节的那天发布的,是全球所有的公有云服务的第一款。Amazon S3 可以存任何二进位为基础的任何信息,包含结构化和非结构化的数据。左边这个图上半部的服务,可以围绕这些数据来做各种各样的操作。底下画的是一些做数据转移的工具。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  从右边可以大致看一下数据湖的流程图或者平台架构图,总的来说各种各样的数据,从镜头来的、从手机来的、从数据库来的、从汽车上来的、从风力发电的发电机来的等等所有各种形式的数据,我们把它通过一定的方法提取出来,产生了之后存储下来,做一个目录登记,然后把它存在 S3 这个数据存储,也是数据湖的核心里面。 

  然后再用各种各样的分析手段把这些数据在右边拿出来,它还可以还原成数据仓库的性质,也可以变成各种报表,也可以变成一些预测,也可以用来做机器学习的分析。所以这个是整个数据湖的概念。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  基于此,我们看到数据湖是一个对各种各样原始数据,就像雨水、河水等等,我们用洼地把它存起来,这里面有各种各样的数据,我们在这之上可以做我们所需要的各类数据分析,有交互式的查询、有运营的分析、也可以把数据进行交换甚至是买卖,可以可视化的看到这些数据,可以做实时的分析,可以做推荐、做预测,做所有的数据所需要的功能。 

  从 AWS 的角度讲,我们有相应的服务来实现刚才所说的每一个功能。我会为大家做一下这些服务的简单介绍。所有这些服务在我们的网站上都有很详细的中英文介绍。所有这些服务都是以云的方式提供的,非常简洁、非常容易上手,有很多还有操作的引导性质的内容。 

  我们在此之前已经讲了我们有 Amazon S3,可以存所有各类的数据,它有 11 个 9 的数据持久性,它是在云上面三个可用区存了六份,互为备份。它后端还有一个冷存储叫 Amazon Glacier (glacier 的意思是冰河) 。如果这个数据不常用,我们可以转到那里面,费用可以降低很多,只是多需要三四个小时把它拿出来。 

  冷存储还有一个深度的冷存储 Deep Archive。除了这个以外,在我开始讲之前,还有一个叫 Amazon DynamoDB,是一个非关系型数据库,存键值这类的数据。在游戏里面比如每个玩家是第几级、有多少血、用什么样的武器,这样的数都是键值配对的数。全球有大量这样的数据都存储在 Amazon DynamoDB 这样的非关系型数据库。 

  看一看其他的服务。一个是 Amazon RDS 服务,RDS 全称是 Relational Database Service,是一个托管的关系型数据库,这个是从 AWS 角度最早云计算推出的关系型数据库,它支持像 SQL Server、Oracle 的数据库、开源的 PostgreSQL、MySQL 这样的数据库。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  我们很快又推出了我们专有的 Amazon Aurora 数据库,这是一个关系型数据库,是云原生的。刚才那个是托管在云上的关系型数据库,现在这个 Aurora 是一个全部的全方位托管的,可以兼容 MySQL 和 PostgreSQL 纯原生的数据库。 

  这个数据库推出以后,是 AWS 所有的云服务里面增长速度最快的一个服务,有大量的用户,到目前为止,我提到这些服务都是在中国落地了,也都是在国内提供的。 

  很重要的一个产品是一个云的产品,叫 Amazon Redshift,它是一个数据仓库,但是它是一个云的数据仓库,非常强大,非常能够缩放,成本也是传统的数据库的大概1/10 左右。如果你从数据库还需要到数据仓库,大家看到在云上我们同样完全可以实现这些解决方案,从数据库到数据仓库。而且数据仓库我们还有很多很多新型的准备,在这次会议当中不可能完全提到。 

  我给大家报告一下其中包括图形数据库 Amazon Neptune,全球发布之后,在过去的半年之内也在中国落地。所以中国用户也能使用最新型的图形数据库。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  还有一类是 Amazon EMR,EMR 是 Elastic MapReduce,它是用集群,用类似开源我们常听说的 Hadoop 的方法来做大数据的集群分析。这个 EMR 产品是亚马逊云上做海量大数据的研究它们之间的相关性的方法,这个产品我们也有了很长时间,在国内也早已提供。 

  还有一个很重要的概念,就是来处理实时的数据,因为和原来的比,现在的特点是更多要使用实时的数据,原来更多的是批量的历史数据,处理实时数据我们的服务叫 Amazon Kinesis,还有四个不同的类型,有的是直接处理视频的数据流,有的是可以把数据直接导到关键的服务,每个各自都有不同的用法。这个实时数据分析是分析框架很重要的一部分。 

  两个数据湖中重要服务:Amazon Athena 和 AWS Glue 

  重点给大家推介的是下面两个服务,都是数据湖非常重要的组成部分,我们是在今年第一季度才在中国正式发布的。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  第一个产品叫做 Amazon Athena,英文 Athena 意思是雅典娜,这是交互式的数据查询的工具。我们把各种数据都存在 S3 上面了,使用 SQL 可以直接在 S3 里面对这些数据做查询,所以它是交互式的查询,使得快速存起来的海量的数据有个工具可以像传统的使用 SQL 语言一样的方法,标准的数据库查询的语言,直接对 S3 做数据的查询。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  第二个服务叫做 AWS Glue,Glue 是胶水的意思,是不同的数据库服务之间的连接的作用。最主要有两个功能,一个是 ETL,ETL 是 Extract、Transform 和 Load,是数据里面一个最基本的操作,翻译过来就叫数据的抽取、转换和加载。原来从数据库提到数据仓库使用的都是 ETL,所以 Glue 同时还是行使着数据的抽取、转换、加载的功能。另外还多了一个功能,就是数据目录服务的功能,因为把这些数据都存在数据湖里面,在这个过程中,要对这些数据打上标签,把它做分类的工作。而且 Glue 有一个直接就像爬虫一样对数据湖里的海量数据,通过它的自动爬取,生成数据目录的功能。 

  所以这两个服务我们在海外推出有一段时间,但是我们在今年在国内都完成了它们的正式发布,所以目前我们和光环新网联合运行的北京的区域,还有和西云数据在宁夏中卫运营的区域里面,都已经提供了这些服务。 

  虽然数据湖是一个非常好的办法,但是还是稍微有一定的复杂度。我非常快的介绍一下数据湖的操作步骤。 

  我们把数据设置好,存起来,然后把这些数据需要移动、加载到不同的地方,然后把数据清理好,建成数据目录。要管理的这些存储,然后把这些数据要安全的、合规的存好、管好,然后需要的时候有些工具把这些数据拿出来做各种分析。这就是数据湖操作的一些步骤。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  我们也专门推出了一个服务,这个服务叫做 AWS Lake Formation,是在前年的技术大会上我们发布的,这个服务目前还没有在中国正式推出,但是我们在今年很快的时间内会推出这个服务,把建立数据湖刚才的这套工作自动化,帮助你来操作,可以使很多企业在短短的几天的时间完成数据湖的建设工作。 

  从亚马逊来说,我们还有一些更多的服务,比如我们有量子的记账式的数据库、有时间序列的数据库,还有两三个新型数据库目前还没有提供。   

  在这之上是数据湖,数据湖最主要的元素是三大元素:一个是 Amazon S3/Glacier,一个是 AWS Glue,一个是 AWS Lake Formation。AWS Lake Formation 是目前没有提供,但是很快会提供的一个产品服务。   

  数据分析的工具,Amazon Redshift 是数据仓库,Amazon EMR 是大数据分析,AWS Glue 在里面仍起关键作用,来实现无服务器的数据分析,然后是 Amazon Athena (雅典娜) 是做交互式的分析,Amazon Elasticsearch 是做一些运维分析,还有 Amazon Kinesis 做实时的数据分析。   

  最上面是我们的一些展现工具,有图形可视化的 Amazon QuickSight,还有 Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker 是一个人工智能的服务,在中国很快会推出。

  所以整个大数据分析服务的全景图就以这张图给大家展示出来。绝大多数服务在中国都已经落地,我们已经全方位的可以提供最先进的数据湖的大数据分析,我们有很多客户来使用。 

  为什么使用 AWS 来构建数据湖和进行分析?

  为什么使用 AWS 来构建数据湖和进行分析呢? 

  简而言之,它既好用又高效又全面又安全,又能满足多种多样的需求。AWS 的创新都是围绕客户需求来做的。 

  Forrester 2019 年大数据分析的报告,AWS 是排在最高的位置,其实还有类似的一些其他的,比如 Gartner 的数据库的分析报告,还有数据管理工具解决方案的报告,我们都排在很好的位置。在全球范围内,包括在中国,其实有大量的各种各样的无论是互联网公司还是传统企业公司都在使用 AWS 的数据分析、数据湖的分析工具。 

  即使是使用了全套数据湖的也有上万家企业,其中大家看到有 Airbnb,yelp 相当于美国的大众点评,有旅行的公司,有最大的制药公司等等,几乎覆盖了各行各业。 

  不用讲别人,就讲讲亚马逊自己。 

连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力-风君子博客

  亚马逊曾经是 Oracle 全球数据库最大的用户,它使用了 75PB 的数据库,用了 7500 多个数据库的例子,整个亚马逊里面 1000 多个不同的团队,从运营、电商、市场营销、库存,几乎业务的很多方面原来都是基于 Oracle 的数据库。 

  我们在过去一年半到两年的时间做了一件事情,就是全方位的迁出了 Oracle 的数据库,去年大概 11 月份我们全部迁移了 Oracle 的数据库,迁移到了我们自己相对应的产品。这个迁移解决了原来扩展困难、费用昂贵,像 Oracle 支持高额费用等等一系列的问题,减少了数据库费用成本 60%,减少了管理费用 70%,增加的性能高达 40%。 

  另外一个例子,就是亚马逊其实在整个企业内部建立了一个数据湖,这个数据湖还专门有一个内部的词,叫 Galaxy (银河),这不是 AWS 的一个产品,这是亚马逊的一个数据湖的部署。 

  整个数据湖把亚马逊的数据整合在一起,做各种各样大数据的分析,里面存了 50PB 到 100PB 的数据,这里面通过它,亚马逊每一天有多达 60 万的分析任务,各种各样的数据的分析,从给用户的推荐、各种运营的信息、库存的信息、需要购买的信息、物价的信息,都是可以通过数据湖来实现的功能。 

  这也是亚马逊的一个核心竞争力。