AWS 宣布推出新的分析功能以帮助客户接受大规模数据-ESG跨境

AWS 宣布推出新的分析功能以帮助客户接受大规模数据

2019-12-19

1585

AWS 宣布推出新的分析功能以帮助客户接受大规模数据

西雅图--今天在 AWS re:Invent 大会上，Amazon.com 旗下公司（纳斯达克股票代码：AMZN）亚马逊网络服务公司 (AWS) 宣布了重要的新分析功能，可帮助客户接受当前和未来规模的数据. AWS 推出了几项新的 Redshift 功能，这些功能可将查询性能提高一个数量级以上，并在客户大规模跨数据存储、数据仓库和运营数据库工作时为他们提供更大的灵活性。 AWS 还为 Amazon Elasticsearch Service 宣布了一个新的、高度可扩展、节省成本的创新暖存储层。

“Amazon Redshift 使我们能够每天大规模地摄取、优化、转换和聚合数十亿个交易事件，这些事件来自各种第一方和第三方来源”

今天的客户经常尝试处理 PB 甚至 EB 的数据。这种新的数据规模以及新的应用程序要求意味着分析工具必须进行重大更改才能有效扩展。客户希望能够对其所有数据执行分析，无论数据格式或数据位于何处，并扩展其应用程序以支持世界各地的数百万用户。 AWS 提供所有云提供商中最广泛和最深入的分析服务，并根据客户对这种新数据规模的需求不断创新。

具有托管存储的 Amazon Redshift RA3 实例使客户能够以比任何其他云数据仓库快 3 倍的速度经济高效地扩展和运行

随着数据规模不断扩大（达到每周 PB 级），客户正在将更多数据摄取到他们的 Amazon Redshift 数据仓库中。为了扩展他们的数据仓库，客户使用 Redshift 的 Elastic 调整大小功能向他们的集群添加额外的实例。如今，Redshift 的实例包括固定数量的计算和存储，因此客户最终可能会过度配置其中任何一个，并为他们不使用的容量付费。客户要求能够在不过度配置计算的情况下增加存储，并在不增加存储成本的情况下更灵活地增加计算容量。

带有托管存储的新 Amazon Redshift RA3 实例（今天可用）允许客户通过独立扩展和支付计算和存储费用来优化他们的数据仓库。借助 Amazon Redshift RA3 实例，客户可以根据其数据仓库工作负载的性能要求选择所需的实例数量，并且只需为他们使用的托管存储付费。 Redshift Managed Storage 在每个 Amazon Redshift RA3 实例中使用大型高性能 SSD 实现快速本地存储，并使用 Amazon S3 实现更长期的持久存储。如果实例中的数据增长到超过大型本地存储的大小，Redshift Managed Storage 会自动将该数据卸载到 Amazon S3。客户为 Redshift Managed Storage 支付相同的低费率，无论数据位于高性能本地存储还是 Amazon S3 中，他们只需为在本地 RA3 存储上使用的存储量付费，这意味着他们不会结束浪费在未使用的存储容量上的开支。对于需要大量存储但计算容量不大的工作负载，客户可以自动扩展其数据仓库存储容量，而无需添加和支付额外的实例。 Redshift Managed Storage 使用各种高级数据管理技术来优化数据从 Amazon S3 卸载和检索的效率。此外，Amazon Redshift RA3 实例基于 AWS Nitro 系统构建，具有高带宽网络功能，可进一步减少从 Amazon S3 卸载和检索数据所需的时间。总之，这些功能使带有托管存储的 Amazon Redshift RA3 实例能够提供任何其他云数据仓库服务 3 倍的性能，而使用密集存储 (DS2) 实例的现有 Amazon Redshift 客户将获得高达 2 倍的性能提升和 2 倍的存储容量同样的费用。 RA3 16xlarge 实例现在普遍可用，以支持 PB 级数据（压缩高达 8 PB）的工作负载，明年年初将推出 RA3 4xlarge 实例。要开始使用 Redshift RA3 实例，请访问。

适用于 Amazon Redshift 的 AQUA（高级查询加速器）将计算引入存储层，性能比任何其他云数据仓库快 10 倍

客户需要在其数据仓库中处理的数据量的快速增长导致在性能和具有成本效益的扩展之间难以平衡。数据仓库的流行方法是构建一种架构，在该架构中，大量集中存储被移动到等待计算节点来处理数据。这种方法的挑战在于共享数据和计算节点之间存在大量数据移动。随着数据量继续快速增长，这种数据移动会使可用的网络带宽饱和并降低性能。此外，即使可以克服网络瓶颈，因为在过去七年中，进出存储节点的 SSD 存储吞吐量比 CPU 从内存处理数据的能力快 6 倍，如果没有一些重大变化，CPU 无法为了跟上更快的存储能力，这将成为性能瓶颈本身或产生更多成本，因为客户被迫提供更多计算以快速完成工作。

适用于 Amazon Redshift 的 AQUA（高级查询加速器）（2020 年年中推出）是适用于 Amazon Redshift 的新型分布式硬件加速缓存，可为新数据规模的分析提供下一阶段的性能改进和创新。 AQUA 将计算带到了存储层，因此数据不必在两者之间来回移动，使 Redshift 的运行速度比任何其他云数据仓库快 10 倍。 AQUA 是基于 Amazon S3 的大型高速缓存架构，可以跨多个节点并行扩展和处理数据。每个节点都拥有一个由 AWS 设计的分析处理器组成的硬件模块，可显着加速数据压缩、加密和数据处理（包括过滤和聚合）。这种新架构使查询的运行速度比当今的云数据仓库快得多，客户将能够直接查询原始数据，甚至是大规模查询，从而为他们提供更多最新的仪表板、更少的开发时间和更易于维护系统。由 AQUA 提供支持的 Amazon Redshift 将保持 100% 与当前版本的 Amazon Redshift 兼容，因此客户无需更改代码即可轻松迁移现有数据仓库。 AQUA 为新数据规模的分析提供下一阶段的性能创新，并将于 2020 年年中推出。要了解有关 AQUA 的更多信息，请访问。

Amazon Redshift Data Lake Export 可轻松将查询结果直接保存到数据湖

客户需要在他们的数据仓库和数据湖中组合数据，并且不希望数据锁定在孤岛和专有格式中。例如，一个组织可能想了解他们的客户在购买之前浏览了什么，这要求他们将位于数据仓库中的订单历史记录与位于 Amazon S3 数据湖中的点击流数据结合起来。 Amazon Redshift 使客户能够直接查询和连接其 Amazon Redshift 数据仓库和 Amazon S3 数据湖中的数据，从而为客户提供一种“湖屋”数据仓库方法。在这个湖边小屋的世界中，数据同时存储在 Amazon Redshift 和 Amazon S3 中，客户还需要一种简单的方法来将 Amazon Redshift 查询的结果以开放格式返回到 Amazon S3 中，以供其他服务使用。

Amazon Redshift Data Lake Export（今天可用）允许客户以针对分析进行优化的开放数据格式 (Apache Parquet) 将数据直接从 Amazon Redshift 导出到 Amazon S3。客户现在可以将他们在 Amazon Redshift 中执行的查询结果以开放格式保存到他们的数据湖中，以便他们可以使用其他分析服务（如 Amazon SageMaker、Amazon Athena 和 Amazon EMR）分析该数据。没有其他云数据仓库可以让查询数据和以开放格式将数据写回数据湖变得如此简单。要开始使用 Amazon Redshift Data Lake Export，请访问。

Amazon Redshift 联合查询允许客户跨数据仓库、数据湖和运营数据库分析数据

将大量数据从关系数据库聚合、转换和上传到数据仓库可能是资源密集型和耗时的，这就是为什么许多客户选择每天只这样做一次。当客户需要查询他们的数据仓库以获取最初存储在操作数据库中的某些类型的及时信息时，这可能会产生问题。例如，帮助客户解决最近订单问题的客户服务代表在调出客户的购买历史记录时可能会获得一天前的结果，从而使信息变得无关紧要。今天，客户可以通过编写自定义应用程序代码来直接查询操作数据库来解决这个问题，但是构建这样做的集成系统成本高昂、耗时且难以维护。

Amazon Redshift 联合查询（提供预览版）使客户能够在 Amazon Redshift 中对跨 Amazon Redshift 数据仓库、Amazon S3 数据湖以及 Amazon RDS 和 Amazon Aurora (PostgreSQL) 操作数据库的实时数据运行查询。通过允许客户使用熟悉的 SQL 语句将所有这些数据组合到他们的各种数据存储中，这简化了应用程序开发。借助此功能，Amazon Redshift 查询现在可以提供来自运营数据库的及时和最新数据，以推动更好的洞察力和决策。为了获得最佳性能，Redshift 查询优化器智能地将尽可能多的工作分配给底层数据库。要了解有关 Amazon Redshift 联合查询的更多信息，请访问。

UltraWarm for Amazon Elasticsearch Service 以十分之一的成本提供对日志数据的快速交互式分析

随着越来越多的应用程序是使用微服务、容器和专用数据存储构建的，它们会产生越来越多的日志数据。 Amazon Elasticsearch Service 使从网站、移动设备和传感器收集、分析和可视化机器生成的日志数据变得简单。 Amazon Elasticsearch Service 是完全托管的，因此客户可以在几分钟内部署生产就绪的集群，向上和向下扩展集群，并保护静态和传输中的数据。然而，鉴于日志数据的爆炸式增长，大规模存储和分析数月或数年的数据成本高昂。这导致客户使用多种分析工具，或删除有价值的数据，从而错过了长期数据可能产生的重要见解。

为了解决这一客户挑战，AWS 为 Amazon Elasticsearch Service 构建了一个名为 UltraWarm 的新存储层，它最终为 Elasticsearch 客户提供了一个温暖的存储层，既可以经济高效地存储大量数据，又可以提供 Elasticsearch 那种快速的交互式体验客户期望。 UltraWarm 为更频繁访问的数据提供分布式缓存，同时使用高级放置技术来确定哪些数据块访问频率较低，应将其移出缓存到 Amazon S3。 UltraWarm 还使用高性能 EC2 实例与存储在 S3 中的数据进行交互，与竞争的暖层解决方案相比，查询执行速度提高了 50%，并为客户提供了与所有日志数据相同的交互式分析体验。 UltraWarm 将如今在 Elasticsearch 中存储相同数量的数据的成本降低了 90%，并且比其他托管 Elasticsearch 产品的暖层存储成本低 80%。借助 UltraWarm，客户可以使用单个 Amazon Elasticsearch Service 集群管理多达 3 PB 的日志数据；并且凭借跨多个集群的查询能力，客户可以有效地保留任意数量的当前和历史日志数据，用于交互式运营分析和可视化。 UltraWarm 是 Amazon Elasticsearch Service 的无缝扩展。客户可以通过 Kibana 界面轻松查询和可视化他们最近和长期的运营数据，而成本只是当今的一小部分。这允许开发人员、DevOps 工程师和 InfoSec 专家使用 Amazon Elasticsearch Service 分析最近（几周）和长期（几个月或几年）的运营数据，而无需花费数天时间从存档（Amazon S3 或 Amazon Glacier）中恢复数据到 Elasticsearch 集群中的活动可搜索状态。 UltraWarm 服务今天提供预览版。要了解有关 UltraWarm 的更多信息，请访问

“我们的客户告诉我们，他们经常处理 PB 甚至 EB 的数据，而他们现有的分析系统无法跟上，”AWS 数据库服务副总裁 Raju Gulabani 说。 “这些客户希望对其数据仓库和数据湖中的所有原始数据进行快速分析，并以经济高效的方式处理日志数据的爆炸式增长，以保留可能帮助他们更好地运营业务的信息。通过今天的公告，我们正在帮助 AWS 客户完成所有这些工作，并无所畏惧地接受大规模数据。”

Duolingo 是世界上最受欢迎的语言学习平台和下载量最大的教育应用程序，拥有超过 3 亿用户。该公司的使命是让所有人都可以免费、有趣地接受教育。 “我们使用 Amazon Redshift 分析来自我们应用程序的事件，以深入了解用户如何使用 Duolingo 进行学习。我们每天将数十亿个事件加载到 Amazon Redshift 中，拥有数百 TB 的数据，并且预计每年都会翻一番。虽然我们存储和处理所有数据，但大多数分析只使用该数据的子集，”Duolingo 高级软件工程师 Jonathan Burket 说。 “与我们之前基于 DS2 实例的 Redshift 集群相比，具有托管存储的新 Redshift RA3 实例为我们的大多数查询提供了 2 倍的性能。 Redshift Managed Storage 会自动适应我们的使用模式。这意味着我们不需要手动维护冷热数据层，而且当我们处理更多数据时，我们可以保持成本不变。”

Yelp 的使命是将人们与当地的优秀企业联系起来；为此，数据挖掘和高效的数据分析对于构建最佳用户体验非常重要。 “我们继续采用新的 Redshift 功能，并对新的 RA3 实例类型感到非常兴奋，”Yelp 软件工程师 Stephen Moy 说。 “在我们的工作负载中，我们观察到 DS2 的性能提高了 1.9 倍，DC2 的性能提高了 1.5 倍，同时保持了相同的成本并提供了可扩展的托管存储。这使我们能够跟上爆炸性数据增长的步伐，并有必要的燃料来训练我们的机器学习系统。”

西部数据 (WD) 是全球领先的数据存储品牌，使用户能够在各种设备上创建、体验和保存数字内容。 WD 使用户能够控制并巧妙地将对他们最重要的内容保存在一个安全的地方。 “在 WD，我们使用 Amazon Redshift 使企业能够从大型、复杂和分散的数据集中获得价值和洞察力，”西部数据大数据平台高级经理 Fayaz Syed 说。 “我们的数据几乎每年翻一番，我们运行六个 Redshift 集群，总共 78 个节点和 631+ TB 的压缩数据存储，以获得我们的业务分析师和领导层所依赖的洞察力。与之前的 Redshift 集群相比，新的 Redshift RA3 实例使我们能够更经济高效地处理不断增长的数据，同时我们的存储容量翻了一番。我们还喜欢我们的 ETL、BI 和数据摄取流程无需更改即可利用托管存储的 RA3 实例。”

NTT DOCOMO 是日本最大的移动服务提供商，为超过 7900 万客户提供服务。 “2014 年迁移到 Amazon Redshift 使我们能够扩展到超过 10 PB 的未压缩数据，性能比我们之前的本地系统提高了 10 倍。今天，它是我们分析环境的中心，”NTT DOCOMO 服务创新部总经理 Takaaki Sato 说。 “自从我们开始使用 Amazon Redshift 以来，我们的数据和用户数量都急剧增加。即使在我们扩展用户和数据时，我们也对灵活性和易用性印象深刻。新的 Amazon Redshift Data Lake Export 功能使我们能够简化工作流程，以利用整个数据湖中的更多数据。我们对带有托管存储的新 Amazon Redshift RA3 实例感到兴奋，这使我们能够分别扩展计算和存储。随着我们继续提高 Amazon Redshift 数据仓库的性能和规模，我们也期待实现 AQUA（高级查询加速器）对 Amazon Redshift 的好处。我们代表客户感谢 AWS 的持续创新。”

Intuit 是 TurboTax、QuickBooks 和 Mint 的制造商，是一家全球金融平台公司，旨在帮助消费者、个体经营者和小型企业改善财务生活。 Intuit 首席架构师 Alex Balazs 表示：“我们期待探索 AQUA 如何让我们的团队能够花更多时间代表客户进行创新。” “这些新功能补充了我们的战略，即在我们的平台上以速度和效率大规模创建更多数据驱动的洞察力。”

Warner Bros. Interactive Entertainment 是全球首屈一指的娱乐内容发行商、开发商、许可方和分销商，为所有平台的互动空间提供娱乐内容，包括用于内部和第三方游戏的控制台、手持设备、移动设备和基于 PC 的游戏。 “我们使用了许多 AWS 和第三方分析工具，我们很高兴看到 Amazon Redshift 继续采用与我们自己的解决方案相同的多样化数据转换模式，”Warner 分析营销运营技术总监 Kurt Larson 说兄弟分析。 “自 2017 年以来，我们利用 Amazon Redshift 的能力通过 Redshift Spectrum 在我们的数据湖中查询开放数据格式，现在借助新的 Redshift Data Lake Export 功能，我们可以方便地将数据写回我们的数据湖。这一切都发生在始终如一的快速性能下，即使在我们最高的查询负载下也是如此。我们期待利用集成大数据堆栈的协同作用来推动跨 Amazon Redshift 集群的更多数据共享，并以更低的成本为我们所有的游戏创造更多价值。”

FOX Corporation 通过一些世界领先和最有价值的品牌制作和分发内容，包括：FOX News、FOX Sports、FOX Network 和 FOX 电视台。 FOX 使各种故事创作者能够想象和开发具有文化意义的内容，同时建立一个在创意、运营专业知识和战略思维上蓬勃发展的组织。 “Amazon Redshift 使我们能够每天从各种第一方和第三方来源大规模提取、优化、转换和聚合数十亿个事务事件，”消费品与工程数据服务副总裁 Alex Tverdohleb 说，福克斯公司。 “我们在我们的数据仓库和数据湖中查询实时数据，现在借助新的 Amazon Redshift 联合查询功能，我们还可以轻松地查询和分析我们关系数据库中的实时数据。我们的 PB 级数据正在快速增长，随着 Amazon Redshift RA3 实例和 Amazon Redshift 的 AQUA（高级查询加速器）的创新，我们很高兴能够为我们最苛刻的工作负载获得 10 倍的性能提升，同时保持我们的成本不变. AQUA for Amazon Redshift 是 AWS 如何在堆栈的每一层进行创新以为其客户提供最佳解决方案的一个很好的例子。”

Sophos 是下一代网络安全领域的全球领导者。 “包括 Amazon Redshift 在内的 Amazon Web Services 使我们能够将我们的一系列下一代安全解决方案生成的实时数据提供给超过 409,000 个组织进行分析，”Sophos 中央内容集团副总裁 John Peterson 说。 “Amazon Redshift 中的新联合查询功能可以帮助我们将其提升到一个新的水平，使我们能够直接在我们的 Aurora 和 RDS PostgreSQL 数据库中查询数据，而无需为数据移动设置工作流。我们很高兴看到这可以如何加快我们的洞察时间，并有助于更轻松地将来自多个事务数据库的最新数据与我们的数据仓库和数据湖中的数据合并。”

Ancestry 是家族史和消费者基因组学领域的全球领导者，致力于推动个人发现之旅以丰富生活。 “借助 Amazon Elasticsearch Service，我们可以实时收集和分析公司的运营日志，”Ancestry 工程开发高级经理 Clint Smith 说。 “现在，用于 Amazon Elasticsearch Service 的 UltraWarm 将帮助我们识别日志事件之间的关联，并快速找到根本原因应用程序问题。在使用 UltraWarm for Amazon Elasticsearch Service 之前，我们的成本限制意味着我们只能存储五天的数据。借助适用于 Amazon Elasticsearch Service 的 UltraWarm，我们将能够将该窗口延长至 90 天，并通过 Kibana 以显着降低的成本分析数据。这些额外的数据将帮助我们识别以前存储的五天数据无法发现的应用程序问题。”

关于亚马逊网络服务

13 年来，Amazon Web Services 一直是世界上最全面、应用最广泛的云平台。 AWS 为计算、存储、数据库、网络、分析、机器人、机器学习和人工智能 (AI)、物联网 (IoT)、移动、安全、混合、虚拟和增强现实（VR 和 AR）提供超过 165 项功能齐全的服务)、媒体和应用程序开发、部署和管理，来自 22 个地理区域内的 69 个可用区 (AZ)，并宣布计划在印度尼西亚、意大利、南非和西班牙再增加 13 个可用区和 4 个 AWS 区域。数以百万计的客户（包括发展最快的初创公司、最大的企业和领先的政府机构）信任 AWS 来支持他们的基础设施、变得更加敏捷并降低成本。

关于亚马逊

亚马逊遵循四项原则：以客户为中心而非以竞争对手为中心、对发明的热情、对卓越运营的承诺以及长期思考。客户评论、一键购物、个性化推荐、Prime、亚马逊物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板电脑、Fire TV、亚马逊 Echo 和 Alexa 是亚马逊率先推出的一些产品和服务。

点击咨询现在有哪些新兴平台值得关注 >>>

特别声明：以上文章内容仅代表作者本人观点，不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。