• 官方微信

    CA800二维码微平台 大视野

  • 工控头条

    CA800二维码工控头条App

当前位置:自动化网>自动化新闻>企业资讯>开放式数据湖仓,释放数据分析无限潜能

开放式数据湖仓,释放数据分析无限潜能

发布时间:2022-07-14 来源:中国自动化网 类型:企业资讯 人浏览
关键字:

商业智能 数据分析 Cloudera 机器学习 BI

导  读:

Cloudera客户运行着地球上最大的一些数据湖。这些湖为关键任务大规模数据分析、商业智能(BI)和机器学习用例,包括企业数据仓库,提供动力。

  Cloudera首席技术官Ram Venkatesh
  Cloudera产品管理副总裁Priyank Patel

  Cloudera客户运行着地球上最大的一些数据湖。这些湖为关键任务大规模数据分析、商业智能(BI)和机器学习用例,包括企业数据仓库,提供动力。近年来,创造了“数据湖仓”一词来描述这种对数据湖中的数据进行表分析的架构模式。在匆匆奔向这个术语的过程中,许多厂商忽略了这样一个事实,即数据架构的开放性是其持久性和长盛不衰的保证。

  关于数据仓库和数据湖

  数据湖和数据仓库将海量的各种类型数据统一到一个中心位置。但是有着截然不同的架构世界观。数仓是为SQL分析垂直集成的,而数据湖优先考虑SQL之外的分析方法的灵活性。

  为了能兼得鱼与熊掌——数据湖中分析的灵活性和数仓中简单快速的SQL,企业经常部署数据湖来补充他们的数仓,在数据提取、转换、加载(ETL)或ELT管道的最后一步让数据湖为数仓系统提供数据。在这样做的过程中,他们等于接受了数据在仓库中的锁定。

  但可以有一个更好的方法:用Hive元存储,这是过去十年数据平台一个出人意料的好产品。随着用例的成熟,我们看到高效的交互式BI分析和事务语义来修改数据的需求。

  数据湖仓的迭代

  第一代Hive元存储试图解决在数据湖上高效运行SQL的性能考虑。它提供了数据库、模式和表的概念,用于描述数据湖的结构,让BI工具可以有效地充分使用数据。它添加了描述数据逻辑和物理布局的元数据,支持基于成本的优化器、动态分区裁剪以及针对SQL分析的一些关键性能改进。

  第二代Hive元存储添加了对使用Hive ACID的事务更新的支持。数据湖仓虽然尚未正式命名,但已开始热闹。事务性启用了持续摄取和插入/更新/删除(或合并)的用例,从而打开了数仓样式的查询、功能以及从其他数仓系统到数据湖的迁移。这对我们的许多客户来说非常有价值。

  Delta Lake项目采用不同的方法来解决这个问题。Delta Lake为数据湖中的数据添加了事务支持。可以进行数据策管,为数据湖带来了运行数仓式分析的可能性。

  渐渐的在某个时刻,“数据湖仓”这个词因为这种架构模式而被造出来了。我们相信湖仓是简洁地定义这种模式的好方法,并很快在客户和行业中获得了共识。

  开放数据湖仓满足互操作性需求

  在过去几年中,随着新数据类型的诞生和新的数据处理引擎的出现,为了简化分析,企业所期望的两全其美真的需要分析引擎的灵活性。如果企业海量有价值的数据需要被管理,那么企业必须能够开放的选择不同的分析引擎,甚至是供应商。

  湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

  在能够添加Impala、Spark等引擎之前,Hive元存储一直遵循Hive为先的演进。Delta lake是Spark为主的演进;如果客户想要自由选择不同的引擎而不只是表格式,他们的选择极为有限。

  客户从一开始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive元存储被多个引擎和多个存储选项使用。除了Hive和Spark,还有Presto、Impala等等。Hive元存储是有机地演进支持这些用例,因此集成通常很复杂且容易出错。

  为满足互操作性需求而设计的开放数据湖仓从根本上解决了这一架构问题。它会让那些全押在一个平台上的人感到不安,但社区驱动的创新能帮助解决现实世界的问题,以务实的方式帮助使用同类最佳工具,并克服供应商的锁定。

  开放湖仓Apache Iceberg的诞生

  Apache Iceberg从一开始构建时,其目标就是在多个分析引擎在云原生规模上轻松实现互操作。这项创新的诞生之地Netflix需要将100 PB规模的S3数据湖构建到数仓中,这可能是最佳示例了。云原生表格式由其创建者开源到Apache Iceberg中。

  Apache Iceberg真正的超级力量是它的社区。在过去三年中,Apache Iceberg社区有机地蓬勃发展,增加了一系列令人赞叹的优异集成:

  数据处理和SQL引擎Hive、Impala、Spark、PrestoDB、Trino、Flink

  多种文件格式:Parquet、AVRO、ORC

  社区中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia等

  AWS Athena、Cloudera、EMR、Snowflake、腾讯、阿里巴巴、Dremio、Starburst的托管服务

  使这个多样化的社区蓬勃发展的原因是数千家公司的集体需求,以确保数据湖可以演变为包含数据仓库,同时保持跨引擎的分析灵活性和开放性。这使得开放式湖仓成为可能:为未来提供无限的分析灵活性。

  Cloudera拥抱Iceberg模式

  在Cloudera,我们为我们的开源根基感到自豪,并致力于社区贡献。自2021年以来,我们为日益壮大的Iceberg社区在Impala、Hive、Spark和Iceberg上做出了数百项贡献。我们扩展了Hive元存储将集成添加到我们的许多开源引擎中以充分利用Iceberg表。2022年初,我们在Cloudera Data Platform(CDP)中提供了Apache Iceberg的技术预览,使Cloudera客户能够在我们的数据仓库、数据工程和机器学习服务中实现Iceberg的模式和时间旅行能力。

  我们的客户一直告诉我们,无论是现代BI、AI/ML、数据科学还是更多,分析需求都在迅速发展。选择由Apache Iceberg提供支持的开放数据湖仓让企业可以自由选择分析。

本文地址:http://www.ca800.com/news/d_1o3un7jog79m1.html

拷贝地址

上一篇:贸泽荣获Digi International颁发的年度新品引入分销商大奖

下一篇:英飞凌与Oxford Ionics携手开发先进的离子阱量子处理器

免责声明:本文仅代表作者个人观点,与中国自动化网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容!来源网络如有误有侵权则删。

相关新闻
商业智能 数据分析 Cloudera 机器学习 BI
  • 云迁移之后,企业何以充分挖掘数据潜力?

    云迁移仅仅是第一步。企业在成功上云之后,还需要通过有效的数据分析来释放云的全部潜力,而企业数据战略是保障企业数据生态系统和分析策略平稳运行的关键。

  • 高露洁-棕榄公司利用艾默生的压缩空气监测智能传感器技术追求二氧化碳净零排放目标

    借助艾默生的先进传感器技术和数据分析,高露洁已经在多条牙膏和牙刷包装生产线上降低了15%的能源消耗,并期望随着该技术的进一步推广,以更大力度实施节能降耗。

  • 无需编程即可实现频谱分析

    TwinCAT Analytics 软件新增易于配置的状态监测功能,无需编程即可实现频谱分析。倍福的 TwinCAT Analytics 软件可以完成从数据采集到数据存储和数据分析,再到生成用于持续监测设备状态的仪表盘等完整的工作流程。

  • 今年一季度全球云服务市场同比增长35%

    Canalys公布的2021年第1季度全球云服务市场报告,该季度云基础设施服务支出增长35%,达到418亿美元。使用云服务用于数据分析和机器学习、数据中心整合、应用迁移、云原生开发和服务交付的趋势仍在继续。

  • 专家访谈 | AI 算法是否应该在本地控制系统上运行?

    很多工业 4.0 方案都要依赖于在设备层进行的数据分析,尤其是在机械工程领域。倍福 Josef Papenfort 博士与《Elektro Automation》杂志副主编 Andreas Gees 就如何有效地在云和边缘之间分配任务?支持将 AI 算法集成到本地应用。

  • 分析引导决策,智能BI到底长啥样?

    面对繁琐如海的数据处理与合并、龟速的数据引擎性能、枯燥的数据分析等过程,表哥的内心其实是崩溃的,性情也越发暴躁,动不动就大吼两声,“卧槽,怎么又崩了”?

  • 汽车行业应用BI,应该从哪个环节入手?

    本文采访对象为Jeff,音智达项目总监,汽车行业资深项目管理专家。20年汽车行业数据分析系统建设经验。曾参与以下客户项目实施:奔驰,宝马,奥迪,捷豹,上汽通用、上汽大众、蔚来汽车、威马汽车、观致汽车、上汽乘用车、北汽新能源、北汽麦格纳、纳铁福等。在这些项中负责项目管理、业务需求调研和设计,在业务分析和可

  • 数据分析平台如何成为企业标配

    数据分析的概念被越来越广泛的提及和使用,众所周知,数据分析的目的是将隐没在杂乱无章数据中的信息集中、萃取和提炼,从而找出研究对象的内在规律,而这与商业智能(BI)的理念几乎不谋而合。

  • BI协助企业智能决策

    BI的强大分析能力能够帮助企业挖掘数据之间的潜在关联,并以丰富的可视化图形表现出来,为企业的决策提供指导。

  • 如何选择最适合您企业的BI系统?

    BI将帮助企业从海量的数据中,快速挖掘出有效信息,实现对数据的多维度洞察,并通过对数据的建模和分析,预测数据变化趋势,从而帮助企业高层进行决策。

  • 数据分析平台如何成为企业标配

    数据分析的概念被越来越广泛的提及和使用,众所周知,数据分析的目的是将隐没在杂乱无章数据中的信息集中、萃取和提炼,从而找出研究对象的内在规律,而这与商业智能(BI)的理念几乎不谋而合。

猜您喜欢

更多精彩信息看点 请扫描以下二维码