1. Home
  2. 读书知识

送5本刚出版的Flink实战书籍!

文末赠书

送5本刚出版的Flink实战书籍!

以下内容节选自Flink实战派一书!

送5本刚出版的Flink实战书籍!


--正文--

大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破。

在通常情况下,大数据技术与机器学习是互相促进、相依相存的关系。

01

大数据和机器学习之间的关系

机器学习不仅需要合理、适用和先进的算法,还需要依赖足够好和足够多的数据。

大数据可以提高机器学习模型的精确性。

数据的数据量越多,质量越高,机器学习的效率和准确性就越高。机器学习是大数据分析的一个重要方向(方式)。

大数据技术深度结合人工智能将是未来发展的一个重要方向。

大数据实时计算框架Flink结合基于Flink的机器学习库Alink,是目前非常优秀的“大数据+人工智能”解决方案。

  • Flink可以为Alink提供数据预处理、特征识别、样本计算和模型训练等基础功能。
  • Alink基于Flink,可以为Flink提供机器学习算法库。

Flink还可以和目前主流的人工智能框架(如PyTorch、TensorFlow、Kubeflow)结合。

02

Flink是什么?

业界认为,Flink是最好的数据流计算引擎。

为了便于理解Flink是什么,下面以迭代的方法进行定义。

  • Flink是一个开源的分布式大数据处理引擎与计算框架。
  • Flink是一个对 数据流和有界数据流进行统一处理的、开源的分布式大数据处理引擎与计算框架。
  • Flink是一个能进行有状态或无状态计算的、对 数据流和有界数据流进行统一处理且开源的分布式大数据处理引擎与计算框架。

Flink可以进行的数据处理包括实时数据处理、特征工程、历史数据(有界数据)处理、连续数据管道应用、机器学习、图表分析、图计算、容错的数据流处理。

Flink在大数据架构中的位置如下图所示。

送5本刚出版的Flink实战书籍!

由上图可以看出,在大数据架构中,Flink用于提供数据计算服务。

Flink先获取数据源的数据,然 行转换和计算等,最后输出计算结果。

03

Flink的应用场景

Flink的应用场景如下。

  • 事件驱动:利用到来的事件触发计算、状态更新或其他外部动作。比如反欺诈、实时风险控制、异常检测、基于规则的报警、业务流程监控、Web应用。
  • 数据分析:从原始数据中提取有价值的信息和指标。比如电信网络质量监控、移动应用中的产品更新及实验评估和分析、实时数据即席分析、大规模图分析。
  • 数据管道:数据管道和ETL(提取、转换、加载)作业的用途相似,都可以转换、丰富数据,并将其从某个存储系统移动到另一个存储系统中。但数据管道是以持续流模式运行的,而非周期性触发。比如实时查询索引构建、持续ETL作业。

04

认识Alink

Alink是阿里巴巴计算平台事业部PAI团队研发的基于Flink的机器学习框架。

Alink于2019年11月正式开源。

Alink提供了丰富的算法组件,是业界首个同时支持批/流算法的机器学习框架。

开发者利用Alink可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发的全流程。Alink的名称取自相关名称(Alibaba、Algorithm、AI、Flink、Blink)的结合。

05

Flink的整体架构

Flink包含部署层、执行引擎层、核心API层和领域库层。下图是Flink 1.11版本架构所包含的组件。

送5本刚出版的Flink实战书籍!

(1)部署层

Flink支持本地(Local)模式、集群(Cluster)模式等。

(2)执行引擎层

执行引擎层是核心API的底层实现,位于最低层。执行引擎层提供了支持Flink计算的全部核心实现。

执行引擎层的主要功能如下。

  • 分布式流处理。
  • 从作业图(JobGraph)到执行图(ExecutionGraph)的映射、调度等。
  • 为上层的API层提供基础服务。
  • 构建新的组件或算子。

执行引擎层的特点包括以下几点:灵活性高,但开发比较复杂;表达性强,可以操作状态、Time等。

(3)核心API层

核心API层主要对 数据流和有界数据流进行处理,包括DataStream API和DataSet API,以及实现了更加抽象但是表现力稍差的Table API、SQL。

  • DataStream API:用于处理 数据,或者以流处理方式来处理有界数据。
  • DataSet API:用于对有界数据进行批处理。用户可以非常方便地使用Flink提供的各种算子对分布式数据集进行处理。DataStream API和DataSet API是流处理应用程序和批处理应用程序的接口,程序在编译时生成作业图。在编译完成之后,Flink的优化器会生成不同的执行计划。根据部署方式的不同,优化之后的作业图将被提交给执行器执行。
  • Table API、SQL:用于对结构化数据进行查询,将结构化数据抽象成关系表,然后通过其提供的类SQL语言的DSL对关系表进行各种查询。

(4) 领域库层

Flink还提供了用于特定领域的库,这些库通常被嵌入在API中,但不完全独立于API。这些库也因此可以继承API的所有特性,并与其他库集成。

在API层之上构建的满足特定应用的实现计算框架(库),分别对应面向流处理和面向批处理这两类。

  • 面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作)。
  • 面向批处理支持:FlinkML(机器学习库)、Alink(新开源的机器学习库)、Gelly(图计算)。送5本刚出版的Flink实战书籍!

更多实战派,给你一样的精彩!

送5本刚出版的Flink实战书籍!

 

送5本刚出版的Flink实战书籍!

▊《Flink实战派

龙中华 著

  • 版本较新:针对Flink 1.11版本和Alink 1.2版本。
  • 体例科学:采用“知识点+实例”的形式编写。
  • 实例丰富:47个基础实例 + 1个项目实例。
  • 跨界整合:①讲解了4种开发Flink应用程序的API,即DataSet API、DataStream API、Table API和SQL相关知识;②讲解了状态处理器API、复杂事件处理库,以及常用的消息中间件Kafka;③讲解了大数据和人工智能的结合,以及机器学习框架Alink。
  • 编排讲究:本书涉及的术语尽量做到有迹可循,每一个术语都尽可能在前面的章节中有所描述。章节递进关系清楚,内容顺序合理,从头到尾逻辑连贯。

 

原文链接:https://blog.csdn.net/a934079371/article/details/117757455

你可能感兴趣

机器学习书籍推荐

机器学习(Machine Learning, ML)无疑是目前计算机领域最热门的方向了。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、线性代数等多门学科。下面罗列了机器学习的经典书单,分享给有志于成为机器学习大牛的各位。本书把高深的数学原理讲得通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳

学人工智能看什么书?AI入门书籍推荐

对于零基础新手想要人工智能入门的第一步,应该是多看基本大师的书,对人工智能有一个初步的系统的了解。AI看什么书?下面我将给大家推荐五本人工智能入门书籍,虽然不算多但贵在精,相信大家看完这五本书就足以入门了。学人工智能看什么书?1、《人工智能:一种现代的方法》(Artificial Intelligence: A Modern Approach)介绍:作者为Stuart Russell和Peter Norvig。Russell,加州大学伯克利分校的计算机科学教授,发表了100多篇关于人工智能的论文。Norvig 现为谷歌研究总监,美国人工智能协会的创始会员之一,ACM院士。推荐理由:人工智能领域

阅读推荐 | 值得一看的十本泛安全技术书籍

阅读是技术人员提升专业能力的有效方式之一,特别是对于从事网络安全行业的人员,广泛的知识储备会更有利于应对各种突发的安全事件。如果您对当 行的热点技术或不断发展的新兴技术感兴趣,本文所推荐的10本书籍非常值得您阅读,将促进您对未来信息技术发展,以及企业所面临的安全发展和风险挑战进行重新思考。1.《计算与技术伦理》《Computing and Technology Ethics》作者:Emanuelle Burton、Judy Goldsmith、Nicholas Mattei等书籍简介:从通讯到旅行再到医疗,计算技术正在改变着我们的日常生活。本书以科幻小说为案例,研究计算技术发展中的伦理性分歧

有哪些值得推荐的好的算法书?

经典算法算法设计这是一本关于算法设计和分析的经典教材。本书围绕算法设计进行组织,对每种算法技术用多个典型范例进行分析,把算法的理论跟实际问题结合起来,具有很大的启发性。本书侧重算法设计思路,每章都从实际问题出发,经过深入具体的分析引出相应算法的设计思想,并对算法的正确性和复杂性进行合理的分析和论证。本书覆盖面广,且含有200多道精彩的习题,最后还扩展了PSPACE问题、参数复杂性等内容。本书的目标是将这种方法带入算法研究,作为一个设计过程,它始于各种计算应用程序中 出现的问题,构建在对算法设计技术理解的基础之上,最终得到这些问题的有效解决方案。我 们试图探讨算法思想在计算机科学中的作用,并将这

机器学习推荐书籍

机器学习周志华:《机器学习》李航:《统计学习方法》图灵程序设计丛书:《机器学习实战》机械工业出版社:《机器学习实战:基于Scikit-Learn和TensorFlow 》 
机械出版社的那本,其机器学习算法主要通过python依赖包sklearn实现。
数据类《Python数据科学手册》 
这本书我觉得也很棒,里面有python依赖包numpy,pandas,matplotlib和一些机器学习的算法的实现。

什么是数据分析,数据分析的作用?

数据分析是从大量数据中寻找规律并做出预测的过程。
数据分析是对数据进行统计、分析和推理,以获取有用的信息和结论的过程。
数据分析的主要目的是了解数据的特征和规律,并提取有用的信息和结论。
通常,数据分析过程包括数据收集、数据预处理、数据分析、数据可视化和结果解释等5个步骤。
数据分析的方法有很多种,常见的方法有图像分析、统计分析、建模分析和文本分析。
统计分析方法是通过对数据进行统计,从数据中提取信息的方法。
建模分析方法是通过对数据进行建模,从模型中提取信息的方法。

原创文章,作者:xyhun,如若转载,请注明出处:https://www.xyhun.com/7517.html

Contact Us

邮件:294438279@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code