用Spark，Kafka和k8s构建下一代数据管道(3)_12图资源库

您好，欢迎来到12图资源库！分享精神，快乐你我！我们只是素材的搬运工！！

设为首页 | 收藏本站 | 网站地图 | TAG标签|站长交流|留言

|

|

|

|

|

|

|

|

|

|

|

|

|

当前位置：首页 > 开发 > WEB开发 >

用Spark，Kafka和k8s构建下一代数据管道(3)

时间：2021-08-09 08:00 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

在这两种状况下，第一个数据是从两个不同的来源加载的，并且产品数据针对一切非电气产品停止过滤。买卖数据依据订单日期的某种格式停止更改。然后，将两个数据帧衔接起来，并生成该超市中细分支出和产品销售数量的结果。

当然，这是加载、验证、转换和聚合的复杂示例。运用SparkSQL 可以停止更复杂的操作。要了解有关SparkSQL 效劳的更多信息，请参阅此处的文档。

Sparkfor Speed 层

SparkStreaming 是一个库，用于中心Spark框架之上。它确保实时数据流处置的可扩展性、高吞吐量和容错性。

用Spark，Kafka和k8s构建下一代数据管道

图 5：SparkStreaming 架构(来源：https : //spark.apache.org)

如上图所示，Spark将输入数据流转换为批量输入数据。这种团圆Batch有两种完成方式：a) Dstreams 或团圆化流和 b) 结构化流。前者十分受欢迎，直到后者作为更初级的版本出现。但是，Dstream 还没有完全过时，为了残缺起见，将其保留在本文中。

· Discretized Streams：这提供了对火花流库的笼统。它是 RDD 的集合，代表一个延续的数据流。它将数据团圆成小批量并运转小作业来处置这些小批量。义务依据数据的位置分配给任务节点。因此，经过 Dstream 的这个概念，Spark可以并行读取数据，执行小批量处置流并确保流处置的有效节点分配。

· 结构化流：这是运用Spark引擎的最先进和现代的流处置办法。它与SparkDataframe API(在下面的Batch部分中讨论)很好地集成在一同，用于对流数据的各种操作。结构化流可以增量和延续地处置数据。基于特定窗口和水印的近实时聚合也是能够的。

Spark结构化流可以处置不同的流处置用例，如下面的示例所示：

复杂的结构化流媒体

复杂的结构化流只会转换和加载来自流的数据，并且不包括特定时间范围内的任何聚合。例如，系统从 Apache Kafka 获取数据，并经过Spark流和SparkSQL 近乎实时地对其停止转换(请参阅下面的代码片段)。

Python

from pyspark.sql importSparkSession

from pyspark.streaming import StreamingContext

import pyspark.sql.functions as sf

spark=SparkSession.builder.master('local').appName('StructuredStreamingApp').getOrCreate()

df =Spark.readStream.format("kafka").option("kafka.bootstrap.servers,"localhost:9092")

.option("subscribe", "test_topic").load()

df1 = df.selectExpr("CAST(value AS STRING)")

df2 = df1.selectExpr("split(value, ',')[0] as Dept","split(value, ',')[1] as Age")

df2.show()

SparkSession 对象的ReadStream函数用于衔接特定的 Kafka 主题。正如下面选项中的代码片段一样，我们需求提供 Kafka 集群代理的 IP 和 Kafka 主题称号。此代码的输入是一个表，有两列：Dept 和 Age。

结构化流媒体聚合

可以经过 Structured Streaming 对流数据停止聚合，它可以在新事情抵达的基础上计算滚动聚合结果。这是对整个数据流的运转聚合。请参考下面的代码片段，它在整个数据流上推导出部门明智的平均年龄。

Python

from pyspark.sql importSparkSession

from pyspark.streaming import StreamingContext

import pyspark.sql.functions as sf

spark=SparkSession.builder.master('local').appName('StructuredStreamingApp').getOrCreate()

df =Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092")

.option("subscribe", "test_topic").load()

df1 = df.selectExpr("CAST(value AS STRING)")

(责任编辑：admin)

标签：12图资源库开发架构数据集成

从零末尾了解Docker

甲骨文谷歌版权之战，你最常用的软件或许被

微软发布 Visual Studio 开展路途图，少量

科技行业薪酬最高的15种职位看看你在哪一

StackOverflow 调查：富有国度盛行 Python

WebAssembly 再添一员猛将：将支持运用 Go

Java案虽已尘埃落定，但软件界的连锁反响才

倾听顺序员的心声真的很重要

Git 12岁了，为你送上12个Git 的运用技巧！

扎克伯格13年前写的Facebook网站代码，你见

GraphQL vs REST API 架构，谁更胜一筹？

12种从单体架构向微效劳转型的设计准绳与优

猜你也喜欢看这些 ······: [WEB开发] 用Spark，Kafka和k8s构建下一代; [WEB开发] 前端顺序员：巧用CSS圆角完成有; [WEB开发] 清点Arrays工具类的导包及其常用; [WEB开发] Node.js 中的多线程和多进程; [WEB开发] 顺序员开发进度太慢被告上法庭！; [WEB开发] 保证Kubernetes消费环境安全七条; [WEB开发] 为什么说集中管理数据是个坏主意; [WEB开发] 微软开源的可视化神器，上手太酷; [WEB开发] Redis缓存高频难题一问三不知，; [WEB开发] DevOps与DevSecOps有何区别？; [WEB开发] 关于DevSecOps的五个优秀实际; [WEB开发] Acme框架真香！用过一次后伦敦

其他类型的网站教程 ······: [FLASH教程] Гидра новосибир; [dede教程] LuManager效劳器管理软件安装DED; [dede教程] Linux+Apache+PHP+MySQL效劳器环; [FLASH教程] szybkie po&0;yczki; [网页设计] Имеется ли возмо; [discuz教程] Транспортная фа; [建站经验] Как поступить в; [网页设计] Общебытовые акс; [dede教程] Many Thanks Very; [HTML教程] Many Thanks Extremely; [JS教程] Thanks Very; [SEO教程] Many Thanks Really

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材网站运营 dedecms 矢量素材字体全国地图热点地方门户网站地图生成器蚂蚁分类系统齐博3.5 红旗安乐业房产源码安卓网站源码齐博分类1.51 汽车源码栏目嵌套顶部公告特效导航竖列菜单 128x128png图标 dede插件

友情链接：(申请) 站长之家

我们一直在努力，您的认可是我们的动力: 02月24日优化PNG图标搜索功能; 05月28日更新3个实用工具www.12too.com/tool; 06月23日更新整站样式; ...

关于我们 | 版权声明 | 广告服务 | 联系我们 | 常见问题 | 网站地图 | 网友投稿 | 在线留言

分享精神，快乐你我！努力付出了，就会有回报！！

Copyright © 2013-2019 12TOO.COM. 12图资源库版权所有

鲁ICP备20005449