用Spark，Kafka和k8s构建下一代数据管道(4)

首页

当前位置：首页 > 开发 > WEB开发 >

时间：2021-08-09 08:00 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

df2 = df1.selectExpr("split(value, ',')[0] as Dept","split(value, ',')[1] as Age")

df3 = df2.groupBy("Dept").avg("Age")

df3.show()

窗口聚合

有时我们需求在某个时间窗口内停止聚合，而不是运转聚合。SparkStructured Streaming 也提供了这样的功用。假定我们要计算过去 5 分钟内的事情数。这个带聚合的窗口函数将协助我们。

Python

from pyspark.sql importSparkSession

from pyspark.streaming import StreamingContext

import pyspark.sql.functions as sf

import datetime

import time

spark=SparkSession.builder.master('local').appName('StructuredStreamingApp').getOrCreate()

df =Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092")

.option("subscribe", "test_topic").load()

df1 = df.selectExpr("CAST(value AS STRING)")

df2 = df1.selectExpr("split(value, ',')[0] as Dept","split(value, ',')[1] as Age")

df3 = df2.withColumn("Age", df2.Age.cast('int'))

df4 = df3.withColumn("eventTime",sf.current_timestamp())

df_final = df4.groupBy(sf.window("eventTime", "5 minute")).count()

df_final.show()

堆叠窗口上的聚合

在下面的例子中，每个窗口都是一个完成聚合的组。还提供了经过提及窗口长度和滑动距离来定义堆叠窗口的规则。它在窗口聚合中的前期数据处置中十分有用。下面的代码基于 5 分钟窗口计算事情数，滑动距离为 10 分钟。

Python

from pyspark.sql importSparkSession

from pyspark.streaming import StreamingContext

import pyspark.sql.functions as sf

import datetime

import time

spark=SparkSession.builder.master('local').appName('StructuredStreamingApp').getOrCreate()

df =Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092")

.option("subscribe", "test_topic").load()

df1 = df.selectExpr("CAST(value AS STRING)")

df2 = df1.selectExpr("split(value, ',')[0] as Dept","split(value, ',')[1] as Age")

df3 = df2.withColumn("Age", df2.Age.cast('int'))

df4 = df3.withColumn("eventTime",sf.current_timestamp())

(责任编辑：admin)

标签：12图资源库开发架构数据集成

从零末尾了解Docker

甲骨文谷歌版权之战，你最常用的软件或许被

微软发布 Visual Studio 开展路途图，少量

科技行业薪酬最高的15种职位看看你在哪一

StackOverflow 调查：富有国度盛行 Python

WebAssembly 再添一员猛将：将支持运用 Go

Java案虽已尘埃落定，但软件界的连锁反响才

倾听顺序员的心声真的很重要

Git 12岁了，为你送上12个Git 的运用技巧！

扎克伯格13年前写的Facebook网站代码，你见

GraphQL vs REST API 架构，谁更胜一筹？

12种从单体架构向微效劳转型的设计准绳与优

猜你也喜欢看这些 ······: [WEB开发] 用Spark，Kafka和k8s构建下一代; [WEB开发] 前端顺序员：巧用CSS圆角完成有; [WEB开发] 清点Arrays工具类的导包及其常用; [WEB开发] Node.js 中的多线程和多进程; [WEB开发] 顺序员开发进度太慢被告上法庭！; [WEB开发] 保证Kubernetes消费环境安全七条; [WEB开发] 为什么说集中管理数据是个坏主意; [WEB开发] 微软开源的可视化神器，上手太酷; [WEB开发] Redis缓存高频难题一问三不知，; [WEB开发] DevOps与DevSecOps有何区别？; [WEB开发] 关于DevSecOps的五个优秀实际; [WEB开发] Acme框架真香！用过一次后伦敦

其他类型的网站教程 ······: [FLASH教程] Гидра новосибир; [dede教程] LuManager效劳器管理软件安装DED; [dede教程] Linux+Apache+PHP+MySQL效劳器环; [FLASH教程] szybkie po&0;yczki; [网页设计] Имеется ли возмо; [discuz教程] Транспортная фа; [建站经验] Как поступить в; [网页设计] Общебытовые акс; [dede教程] Many Thanks Very; [HTML教程] Many Thanks Extremely; [JS教程] Thanks Very; [SEO教程] Many Thanks Really

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材网站运营 dedecms 矢量素材字体全国地图热点地方门户网站地图生成器蚂蚁分类系统齐博3.5 红旗安乐业房产源码安卓网站源码齐博分类1.51 汽车源码栏目嵌套顶部公告特效导航竖列菜单 128x128png图标 dede插件