用Spark，Kafka和k8s构建下一代数据管道(2)

时间：2021-08-09 08:00 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

SQL 效劳：SparkSQL 效劳是协助我们创立数据框和保存关系数据以停止进一步转换的主要元素。这是我们运用SparkSQL 时Batch层转换的入口点。在转换进程中，可以运用python、R、Scala或Java中的不同API，也可以直接执行SQL来转换数据。

下面是一些Batch的代码示例：

假定有两个表：一个是 PRODUCT，另一个是 TRANSACTION。PRODUCT 表包含商店特定产品的一切信息，Transaction 表包含针对每个产品的一切买卖。我们可以经过转换和聚合失掉以下信息。

产品明智的总销售量

分部明智的总支出

经过在Spark数据帧上编写纯 SQL 或运用聚合函数可以取得相反的结果。

Python

from pyspark.sql importSparkSession

from pyspark.sql.functions import *

Spark=SparkSession.builder.master("local").appName("Superstore").getOrCreate()

df1 =Spark.read.csv("Product.csv")

df2 =Spark.read.csv("Transaction.csv")

df3 = df1.filter(df1.Segment != 'Electric')

df4 = df2.withColumn("OrderDate",df2.OrderDate[7:10])

result_df1 = df3.join(df4, on= ['ProductCode'], how='inner')

result_df2 = result_df1.groupBy('ProductName').sum('Quantity')

result_df2.show()

# Display segment wise revenue generated

result_df3 = result_df1.groupBy('Segment').sum('Price')

result_df3.show()

Python

from pyspark.sql importSparkSession

from pyspark.sql.functions import *

Spark=SparkSession.builder.master("local").appName("Superstore").getOrCreate()

df1 =Spark.read.csv("Product.csv")

df2 =Spark.read.csv("Transaction.csv")

df3 = df1.filter(df1.Segment != 'Electric')

df4 = df2.withColumn("OrderDate",df2.OrderDate[7:10])

result_df1 = df3.join(df4, on= ['ProductCode'], how='inner')

result_df1.createOrReplaceTempView("SuperStore")

# Display product wise quantity sold

result_df2 =Spark.sql("select ProductName , Sum(Quantity) from Superstore group by ProductName")

result_df2.show()

# Display segment wise revenue earned

result_df3 =Spark.sql("select Segment , Sum(Price) from Superstore group by Segment")

result_df2.show()

(责任编辑：admin)

标签：12图资源库开发架构数据集成

从零末尾了解Docker

甲骨文谷歌版权之战，你最常用的软件或许被

微软发布 Visual Studio 开展路途图，少量

科技行业薪酬最高的15种职位看看你在哪一

StackOverflow 调查：富有国度盛行 Python

WebAssembly 再添一员猛将：将支持运用 Go

Java案虽已尘埃落定，但软件界的连锁反响才

倾听顺序员的心声真的很重要

Git 12岁了，为你送上12个Git 的运用技巧！

扎克伯格13年前写的Facebook网站代码，你见

GraphQL vs REST API 架构，谁更胜一筹？

12种从单体架构向微效劳转型的设计准绳与优

猜你也喜欢看这些 ······: [WEB开发] 用Spark，Kafka和k8s构建下一代; [WEB开发] 前端顺序员：巧用CSS圆角完成有; [WEB开发] 清点Arrays工具类的导包及其常用; [WEB开发] Node.js 中的多线程和多进程; [WEB开发] 顺序员开发进度太慢被告上法庭！; [WEB开发] 保证Kubernetes消费环境安全七条; [WEB开发] 为什么说集中管理数据是个坏主意; [WEB开发] 微软开源的可视化神器，上手太酷; [WEB开发] Redis缓存高频难题一问三不知，; [WEB开发] DevOps与DevSecOps有何区别？; [WEB开发] 关于DevSecOps的五个优秀实际; [WEB开发] Acme框架真香！用过一次后伦敦

其他类型的网站教程 ······: [FLASH教程] Гидра новосибир; [dede教程] LuManager效劳器管理软件安装DED; [dede教程] Linux+Apache+PHP+MySQL效劳器环; [FLASH教程] szybkie po&0;yczki; [网页设计] Имеется ли возмо; [discuz教程] Транспортная фа; [建站经验] Как поступить в; [网页设计] Общебытовые акс; [dede教程] Many Thanks Very; [HTML教程] Many Thanks Extremely; [JS教程] Thanks Very; [SEO教程] Many Thanks Really

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材网站运营 dedecms 矢量素材字体全国地图热点地方门户网站地图生成器蚂蚁分类系统齐博3.5 红旗安乐业房产源码安卓网站源码齐博分类1.51 汽车源码栏目嵌套顶部公告特效导航竖列菜单 128x128png图标 dede插件