'group.id': <GroupName>,
'enable.auto.commit': True,
'auto.offset.reset': 'earliest'
})
consumer.subscribe([TopicName])
K8.yml 文件的示例结构如下:
YAML
metadata:
name: <app name>
namespace: <deployment namespace>
labels:
app: <app name>
spec:
replicas: <replication-factor>
spec:
containers:
- name: <container name>
假设按照上述方式开发基本组件,系统将取得散布式计算的协助,而无需停止内存计算。一切都取决于系统的体积和所需速度。关于低/中等数据量,可以经过完成这种基于 python-k8 的架构来确保良好的速度。
这两种办法都可以托管在具有各种效劳的云中。例如,我们在 AWS 中有 EMR 和 Glue,可以在 GCP 中经过 Dataproc 创立Spark集群,或许我们可以在 Azure 中运用 Databricks。另一方面,kafka-python-k8的方式可以很容易地在云端完成,这保证了更好的可管理性。例如在 AWS 中,我们可以将 MSK 或 Kinesis 和 EKS 的组合用于这种办法。在下一个版本中,我们将讨论一切云供应商中Batch和Speed层的完成,并依据不同的需求提供比较研讨。
原文标题:Next-Gen Data Pipes WithSpark, Kafka and k8s,作者:Subhendu Dey & Abhishek Sinha
【51CTO译稿,协作站点转载请注明原文译者和出处为51CTO.com】
【编辑引荐】
友盟+ 音讯推送U-Push,为开发者提供合规、高效推送效劳
YonBuilder+APICloud,用友以低代码双平台做强做大开发者生态
每个开发人员都应该知道的16个优秀新计算机编程言语
应用NLP感知世界 Facebook开源机器人开发平台
引荐一款基于 SpringBoot 的接口快速开发框架
(责任编辑:admin)