Spark SQL_12图资源库

Spark SQL

时间：2016-06-18 11:49 来源：互联网作者：admin 浏览：次收藏挑错推荐打印

Spark SQL属于Spark用于处理结构化与半结构化数据的接口。结构化数据是指那些拥有一定模式的数据，包括JSON、Hive Tables以及Parquet。模式意味着每条记录都拥有一套已知字段组。半结构化数据则代表着模式与数据之间不存在明确的区分。

【51CTO.com快译】Spark SQL允许大家在Python、Java以及Scala中使用数据帧;利用多种结构化格式读取并写入数据;通过SQL进行大数据查询。

Spark SQL提供三种主要功能以使用结构化及半结构化数据：

1. 在Python、Java与Scala中提供DataFrame抽象以简化结构化数据集的处理方式。DataFrame类似于关系数据库中的表。

2. 它能够对多种结构化格式进行数据读取及写入(例如JSON、Hive Tables以及Parquet)。

3. 允许大家利用SQL进行数据查询，适用范围包括Spark程序之内以及通过标准数据库连接器(JDBC/ODBC)接入Spark SQL的外部工具，例如Tableau等商务智能工具。

链接

将Spark SQL纳入应用，需要提供额外的库关联性。Spark SQL在构建中可选择支持或不支持Apache Hive。在以二进制方式下载Spark时，其默认构建为Hive支持模式。

在应用中使用Spark SQL

Spark SQL最适合用于Spark应用之内。通过这种方式，我们能够轻松将数据加载与数据查询进行结合，同时将其与Python、Java或者Scala协作使用。

基本查询示例

要查询一套表，我们需要在HiveContext或者SQLContext上调用sql()方法。

Scala代码示例：从JSON加载客户数据：


	
	
		val customers = sqlContext.jsonFile("customers.json")   
	

	
		customers.registerTempTable("customers")   
	

	
		val firstCityState = sqlContext.sql("SELECT first_name, address.city, address.state FROM customers LIMIT 10")

DataFrames

DataFrames类似于关系数据库中的表。DataFrame事实上属于Row对象的一条RDD。一个DataFrame还能够识别出每一行中的模式。由于能够识别数据模式，DataFrames的数据存储效率比原生RDD更高。

缓存

Spark SQL中的缓存更为高效，这是因为DataFrame能够识别各列的类型。

数据载入及保存

Spark SQL能够原生支持多种结构化数据源，包括Hive表、JSON以及Parquet文件。

另外，Spark SQL还拥有用于集成的DataSource API。DataSource API所能够实现的集成对象包括Avro、Apache HBase、Elasticsearch以及Canssandra等等。完整的支持列表可参阅http://spark-packages.org。

JDBC连接

Spark SQL提供JDBC连接，其能够用于同Tableau等商务智能工具的对接。

用户定义功能(简称UDF)

Spark SQL支持在Python、Java以及Scala当中注册用户定义功能，从而在SQL内部进行调用。这一能力可为SQL带来更多先进功能，帮助用户无需编码即可加以使用。

Spark SQL性能

Spark SQL的额外类型信息使其更为高效，且能够提供远超关系数据库的SQL性能。它还简化了各类条件型聚合操作，包括计算多个列的数值总和。

性能调节选项

Spark SQL当中提供多种不同性能调节选项，例如codegen、内存设置、批量大小与压缩编码等等。

总结

在多种数据处理流程当中，Spark SQL与Python、Scala或者Java代码相结合都能够带来便捷而强大的实际效果。另外，Spark SQL亦能够利用模式识别能力充分发挥该引擎的性能优势。

(责任编辑：admin)

标签：12图资源库

推荐一款10G免费云空间

HTML5大潮已袭来，HTML5曲折的发展之路

李彦宏的判断力是如何炼成的

Facebook成功的13个密码：行动比想法更重要

强大的网站热图分析工具ClickHeat-建站工具

PHP 5.4.7 和 PHP 5.3.17 发布

百度站长平台推死链工具改善网站体验和收

一文看尽六家二手车电商，都是怎么做卖车服

30年前买来PowerPoint 如今赚翻了

雕爷牛腩风光不在炒作泡沫破碎为何泯然众

解读百度渠道现状：破旧立新的阵痛与蜕变

确保你始终专注于游戏开发的5个建议

猜你也喜欢看这些 ······: [最新资讯] Wynajem aut osobowych warszawa; [最新资讯] 发现Android设备全新恶意软件Clo; [最新资讯] 黑客组织扬言：7月份将公开更多; [最新资讯] 外链建设：99%都是没用的，只有1; [最新资讯] 四川开始专项治理网站侵权盗版; [最新资讯] 高德地图发布五一出行预测杭州; [最新资讯] 艺术家从iTunes或者Spotify一首; [最新资讯] 2015年度大公司盘点之网易：除了; [最新资讯] LOL传承无极之道活动地址 LOL剑; [最新资讯] 菜鸟物流机器人年内启用快递员; [最新资讯] 百度发布蝶变行动获奖榜单 16家; [最新资讯] FDD牌照拿得晚联通用户数三连降

其他类型的网站教程 ······: [SEO教程] 如何查看微信删除的聊天记载？开; [SEO教程] 被疏忽的列表页优化：为何说它有; [建站经验] 淘宝店铺运营之客户定位详细步骤; [建站经验] SEO上升空间受阻草根站长路在何; [SEO教程] LOL 玩家3000把百分百胜率金克斯; [SEO教程] 韦神：我的作风和Pawn如出一辙，; [SEO教程] LOL抗韩屡屡失败职业选手的电竞; [SEO教程] 苹果发布白色版iPhone7 3月24日; [SEO教程] 从700Bike参加共享单车混战，谈; [SEO教程] 为什么到明天还要坚持写博客; [SEO教程] 我末尾思念没有微信的日子了; [SEO教程] LOL粉丝: 莫寒我爱你莫寒: 不

关键词标签查找 ······: 站长之家网站源码网页特效下载矢量图片素材网站优化 dedecms 矢量素材蚂蚁分类系统安乐业房产源码字体全国地图热点地方门户齐博分类1.51 网站地图生成器 dede插件顶部公告特效 128x128png图标栏目嵌套红旗导航安卓网站源码齐博3.5 竖列菜单汽车源码站长工具箱