国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<p id="e19le"><ins id="e19le"></ins></p>

首頁 > 學院 > 開發設計 > 正文

spark創建DataFrames

2019-11-06 06:27:37

字體：大中小

來源：轉載

供稿：網友

1.DataFrame講解

在Spark中，DataFrame是一種以RDD為基礎的分布式數據集，類似于傳統數據庫中的二維表格。DataFrame與RDD的主要區別在于，前者帶有schema元信息，即DataFrame所表示的二維表數據集的每一列都帶有名稱和類型。這使得Spark SQL得以洞察更多的結構信息，從而對藏于DataFrame背后的數據源以及作用于DataFrame之上的變換進行了針對性的優化，最終達到大幅提升運行時效率的目標。反觀RDD，由于無從得知所存數據元素的具體內部結構，Spark Core只能在stage層面進行簡單、通用的流水線優化。

2.講解所用spark和scala版本號

spark version 1.6.0，scala version 2.10.4。

3.創建SQLContext()實例

val sqlContext = new SQLContext(sc)本次講解以官網下載的spark-2.1.0里的spark-2.1.0/examples/src/main/resources/people.json為例講解。
   people.json具體數據及格式如下圖所示：
4.通過read讀入文件
val df = new SQLContext(sc).read.json("E://spark-2.1.0//spark-2.1.0//examples//src//main//resources//people.json")5.通過show()查看結果
df.show()
5.完整代碼及結果

上一篇：獨立成分分析（Independent Component Analysis, ICA）是什么？

下一篇：JZOJ 3640. 【COCI2014】utrka

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：通海县| 扬中市| 南岸区| 虞城县| 上虞市| 虹口区| 曲麻莱县| 镇康县| 新田县| 肇源县| 酒泉市| 抚州市| 兴义市| 长乐市| 盐亭县| 台湾省| 井陉县| 桐庐县| 台州市| 横峰县| 连平县| 潮州市| 肇源县| 蓬溪县| 西乌珠穆沁旗| 临湘市| 韶关市| 招远市| 温泉县| 马龙县| 湖州市| 江达县| 巴林左旗| 三原县| 胶南市| 丹江口市| 浦北县| 兴城市| 双峰县| 开江县| 讷河市|

<td id="3t3p4"></td>

<sub id="3t3p4"></sub>