国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

spark創建DataFrames

2019-11-06 06:27:37
字體:
來源:轉載
供稿:網友

1.DataFrame講解

     在Spark中,DataFrame是一種以RDD為基礎的分布式數據集,類似于傳統數據庫中的二維表格。DataFrame與RDD的主要區別在于,前者帶有schema元信息,即DataFrame所表示的二維表數據集的每一列都帶有名稱和類型。這使得Spark SQL得以洞察更多的結構信息,從而對藏于DataFrame背后的數據源以及作用于DataFrame之上的變換進行了針對性的優化,最終達到大幅提升運行時效率的目標。反觀RDD,由于無從得知所存數據元素的具體內部結構,Spark Core只能在stage層面進行簡單、通用的流水線優化。

2.講解所用spark和scala版本號

spark version 1.6.0,scala version 2.10.4。

3.創建SQLContext()實例

val sqlContext = new SQLContext(sc)本次講解以官網下載的spark-2.1.0里的spark-2.1.0/examples/src/main/resources/people.json為例講解。

   people.json具體數據及格式如下圖所示:

4.通過read讀入文件

val df = new SQLContext(sc).read.json("E://spark-2.1.0//spark-2.1.0//examples//src//main//resources//people.json")5.通過show()查看結果

df.show()

5.完整代碼及結果


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 通海县| 扬中市| 南岸区| 虞城县| 上虞市| 虹口区| 曲麻莱县| 镇康县| 新田县| 肇源县| 酒泉市| 抚州市| 兴义市| 长乐市| 盐亭县| 台湾省| 井陉县| 桐庐县| 台州市| 横峰县| 连平县| 潮州市| 肇源县| 蓬溪县| 西乌珠穆沁旗| 临湘市| 韶关市| 招远市| 温泉县| 马龙县| 湖州市| 江达县| 巴林左旗| 三原县| 胶南市| 丹江口市| 浦北县| 兴城市| 双峰县| 开江县| 讷河市|