国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

spark 中 rdd to dataframe 問題

2024-07-21 02:51:31
字體:
來源:轉載
供稿:網友

在spark streaming 過程中遇到數據不對的地方,最有check 到時我們RDD到dataframe 出現了問題

  rowRdd = rdd.flatMap(build_data_row)  statsRdd = rowRdd.map(map_to_id)  dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 這個function 盡管return Row(.......) 但是在sqlContext.createDataFrame 中出現數據跟預期的不一樣的情況最后從spark 的文檔發現, RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的, 如果沒有指定的話,可能出現數據的錯亂

尤其是在table 字段很多的情況下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrameschema – a StructType or list of names of columnssamplingRatio – the sample ratio of rows used for inferring


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 射洪县| 万山特区| 抚顺市| 洞头县| 横峰县| 饶河县| 栾川县| 柳河县| 扶沟县| 剑阁县| 增城市| 赤壁市| 武夷山市| 汉川市| 凤凰县| 阳城县| 宁德市| 兰溪市| 伽师县| 嫩江县| 堆龙德庆县| 新安县| 宿松县| 汝城县| 察隅县| 连山| 红桥区| 阳江市| 牡丹江市| 崇礼县| 汶川县| 伊通| 永康市| 泸定县| 房产| 寿阳县| 河北区| 六盘水市| 康马县| 弥勒县| 全州县|