国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

spark | 做基本計算和批量提交

2019-11-08 18:23:35
字體:
來源:轉載
供稿:網友

初學spark,就按照書上的來學習

1、首先,在ubunu下登錄到擁有spark權限的用戶下。

#以我的為例,我的用戶名是hadoopsu hadoop #這里會提示輸入密碼#切換到spark目錄下#cd /home/hadoop/spark

2、啟動python環境

./bin/pyspark

3、以一個案例為例子來介紹,數據見底部的百度云鏈接

# -*- coding:utf-8 -*- from pyspark import SparkContext#定義SparkContext對象,2個線程,命名為First Spark Appsc = SparkContext("local[2]", "First Spark App")#讀數據,放在spark/data下data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))#計算總購買次數numPurchases = data.count()#計算有多少不同客戶購買過商品uniqueUsers = data.map(lambda record: record[0]).distinct().count()#計算總收入totalRevenue = data.map(lambda record: float(record[2])).sum()#計算最暢銷的產品PRoducts = data.map(lambda record: (record[1], 1.0)).reduceByKey(lambda a, b: a + b).collect()mostPopular = sorted(products, key=lambda x: x[1], reverse=True)[0]#結果打印出來print ("Total purchases: %d" % numPurchases)print ("Unique users: %d" % uniqueUsers)print ("Total revenue: %2.2f" % totalRevenue)print ("Most popular product: %s with %d purchases" % (mostPopular[0], mostPopular[1]))

結果: Total purchases: 5 Unique users: 4 Total revenue: 39.91 Most popular product: iphone Cover with 2 purchases

4、停止這個計算

sc.stop()

批量計算,不需要進入python環境,直接在spark目錄下: 將上面的py腳本代碼放在spark目錄下 執行:

/home/hadoop/spark/bin/spark-submit pythonapp.py

這里寫圖片描述

從運行來說,顯然批量的計算很方便,特別對于大型程序。

代碼和數據:


上一篇:linux vim配置詳解

下一篇:LeetCode 18. 4Sum

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 从江县| 泰来县| 从江县| 水富县| 宣恩县| 砀山县| 简阳市| 长沙县| 社旗县| 平罗县| 永年县| 青阳县| 大方县| 塔城市| 天水市| 施甸县| 宽城| 育儿| 德格县| 台山市| 田东县| 东阿县| 措勤县| 濮阳市| 潜江市| 玛曲县| 安泽县| 图片| 基隆市| 大竹县| 波密县| 延川县| 望都县| 门头沟区| 许昌市| 宝兴县| 长宁县| 科技| 静安区| 孟州市| 静安区|