一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

<button id="mtvxq"></button>

<mark id="mtvxq"></mark>

<blockquote id="mtvxq"></blockquote>

分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - pyspark對Mysql數據庫進行讀寫的實現

pyspark對Mysql數據庫進行讀寫的實現

2021-08-20 00:09FTDdata Python

這篇文章主要介紹了pyspark對Mysql數據庫進行讀寫的實現，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

pyspark是Spark對Python的api接口，可以在Python環境中通過調用pyspark模塊來操作spark，完成大數據框架下的數據分析與挖掘。其中，數據的讀寫是基礎操作，pyspark的子模塊pyspark.sql 可以完成大部分類型的數據讀寫。文本介紹在pyspark中讀寫Mysql數據庫。

1 軟件版本

在Python中使用Spark，需要安裝配置Spark，這里跳過配置的過程，給出運行環境和相關程序版本信息。

win10 64bit
java 13.0.1
spark 3.0
python 3.8
pyspark 3.0
pycharm 2019.3.4

2 環境配置

pyspark連接Mysql是通過java實現的，所以需要下載連接Mysql的jar包。

pyspark對Mysql數據庫進行讀寫的實現

選擇下載Connector/J，然后選擇操作系統為Platform Independent，下載壓縮包到本地。

pyspark對Mysql數據庫進行讀寫的實現

然后解壓文件，將其中的jar包mysql-connector-java-8.0.19.jar放入spark的安裝目錄下，例如D:\spark\spark-3.0.0-preview2-bin-hadoop2.7\jars。

pyspark對Mysql數據庫進行讀寫的實現

環境配置完成！

3 讀取Mysql

腳本如下：

from pyspark.sql import SQLContext, SparkSession
if __name__ == '__main__':
# spark 初始化
spark = SparkSession. \
Builder(). \
appName('sql'). \
master('local'). \
getOrCreate()
# mysql 配置(需要修改)
prop = {'user': 'xxx',
'password': 'xxx',
'driver': 'com.mysql.cj.jdbc.Driver'}
# database 地址(需要修改)
url = 'jdbc:mysql://host:port/database'
# 讀取表
data = spark.read.jdbc(url=url, table='tb_newCity', properties=prop)
# 打印data數據類型
print(type(data))
# 展示數據
data.show()
# 關閉spark會話
spark.stop()

注意點：
prop參數需要根據實際情況修改，文中用戶名和密碼用xxx代替了，driver參數也可以不需要；
url參數需要根據實際情況修改，格式為jdbc:mysql://主機:端口/數據庫；
通過調用方法read.jdbc進行讀取，返回的數據類型為spark DataFrame；

運行腳本，輸出如下：

pyspark對Mysql數據庫進行讀寫的實現

4 寫入Mysql

腳本如下：

import pandas as pd
from pyspark import SparkContext
from pyspark.sql import SQLContext, Row
if __name__ == '__main__':
# spark 初始化
sc = SparkContext(master='local', appName='sql')
spark = SQLContext(sc)
# mysql 配置(需要修改)
prop = {'user': 'xxx',
'password': 'xxx',
'driver': 'com.mysql.cj.jdbc.Driver'}
# database 地址(需要修改)
url = 'jdbc:mysql://host:port/database'
# 創建spark DataFrame
# 方式1：list轉spark DataFrame
l = [(1, 12), (2, 22)]
# 創建并指定列名
list_df = spark.createDataFrame(l, schema=['id', 'value'])
# 方式2：rdd轉spark DataFrame
rdd = sc.parallelize(l) # rdd
col_names = Row('id', 'value') # 列名
tmp = rdd.map(lambda x: col_names(*x)) # 設置列名
rdd_df = spark.createDataFrame(tmp)
# 方式3：pandas dataFrame 轉spark DataFrame
df = pd.DataFrame({'id': [1, 2], 'value': [12, 22]})
pd_df = spark.createDataFrame(df)
# 寫入數據庫
pd_df.write.jdbc(url=url, table='new', mode='append', properties=prop)
# 關閉spark會話
sc.stop()

注意點：

prop和url參數同樣需要根據實際情況修改；

寫入數據庫要求的對象類型是spark DataFrame，提供了三種常見數據類型轉spark DataFrame的方法；

通過調用write.jdbc方法進行寫入，其中的model參數控制寫入數據的行為。

model	參數解釋
error	默認值，原表存在則報錯
ignore	原表存在，不報錯且不寫入數據
append	新數據在原表行末追加
overwrite	覆蓋原表

5 常見報錯

Access denied for user …

pyspark對Mysql數據庫進行讀寫的實現

原因：mysql配置參數出錯
解決辦法：檢查user,password拼寫，檢查賬號密碼是否正確，用其他工具測試mysql是否能正常連接，做對比檢查。

No suitable driver

pyspark對Mysql數據庫進行讀寫的實現

原因：沒有配置運行環境
解決辦法：下載jar包進行配置，具體過程參考本文的2 環境配置。

到此這篇關于pyspark對Mysql數據庫進行讀寫的實現的文章就介紹到這了,更多相關pyspark Mysql讀寫內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家！

原文鏈接：https://blog.csdn.net/jhr112/article/details/105798381

延伸 · 閱讀

2022-03-11MAC下Anaconda+Pyspark安裝配置詳細步驟
2022-03-11MySQL的索引你了解嗎
2022-03-10面試中老生常談的MySQL問答集錦夯實基礎
2022-03-10淺談如何保證Mysql主從一致
2022-03-10Ubuntu18.04(linux)安裝MySQL的方法步驟
2022-03-09MySQL讓人又愛又恨的多表查詢

精彩推薦

Python

Python的dict字典結構操作方法學習筆記

這篇文章主要介紹了Python的dict字典結構操作方法學習筆記本,字典的操作是Python入門學習中的基礎知識,需要的朋友可以參考下...

Lizo_Is_Me4402020-08-22
Python

python 列表轉為字典的兩個小方法(小結)

這篇文章主要介紹了python 列表轉為字典的兩個小方法(小結)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的...

出泥的魚16542021-07-25
Python

在Windows系統上搭建Nginx+Python+MySQL環境的教程

這篇文章主要介紹了在Windows系統上搭建Nginx+Python+MySQL環境的教程,文中使用flup中間件及FastCGI方式連接,需要的朋友可以參考下 ...

沒有終點的列車13242020-08-05
Python

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

在本篇內容里小編給大家分享的是關于Python3以GitHub為例來實現模擬登錄和爬取的實例講解，需要的朋友們可以參考下。 ...

愛喝馬黛茶的安東尼5262020-07-31
Python

使用NumPy和pandas對CSV文件進行寫操作的實例

今天小編就為大家分享一篇使用NumPy和pandas對CSV文件進行寫操作的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

qq_2468356113602021-03-05
Python

python直接訪問私有屬性的簡單方法

下面小編就為大家帶來一篇python直接訪問私有屬性的簡單方法。小編覺得挺不錯的，現在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧 ...

Python教程網5152020-09-03
Python

python 插入Null值數據到Postgresql的操作

這篇文章主要介紹了python 插入Null值數據到Postgresql的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

MichaelZhu6452021-09-16
Python

Python實現ping指定IP的示例

今天小編就為大家分享一篇Python實現ping指定IP的示例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

EpisodeOne12902021-02-28

主站蜘蛛池模板：日本免费三片在线播放 | 欧美日韩国产在线人成 | 天天爱天天做天天爽天天躁 | 欧洲一级| 四虎www| 亚洲国产天堂久久精品网 | 国产精品每日在线观看男人的天堂 | 欧美贵妇videos办公室360 | tube69xxxxhd日本 | 啪啪模拟器 | 1024免费永久福利视频 | 我年轻漂亮的继坶2中字在线播放 | 久久免费看少妇级毛片蜜臀 | 久久人妻少妇嫩草AV无码 | 四虎在线永久视频观看 | 男女一级簧色带 | 国产精品亚洲综合久久 | 国四虎影永久 | 好大好湿好硬好爽好深免费视频 | 朝鲜美女免费一级毛片 | 国产第一页在线视频 | 高h扶她文肉 | 好湿好紧好大野战 | 菠萝视频5正版在线观看 | 忘忧草在线社区WWW日本-韩国 | 桃乃木香在线 | 欧美日韩一区视频 | 办公室强行丝袜秘书啪啪 | 思思91精品国产综合在线 | 精品女同同性视频很黄很色 | 欧美一级xxxx俄罗斯一级 | 欧美激情精品久久久久久不卡 | 亚洲欧美日韩精品高清 | 2022日韩理论片在线观看 | 日日操天天射 | 欧美一级在线 | 亚洲AV无码国产精品午夜久久 | 99久久精品国产免看国产一区 | 成年视频在线播放 | 高h文恩好大好爽 | 日本在线观看视频 |

<output id="mkwfs"><samp id="mkwfs"><delect id="mkwfs"></delect></samp></output>