<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Pandas DataFrame的存儲格式性能對比

Pandas 支持多種存儲格式，在本文中將對不同類型存儲格式下的Pandas Dataframe的讀取速度、寫入速度和大小的進行測試對比。

創建測試Dataframe

首先創建一個包含不同類型數據的測試Pandas Dataframe。

import pandas as pd
import random
import string
import numpy as np

# Config DF
df_length= 10**6
start_date= '2023-01-01'
all_string= list(string.ascii_lette rs + string.digits)
string_length= 10**1
min_number= 0
max_number= 10**3

# Create Columns
date_col= pd.date_range(start= start_date, periods= df_length, freq= 'H')
str_col= [''.join(np.random.choice(all_string, string_length)) for i in range(df_length)]
float_col= np.random.rand(df_length)
int_col= np.random.randint(min_number,max_number, size = df_length)

# Create DataFrame
df= pd.DataFrame({'date_col' : date_col,
'str_col' : str_col,
'float_col' : float_col,
'int_col' : int_col})
df.info()
df.head()

以不同的格式存儲

接下來創建測試函數，以不同的格式進行讀寫。

import time
import os

def check_read_write_size(df, file_name, compression= None) :
format= file_name.split('.')[-1]
# Write
begin= time.time()
if file_name.endswith('.csv') : df.to_csv(file_name, index= False, compression= compression)
elif file_name.endswith('.parquet') : df.to_parquet(file_name, compression= compression)
elif file_name.endswith('.pickle') : df.to_pickle(file_name, compression= compression)
elif file_name.endswith('.orc') : df.to_orc(file_name)
elif file_name.endswith('.feather') : df.to_feather(file_name)
elif file_name.endswith('.h5') : df.to_hdf(file_name, key= 'df')
write_time= time.time() - begin
# Read
begin= time.time()
if file_name.endswith('.csv') : pd.read_csv(file_name, compression= compression)
elif file_name.endswith('.parquet') : pd.read_parquet(file_name)
elif file_name.endswith('.pickle') : pd.read_pickle(file_name, compression= compression)
elif file_name.endswith('.orc') : pd.read_orc(file_name)
elif file_name.endswith('.h5') : pd.read_hdf(file_name)
read_time= time.time() - begin
# File Size
file_size_mb = os.path.getsize(file_name) / (1024 * 1024)
return [format, compression, read_time, write_time, file_size_mb]

然后運行該函數并將結果存儲在另一個Pandas Dataframe中。

test_case= [
['df.csv','infer'],
['df.csv','gzip'],
['df.pickle','infer'],
['df.pickle','gzip'],
['df.parquet','snappy'],
['df.parquet','gzip'],
['df.orc','default'],
['df.feather','default'],
['df.h5','default'],
]

result= []
for i in test_case :
result.append(check_read_write_size(df, i[0], compression= i[1]))

result_df= pd.DataFrame(result, columns= ['format','compression','read_time','write_time','file_size'])
result_df

測試結果

下面的圖表和表格是測試的結果。

我們對測試的結果做一個簡單的分析：

CSV

未壓縮文件的大小最大
壓縮后的尺寸很小，但不是最小的
CSV的讀取速度和寫入速度是最慢的

Pickle

表現得很平均
但壓縮寫入速度是最慢的

Feather（再見 CSV，速度提升 150 倍！）

最快的讀寫速度，文件的大小也是中等，非常的平均

ORC

所有格式中最小的
讀寫速度非?？?，幾乎是最快的

Parquet

總的來說，快速并且非常小，但是并不是最快也不是最小的

總結

從結果來看，我們應該使用ORC或Feather，而不再使用CSV了，是嗎？

這取決于需求。

如果你正在做一些單獨的項目，那么使用最快或最小的格式肯定是有意義的。

但大多數時候，我們必須與他人合作。所以，除了速度和大小，還有更多的因素。

未壓縮的CSV可能很慢，而且最大，但是當需要將數據發送到另一個系統時，它非常容易。

ORC作為傳統的大數據處理格式（來自Hive）對于速度的和大小的優化是做的最好的，Parquet比ORC更大、更慢，但是它卻是在速度和大小中取得了最佳的平衡，并且支持他的生態也多，所以在需要處理大文件的時候可以優先選擇Parquet。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
6511

瀏覽量
87600
存儲

存儲

+關注

關注
12

文章
3856

瀏覽量
84660
函數

函數

+關注

關注
3

文章
3868

瀏覽量
61309

評論

相關推薦

R128平臺SPI與DBI接口的性能對比

R128平臺SPI與DBI接口的性能對比

的頭像

發表于 11-15 09:08 ?483次閱讀

R128平臺SPI與DBI接口的<b class='flag-5'>性能對比</b>

Python利用pandas讀寫Excel文件

使用pandas模塊讀取Excel文件可以更為方便和快捷。pandas可以將Excel文件讀取為一個DataFrame對象，方便進行數據處理和分析。

的頭像

發表于 12-16 11:22 ?596次閱讀

Python利用<b class='flag-5'>pandas</b>讀寫Excel文件

Nanopi系列板子資源性能對比

Nanopi系列板子資源性能對比對比性能選擇適合你的板子

發表于 08-05 14:21

在PyODPS DataFrame自定義函數中使用pandas、scipy和scikit-learn

背景PyODPS DataFrame 提供了類似 pandas 的接口，來操作 ODPS 數據，同時也支持在本地使用 pandas，和使用數據庫來執行。PyODPS DataFrame

發表于 05-17 19:48

SparkRDMA基于BigDataBench的性能對比測試

SparkRDMA基于BigDataBench 性能對比測試

發表于 05-04 13:16

Linux下AWTK與Qt的性能對比

為了比較直觀的看到AWTK的基本性能，我們對產品開發者比較關心GUI的一些參數做了測試，如界面刷新幀數、啟動時間等。讓我們從參數上直觀了解Linux下AWTK與Qt的性能對比。

發表于 10-29 08:26

Arm Cortex-A35性能對比分析

Arm Cortex-A35性能對比

發表于 01-19 07:44

步進電機和交流伺服電機性能對比分析哪個好？

步進電機和交流伺服電機性能對比分析哪個好？

發表于 10-09 06:03

常用無線收發芯片性能對比分析哪個好？

常用無線收發芯片性能對比分析哪個好？選擇收發芯片時有哪些注意事項？

發表于 10-21 06:14

arduino和stm32性能對比究竟誰更厲害？

一些DIY和各種小項目？arduino和stm32性能對比究竟誰更厲害呢？我們一起來討論一下。比較兩者之前首先我們來了解下arduino和stm32的特點：Arduino:Arduino UNO-DFRobot商城1. Arduino更傾向于創意，它弱化了具體的硬件的操作，它的函數...

發表于 01-24 07:14

關于高清混插矩陣和單格式視頻矩陣的性能對比

更深入的理解。高清混插矩陣和單格式視頻矩陣的對比：同時具備模擬信號輸入，數字信號輸入，模擬信號輸出，數字信號輸出。具有VGA接口、BNC接口、RCA接口、HDMI接口、DVI接口、立體聲接口、網絡接口等?？赏瑫r配置多種組合板卡

發表于 07-02 17:01 ?848次閱讀

圖解Pandas常用操作！

它描述了一個在線商店的不同產品線，共有四種不同的產品。與前面的例子不同，它可以用NumPy數組或Pandas DataFrame表示。但讓我們看一下它的一些常見操作。

的頭像

發表于 04-25 10:55 ?585次閱讀

圖解<b class='flag-5'>Pandas</b>常用操作！

全志T3(A40I)/T5(T507)性能對比，一代更比一代強

全志T3(A40I)/T5(T507)性能對比

的頭像

發表于 05-27 15:47 ?5956次閱讀

全志T3(A40I)/T5(T507)<b class='flag-5'>性能對比</b>，一代更比一代強

pandas中合并數據的5個函數

今天借著這個機會，就為大家盤點一下pandas中合并數據的5個函數。 join join是基于索引的橫向拼接，如果索引一致，直接橫向拼接。如果索引不一致，則會用Nan值填充。索引一致

的頭像

發表于 10-31 11:11 ?311次閱讀

<b class='flag-5'>pandas</b>中合并數據的5個函數

如何實現Pandas的DataFrame轉換交互式表格

Pivottablejs是一個通過IPython widgets集成到Python中的JavaScript庫，允許用戶直接從DataFrame數據創建交互式和靈活的匯總報表?？梢赃M行高效、清晰的數據分析和表示，幫助將數據從Pandas

發表于 11-21 16:15 ?379次閱讀

科技綠洲
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot javascript的成熟分類
Hot 麒麟9000和驍龍8+哪個好？麒麟9000相當于驍龍多少的處理器

New 潛熱儲能和顯熱儲能有何區別
New 專用集成電路通用集成電路有哪些區別專用集成電路和通用集成電路的區別與聯系

精選推薦
更多

文章

資料

帖子

一期一會，中圖儀器參加德國斯圖加特Control展，共探質控創新技術

中圖儀器
23小時前

215 閱讀

OpenHarmony語言基礎類庫【@ohos.util.LightWeightMap (非線性容器LightWeightMap)】

jf_46214456
23小時前

415 閱讀

鴻蒙OpenHarmony【輕量系統環境搭建】（基于Hi3861開發板）

jf_46214456
23小時前

392 閱讀

頻譜擴展（FSS）功能：FSS在現代 SMPS 設計中的優勢及局限性

eeDesign
23小時前

284 閱讀

HarmonyOS開發案例：【image、image-animator組件】

jf_46214456
23小時前

396 閱讀

ebay-font網頁字體加載模塊

卓僑漢
0.01 MB

免費

0下載

ATC增強網絡流量控制工具

劉麗
0.37 MB

免費

1下載

PIperChat即時通訊服務

djelje
0.27 MB

免費

1下載

XMNShareMenu分享列表頁面

fdvcxhtg
0.49 MB

免費

1下載

激光豎琴樂器開源分享

cherry1989
0.24 MB

免費

1下載

基于 FPGA 的光纖混沌加密系統

FPGA技術江湖
1天前

269 閱讀

使用DSP28377D外擴RAM寫入一個地址數據相鄰地址數據也會改變

鄭佳龍
1天前

549 閱讀

rk3568跑屏幕共享app時出現系統重啟

jf_75620565
1天前

549 閱讀

信號線上串個小電阻干啥用的？

回頭太晚
1天前

569 閱讀

給我一個FPGA，可以撬起所有顯示的接口和面板

FPGA技術江湖
2天前

533 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看