<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

如何利用Google Colab的云TPU加速Keras模型訓練

編者按：AI軟件開發者Chengwei Zhang介紹了如何利用Google Colab的云TPU加速Keras模型訓練。

我以前都在單張GTX 1070顯卡（8.18 TFlops）上訓練自己的模型，而且還挺滿足的。后來Google的Colab開放了免費的Tesla K80顯卡（12GB 顯存，8.73 TFlops），最近又提供了免費的TPU（180 TFlops）。這篇教程將簡要介紹如何將現有的Keras模型轉換為TPU模型，然后在Colab上訓練。和在我的GTX1070上訓練相比，免費的TPU能夠加速20倍。

我們將創建一個容易理解但訓練起來足夠復雜的Keras模型，讓TPU熱乎熱乎。訓練一個LSTM模型，進行IMDB情感分類任務，可能是一個很不錯的例子，因為相比密集層和卷積層，訓練LSTM對算力要求更高。

工作流概覽：

創建Keras模型，輸入采用固定的batch_size

轉換Keras模型為TPU模型

以batch_size * 8訓練TPU模型，并保存權重至文件

創建一個結構相同但輸入batch大小可變的Keras模型，用于推理

加載模型權重

基于推理模型進行預測

在閱讀本文的同時，你可以上手試驗相應的Colab Jupyter notebook：https://colab.research.google.com/drive/1QZf1WeX3EQqBLeFeT4utFKBqq-ogG1FN

閑話少敘，讓我們開始吧。

首先在Colab運行時激活TPU：

固定輸入batch尺寸

大多數情況下，CPU和GPU上對輸入形狀沒有限制，但XLA/TPU環境下強制使用固定的形狀和batch尺寸。

云TPU包含8個TPU核，每個核都作為獨立的處理單元運作。如果沒有用上全部8個核心，那就沒有充分利用TPU。為了充分加速訓練，相比在單GPU上訓練的同樣的模型，我們可以選擇較大的batch尺寸?？俠atch尺寸定為1024（每個核心128）一般是一個不錯的起點。

萬一你要訓練一個較大的模型，batch尺寸太大了，那就慢慢降低batch尺寸，直到TPU的內存放得下為止。只需確?？俠atch尺寸是64的倍數（每核心的batch尺寸應該是8的倍數）。

值得一提的是，當batch尺寸較大時，一般來說增加優化算法的學習率以更快收斂的做法是安全的。詳情參見Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour這篇論文（ arXiv:1706.02677）。

Keras允許通過參數batch_size設定輸入層的batch尺寸。注意我們將模型定義為一個接受batch_size參數的函數，這樣我們之后可以很方便地創建在CPU或GPU上運行的模型，這些模型接受可變batch尺寸的輸入。

import tensorflow as tf

from tensorflow.python.keras.layers importInput, LSTM, Bidirectional, Dense, Embedding

def make_model(batch_size=None):

source = Input(shape=(maxlen,), batch_size=batch_size,

dtype=tf.int32, name='Input')

embedding = Embedding(input_dim=max_features,

output_dim=128, name='Embedding')(source)

lstm = LSTM(32, name='LSTM')(embedding)

predicted_var = Dense(1, activation='sigmoid', name='Output')(lstm)

model = tf.keras.Model(inputs=[source], outputs=[predicted_var])

model.compile(

optimizer=tf.train.RMSPropOptimizer(learning_rate=0.01),

loss='binary_crossentropy',

metrics=['acc'])

return model

training_model = make_model(batch_size=128)

另外，我們這里用了tf.train.Optimizer而不是標準的Keras優化器，因為TPU對Keras優化器的支持還處于實驗階段。

轉換Keras模型至TPU模型

tf.contrib.tpu.keras_to_tpu_model函數可以轉換tf.keras模型至等價的TPU版本。

import os

import tensorflow as tf

TPU_WORKER = 'grpc://' + os.environ['COLAB_TPU_ADDR']

tf.logging.set_verbosity(tf.logging.INFO)

tpu_model = tf.contrib.tpu.keras_to_tpu_model(

training_model,

strategy=tf.contrib.tpu.TPUDistributionStrategy(

tf.contrib.cluster_resolver.TPUClusterResolver(TPU_WORKER)))

然后我們訓練模型，保存權重，并評估模型。注意batch_size設定為模型輸入batch_size的8倍，因為輸入樣本在8個TPU核心上均勻分布。

history = tpu_model.fit(x_train, y_train,

epochs=20,

batch_size=128 * 8,

validation_split=0.2)

tpu_model.save_weights('./tpu_model.h5', overwrite=True)

tpu_model.evaluate(x_test, y_test, batch_size=128 * 8)

我比較了單GTX1070顯卡（在我的Windows電腦上本地運行）上和Colab的TPU上的訓練速度，結果如下。

GPU和TPU的輸入batch尺寸均為128.

GPU：179秒每epoch。20個epoch后達到了76.9%的驗證精確度，共計3600秒。

TPU：5秒每epoch，第一個epoch除外（49秒）。20個epoch后達到了95.2%的驗證精確度，共計150秒。

20個epoch后TPU的驗證精確度高于在GPU上的表現，可能是因為TPU上同時訓練8個batch的樣本（每個batch大小為128）。

譯者注：在Tesla K80上訓練20個epoch后的驗證精確度為86.3%（耗時6004秒）。使用TPU單核心訓練（tf.contrib.tpu.TPUDistributionStrategy函數加上using_single_core=True參數）20個epoch后達到了99.8%的驗證精確度。將模型的batch尺寸改為16（128/8）后，TPU上訓練20個epoch后達到了99.8%的驗證精確度（因為batch尺寸改變，訓練時間延長了，約377秒）。這樣看起來TensorFlow在TPU上的實現可能有些問題。

在CPU上推理

得到模型權重后，我們可以像平時一樣加載權重，然后在其他設備（比如CPU或GPU）上做出預測。我們同時想要推理模型接受可變的輸入batch尺寸，如前所述，只需給make_model()函數指定一個參數即可。

inferencing_model = make_model(batch_size=None)

inferencing_model.load_weights('./tpu_model.h5')

inferencing_model.summary()

summary()方法的輸出表明推理模型現在可以接受可變輸入樣本數目：

_________________________________________________________________

Layer (type) OutputShapeParam#

=================================================================

Input (InputLayer) (None, 500) 0

_________________________________________________________________

Embedding (Embedding) (None, 500, 128) 1280000

_________________________________________________________________

LSTM (LSTM) (None, 32) 20608

_________________________________________________________________

Output (Dense) (None, 1) 33

=================================================================

接下來我們就可以在推理模型上調用標準的fit()、evaluate()函數。

inferencing_model.evaluate(x_test, y_test)

我們的模型在測試集上的精確度為82.4%

25000/25000 [==============================] - 83s3ms/step

[0.6060782189846039, 0.824]

譯者注：相比測試損失和測試精確度，驗證損失和驗證精確度太高了。其他兩個在TPU上訓練的模型（單核訓練和不同batch大?。┮渤霈F了類似的現象，進一步加大了TensorFlow在TPU上的實現有問題的嫌疑。

最后，你可以下載模型權重到本地，以便以后在其他地方使用。

from google.colab import files

files.download('./tpu_model.h5')

結語和進一步閱讀

這篇教程簡要介紹了如何利用Google Colab的免費云TPU資源，加速Keras模型的訓練。

云TPU文檔：https://cloud.google.com/tpu/docs/

云TPU性能指南：https://cloud.google.com/tpu/docs/performance-guide

云TPU排錯指南：https://cloud.google.com/tpu/docs/troubleshooting

XLA概覽：https://www.tensorflow.org/performance/xla/

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
27

文章
4478

瀏覽量
127195
模型

模型

+關注

關注
1

文章
2790

瀏覽量
47922
keras

keras

+關注

關注
2

文章
18

瀏覽量
6059

原文標題：使用TPU免費加速Keras模型訓練

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

從CPU、GPU再到TPU，Google的AI芯片是如何一步步進化過來的？

趨勢了，我認為這也是Google生產Tensor processing unit的一個重要出發點。至此，TPU便登上歷史舞臺。隨著機器學習算法越來越多的應用在各個領域并表現出優越的性能，例如街景、郵件

發表于 03-15 11:40

Keras之ML~P：基于Keras中建立的回歸預測的神經網絡模型

Keras之ML~P：基于Keras中建立的回歸預測的神經網絡模型(根據200個數據樣本預測新的5+1個樣本)——回歸預測

發表于 12-20 10:43

基于Keras利用cv2建立訓練存儲CNN模型(2+1)調用攝像頭實現實時人臉識別

CV之CNN：基于Keras利用cv2建立訓練存儲CNN模型(2+1)并調用攝像頭進行實時人臉識別

發表于 12-26 11:09

基于Keras的mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下

CV：基于Keras利用CNN主流架構之mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下

發表于 12-26 11:08

基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

CV：基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的臉部表情或性別的gradcam(可視化)

發表于 12-27 16:48

好奇~！谷歌的 Edge TPU 專用 ASIC 旨在將機器學習推理能力引入邊緣設備

單片的 MIPI-CSI 連接器中。攝像頭的焦距為 2.5 毫米，定焦范圍從 10 厘米到無限遠，視野為 84 度。相關軟件開發單片與 USB 加速棒皆以谷歌 TPU 軟件堆棧為基礎。各模型的開發環境為

發表于 03-05 21:20

為什么無法加載keras模型？

你好，我創建了自己的模型并將其保存為 .h5。但是，當我分析時，出現以下錯誤。 E010(InvalidModelError)：無法加載 Keras 模型 D:motion.h5，E010

發表于 12-27 09:04

keras順序模型與函數式模型

keras提供兩種搭建模型的方式： 1. 順序模型（也可看做是函數式模型的一種特殊情況） 2. 函數式模型兩種方式優點缺點順序

發表于 08-18 06:01

keras可視化介紹

keras可視化可以幫助我們直觀的查看所搭建的模型拓撲結構，以及模型的訓練的過程，方便我們優化模型。模

發表于 08-18 07:53

使用Google TPU v3 Pod訓練ResNet-50，在識別率沒有降低的情況下2分鐘搞定ImageNet訓練

訓練模型過程中，輸入管道包括了數據讀取、數據分析、預處理、旋轉和批量化等操作。如果輸入管道的吞吐量不能和 TPU 等模型管道（前向或反向傳播過程）的吞吐量相匹配，整個過程將會由于輸入管

發表于 11-26 09:30 ?5958次閱讀

Google發布新API，支持訓練更小更快的AI模型

Google發布了 Quantification Aware Training（QAT）API，使開發人員可以利用量化的優勢來訓練和部署模型AI模型

發表于 04-09 21:55 ?1794次閱讀

PyTorch教程23.4之使用Google Colab

電子發燒友網站提供《PyTorch教程23.4之使用Google Colab.pdf》資料免費下載

發表于 06-06 09:16 ?0次下載

TPU-MLIR之量化感知訓練

TPU-MLIR之量化感知訓練（上）

發表于 08-21 10:47 ?563次閱讀

Google的TPU芯片的發展歷史和硬件架構

Google在高性能處理器與AI芯片主要有兩個系列：1)針對服務器端AI模型訓練和推理的TPU系列，主要用于Goggle云計算和數據中心；2)針對手機端AI

發表于 10-18 10:02 ?1852次閱讀

谷歌發布多模態Gemini大模型及新一代TPU系統Cloud TPU v5p

谷歌亦發布新一代TPU 系統——Cloud TPU v5p，以幫助訓練尖端的 AI 模型。目

發表于 12-12 10:50 ?901次閱讀

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
12小時前

710 閱讀

如何移植FFmpeg

ElfBoard
2天前

548 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

768 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

791 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

808 閱讀

HarmonyOS應用設計文檔

KK
3.84 MB

免費

26下載

溫濕度傳感器原理（PT100）免費下載

KK
1.55 MB

免費

33下載

sluaunreal unreal4引擎的Lua開發插件

康輔佑
9.35 MB

免費

0下載

MobileProject基于MVC的項目框架

幽默
0.00 MB

免費

0下載

適用于USB應用的高效降壓轉換器TPS6275x數據表

萬航渡路
2.41MB

免費

0下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

694 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

297 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

878 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

942 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1449 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看