<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用Google Colab的云TPU加速Keras模型訓練

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-16 09:10 ? 次閱讀

編者按:AI軟件開發者Chengwei Zhang介紹了如何利用Google Colab的云TPU加速Keras模型訓練。

我以前都在單張GTX 1070顯卡(8.18 TFlops)上訓練自己的模型,而且還挺滿足的。后來Google的Colab開放了免費的Tesla K80顯卡(12GB 顯存,8.73 TFlops),最近又提供了免費的TPU(180 TFlops)。這篇教程將簡要介紹如何將現有的Keras模型轉換為TPU模型,然后在Colab上訓練。和在我的GTX1070上訓練相比,免費的TPU能夠加速20倍。

我們將創建一個容易理解但訓練起來足夠復雜的Keras模型,讓TPU熱乎熱乎。訓練一個LSTM模型,進行IMDB情感分類任務,可能是一個很不錯的例子,因為相比密集層和卷積層,訓練LSTM對算力要求更高。

工作流概覽:

創建Keras模型,輸入采用固定的batch_size

轉換Keras模型為TPU模型

以batch_size * 8訓練TPU模型,并保存權重至文件

創建一個結構相同但輸入batch大小可變的Keras模型,用于推理

加載模型權重

基于推理模型進行預測

在閱讀本文的同時,你可以上手試驗相應的Colab Jupyter notebook:https://colab.research.google.com/drive/1QZf1WeX3EQqBLeFeT4utFKBqq-ogG1FN

閑話少敘,讓我們開始吧。

首先在Colab運行時激活TPU:

固定輸入batch尺寸

大多數情況下,CPUGPU上對輸入形狀沒有限制,但XLA/TPU環境下強制使用固定的形狀和batch尺寸。

云TPU包含8個TPU核,每個核都作為獨立的處理單元運作。如果沒有用上全部8個核心,那就沒有充分利用TPU。為了充分加速訓練,相比在單GPU上訓練的同樣的模型,我們可以選擇較大的batch尺寸??俠atch尺寸定為1024(每個核心128)一般是一個不錯的起點。

萬一你要訓練一個較大的模型,batch尺寸太大了,那就慢慢降低batch尺寸,直到TPU的內存放得下為止。只需確??俠atch尺寸是64的倍數(每核心的batch尺寸應該是8的倍數)。

值得一提的是,當batch尺寸較大時,一般來說增加優化算法的學習率以更快收斂的做法是安全的。詳情參見Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour這篇論文( arXiv:1706.02677)。

Keras允許通過參數batch_size設定輸入層的batch尺寸。注意我們將模型定義為一個接受batch_size參數的函數,這樣我們之后可以很方便地創建在CPU或GPU上運行的模型,這些模型接受可變batch尺寸的輸入。

import tensorflow as tf

from tensorflow.python.keras.layers importInput, LSTM, Bidirectional, Dense, Embedding

def make_model(batch_size=None):

source = Input(shape=(maxlen,), batch_size=batch_size,

dtype=tf.int32, name='Input')

embedding = Embedding(input_dim=max_features,

output_dim=128, name='Embedding')(source)

lstm = LSTM(32, name='LSTM')(embedding)

predicted_var = Dense(1, activation='sigmoid', name='Output')(lstm)

model = tf.keras.Model(inputs=[source], outputs=[predicted_var])

model.compile(

optimizer=tf.train.RMSPropOptimizer(learning_rate=0.01),

loss='binary_crossentropy',

metrics=['acc'])

return model

training_model = make_model(batch_size=128)

另外,我們這里用了tf.train.Optimizer而不是標準的Keras優化器,因為TPU對Keras優化器的支持還處于實驗階段。

轉換Keras模型至TPU模型

tf.contrib.tpu.keras_to_tpu_model函數可以轉換tf.keras模型至等價的TPU版本。

import os

import tensorflow as tf

TPU_WORKER = 'grpc://' + os.environ['COLAB_TPU_ADDR']

tf.logging.set_verbosity(tf.logging.INFO)

tpu_model = tf.contrib.tpu.keras_to_tpu_model(

training_model,

strategy=tf.contrib.tpu.TPUDistributionStrategy(

tf.contrib.cluster_resolver.TPUClusterResolver(TPU_WORKER)))

然后我們訓練模型,保存權重,并評估模型。注意batch_size設定為模型輸入batch_size的8倍,因為輸入樣本在8個TPU核心上均勻分布。

history = tpu_model.fit(x_train, y_train,

epochs=20,

batch_size=128 * 8,

validation_split=0.2)

tpu_model.save_weights('./tpu_model.h5', overwrite=True)

tpu_model.evaluate(x_test, y_test, batch_size=128 * 8)

我比較了單GTX1070顯卡(在我的Windows電腦上本地運行)上和Colab的TPU上的訓練速度,結果如下。

GPU和TPU的輸入batch尺寸均為128.

GPU:179秒每epoch。20個epoch后達到了76.9%的驗證精確度,共計3600秒。

TPU:5秒每epoch,第一個epoch除外(49秒)。20個epoch后達到了95.2%的驗證精確度,共計150秒。

20個epoch后TPU的驗證精確度高于在GPU上的表現,可能是因為TPU上同時訓練8個batch的樣本(每個batch大小為128)。

譯者注:在Tesla K80上訓練20個epoch后的驗證精確度為86.3%(耗時6004秒)。使用TPU單核心訓練(tf.contrib.tpu.TPUDistributionStrategy函數加上using_single_core=True參數)20個epoch后達到了99.8%的驗證精確度。將模型的batch尺寸改為16(128/8)后,TPU上訓練20個epoch后達到了99.8%的驗證精確度(因為batch尺寸改變,訓練時間延長了,約377秒)。這樣看起來TensorFlow在TPU上的實現可能有些問題。

在CPU上推理

得到模型權重后,我們可以像平時一樣加載權重,然后在其他設備(比如CPU或GPU)上做出預測。我們同時想要推理模型接受可變的輸入batch尺寸,如前所述,只需給make_model()函數指定一個參數即可。

inferencing_model = make_model(batch_size=None)

inferencing_model.load_weights('./tpu_model.h5')

inferencing_model.summary()

summary()方法的輸出表明推理模型現在可以接受可變輸入樣本數目:

_________________________________________________________________

Layer (type) OutputShapeParam#

=================================================================

Input (InputLayer) (None, 500) 0

_________________________________________________________________

Embedding (Embedding) (None, 500, 128) 1280000

_________________________________________________________________

LSTM (LSTM) (None, 32) 20608

_________________________________________________________________

Output (Dense) (None, 1) 33

=================================================================

接下來我們就可以在推理模型上調用標準的fit()、evaluate()函數。

inferencing_model.evaluate(x_test, y_test)

我們的模型在測試集上的精確度為82.4%

25000/25000 [==============================] - 83s3ms/step

[0.6060782189846039, 0.824]

譯者注:相比測試損失和測試精確度,驗證損失和驗證精確度太高了。其他兩個在TPU上訓練的模型(單核訓練和不同batch大?。┮渤霈F了類似的現象,進一步加大了TensorFlow在TPU上的實現有問題的嫌疑。

最后,你可以下載模型權重到本地,以便以后在其他地方使用。

from google.colab import files

files.download('./tpu_model.h5')

結語和進一步閱讀

這篇教程簡要介紹了如何利用Google Colab的免費云TPU資源,加速Keras模型的訓練。

云TPU文檔:https://cloud.google.com/tpu/docs/

云TPU性能指南:https://cloud.google.com/tpu/docs/performance-guide

云TPU排錯指南:https://cloud.google.com/tpu/docs/troubleshooting

XLA概覽:https://www.tensorflow.org/performance/xla/

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4478

    瀏覽量

    127195
  • 模型
    +關注

    關注

    1

    文章

    2790

    瀏覽量

    47922
  • keras
    +關注

    關注

    2

    文章

    18

    瀏覽量

    6059

原文標題:使用TPU免費加速Keras模型訓練

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    從CPU、GPU再到TPU,Google的AI芯片是如何一步步進化過來的?

    趨勢了,我認為這也是Google生產Tensor processing unit的一個重要出發點。至此,TPU便登上歷史舞臺。隨著機器學習算法越來越多的應用在各個領域并表現出優越的性能,例如街景、郵件
    發表于 03-15 11:40

    Keras之ML~P:基于Keras中建立的回歸預測的神經網絡模型

    Keras之ML~P:基于Keras中建立的回歸預測的神經網絡模型(根據200個數據樣本預測新的5+1個樣本)——回歸預測
    發表于 12-20 10:43

    基于Keras利用cv2建立訓練存儲CNN模型(2+1)調用攝像頭實現實時人臉識別

    CV之CNN:基于Keras利用cv2建立訓練存儲CNN模型(2+1)并調用攝像頭進行實時人臉識別
    發表于 12-26 11:09

    基于Keras的mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下

    CV:基于Keras利用CNN主流架構之mini_XCEPTION訓練情感分類模型hdf5并保存到指定文件夾下
    發表于 12-26 11:08

    基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

    CV:基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的臉部表情或性別的gradcam(可視化)
    發表于 12-27 16:48

    好奇~!谷歌的 Edge TPU 專用 ASIC 旨在將機器學習推理能力引入邊緣設備

    單片的 MIPI-CSI 連接器中。攝像頭的焦距為 2.5 毫米,定焦范圍從 10 厘米到無限遠,視野為 84 度。相關軟件開發單片與 USB 加速棒皆以谷歌 TPU 軟件堆棧為基礎。各模型的開發環境為
    發表于 03-05 21:20

    為什么無法加載keras模型?

    你好, 我創建了自己的模型并將其保存為 .h5。 但是,當我分析時,出現以下錯誤。 E010(InvalidModelError):無法加載 Keras 模型 D:motion.h5,E010
    發表于 12-27 09:04

    keras順序模型與函數式模型

    keras提供兩種搭建模型的方式: 1. 順序模型(也可看做是函數式模型的一種特殊情況) 2. 函數式模型 兩種方式優點缺點順序
    發表于 08-18 06:01

    keras可視化介紹

    keras可視化可以幫助我們直觀的查看所搭建的模型拓撲結構,以及模型訓練的過程,方便我們優化模型。
    發表于 08-18 07:53

    使用Google TPU v3 Pod訓練ResNet-50,在識別率沒有降低的情況下2分鐘搞定ImageNet訓練

    訓練模型過程中,輸入管道包括了數據讀取、數據分析、預處理、旋轉和批量化等操作。如果輸入管道的吞吐量不能和 TPU模型管道(前向或反向傳播過程)的吞吐量相匹配,整個過程將會由于輸入管
    的頭像 發表于 11-26 09:30 ?5958次閱讀

    Google發布新API,支持訓練更小更快的AI模型

    Google發布了 Quantification Aware Training(QAT)API,使開發人員可以利用量化的優勢來訓練和部署模型AI模型
    的頭像 發表于 04-09 21:55 ?1794次閱讀
    <b class='flag-5'>Google</b>發布新API,支持<b class='flag-5'>訓練</b>更小更快的AI<b class='flag-5'>模型</b>

    PyTorch教程23.4之使用Google Colab

    電子發燒友網站提供《PyTorch教程23.4之使用Google Colab.pdf》資料免費下載
    發表于 06-06 09:16 ?0次下載
    PyTorch教程23.4之使用<b class='flag-5'>Google</b> <b class='flag-5'>Colab</b>

    TPU-MLIR之量化感知訓練

    TPU-MLIR之量化感知訓練(上)
    的頭像 發表于 08-21 10:47 ?563次閱讀
    <b class='flag-5'>TPU</b>-MLIR之量化感知<b class='flag-5'>訓練</b>

    GoogleTPU芯片的發展歷史和硬件架構

    Google在高性能處理器與AI芯片主要有兩個系列:1)針對服務器端AI模型訓練和推理的TPU系列,主要用于Goggle云計算和數據中心;2)針對手機端AI
    發表于 10-18 10:02 ?1852次閱讀
    <b class='flag-5'>Google</b>的<b class='flag-5'>TPU</b>芯片的發展歷史和硬件架構

    谷歌發布多模態Gemini大模型及新一代TPU系統Cloud TPU v5p

    谷歌亦發布新一代TPU 系統——Cloud TPU v5p,以幫助訓練尖端的 AI 模型。目
    的頭像 發表于 12-12 10:50 ?901次閱讀
    谷歌發布多模態Gemini大<b class='flag-5'>模型</b>及新一代<b class='flag-5'>TPU</b>系統Cloud <b class='flag-5'>TPU</b> v5p
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>