tensorflow之并行讀入數據詳解

2020-02-15 21:23:12

字體：大中小

來源：轉載

供稿：網友

最近研究了一下并行讀入數據的方式，現在將自己的理解整理如下，理解比較淺，僅供參考。

并行讀入數據主要分

1. 創建文件名列表

2. 創建文件名隊列

3. 創建Reader和Decoder

4. 創建樣例列表

5. 創建批列表（讀取時可要可不要，一般情況下樣例列表可以執行讀取數據操作，但是在實際訓練的時候往往需要批列表來分批進行數據的組織，提取）

其具體流程如下：

一、文件名列表：

文件名列表是一個list類型的數據，里面的內容是需要用的數據文件名。可以使用常規的python語法入：[file1, file2]。也可以使用tf.train.match_filename_once方法通過匹配輸入。

二、文件名隊列

一般使用tf.train.string_input_producer的方法創建文件名隊列。該方法傳入的是一個文件名列表，輸出的是一個先進先出隊列。在該方法中存在兩個重要參數，num_epochs和shuffle。num_epochs表示列表遍歷的次數，主要是由于有時候訓練模型需要反復的遍歷數據集便于更新模型參數，默認情況下是None（循環遍歷）。shuffle表示是否隨機遍歷，默認情況下是true，表示數據會隨機輸入隊列，當想順序讀入數據時shuffle設置為false。至于其他的capacity表示列表的容量，shared_name表示共享時的名字。

三、Reader和Decoder

Reader的功能是讀取數據記錄，Decoder的功能是將數據的記錄轉化為張量格式。在使用時需要先創建輸入數據文件對應的Reader，然后從文件名隊列中取出文件名，在調用Reader.read的方法返回一個類似于（輸入文件名，數據記錄）的元組。最后使用Decoder方法將每一列數據都轉化為張量的形式。

四、批隊列

批隊列可以在構建圖之前事先構建好，樣例隊列需要在圖中直接產生不用直接預定義。所以先介紹批隊列的構建方式。批隊列主要是樣例打包聚集成批數據，能供模型訓練使用。一般是使用tf.train.shuffle_batch和tf.train.batch的方法構建。可以控制批的大小（一次性讀入的數據大小），線程個數，然后在圖中直接調用。

五、樣例隊列

樣例隊列的創建方式是隱式的，一般在圖中為了計算任務順利的輸入數據，我們一般使用tf.train.start_queue_runners方法啟動所有的入隊操作所需的線程，此時會自動執行所有的文件名入隊操作和文件名隊列的操作，執行樣例隊列入隊和樣例隊列的操作。這些都是在后臺產生的。

六、線程協調器

并行讀取數據離不開多線程操作，多線程操作離不開線程調節器。tensorflow使用tf.train.Coordinatior方法創建管理多線程生命周期的調節器。調節器的工作原理比較簡單，它監控Tensoflow后臺的所有線程，當某一個線程出現異常時，它的should_stop方法返回true，最后調用request_stop終止所有的線程。但是要注意我們在使用線程調節器之前一定要調用tf.local_variables_initializer方法進行初始化。

上一篇：基于Tensorflow批量數據的輸入實現方式

下一篇：TensorFlow MNIST手寫數據集的實現方法