tensorflow入门:TFRecordDataset变长数据的batch读取详解

更新时间：2020年4月22日 23:19 点击：2269

在上一篇文章tensorflow入门：tfrecord 和tf.data.TFRecordDataset的使用里，讲到了使用如何使用tf.data.TFRecordDatase来对tfrecord文件进行batch读取，即使用dataset的batch方法进行；但如果每条数据的长度不一样（常见于语音、视频、NLP等领域），则不能直接用batch方法获取数据，这时则有两个解决办法：

1.在把数据写入tfrecord时，先把数据pad到统一的长度再写入tfrecord；这个方法的问题在于：若是有大量数据的长度都远远小于最大长度，则会造成存储空间的大量浪费。

2.使用dataset中的padded_batch方法来进行，参数padded_shapes #指明每条记录中各成员要pad成的形状，成员若是scalar，则用[]，若是list，则用[mx_length]，若是array，则用[d1,...,dn]，假如各成员的顺序是scalar数据、list数据、array数据，则padded_shapes=([], [mx_length], [d1,...,dn])；该方法的函数说明如下：

padded_batch(
 batch_size,
 padded_shapes,
 padding_values=None #默认使用各类型数据的默认值，一般使用时可忽略该项
)

使用mnist数据来举例说明，首先在把mnist写入tfrecord之前，把mnist数据进行更改，以使得每个mnist图像的大小不等，如下：

import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets
 
mnist = read_data_sets("MNIST_data/", one_hot=True)
 
 
def get_tfrecords_example(feature, label):
 tfrecords_features = {}
 feat_shape = feature.shape
 tfrecords_features['feature'] = tf.train.Feature(float_list=tf.train.FloatList(value=feature))
 tfrecords_features['shape'] = tf.train.Feature(int64_list=tf.train.Int64List(value=list(feat_shape)))
 tfrecords_features['label'] = tf.train.Feature(float_list=tf.train.FloatList(value=label))
 return tf.train.Example(features=tf.train.Features(feature=tfrecords_features))
 
 
def make_tfrecord(data, outf_nm='mnist-train'):
 feats, labels = data
 outf_nm += '.tfrecord'
 tfrecord_wrt = tf.python_io.TFRecordWriter(outf_nm)
 ndatas = len(labels)
 print(feats[0].dtype, feats[0].shape, ndatas)
 assert len(labels[0]) > 1
 for inx in range(ndatas):
 ed = random.randint(0,3) #随机丢掉几个数据点，以使长度不等
 exmp = get_tfrecords_example(feats[inx][:-ed], labels[inx])
 exmp_serial = exmp.SerializeToString()
 tfrecord_wrt.write(exmp_serial)
 tfrecord_wrt.close()
 
import random
nDatas = len(mnist.train.labels)
inx_lst = range(nDatas)
random.shuffle(inx_lst)
random.shuffle(inx_lst)
ntrains = int(0.85*nDatas)
 
# make training set
data = ([mnist.train.images[i] for i in inx_lst[:ntrains]], \
 [mnist.train.labels[i] for i in inx_lst[:ntrains]])
make_tfrecord(data, outf_nm='mnist-train')
 
# make validation set
data = ([mnist.train.images[i] for i in inx_lst[ntrains:]], \
 [mnist.train.labels[i] for i in inx_lst[ntrains:]])
make_tfrecord(data, outf_nm='mnist-val')
 
# make test set
data = (mnist.test.images, mnist.test.labels)
make_tfrecord(data, outf_nm='mnist-test')

用dataset加载批量数据，在解析数据时用到tf.VarLenFeature(tf.datatype)，而非tf.FixedLenFeature([], tf.datatype)}，且要配合tf.sparse_tensor_to_dense函数使用，如下：

import tensorflow as tf
 
train_f, val_f, test_f = ['mnist-%s.tfrecord'%i for i in ['train', 'val', 'test']]
 
def parse_exmp(serial_exmp):
 feats = tf.parse_single_example(serial_exmp, features={'feature':tf.VarLenFeature(tf.float32),\
 'label':tf.FixedLenFeature([10],tf.float32), 'shape':tf.FixedLenFeature([], tf.int64)})
 image = tf.sparse_tensor_to_dense(feats['feature']) #使用VarLenFeature读入的是一个sparse_tensor，用该函数进行转换
 label = tf.reshape(feats['label'],[2,5]) #把label变成[2,5]，以说明array数据如何padding
 shape = tf.cast(feats['shape'], tf.int32)
 return image, label, shape
 
def get_dataset(fname):
 dataset = tf.data.TFRecordDataset(fname)
 return dataset.map(parse_exmp) # use padded_batch method if padding needed
 
epochs = 16
batch_size = 50 
padded_shapes = ([784],[3,5],[]) #把image pad至784，把label pad至[3,5]，shape是一个scalar，不输入数字
# training dataset
dataset_train = get_dataset(train_f)
dataset_train = dataset_train.repeat(epochs).shuffle(1000).padded_batch(batch_size, padded_shapes=padded_shapes)

以上这篇tensorflow入门:TFRecordDataset变长数据的batch读取详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持猪先飞。

[!--infotagslink--]

上一篇: Python模块future用法原理详解

下一篇: 基于Python获取照片的GPS位置信息

解决tensorflow训练时内存持续增加并占满的问题
今天小编就为大家分享一篇解决tensorflow训练时内存持续增加并占满的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
win10安装tensorflow-gpu1.8.0详细完整步骤
这篇文章主要介绍了win10安装tensorflow-gpu1.8.0详细完整步骤，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下...2020-04-22
macOS M1(AppleSilicon) 安装TensorFlow环境
苹果为M1芯片的Mac提供了TensorFlow的支持，本文主要介绍了如何给使用M1芯片的macOS安装TensorFlow的环境，感兴趣的可以了解一下...2021-08-13
windows系统Tensorflow2.x简单安装记录(图文)
这篇文章主要介绍了windows系统Tensorflow2.x简单安装记录(图文)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-01-18
完美解决TensorFlow和Keras大数据量内存溢出的问题
这篇文章主要介绍了完美解决TensorFlow和Keras大数据量内存溢出的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-04
Tensorflow读取并输出已保存模型的权重数值方式
今天小编就为大家分享一篇Tensorflow读取并输出已保存模型的权重数值方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看不看...2020-04-30
Java JDBC批量执行executeBatch方法详解
这篇文章主要介绍了Java JDBC批量执行executeBatch方法详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下...2021-08-26
在tensorflow下利用plt画论文中loss,acc等曲线图实例
这篇文章主要介绍了在tensorflow下利用plt画论文中loss,acc等曲线图实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-06-16
Python通过TensorFLow进行线性模型训练原理与实现方法详解
这篇文章主要介绍了Python通过TensorFLow进行线性模型训练原理与实现方法,结合实例形式详细分析了Python通过TensorFLow进行线性模型训练相关概念、算法设计与训练操作技巧,需要的朋友可以参考下...2020-04-27
详解tf.device()指定tensorflow运行的GPU或CPU设备实现
这篇文章主要介绍了详解tf.device()指定tensorflow运行的GPU或CPU设备实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-02-20
tensorflow实现对张量数据的切片操作方式
今天小编就为大家分享一篇tensorflow实现对张量数据的切片操作方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
基于tensorflow for循环 while循环案例
这篇文章主要介绍了基于tensorflow for循环 while循环案例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-06-30
从训练好的tensorflow模型中打印训练变量实例
今天小编就为大家分享一篇从训练好的tensorflow模型中打印训练变量实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
tensorflow -gpu安装方法（不用自己装cuda，cdnn）
这篇文章主要介绍了tensorflow -gpu安装，史上最新最简单的途径（不用自己装cuda，cdnn）,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下...2020-04-22
tensorflow estimator 使用hook实现finetune方式
今天小编就为大家分享一篇tensorflow estimator 使用hook实现finetune方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
TensorFlow神经网络学习之张量与变量概念
这篇文章主要为大家介绍了TensorFlow神经网络学习的基本知识张量与变量概念详解，有需要的朋友可以借鉴参考下，希望能够有所帮助...2021-10-17
浅谈tensorflow中张量的提取值和赋值
今天小编就为大家分享一篇浅谈tensorflow中张量的提取值和赋值，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22
使用TensorFlow-Slim进行图像分类的实现
这篇文章主要介绍了使用TensorFlow-Slim进行图像分类的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-05-06
TensorFlow tf.nn.conv2d实现卷积的方式
今天小编就为大家分享一篇TensorFlow tf.nn.conv2d实现卷积的方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-30
tensorflow查看ckpt各节点名称实例
今天小编就为大家分享一篇tensorflow查看ckpt各节点名称实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-22

tensorflow入门:TFRecordDataset变长数据的batch读取详解

相关文章

阁下可能感兴趣的内容

推荐阅读