機械学習SEの取り組みログ

pythonを使ったいろんな取り組み(kaggleだったり)を紹介していきます.

python tensorflow

【TensorFlow 2.0】tfrecordファイルに格納されているデータの数を確認するコマンド【Python】

投稿日:2020年7月18日 更新日:

記事の概要

TensorFlow特有のデータ保存形式「tfrecord」で保存したデータセットについて,何件のデータがtfrecordに圧縮されているかを確認する方法を記載しました.
単純にlen(tf.data.TFRecordDataset(filename))では取得できないため,自分と同じように困っている人もいるのではと思い執筆しました.

想定ケース

以下のディレクトリ構造のように,「3分割に作成したtfrecord(record1.tfrec)」と「tfrecord内のデータの数をチェックするスクリプト(count.py)」が配置されているケースを考えます.

コード

Nに全tfrecordファイルに格納されているレコードの総数の情報が返されます.

import tensorflow as tf
FILENAMES = ['data/record1.tfrec',
            'data/record2.tfrec',
            'data/record3.tfrec']
N = 0
for fn in FILENAMES:
    N += sum(1 for _ in tf.data.TFRecordDataset(fn))

-python, tensorflow

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

【2018年10月時点】産経ニュースから経済カテゴリのニュースの情報をスクレイピング【python】

スクリプトの目的・概要 タイトルの通り, 産経ニュース様から経済カテゴリのニュース情報をスクレイピングするスクリプトを書きました. 株価の時系列分析の補足情報として用いることを考えているため, 記事タ …

no image

【自然言語処理】得られたニュース記事をgensim, nattoライブラリを用いてベクトル化する【python】

記事の概要 この記事では,機械学習手法であるdoc2vecを用いてニュース記事を30次元のベクトルで表現した結果について紹介していきます. また記事をベクトル化する過程で,文を品詞ごとに区切る処理(形 …

no image

【自然言語処理】ニュース記事のベクトル表現と株価変動の関係性を可視化する【python】

本記事の概要 以前紹介したニュース記事をスクレイピングするスクリプトとニュース記事をベクトル化するスクリプトで得られたベクトルの各成分のうちどれかが,株価の変動との間に相関があるかどうか調べてみました …

no image

【scikit-learn】Logistic回帰にLasso回帰の正則化項(ペナルティ項)を設定する方法【Python】

概要 (動機)Pythonのscikit-learnライブラリを用いてロジスティック回帰を実施する際,ラッソ回帰のように正則化項を設けて変数選択もしたいと思った. 調べたところ,scikit-lear …

no image

【kaggle】「SIIM-ISIC Melanoma Classification」コンペのデータを用いてEfficientNetとResNetの性能比較をしてみる

本記事の概要 kaggleで2020/07/07現在開催中のSIIM-ISIC Melanoma Classification(画像認識コンペ)に最近注力しています. 画像認識ど素人ですが,以下の2つ …

プロフィール


sudot

某IT企業でデータ分析業務をしています.
日ごろの機械学習に関する取り組みを発信していきます.
最近kaggleのexpertになれました.いつかmasterになるのが夢.