CloudStorage にある大きなCSVファイルのヘッダ行だけ読む

Jan 30, 2022 11:41 · 116 words · 1 minute read

gsutil cat というサブコマンドがあり、指定したバイト数だけ読み出すことができる。

  • 先頭から20キロバイトくらい(1行以上読めるくらいの量)を読み出して
  • head -1 で先頭1行だけ取り出す
$ gsutil cat -r 0-20000 gs://mybucket/test/dest/_/tablename/2021/05.csv \
    | head -1 \
    | perl -pe 'tr/,"\r/\n/d' \
    > ./original/$tablename.txt

参考

tweet Share