PyTorch の「データ拡張（水増し）」コードレシピを紹介

本記事では、深層学習において重要なテクニックの一つであるデータオーグメンテーション(データ拡張)について解説します。PythonのディープラーニングフレームワークであるPyTorchを用いた簡単な実装方法についても紹介します。

Contents

データ拡張とは
PyTorchを用いた実装
まとめ

データ拡張とは

深層学習では非常に多くのデータが必要とされますが、データが少ないときもあります。そんなときにデータを増やすための手段の一つがデータ拡張で、画像データにおいて用いられます。どのようにデータを増やすのかですが、すでに存在する実際のデータに対して少しだけ変化を加えたものをたくさん作ることで、データ数を”水増し”します。しかしただ闇雲に増やせばよいというわけではなく、テストしたときによりよい精度を発揮するためにはどのような変化を加えるかも考慮する必要があります。

今回はデータ拡張でデータに加える変化には具体的にどのようなものがあるのかを解説しつつ、その実装も紹介します。

PyTorchを用いた実装

PyTorchでデータ拡張を行う場合、主にtorchvisionというコンピュータビジョンを扱うためのライブラリを用います。なお、データ拡張の実装にはあらかじめデータの数自体を増やす「オフライン」の方法と、学習時にミニバッチ毎に変換を加えることで疑似的にデータ数を増やす「オンラインの方法」とがありますが、オンラインの方法の方が実際の画像枚数が増えない分メモリを食わないという利点があります。torchvisionを用いればオンラインのデータ拡張を行えますが、今回は単純に一枚の画像のみに対して処理を行うだけとします。

今回処理を行う画像データは、次のコードを実行して表示されるものを用いることにします。

では、データ拡張にはどのような手法があるかを紹介しながら実装していきます。

Random Flip

Random Flip は、ランダムな確率で画像を反転させる処理です。HorizontalFlipとVerticalFlipの二種類があり、HorizontalFlipは画像を水平方向に反転させ、VerticalFlipは画像を垂直方向に反転させます。

では、Random Flip処理を行ってみましょう。Random Flipの処理はtorchvision.transforms.RandomHorizontalFlip(水平方向)もしくはtorchvision.transforms.RandomVerticalFlip(垂直方向)で実装することができます。引数には反転処理を行う確率を設定します(今回は1にしてあるので必ず反転処理を行います)。また、以下では画像を正しく表示するため、まずtransforms.ToPILImageでPIL画像に変換しています。このように、torchvision.transformsの処理を行った画像はPIL画像に直してあげる必要があります(PILとは、Pythonの画像処理ライブラリであるPillowのことです)。

Random Flip適用前と比較すると、確かに左右反転していることがわかります。

Random Erase

Random Eraseは画像の一部をランダムな確率で消去する処理です。torchvisionではtorchvision.transforms.RandomErasingで実装することができます。Random Flipのときと同様に実装してみましょう。なお、torchvision.transforms.RandomErasingはPIL画像に適用することができずTensorデータに対し適用できるため、ここではまず画像をTensorデータにしてRandom Erase処理を行ったのちPIL画像に変換しています。

なお、torchvision.transforms.RandomErasingは引数を指定することで処理を行う確率以外にも消去する面積の大きさなども変えることができます(詳しくはtorchvision公式ドキュメントを参照してください)。

Random Crop

Random Cropは画像のランダムな一部を切り抜く処理を行います。torchvisionではtransforms.RandomCropで実装でき、引数には切り取った後の画像サイズを指定します。

縦軸、横軸の値を見ると切り取っていることがよくわかります。

Random Contrast, Random Brightness

Random Contrastは画像のコントラストをランダムに変更する処理で、Random Brightnessもその名の通り画像の明るさをランダムに変更する処理です。torchvisionにおいては、いずれの処理もtorchvision.transforms.ColorJitterの引数にそれぞれ数値を指定することで実装することができます。明るさ、コントラストは引数に指定された数値の範囲からランダムに決められます。