Now Loading...

Now Loading...

本記事では、深層学習において重要なテクニックの一つであるデータオーグメンテーション(データ拡張)について解説します。PythonのディープラーニングフレームワークであるPyTorchを用いた簡単な実装方法についても紹介します。

データ拡張とは

深層学習では非常に多くのデータが必要とされますが、データが少ないときもあります。そんなときにデータを増やすための手段の一つがデータ拡張で、画像データにおいて用いられます。どのようにデータを増やすのかですが、すでに存在する実際のデータに対して少しだけ変化を加えたものをたくさん作ることで、データ数を”水増し”します。しかしただ闇雲に増やせばよいというわけではなく、テストしたときによりよい精度を発揮するためにはどのような変化を加えるかも考慮する必要があります。

今回はデータ拡張でデータに加える変化には具体的にどのようなものがあるのかを解説しつつ、その実装も紹介します。

PyTorchを用いた実装

PyTorchでデータ拡張を行う場合、主にtorchvisionというコンピュータビジョンを扱うためのライブラリを用います。なお、データ拡張の実装にはあらかじめデータの数自体を増やす「オフライン」の方法と、学習時にミニバッチ毎に変換を加えることで疑似的にデータ数を増やす「オンラインの方法」とがありますが、オンラインの方法の方が実際の画像枚数が増えない分メモリを食わないという利点があります。torchvisionを用いればオンラインのデータ拡張を行えますが、今回は単純に一枚の画像のみに対して処理を行うだけとします。

今回処理を行う画像データは、次のコードを実行して表示されるものを用いることにします。

 

では、データ拡張にはどのような手法があるかを紹介しながら実装していきます。

Random Flip

Random Flip は、ランダムな確率で画像を反転させる処理です。HorizontalFlipとVerticalFlipの二種類があり、HorizontalFlipは画像を水平方向に反転させ、VerticalFlipは画像を垂直方向に反転させます。

では、Random Flip処理を行ってみましょう。Random Flipの処理はtorchvision.transforms.RandomHorizontalFlip(水平方向)もしくはtorchvision.transforms.RandomVerticalFlip(垂直方向)で実装することができます。引数には反転処理を行う確率を設定します(今回は1にしてあるので必ず反転処理を行います)。また、以下では画像を正しく表示するため、まずtransforms.ToPILImageでPIL画像に変換しています。このように、torchvision.transformsの処理を行った画像はPIL画像に直してあげる必要があります(PILとは、Pythonの画像処理ライブラリであるPillowのことです)。

 

Random Flip適用前と比較すると、確かに左右反転していることがわかります。

Random Erase

Random Eraseは画像の一部をランダムな確率で消去する処理です。torchvisionではtorchvision.transforms.RandomErasingで実装することができます。Random Flipのときと同様に実装してみましょう。なお、torchvision.transforms.RandomErasingはPIL画像に適用することができずTensorデータに対し適用できるため、ここではまず画像をTensorデータにしてRandom Erase処理を行ったのちPIL画像に変換しています。

 

なお、torchvision.transforms.RandomErasingは引数を指定することで処理を行う確率以外にも消去する面積の大きさなども変えることができます(詳しくはtorchvision公式ドキュメントを参照してください)。

Random Crop

Random Cropは画像のランダムな一部を切り抜く処理を行います。torchvisionではtransforms.RandomCropで実装でき、引数には切り取った後の画像サイズを指定します。

 

縦軸、横軸の値を見ると切り取っていることがよくわかります。

Random Contrast, Random Brightness

Random Contrastは画像のコントラストをランダムに変更する処理で、Random Brightnessもその名の通り画像の明るさをランダムに変更する処理です。torchvisionにおいては、いずれの処理もtorchvision.transforms.ColorJitterの引数にそれぞれ数値を指定することで実装することができます。明るさ、コントラストは引数に指定された数値の範囲からランダムに決められます。

 

ColorJitterは他にも画像の彩度や色相を変化させる処理も行えます。

Random Rotate

Random Rotateは画像をランダムな角度だけ回転させる処理です。torchvisionではtransforms.RandomRotationで実装することができます。

 

transforms.RandomRotationは引数に回転する角度の範囲を指定する必要があります。他にも、回転中心の座標を指定することなども可能です。

まとめ

今回はデータ拡張で頻繁に用いられる手法のいくつかを簡単に実装しました。データ拡張の手段は今回紹介したもの以外にも多数存在するので、興味がある方は個人で調べてみてもよいでしょう。

\ シェア /

E資格スピードパッケージ

E資格スピードパッケージ2023#2修了者合格率100%達成

zero to one E資格 jdla

zero to oneの「E資格」向け認定プログラム

日本ディープラーニング協会の実施するE資格の受験ならzero to oneの「E資格」向け認定プログラム (税込165,000円) をおすすめします。当講座は、東京大学大学院工学系研究科の松尾豊教授と東北大学大学院情報科学研究科の岡谷貴之教授が監修する実践的なプログラムとなっています。
厚生労働省の教育訓練給付制度対象のE資格認定プログラムの中では最安値※となり、実質負担額49,500円~(支給割合70%の場合)で受講可能です。※2023年弊社調べ zero to one E資格 jdla

人工知能基礎講座を提供中

人工知能の第一人者である東京大学の松尾豊教授が監修した人工知能基礎講座を受講してみませんか? 人工知能の歴史から自然言語処理、機械学習、深層学習といった最先端のトピックやAIに関わる法律問題まで網羅しているので全てのビジネスパーソン・AIの初学者におすすめです。

サンプル動画

人工知能基礎講座はこちら↓ zero to one G検定 人工知能基礎 jdla

AI初学者・ビジネスパーソン向けのG検定対策講座

G検定受験前にトレーニングしたい方向けの問題集「G検定実践トレーニング」も提供中です。 zero to one E資格 jdla