やはり最新技術といえばAIだと思うのですが、AIにも色々な種類があり、その中のGAN(敵対的生成ネットワーク)という手法があります。
この技術を使った映像変換について確認してみて面白かったので記事にしました。
2020/1/5 「実際にGANを使った動画変換を実施してみました」に追記しました。
AI技術の種類
AI技術といえば機械に学習させて知識を与えるイメージがありますが、その手法として多岐に渡りどこまでがAI技術なのかあまりはっきりにしていないイメージがあります。
今後間違いなく生かされていく技術となりますので、それとなくでも理解していけるよう内容を書いていきます。
AI技術の発展
現在かなりAIが注目され、実用的な装置もでていますが、人工知能はかなり昔から研究されており、AI技術が話題にあげられる事はしばしばありました、今は第3次AIブームと呼ばれています。
以前にも2回り、3度目の正直でIT技術も重なり今かなり実用化されています。
AI技術の種類
第2次AIブームまでは用意したルール通りにプログラムが動作する形となっており、あまりAIらしくないため、第3次ブームの種類を記載します。
学術的な細かい分類はあるようですが、以下を押さえておけば良いと思います。
- 教師あり学習
- 教師無し学習
- 深層学習(ディープラーニング)
教師あり学習・教師なし学習は文字の通り教師(人間)が出力した結果に対し正解・不正解を判断しプログラムに教えるか教えないかの違いとなります。
正解があるような内容(会話の受け答え等)については教師あり学習が適しており、教師なし学習は正解がなく、傾向等を発見する際に利用する事があるようです。
最後の深層学習(ディープラーニング)は教師無し学習の一つですが、第3次AIブームの鍵となる技術ですので次で記載します。
深層学習(ディープラーニング)の考え方
深層学習は人間の脳構造についての研究(ニューラルネットワーク)に基づき、学習させていてくモデルです。
決められた題材について大量の情報をインプットすることによりパターンを学習し、例えば文字認識や画像が人なのか建物なのかを判別する等を可能とする技術です。
AI技術GANが面白い
GAN: Generative Adversarial Network は敵対的生成ネットワークと呼ばれる手法で、大量のサンプルデータを学習させることで、学習結果を基に情報変換を行う手法です。
例えば馬の動画をシマウマに変えたりする事が可能です。
GANの活用について
この手法で学習されたAIは音声・画像の変換に力を発揮します。存在しない人間の顔を生成したり、音声を高い精度で変更したりすることが可能となります。
私のプロフィール画像もAIで自動生成したものを利用していますが違和感は無いかと思います。
危険性について
サンプリ画かなりあり、マシンスペックさえあればかなり精度の高い変換が個人でできてしまうので、今後様々な分野で使われていく事になるかと思いますが、危険性ももちろんあります。
存在しない人間だけでなく存在している人間についても生成できてしまうので、本人が実際にしていない事も画像や動画などで表現する事もできてしまいます。
そのうちそれを見破る技術も出て来るかと思いますし、現状はかなりのマシンスペックをが必要になってくるかと思いますので状況を見守りたいと思います。
実際にGANを使った動画変換を実施してみました
実際にインターネットで検索するとGANの技術を使った動画変換方法などが出てきます。
それらを参考にさせていただき、実際に動かしてみました(動作スペックは以下)。
1~2日の学習でそれなりの結果を得る事ができました(精度は低いが変換はされている程度)。
OS:Windows10
CPU:AMD PhenomⅡ X4 965
メモリ:16GB
GPU:4G(Gforce GTX1650)
元々あったデスクトップにメモリとグラフィックボードを追加しただけですが、ディープラーニングを体験でき、今後ますます利用されている技術だろうなと時間しました。
2020年1月5日 追記
サーバをリニューアルし、再度挑戦しました。
OS:Windows Server 2019
CPU:Xeon E3-1225 v6
メモリ:64GB
GPU:4G(Gforce GTX1650)
学習時間:9時間
コメント