画像生成AIをしばらく触ってみた感想

画像生成AIをしばらく触ったので、感想をまとめる。

今までにない異常な革新的技術

今までのアートを作る技術は、あくまでも絵を作る作業の効率化がほとんどだったし、自動生成はできてもあくまで抽象的で掴みどころがない絵だった。

しかし、画像生成AIでは直接的に絵そのものが作れる。
意味のある形が作れ、その精度がかなり高い。

指示テキストだけで簡単に作れて、生成速度が早く、できるクオリティも高いというのが非常に革新的。
急な発展すぎて、それが受け入れ難くもある。

ワンボタンで良い絵を生成できるが、こだわると手間

しばらく使った感想としては、画像生成AIはあくまでも「道具」だという感想。

ボタン1つで簡単にそれっぽい出来の良い絵を生成できる。

それで出てきた絵で満足することもできるが、細部やポーズ・背景がおかしかったり、様々な指示を全て入れることはできず、理想と合わないことが多々ある。

また、AIごとにある程度生成する絵の方向性があらかじめ決められている。
そのため、短い指示テキストだけでは「あのAIで生成した絵」感のある絵になりがち。

細部の出来の問題は将来的に改善していくだろうが、自分の理想的な絵を作ることは難しい。

理想に近づける作業の手間・創作性はある

自分の理想に近づけるためには、案外何度も調整していく必要がある。

同じ指示テキストでも繰り返し生成し直す(ガチャ)
指示テキストや除外テキストを試行錯誤する
img2imgで良い構図から別の絵を再生成する
インペイントで部分修正する

この作業には確かに創作性はあるので、「私が作りました」とは言えると思う。

他人の出来のいいAIアートが公開されていても、画像生成技量の低い自分ではそれを再現できない。
(完全なプロンプトが記載されていないかぎり)

絵柄がフリー素材になる(Textual Inversion, Hypernetworks)

好きな絵柄や概念がデータベースに入っていなくても、特定のアーティストや概念を自分で追加学習することで、それを再現できる.ptファイルを作成することができる。

多少高性能なPCと時間さえかければ、誰でも個人環境で実現しまうので、これは規制しようがない。

今後の絵描きの立場

「絵が描けること」だけの価値は薄まる

一定のクオリティはAIで保証できる時代になるので、絵を描けることや画力だけの価値は薄まりそう。

ただ、悲観することではなく、絵描き自身もAIを道具として使って、さらなる作品のクオリティ上げ・作業の高速化がされるだろう。
将来的には世の絵のクオリティが全体的に1段階上がる。

「絵が自分で描けること」の優位性は残り続ける

「絵が自分で描けること」の優位性は残り続ける。

細かな修正作業は、やはりどこまでいっても手作業の方が確実だし、理想の絵を作るのに手動で描くという手段は有用。

関節や構造の細かなおかしさに気付いて、それを修正できるのは画力がないと難しい。

画像生成AIを活用する

絵を作る道具として、AIは活用できる。
将来的には画像編集ソフトの便利な機能の1つとしてより使いやすくなって結合されていくだろう。

背景だけAIで作る。
書き始めの取っ掛かりとして、txt2imgでガチャする。
ラフ絵である程度構図を作って、img2imgで生成する。
CGモデルや人形を撮った写真に、簡単な加筆修正をし、img2imgで生成する。
生成した良さげな部分だけを絵に活用する。

AIについて

AIにはそれぞれ特徴があり、特定の方向性の絵を出せるように作られている。

AIの区分

AIとは？AI（人工知能）とDeep Learning（深層学習）を簡単に説明

AI（人工知能）

人によって定義が曖昧だが、おおよそ「人間の知能を模倣する概念/技術」のこと。

マシンラーニング（機械学習）

大量のデータから規則性や関連性を見つけ出し、判断や予測を行う手法のこと。
AIを実現するための手法の1つ。

機械学習では、判別すべき特徴を人間が機械に教える必要がある。

ディープラーニング(深層学習)

ディープラーニング(深層学習)は、機械学習の手法の1つで、その特徴を機械自らが考えて自動で学習していく手法のこと。

有名所

Stable Diffusion
- オープンソースのAI。これを軸に派生したAIが多くある。(略SD)
- 誰でも使ったり派生を作ったりできるようになり、ここから広がっていった。
- Stability AI という会社が公開。
Waifu Diffusion
- SDの派生。二次元特化。
Midjourney
- 劇的・迫力のある絵画特化。品質が非常に高い。
- AIで魅力的な絵を作れることが周知された。
NovelAI
- 二次元・イラスト特化。品質が非常に高い。
- より日本人受けしやすい絵柄が高品質に作れることが周知された。
Stable Diffusion Web UI (AUTOMATIC1111版)
- これはAIではなく、画像生成の操作を扱いやすくするツール。
- SDをブラウザ上のUIで操作できる。使いやすい。
- SD単体だけでは、コンソールから操作するしかないため、別途このようなUIが必要となる。

Stable Diffusion Models - 様々な派生モデルのリンク

私が把握してる今のところの各画像生成AIの相関図
Stable Diffusionのオープンソース化は間違いなくターニングポイントの一つだけどWaifu Diffusionがどこまで影響を与えるかはこれ次第
Midjourneyも十分影響あったんだけど芸術や背景特化感否めない
ERNIE-ViLGはどうなるんだろう…？
mimicはうん… pic.twitter.com/ykyDSkltPE
— 高杉　光一🦋 (@kuronagirai) September 8, 2022

AIの仕組み

昨今のお絵描きAIの進捗が著しく、いろんな方に一歩踏み込んで知ってもらいたいと思ったのでその仕組みについて解説資料を公開します〜（先日の技術書典の本の内容です）。これからいろんな分野の方が押さえておいても良い技術だと思うので、仕組みから興味持ってもらいたいなーという気持です。(1/5) pic.twitter.com/p7iBSY7ma5
— まっくす (@minux302) October 1, 2022

こんな感じ？

上記解説を反芻してまとめるとこんな感じか。

大量の画像データから様々な特徴を抽出し、データセットを作る。
- 「サイ」は「ツノがある」、「ゴリラ」は「色が黒い」など。
- 「黒」と「影」のような判別が今まで難しかったが、AIによってこの特徴抽出の性能が、飛躍的に向上した。
- 抽出した特徴量は、データセットの空間に配置される。
- この空間では、似ている要素は近く、違うものは遠く配置される。
画像を作成するための指示テキストを、一旦データセットのように特徴量に変換する。
- これでテキストを画像データと同じように扱うことができるようになる。
生成画像のベースとなるノイズを作る。
- AIはこのノイズを、指示テキストの理想に近くなるように繰り返しノイズ除去して、画像を鮮明にしていく。
データセット空間では、「似ている要素は近く、違うものは遠く配置される」ため、指示テキストと似た特徴量の方向に向かうように、AIが「予測」して、ノイズ復元を繰り返す。
毎回違うノイズから、AIの予測によって生成するので、多様性のある結果が生成される。

AIは、学習元の絵を直接トレスや切り貼り・コラージュなどしているわけではない。
「この要望のテキストなら大体こんな感じの方向性の絵だろう」とAIが予測して、別物を生成する。
学習元の絵は、あくまで方向性の指標。

現時点でのAIの苦手なこと

手・細部や複雑な部分の構造が苦手。
複数人・複数人の絡みが苦手。
規則的な模様。
- 網のような意味のある連続した模様は正しく描くことが難しい。
有名キャラ以外の特定のキャラを作るのは難しい。
- 有名キャラなら、名前を入力するだけでかなり特徴を捉えた絵が出せるが、それ以外のキャラでは詳細に指定しても完璧にそのキャラにするのは難しい。
ネット上で賑わっているデータに強く、それ以外には疎い。
- これも上記と同じく、ネット上での関心が多いほど精度の高くなる。
出ないものもある。
- そもそもデータがなかったり、出力を安定させるために意図的に弾かれていたりなど

あくまで現時点の欠点なので、今後改善されていくだろう。