2024年05月08日

AIによる画像生成の限界

 有名人を使った偽広告を使った投資詐欺が問題化している。
 有名人が実際にしゃべっているかのような音声と映像を流して、投資サイトに誘う。
 いまや架空の動画や音声をAIで作るのは簡単になっている。
 ついにここまで来たか、との印象だ。
 だが、よく見ると、そのフェイク動画は作りが不完全。
 あちこちに粗があり、それでフェイクだと分かる。

 有名人が本人の声質でしゃべっているかのような映像。
 口の動きも言葉に合わせてあり、よく作り込んでいる。
 だが、違和感がある。
 声やしぐさが単調だ。
 人は言葉の意味に合わせて、語りにメリハリをつける。
 意識しなくても、自然にそのようなしゃべりになる。
 大事な言葉は声が大きくなるし、その時には目も大きくなり、しぐさも大きくなる。
 フェイク映像は、声は一本調子だし、表情やしぐさも常にせわしなく動いているだけで、言葉の内容とリンクしていない。
 もちろん、ディズニー映画のように、言葉の内容に合わせて表情やしぐさに変化をつけることはできるのだろうが、そこはヒトによる相当の手間と技術がいる。
 
 動画ではなく、静止画の場合は、よりリアルなフェイク画像を作れる。
 有名人の場合は、ネット上にいろんな画像がアップされているので、それらを使って、別の写真と組み合わせれば様々な画像が作れる。
 顔の表情、肌や髪の毛の質感などは完璧だ。
 だが、AIの弱点がある。
 それは手の指に表れる。
 手の表情は多彩でいろんな形がある。
 しかし、手の多彩な写真は意外なことにネット上に豊富にない。
 顔の写真はたくさんあるが、手の写真は意外に少ないのだ。
 それで、生成AIは手の表情を再現するのが苦手なのだ。
 AIは人間の指がどのような構造をしているかを理解しているわけではない。
 画像として再現しようとするだけなので、よく似た写真から画像イメージだけを引っ張ってきて再生するだけ。
 だから、あり得ない指の形になってしまう。
 指の本数が多すぎたり、指の長さがおかしかったり、指があり得ない方向に曲がっていたり、ということが起きる。
 
 これは、洋服の生成でも同じようなことが起きる。
 色や質感やしわの様子はリアルに再現できる。
 だが、洋服の構造的な形までは再現できない。
 つまり、あり得ない形の洋服が画像の中に生成されてしまうのだ。
「この服、どうやって着るの?」という画像ができあがる。
 
 画像に映り込む文字も、生成AIが苦手とする分野だ。
 AIは文字も画像として処理する。
 なので、それらしい模様は再現するが、文字として生成できない。
 この世に存在しない文字列ができあがる。

 技術の進歩は激しい。
 いま未熟なレベルにあるとしても、あっという間にそれをクリアする時代が来るかもしれない。
 すると、リアルとフェイクの違いが判別できない世の中になるのか。
 
 
posted by 平野喜久 at 13:13| 愛知 ☀| Comment(0) | TrackBack(0) | 世事雑感 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック