TED日本語 - スパソーン・スワジャナコーン: 実在の人物の偽映像の作り方と、その見分け方

TED日本語

プレゼンテーション動画

TED日本語 - スパソーン・スワジャナコーン: 実在の人物の偽映像の作り方と、その見分け方

TED Talks

実在の人物の偽映像の作り方と、その見分け方
Fake videos of real people -- and how to spot them
スパソーン・スワジャナコーン
Supasorn Suwajanakorn

内容

有名人が実際には言っていないことを言っているように見せかけた偽映像を、あなたはうまく見分けられますか?この驚くべき講演とデモで、それがどのように作られるのかをご覧ください。コンピューター科学者スパソーン・スワジャナコーンは、大学院での研究として、AIと3次元モデリングを使い、本物にしか見えないような音声と同期した人物の映像を作りました。この技術の倫理的問題と創造的可能性、そしてその悪用への対策として行われていることについて学びましょう。

Script

Look at these images. Now, tell me which Obama here is real.

(Video) Barack Obama: To help families refinance their homes, to invest in things like high-tech manufacturing, clean energy and the infrastructure that creates good new jobs.

Supasorn Suwajanakorn: Anyone? The answer is none of them.

(Laughter)

None of these is actually real. So let me tell you how we got here. My inspiration for this work was a project meant to preserve our last chance for learning about the Holocaust from the survivors. It's called New Dimensions in Testimony, and it allows you to have interactive conversations with a hologram of a real Holocaust survivor.

(Video) Man: How did you survive the Holocaust?

(Video) Hologram: How did I survive? I survived, I believe, because providence watched over me.

SS: Turns out these answers were prerecorded in a studio. Yet the effect is astounding. You feel so connected to his story and to him as a person. I think there's something special about human interaction that makes it much more profound and personal than what books or lectures or movies could ever teach us.

So I saw this and began to wonder, can we create a model like this for anyone? A model that looks, talks and acts just like them? So I set out to see if this could be done and eventually came up with a new solution that can build a model of a person using nothing but these: existing photos and videos of a person. If you can leverage this kind of passive information, just photos and video that are out there, that's the key to scaling to anyone.

By the way, here's Richard Feynman, who in addition to being a Nobel Prize winner in physics was also known as a legendary teacher. Wouldn't it be great if we could bring him back to give his lectures and inspire millions of kids, perhaps not just in English but in any language? Or if you could ask our grandparents for advice and hear those comforting words even if they're no longer with us? Or maybe using this tool, book authors, alive or not, could read aloud all of their books for anyone interested.

The creative possibilities here are endless, and to me, that's very exciting. And here's how it's working so far.

First, we introduce a new technique that can reconstruct a high-detailed 3D face model from any image without ever 3D-scanning the person. And here's the same output model from different views. This also works on videos, by running the same algorithm on each video frame and generating a moving 3D model. And here's the same output model from different angles.

It turns out this problem is very challenging, but the key trick is that we are going to analyze a large photo collection of the person beforehand. For George W. Bush, we can just search on Google, and from that, we are able to build an average model, an iterative, refined model to recover the expression in fine details, like creases and wrinkles. What's fascinating about this is that the photo collection can come from your typical photos. It doesn't really matter what expression you're making or where you took those photos. What matters is that there are a lot of them. And we are still missing color here, so next, we develop a new blending technique that improves upon a single averaging method and produces sharp facial textures and colors. And this can be done for any expression.

Now we have a control of a model of a person, and the way it's controlled now is by a sequence of static photos. Notice how the wrinkles come and go, depending on the expression. We can also use a video to drive the model.

(Video) Daniel Craig: Right, but somehow, we've managed to attract some more amazing people.

SS: And here's another fun demo. So what you see here are controllable models of people I built from their internet photos. Now, if you transfer the motion from the input video, we can actually drive the entire party.

George W. Bush: It's a difficult bill to pass, because there's a lot of moving parts, and the legislative processes can be ugly.

(Applause)

SS: So coming back a little bit, our ultimate goal, rather, is to capture their mannerisms or the unique way each of these people talks and smiles. So to do that, can we actually teach the computer to imitate the way someone talks by only showing it video footage of the person? And what I did exactly was, I let a computer watch 14 hours of pure Barack Obama giving addresses. And here's what we can produce given only his audio.

(Video) BO: The results are clear. America's businesses have created 14.5 million new jobs over 75 straight months.

SS: So what's being synthesized here is only the mouth region, and here's how we do it. Our pipeline uses a neural network to convert and input audio into these mouth points.

(Video) BO: We get it through our job or through Medicare or Medicaid.

SS: Then we synthesize the texture, enhance details and teeth, and blend it into the head and background from a source video.

(Video) BO: Women can get free checkups, and you can't get charged more just for being a woman. Young people can stay on a parent's plan until they turn 26.

SS: I think these results seem very realistic and intriguing, but at the same time frightening, even to me. Our goal was to build an accurate model of a person, not to misrepresent them. But one thing that concerns me is its potential for misuse. People have been thinking about this problem for a long time, since the days when Photoshop first hit the market. As a researcher, I'm also working on countermeasure technology, and I'm part of an ongoing effort at AI Foundation, which uses a combination of machine learning and human moderators to detect fake images and videos, fighting against my own work. And one of the tools we plan to release is called Reality Defender, which is a web-browser plug-in that can flag potentially fake content automatically, right in the browser.

(Applause)

Despite all this, though, fake videos could do a lot of damage, even before anyone has a chance to verify, so it's very important that we make everyone aware of what's currently possible so we can have the right assumption and be critical about what we see.

There's still a long way to go before we can fully model individual people and before we can ensure the safety of this technology. But I'm excited and hopeful, because if we use it right and carefully, this tool can allow any individual's positive impact on the world to be massively scaled and really help shape our future the way we want it to be.

Thank you.

(Applause)

この映像を見てください 本物のオバマ大統領は どれでしょう?

(バラク・オバマ)住宅ローンを 借り換える家庭を助けること ハイテク製造業 クリーンエネルギー インフラといったものに 投資することで 良い仕事が創出されます

(講演者)分かりますか? 答えは 全部ニセ者です

(笑)

どれ1つ本物ではありません これまでの道のりについて お話ししましょう この研究をする ヒントになったのは ホロコーストの生存者たちから 学ぶ最後の機会を 保存しようという プロジェクトでした 「証言の新局面」(New Dimensions in Testimony)という名前で ホロコースト生存者の ホログラムと 対話することができます

(男)どうやってホロコーストを 生き延びたんですか?

(ホログラム)どうやって生き延びたか? 私が生き残れたのは ― 神が見守っていて くれたからだと 私は思っています

(講演者)答えはスタジオで あらかじめ録画されたものですが その効果は劇的です その人の話や その人自身に対する 強い結び付きを感じます 人間同士のやり取りには 特別な力があるのでしょう 本や講義や映画 などよりもずっと 深く個人的な体験を 与えてくれます

それで私は 思うようになりました こういうモデルを 誰に対しても作れたら? その人自身のように見え 語り 振る舞うモデルです それが可能か検討を始め 既存の写真や映像だけから その人物のモデルを作る方法を 考案しました こういう その辺にある 写真や映像といった ありあわせの素材 だけでよいなら 誰に対してもモデルを 作れるようになります

ちなみに この人物は リチャード・ファインマンで ノーベル物理学賞の 受賞者であるのみならず 優れた教師として よく知られていました もしファインマンを蘇らせ 何百万という若者に話をして 刺激を与えてもらい さらには他の言語でも語らせられたなら 素晴らしいでしょう あるいは もうこの世を去ってしまった おじいさん おばあさんに アドバイスや心温まる言葉を かけてもらえたなら またこのツールを使えば 存命か否かにかかわらず 著者自身に本の朗読を してもらうこともできるでしょう

これが持つ創造的可能性は 限りがなく すごくワクワクさせられます その仕組みを お話ししましょう

まず 顔の精細な 3次元モデルを 3Dスキャンデータなしに 任意の画像から作れる 手法を開発しました これは同じモデルを 別の視点から見たものです この技術は映像にも使えます 映像の各フレームに 同じアルゴリズムを適用し 動きのある3次元モデルを 生成します こちらは同じモデルを 違う角度から見たものです

この問題は とても難しいのですが あらかじめ その人物の 大量の写真を 解析することが 鍵になります ジョージ・W・ブッシュなら Googleで画像検索するだけでよく そこから平均モデルを 作ることができ 段階的にモデルを 改善していって 皺のような 表情の 細部を再現します これのいいところは 写真は ごく普通のもので よいということです どういう表情かとか どこで撮られたかとかは あまり問題ではありません 大事なのは写真が たくさんあるということです まだ色が付いていないので 次に新しいブレンディング技法を開発し 平均モデルを改良して くっきりとした顔の 質感や色を付けます これはどんな表情に 対しても行えます

これで人物の動かせる モデルができました 動きは一連の写真に 合わせたものになります 表情に応じて皺が現れたり 消えたりするのに注意してください モデルを動かすのに 映像を使うこともできます

(ダニエル・クレイグ)ええ しかし私達はどうにか さらに素晴らしい人たちを 引き入れました

(講演者)これで面白いことができます ここに出ているのは ネット上の写真から作った 有名人のモデルです 入力源となる映像の 動きに合わせて 全部の顔を動かす ことができます

(ブッシュ)これは 通すのが難しい法案で 構成要素がたくさんあり 立法の過程は見苦しいものに なるかもしれません

(拍手)

(講演者)少し話を戻すと 私達の究極の目標は それぞれの人が話したり笑ったりする時の 独特なやり方や癖を捉えるということです その人物が話している 映像を見せるだけで コンピューターが その人の話し方を 真似られるように できるのでしょうか? それで オバマが演説している 14時間の映像を コンピューターに 見せることにしました これはオバマが話す声だけから 生成した映像です

(オバマ)結果は明らかです アメリカの産業界は 75ヶ月にわたり 1450万の新たな仕事を 生み出したのです

(講演者)ここで合成されているのは 口の部分だけで こんな風にしています 私達のシステムは ニューラルネットワークを使って 入力された音声を 口の位置を表す点に変換します

(オバマ)仕事や メディケア メディケイドを通じて得ています

(講演者)それから質感を合成し 細部や歯を補い 元の映像の頭部と背景に 埋め込みます

(オバマ)女性は無料の 健康診断を受けられ 女性というだけで 余分に支払うことはありません 子供は26歳になるまで 親の保険が使えます

(講演者)結果としてできたものは とてもリアルで興味深いものですが 同時に私自身でも 怖いと感じます 私達の目標は人物の正確なモデルを作ることで 誰かを騙ることではありません しかしこれが悪用される可能性を 危惧しています この問題については フォトショップが現れて以来 みんなずっと考えてきました 研究者として 私は 対策技術の開発もしていて AI Foundationでの 取り組みに参加しています それは機械学習と 人間のモデレーターの組み合わせにより 偽物の画像や映像を 検出しようという 私自身の研究に 対抗するものです 公開を予定しているツールに Reality Defender があり これはブラウザーのプラグインで 偽物の可能性のあるコンテンツに対して 警告を出すようになっています

(拍手)

それでも真偽の確認が なされる前に 偽の映像が大きな被害を もたらすこともありうるので 現在どのようなことが 可能になっているのかを みんな理解していることが重要で それにより適切な仮定をし 批判的な目で物事を見られるようになるでしょう

人物の完全なモデルを作れ 安全性も確保できるまでには まだまだ時間がかかるでしょう でも私は希望と熱意を持っています この技術を正しく 注意して使うなら 誰もが広く世界に 良い影響を与えられるようになり みんなが望む未来を築く 助けになるはずだからです

ありがとうございました

(拍手)

― もっと見る ―
― 折りたたむ ―

品詞分類

  • 主語
  • 動詞
  • 助動詞
  • 準動詞
  • 関係詞等

関連動画