TED日本語 - ルパル・パテル: 指紋のようにユニークな合成音声


TED Talks(英語 日本語字幕付き動画)

TED日本語 - ルパル・パテル: 指紋のようにユニークな合成音声

TED Talks

Synthetic voices, as unique as fingerprints
Rupal Patel




I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

I'm going to start by playing you a sample of a voice that you may recognize.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

I'm going to play you now a sample of someone who has,two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(First voice)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from -- and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

(Video) Voice: Things happen in pairs.

I love to sleep.

The sky is blue without clouds.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that? fish through that database and find all the segments necessary to say that utterance.

(Video) Voice: I love chocolate.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

(Video) Samantha: Aaaaaah.

RP: So now, Samantha can say this.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

RP: Thank you. (Applause)

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

This is what William said: "Never heard me before."

Thank you.


今日 皆さんにお話したいのは 私たちのあり方を決める パワフルで 基礎的なもの― 「声」についてです 私たち一人一人に独特の声紋があり 私たちの年齢、体格 生活習慣や個性までも映し出します ヘンリー・ワーズワース・ロングフェローは 「人の声は心のオルガン(心の臓器)である」と 詩でつづりました スピーチ・サイエンティストである私は 発声の仕組みに魅せられ これを人工的に作り出す方法を 見つけました これを皆さんと共有いたします

まずは皆さんが ご存知かもしれない 声のサンプルを流します

(音声)スティーヴン・ホーキング: 「私が意図することは かなり明確だと思っていました」

お聞きいただいたのは スティーヴン・ホーキング教授の声です 皆さんが ご存知ないかもしれないのは 同じ声を こちらの女の子のような 神経疾患で話すことができない 子供も使っている 可能性があることです 実は このような方々は 声の選択肢が ごく限られているため 同じ声を使っていることがあるのです アメリカだけでも 話すことができない人達が 250万人もいます その多くの人達が コミュニケーション手段として コンピューターを使用します 世界規模で 数百万の人々が 人工音声を使っているのです ホーキング教授も その1人で アメリカ訛りの音声を使っていますね この個性に欠けた 合成音声には 本当にショックを受けました 数年前に障害を持つ人の 技術支援に関する会議に 参加した時のことです 展示ホールに足を入れると 小さい女の子から 成人男性まで それぞれの機器を使って 話しているんですが 機器は違えど 同じ声でした 周りを見回すと 私の周りでも 同じことが起こっていました 文字通り数百人の人達が ごく限られた音声を使っていて それぞれの身体や個性に 合っていないんです 小さい女の子に 成人男性用の義足を あてがうなんて想像できませんよね ではなぜ人工音声もそうしないのか? これが大変気に掛かり この状況を何とかしたいと思ったのです

これから お聞きいただくのは 重度の言語障害を患っている 2人の音声サンプルです どのように聞こえるか お聞きください 同じ内容を発話しています


(第2音声) 話の内容までは 分からなかったかもしれませんが 2人の個性的な 音声はお分かりいただけたでしょう

次に私がやりたかったことは このように残された 発話能力を 活かして 使用者に合わせて カスタマイズできる テクノロジー つまり彼らのために カスタマイズできる声を 開発することでした そこで協力者の ティム・バンネルに助言を仰ぎました バンネル博士は音声合成の 第一人者で 彼がやっているのは 事前に録音してあった 本人の音声サンプルを用いて 音声を復元することで 個人用の音声を作っているのです 対象となるのは後天性の障害で 声を失った人達です 生まれながらに 言語障害がある人達には 「事前に録音した音声サンプル」なんてありません でも私が考えたのは 残された かすかな声から その人の声を 蘇らせることができるはずだと

そこで これに取り組むことにしたのです アメリカ国立科学財団から わずかな資金援助を受け 話者の独特な声の特徴を反映した 個人用音声の開発を始めました 私たちは このプロジェクトを “VocaliD”や“vocal I.D.”と 名づけました

これから皆さんに この特注の声がどのように作られ 実際の声を お聞きいただく前に 音声科学についての ごく簡単な講義をします いいですか? まず私たちの音声は 成長過程において 劇的に変化します 小さな子供の声は 十代の人達と異なりますし 成人の人達も異なります 皆さん これを経験しますね 2つ目の事実は発声とは 皆さんの喉頭から発せられた 振動による音源が 残りの声道を通過することで 起こります 皆さんの頭と首の中にある スペースが 振動することで 音源をフィルターにかけて 母音と子音が発音されるのです つまり音源がフィルターにかかることが 発声のメカニズムなのです これが一人一人に起きているわけです

先ほど申し上げたように 私は重い言語障害を患う人達の 音源の特性についての 理解と研究に 長いこと 携わってきました そこで気づいたのは 彼らのフィルターに障害があっても 音源は調節可能であるということで それは声のピッチ、大きさ、テンポです これらはプロソディー(韻律)と呼ばれるもので 長年の調査で 言語障害者のプロソディーが 健在であることを 実証してきました ですから これらの表現が 話し手のアイデンティティにも 重要だと気づいた時 このアイデアを思いついたのです それは発話させたい人の 音源を使い ―これは残っているんですね 対象となる人と同じ年齢で 同じ体格の人から フィルターを借りて この明瞭な音声と 混ぜたらどうかと考えたのです 合成した声は フィルターを借りた 代理話者と同じくらい 明瞭な声で 私たちがターゲットとしている話者の アイデンティティにも 類似しているんです こんなに簡単なんです これが私たちがやっていることの 裏にある科学です

では アイデアが思いついたところで どうやって実際に声を構築したらいいでしょう? まずはフィルターを提供してくれる人を 探す必要がありました 全然難しいことではないんです 提供者になるということは 数百から数千の言葉を 発声するだけです この過程はこんな感じです




これを3時間から 4時間ほど続けます ここでのポイントは 対象となる人が話したい文章を 代理人に言わせるのではなく 言葉の中で生じる 全ての異なる 音の組み合わせを 拾っていくことです サンプルが多ければ多いほど より質の良い声を得ることができます 収録が終わったら 次に必要なのは 読まれた文章を解析し 言語の要素に分割することです 1つの音や 2つの音の組み合わせや 時には 単語全体を データセットすなわちデータベースに 集積していきます このデータベースを 音声バンクと呼びましょう 音声バンクのパワフルな点は この音声バンクから 新しい言葉を発声できることで 「チョコレートが好き」とか これは誰でも言いたいですよね データベースを駆使して その言葉の発声に必要な 全ての断片を見つけるのです


これが音声合成です 波形接続合成という 私たちが使っている手法です これは目新しくありませんが 新しい点は どうやって この若い女性が 話すような音声にするかです

彼女の名前はサマンサです 私が彼女に出会ったのは 彼女が9歳の時で 私のチームは 彼女のための声を構築してきました まずは代理ドナーを探して サマンサにも いくつかの 発声をお願いしました 彼女が発声できるのは 主に母音だけですが 彼女の音源特性を引き出すのには 十分な情報でした 次のステップは 私の6歳の娘が上手く例えています 娘は「声を色づかせるために 絵の具を混ぜているんだね」と きれいですよね まさにその通りなんです サマンサの声は 濃縮された食紅のように 彼女の代理ドナーの 録音した声に混ぜることで ピンク色の声になるのです まさに こんな風に


今では こんな風に話せます

サマンサ:この声は私だけのもの 友達と新しい声で話すのが楽しみ

ありがとう (拍手)

彼女が 最初に この声を聞いた時の 顔いっぱいに広がった 優しい笑みは ずっと忘れないでしょう 世界中には数百万人もの サマンサのような人々がいます 数百万ですよ 私たちの取り組みは まだまだ始まったばかりです これまでの取り組みは アメリカ国内で 声を提供してくれる人々を 数名集めて 私たちの初の試みとなる 個人用の声の構築に 利用しています でも やることは山ほどあります 例えばサマンサの代理ドナーは 中西部の出身で 見ず知らずの他人が 声の贈り物をしてくれたのです 私が科学者として とても楽しみなのは 研究室でやっていた仕事を ついに実用化して 実社会に影響を与えることです 次に皆さんと共有させていただくのは この成果を どうやって次のレベルに 進めるかです 私が考えているのは 世界中の あらゆる階層の人々 異なる体格や 違う年齢層の人々が 代理ドナーとなって 個性と同じくらい 色彩に富んだ声を 人々に贈ることです これを叶えるための第一歩として 『VocaliD.org』というウェブサイトを 立ち上げました 声や専門知識の提供を 募るためのサイトで 私たちのビジョンを いろいろな形で 支援してくれる人たちを 集める試みです

献血で他人の命を救うことができますね 声を提供することで 他人の人生を変えることができます ほんの数時間分の 代理話者の 音声サンプルと 声を受け取る人の発声した 母音が1つでもあれば 独特な声のアイデンティティを 作れます

これが私たちがやっている裏にある 科学なんです この仕事に インスピレーションをもたらしてくれた 人間的な部分に立ち返ることで 締めくくります 約5年前のことです 私たちが最初に作った声は ウィリアムという男の子のためでした 母親が この声を始めて耳にした時 「まさにウィリアムの声だ もし この子が話せていたら きっとこんな声だったに違いない」と するとウィリアムが 彼の機器で メッセージをタイプするんです 私は彼が何を考えているのか 思いを馳せました 9年間も他人の声を使っていた 男の子が ついに自分の声を手に入れたのです どんな気分だと思いますか

ウィリアムはこう言いました 「自分の声でしゃべったのは初めてだ」



― もっと見る ―
― 折りたたむ ―


  • 主語
  • 動詞
  • 助動詞
  • 準動詞
  • 関係詞等