TED日本語 - フレデリック・カプラン: 情報の世界をめぐる、タイムマシンの制作

TED日本語

プレゼンテーション動画

TED日本語 - フレデリック・カプラン: 情報の世界をめぐる、タイムマシンの制作

TED Talks

情報の世界をめぐる、タイムマシンの制作
How I built an information time machine
フレデリック・カプラン
Frederic Kaplan

内容

中世のFacebookを見れたら、どうでしょう?これは、それほど突飛な話でもありません。楽しく興味深いトークで、研究者・エンジニアのフレデリック・カプランが堂々発表するのは「ヴェネツィア・タイムマシン」というプロジェクトです。全長80キロにも及ぶ保管庫にある書籍をデジタル化し、1000年にもわたるヴェネツィアの歴史や地理を再現します。(TEDxCaFoscariUで撮影)

Script

This is an image of the planet Earth. It looks very much like the Apollo pictures that are very well known. There is something different; you can click on it, and if you click on it, you can zoom in on almost any place on the Earth. For instance, this is a bird's-eye view of the EPFL campus. In many cases, you can also see how a building looks from a nearby street. This is pretty amazing. But there's something missing in this wonderful tour: It's time. i'm not really sure when this picture was taken. I'm not even sure it was taken at the same moment as the bird's-eye view. In my lab, we develop tools to travel not only in space but also through time. The kind of question we're asking is Is it possible to build something like Google Maps of the past? Can I add a slider on top of Google Maps and just change the year, seeing how it was 100 years before,1,000 years before? Is that possible? Can I reconstruct social networks of the past? Can I make a Facebook of the Middle Ages? So, can I build time machines? Maybe we can just say, "No, it's not possible." Or, maybe, we can think of it from an information point of view. This is what I call the information mushroom. Vertically, you have the time. and horizontally, the amount of digital information available. Obviously, in the last 10 years, we have much information. And obviously the more we go in the past, the less information we have. If we want to build something like Google Maps of the past, or Facebook of the past, we need to enlarge this space, we need to make that like a rectangle. How do we do that? One way is digitization. There's a lot of material available -- newspaper, printed books, thousands of printed books. I can digitize all these. I can extract information from these. Of course, the more you go in the past, the less information you will have. So, it might not be enough. So, I can do what historians do. I can extrapolate. This is what we call, in computer science, simulation. If I take a log book, I can consider, it's not just a log book of a Venetian captain going to a particular journey. I can consider it is actually a log book which is representative ofmany journeys of that period. I'm extrapolating. If I have a painting of a facade, I can consider it's not just that particular building, but probably it also shares the same grammar of buildings where we lost any information.

So if we want to construct a time machine, we need two things. We need very large archives, and we need excellent specialists. The Venice Time Machine, the project I'm going to talk to you about, is a joint project between the EPFL and the University of Venice Ca'Foscari.

There's something very peculiar about Venice, that its administration has been very, very bureaucratic. They've been keeping track of everything, almost like Google today. At the Archivio di Stato, you have 80 kilometers of archives documenting every aspect of the life of Venice overmore than 1,000 years. You have every boat that goes out, every boat that comes in. You have every change that was made in the city. This is all there. We are setting up a 10-year digitization program which has the objective of transforming this immense archive into a giant information system. The type of objective we want to reach is 450 books a day that can be digitized. Of course, when you digitize, that's not enough, because these documents, most of them are in Latin, in Tuscan, in Venetian dialect, so you need to transcribe them, to translate them in some cases, to index them, and this is obviously not easy. In particular, traditional opticalcharacter recognition method that can be used for printed manuscripts, they do not work well on the handwritten document. So the solution is actually to take inspiration from another domain: speech recognition. This is a domain of somethingthat seems impossible, which can actually be done, simply by putting additional constraints. If you have a very good model of a language which is used, if you have a very good model of a document, how well they are structured. And these are administrative documents. They are well structured in many cases. If you divide this huge archive into smaller subsets where a smaller subsetactually shares similar features, then there's a chance of success.

If we reach that stage, then there's something else: we can extract from this document events. Actually probably 10 billion events can be extracted from this archive. And this giant information system can be searched in many ways. You can ask questions like, "Who lived in this palazzo in 1323?" "How much cost a sea bream at the Realto market in 1434?" "What was the salary of a glass maker in Murano maybe over a decade?" You can ask even bigger questions because it will be semantically coded. And then what you can do is put that in space, because much of this information is spatial. And from that, you can do things like reconstructing this extraordinary journey of that city that managed tohave a sustainable development over a thousand years, managing to have all the time a form of equilibrium with its environment. You can reconstruct that journey, visualize it in many different ways. But of course, you can not understandVenice if you just look at the city. You have to put it in a larger European context. So the idea is also to document all the things that worked at the European level. We can reconstruct also the journey of the Venetian maritime empire, how it progressively controlled the Adriatic Sea, how it became the most powerful medieval empire of its time, controlling most of the sea routes from the east to the south.

But you can even do other things, because in these maritime routes, there are regular patterns. You can go one step beyond and actually create a simulation system, create a Mediterranean simulator which is capable actually of reconstructing even the information we are missing, which would enable us to havequestions you could ask like if you were using a route planner.

"If I am in Corfu in June 1323 and want to go to Constantinople, where can I take a boat?"

Probably we can answer this question with one or two or three days' precision.

"How much will it cost?"

"What are the chance of encountering pirates?"

Of course, you understand, the central scientific challengeof a project like this one is qualifying, quantifying and representing uncertainty and inconsistencyat each step of this process. There are errors everywhere, errors in the document, it'sthe wrong name of the captain, some of the boats never actually took to sea. There are errors in translation, interpretative biases, and on top of that, if you add algorithmic processes, you're going to have errors in recognition, errors in extraction, so you have very, very uncertain data.

So how can we detect andcorrect these inconsistencies? How can we represent that form of uncertainty? It's difficult. One thing you can do is document each step of the process, not only coding the historical information but what we call the meta-historical information, how is historical knowledge constructed, documenting each step. That will not guarantee that we actually converge toward a single story of Venice, but probably we can actually reconstruct a fully documented potential story of Venice. Maybe there's not a single map. Maybe there are several maps. The system should allow for that, because we have to deal witha new form of uncertainty, which is really new for this type of giant databases.

And how should we communicate this new research to a large audience? Again, Venice is extraordinary for that. With the millions of visitors that come every year, it's actually one of the best places to try to invent the museum of the future. Imagine, horizontally you see the reconstructed map of a given year, and vertically, you see the document that served the reconstruction, paintings, for instance. Imagine an immersive system that permits to go and dive and reconstructthe Venice of a given year, some experience you could share within a group. On the contrary, imagine actually that you start from a document, a Venetian manuscript, and you show, actually, whatyou can construct out of it, how it is decoded, how the context of that document can be recreated. This is an image from an exhibit which is currently conducted in Geneva with that type of system.

So to conclude, we can say that research in the humanities is about to undergo an evolution which is maybe similar to what happened to life sciences 30 years ago. It's really a question of scale. We see projects which are much beyond any single research team can do, and this is really new for the humanities, which very often take the habit of working in small groups or only with a couple of researchers. When you visit the Archivio di Stato, you feel this is beyond what any single team can do, and that should be a joint and common effort. So what we must do for this paradigm shift is actually foster a new generation of "digital humanists" that are going to be ready for this shift.

I thank you very much.

(Applause)

これは 地球の画像です アポロ17号から撮影されたあの有名な写真に よく似ていますよね でも ちょっと違います この画像はクリックでき クリックすることで 地球上の ほぼ全ての地点にズームインできます 例えば これは空から見た― ローザンヌ工科大学(EPFL)のキャンパスです 多くの場合 近くの通りから見た建物の様子も見ることができます 本当に素晴らしいことです でも この素敵なツアーにはあることが欠けています 「時間」です この写真がいつ撮影されたのか分からないばかりか 空撮写真と同じ時期に 撮られたのかさえ分かりません 私の研究室で開発しているツールは 空間だけでなく 時間を超えて旅ができるようにします 私たちが投げかけている問いはこうです 過去のGoogleマップのようなものを作れないか? つまり Googleマップの上部にスクロールバーを付けて それで年を遡れるようにできないか? 百年前や 千年前の様子を 見られるようにできないか? 過去のソーシャル・ネットワークを再現できないか? 中世のFacebookを作れないか? タイムマシンを作れないか? 単に「不可能だ」と言うこともできるでしょう しかし 情報という観点から考えたらどうでしょう これは 「キノコ型情報」と呼んでいるもので 縦軸に 時間 横軸に デジタル情報蓄積量を示したグラフです 過去10年 たくさんの情報があることは一目瞭然ですね そして 時間を遡るにつれ情報は減っていきます 過去のGoogleマップや Facebookを作るためには この部分を広げてちょうど 長方形にする必要があります どうすればいいでしょうか? 1つは デジタル化です 資料はたくさんあります 新聞や書籍―それも何千という書籍です これらを全てデジタル化して そこから情報を抽出できます もちろん 昔に行くにつれ情報は少なくなるので 十分ではないかもしれません ですから歴史学者のように 「推定」を行うのです コンピュータ科学の世界で言うシミュレーションです ここに 航海日誌があるとしましょう それを ただの日誌でバチカンの船長が ある航海をつづるものと捉えるのではなく その日誌に書かれているのは 当時 数多くされた航海の代表例だと捉えるのです こうして推定をするわけです 建物の外観を描いた絵があれば それを単に 特定の建物を描いたものとするのではなく おそらく同じ構造は情報が残っていない― ほかの建物にも採用されていたと考えるのです

ですからタイムマシンを作るのに 必要なものは2つです 大量の保存記録と 優秀な専門家です ヴェネツィア・タイムマシンという プロジェクトについてお話しします これは ローザンヌ工科大学と ヴェネツィア・カ・フォスカリ大学との共同プロジェクトです

ヴェネツィアに特有なのは 政府がずっと 非常に官僚的であることです あらゆることを記録してきています 今日のGoogleのようなものです ヴェネツィアの古文書館には 全長80キロにわたる保管庫があり ヴェネツィア生活の全てが 千年以上にわたり記録されてきています 出航・到着した船も 全て分かります 市内の あらゆる変化が記録されています これらの情報は全て そこにあるのです 今 デジタル化の10年計画を立てており この膨大な資料を 巨大な情報システムに 変えようとしています 目標として掲げているのは 一日 450冊の本をデジタル化することです 当然 デジタル化したところで十分ではありません というのもこれらの文書が 書かれているのはたいてい ラテン語やトスカナ語 ヴェネツィアの方言なので 文字に起こして 場合により 翻訳もして 索引を付ける必要があり どう見ても簡単なことではないのです 特に これまでの光学式文字認識(OCR)方法は 印刷原稿には使えますが 手書きの文書となるとうまく行きません これを解決するため参考にしたのは 音声認識の分野です 音声認識は不可能と思われたことですが ただ条件を加えるだけで 実現することができます 必要なのは使われている言語の― 良いモデルです つまり構成が整った文書の― 良いモデルがあればよいのです これらは行政文書ですから 多くは構成が整っています 膨大な保存記録を細かく分類し 同じような特徴ごとに分類ができれば うまくいく可能性があります

その段階まで行けば他のこともできます この文書から出来事を抽出できるのです 実際 おそらくこの保存記録から 100万件の出来事が抽出できます さらに この巨大な情報システムは さまざまな方法で検索できます こんな質問もできます 「1323年に この宮殿に住んでいたのは誰?」 「1434年にレアルト市場で 鯛はいくらで売られていた?」 「ムラノのガラス職人の 給料はいくらだった? 例えば この10年で」 もっと大きな質問もできます 意味に応じてコード化されているからです それを場所と結びつけることもできます 多くの情報は場所と関係しているからです そこからこの都市の 素晴らしい歴史をたどることができます この都市が千年以上もの時を超えて 常に環境との均衡を保ちながら 持続的な発展をとげてきた― その軌跡をたどるのです 都市の歴史を再構築して さまざまな形でビジュアル化できます 当然 ヴェネツィアを理解するにはその都市だけではなく 広くヨーロッパという文脈で見る必要があります ですからヨーロッパで起こった― 全ての事柄を記録するのです 海洋帝国時代のヴェネツィアの動きを 再現することもできます どのようにアドリア海の支配を強めていき どのように 当時 中世で最強の帝国になり 東から南にわたる ほとんどの海上航路を押さえたかです

他のこともできます こうした海上航路には 決まったパターンがあるからです さらに一歩進めて シミュレーション・システムを作り 地中海のシミュレーターを作れば 欠けている情報でさえ 再構築をすることができ こんな質問も受けられるようになります まるで旅行代理店に相談する感じで

「1323年6月にコルフ島から コンスタンチノープルに行くには どこで船に乗ればよいですか?」と

おそらくこの質問へは 1日、2日、あるいは3日の誤差で答えられます

「いくらかかりますか?」

「海賊に遭遇する可能性は?」という質問もです

もちろん ご承知の通り このようなプロジェクトで核となる科学的課題は このプロセスの各段階において不確実性や矛盾を 制限・数量化し説明をすることです 誤りは どこにでもあります 文書にもです船長は違う名前で 船は実は出航しなかったかもしれません 翻訳や解釈上の誤りもあるでしょう さらに アルゴリズム的処理を加えれば 認識や抽出においても 誤りが出てくるでしょう ですから ここにあるのは非常に不確実なデータなのです

では どうすればこうした矛盾を見つけ修正できるでしょう? 不確実性の形式をどう説明できるでしょう? 難しいことですができることとしたら プロセスの各段階を記録して 歴史的情報だけでなく いわゆる「メタヒストリー情報」もコード化するのです 歴史的知識がどう形成されたか 各段階で記録するのです これによってヴェネツィアの 歴史を一つに収斂させられるとは限りません でも おそらく完全に記録をもとにした― ヴェネツィアの歴史を再構築できます もしかしたら地図は一つでなく 複数あるかもしれません システムはそれを許容すべきなのです 不確実性の新たな形式を扱わないといけないからです その形式は この種の巨大データベースには新しいものなのですから

では この新しい研究成果を どうすれば 多くの人に伝えられるでしょう? あらためて申し上げるとヴェネツィアはそれに最適です 毎年 何百万もの人々が訪れており 未来の博物館をつくるには 最もふさわしい場所なのです 想像してみてください下に ある年の 再現地図を置き 壁にはその再現に使用された― 例えば 絵画などの 資料が見られるのです この没入型システムによって その年のヴェネツィアに入り込んで再構築し まわりの人とその体験を共有できるのです 一方でヴェネツィアの原稿などの 文書から始めて それから何が言えるか見せることができます どのように解読がされ どのような文脈で文書が再生されたかなどです こちらの画像は ジュネーブで現在行われている展示で 同様なシステムを使って出したイメージです

結論として言えるのは 人文科学の研究は 今 進化を遂げようとしています ちょうど 30年前に生物科学に起こったような進化です まさに規模の問題なのです こうしたプロジェクトは 1つの研究チームでできる範囲を大きく超えるもので 人文科学にとっては今までなかったことなのです 私たちは しばしば小さなグループや 数名の研究者だけで研究する傾向にありますが あの古文書館を訪れてみれば 1つの研究チームでできることを超えていて 共同で行うべきものというのがわかるでしょう こうしたパラダイム・シフトに向けて私たちは 「デジタル古典研究者」という新たな世代を育む必要があるのです 彼らこそ このシフトにふさわしいのです

ありがとうございました

(拍手)

― もっと見る ―
― 折りたたむ ―

品詞分類

  • 主語
  • 動詞
  • 助動詞
  • 準動詞
  • 関係詞等

関連動画