Computing a Rosetta Stone for the Indus script
Rajesh Rao




I'd like to begin with a thought experiment. Imagine that it's 4,000 years into the future. Civilization as we know it has ceased to exist -- no books, no electronic devices, no Facebook or Twitter. All knowledge of the English language and the English alphabet has been lost. Now imagine archeologists digging through the rubble of one of our cities. What might they find? Well perhaps some rectangular pieces of plastic with strange symbols on them. Perhaps some circular pieces of metal. Maybe some cylindrical containers with some symbols on them. And perhaps one archeologist becomes an instant celebrity when she discovers -- buried in the hills somewhere in North America -- massive versions of these same symbols. Now let's ask ourselves, what could such artifacts say about us to people 4,000 years into the future?

This is no hypothetical question. In fact, this is exactly the kind of question we're faced with when we try to understand the Indus Valley civilization, which existed 4,000 years ago. The Indus civilization was roughly contemporaneous with the much better known Egyptian and the Mesopotamian civilizations, but it was actually much larger than either of these two civilizations. It occupied the area of approximately one million square kilometers, covering what is now Pakistan, Northwestern India and parts of Afghanistan and Iran. Given that it was such a vast civilization, you might expect to find really powerful rulers, kings, and huge monuments glorifying these powerful kings. In fact, what archeologists have found is none of that. They've found small objects such as these.

Here's an example of one of these objects. Well obviously this is a replica. But who is this person? A king? A god? A priest? Or perhaps an ordinary person like you or me? We don't know. But the Indus people also left behind artifacts with writing on them. Well no, not pieces of plastic, but stone seals, copper tablets, pottery and, surprisingly,one large sign board, which was found buried near the gate of a city. Now we don't know if it says Hollywood, or even Bollywood for that matter. In fact, we don't even know what any of these objects say, and that's because the Indus script is undeciphered. We don't know what any of these symbols mean.

The symbols are most commonly found on seals. So you see up there one such object. It's the square object with the unicorn-like animal on it. Now that's a magnificent piece of art. So how big do you think that is? Perhaps that big? Or maybe that big? Well let me show you. Here's a replica of one such seal. It's only about one inch by one inch in size -- pretty tiny. So what were these used for? We know that these were used for stamping clay tags that were attached to bundles of goods that were sent from one place to the other. So you know those packing slips you get on your FedEx boxes? These were used to make those kinds of packing slips. You might wonder what these objects contain in terms of their text. Perhaps they're the name of the sender or some information about the goods that are being sent from one place to the other -- we don't know. We need to decipher the script to answer that question.

Deciphering the script is not just an intellectual puzzle; it's actually become a question that's become deeply intertwined with the politics and the cultural history of South Asia. In fact, the script has become a battleground of sorts between three different groups of people. First, there's a group of people who are very passionate in their belief that the Indus script does not represent a language at all. These people believe that the symbols are very similar to the kind of symbols you find on traffic signs or the emblems you find on shields. There's a second group of people who believe that the Indus script represents an Indo-European language. If you look at a map of India today, you'll see that most of the languages spoken in North India belong to the Indo-European language family. So some people believe that the Indus script represents an ancient Indo-European language such as Sanskrit.

There's a last group of people who believe that the Indus people were the ancestors of people living in South India today. These people believe that the Indus script represents an ancient form of the Dravidian language family, which is the language family spoken in much of South India today. And the proponents of this theory point to that small pocket of Dravidian-speaking people in the North, actually near Afghanistan, and they say that perhaps, sometime in the past, Dravidian languages were spoken all over India and that this suggests that the Indus civilization is perhaps also Dravidian.

Which of these hypotheses can be true? We don't know, but perhaps if you deciphered the script, you would be able to answer this question. But deciphering the script is a very challenging task. First, there's no Rosetta Stone. I don't mean the software; I mean an ancient artifact that contains in the same text both a known text and an unknown text. We don't have such an artifact for the Indus script. And furthermore, we don't even know what language they spoke. And to make matters even worse, most of the text that we have are extremely short. So as I showed you, they're usually found on these seals that are very, very tiny.

And so given these formidable obstacles, one might wonder and worry whether one will ever be able to decipher the Indus script. In the rest of my talk, I'd like to tell you about how I learned to stop worrying and love the challenge posed by the Indus script. I've always been fascinated by the Indus script ever since I read about it in a middle school textbook. And why was I fascinated? Well it's the last major undeciphered script in the ancient world. My career path led me to become a computational neuroscientist, so in my day job, I create computer models of the brain to try to understand how the brain makes predictions, how the brain makes decisions, how the brain learns and so on.

But in 2007, my path crossed again with the Indus script. That's when I was in India, and I had the wonderful opportunity to meet with some Indian scientists who were using computer models to try to analyze the script. And so it was then that I realized there was an opportunity for me to collaborate with these scientists, and so I jumped at that opportunity. And I'd like to describe some of the results that we have found. Or better yet, let's all collectively decipher. Are you ready?

The first thing that you need to do when you have an undeciphered script is try to figure out the direction of writing. Here are two texts that contain some symbols on them. Can you tell me if the direction of writing is right to left or left to right? I'll give you a couple of seconds. Okay. Right to left, how many? Okay. Okay. Left to right? Oh, it's almost 50/50. Okay. The answer is: if you look at the left-hand side of the two texts, you'll notice that there's a cramping of signs, and it seems like 4,000 years ago, when the scribe was writing from right to left, they ran out of space. And so they had to cram the sign. One of the signs is also below the text on the top. This suggests the direction of writing was probably from right to left, and so that's one of the first things we know, that directionality is a very key aspect of linguistic scripts. And the Indus script now has this particular property.

What other properties of language does the script show? Languages contain patterns. If I give you the letter Q and ask you to predict the next letter, what do you think that would be? Most of you said U, which is right. Now if I asked you to predict one more letter, what do you think that would be? Now there's several thoughts. There's E. It could be I. It could be A, but certainly not B, C or D, right? The Indus script also exhibits similar kinds of patterns. There's a lot of text that start with this diamond-shaped symbol. And this in turn tends to be followed by this quotation marks-like symbol. And this is very similar to a Q and U example. This symbol can in turn be followed by these fish-like symbols and some other signs, but never by these other signs at the bottom. And furthermore, there's some signs that really prefer the end of texts, such as this jar-shaped sign, and this sign, in fact, happens to be the most frequently occurring sign in the script.

Given such patterns, here was our idea. The idea was to use a computer to learn these patterns, and so we gave the computer the existing texts. And the computer learned a statistical model of which symbols tend to occur together and which symbols tend to follow each other. Given the computer model, we can test the model by essentially quizzing it. So we could deliberately erase some symbols, and we can ask it to predict the missing symbols. Here are some examples. You may regard this as perhaps the most ancient game of Wheel of Fortune.

What we found was that the computer was successful in 75 percent of the cases in predicting the correct symbol. In the rest of the cases, typically the second best guess or third best guess was the right answer. There's also practical use for this particular procedure. There's a lot of these texts that are damaged. Here's an example of one such text. And we can use the computer model now to try to complete this text and make a best guess prediction. Here's an example of a symbol that was predicted. And this could be really useful as we try to decipher the script by generating more data that we can analyze.

Now here's one other thing you can do with the computer model. So imagine a monkey sitting at a keyboard. I think you might get a random jumble of letters that looks like this. Such a random jumble of letters is said to have a very high entropy. This is a physics and information theory term. But just imagine it's a really random jumble of letters. How many of you have ever spilled coffee on a keyboard? You might have encountered the stuck-key problem -- so basically the same symbol being repeated over and over again. This kind of a sequence is said to have a very low entropy because there's no variation at all. Language, on the other hand, has an intermediate level of entropy; it's neither too rigid, nor is it too random. What about the Indus script? Here's a graph that plots the entropies of a whole bunch of sequences. At the very top you find the uniformly random sequence, which is a random jumble of letters -- and interestingly, we also find the DNA sequence from the human genome and instrumental music. And both of these are very, very flexible, which is why you find them in the very high range. At the lower end of the scale, you find a rigid sequence, a sequence of all A's, and you also find a computer program, in this case in the language Fortran, which obeys really strict rules. Linguistic scripts occupy the middle range.

Now what about the Indus script? We found that the Indus script actually falls within the range of the linguistic scripts. When this result was first published, it was highly controversial. There were people who raised a hue and cry, and these people were the ones who believed that the Indus script does not represent language. I even started to get some hate mail. My students said that I should really seriously consider getting some protection. Who'd have thought that deciphering could be a dangerous profession? What does this result really show? It shows that the Indus script shares an important property of language. So, as the old saying goes, if it looks like a linguistic script and it acts like a linguistic script, then perhaps we may have a linguistic script on our hands. What other evidence is there that the script could actually encode language?

Well linguistic scripts can actually encode multiple languages. So for example, here's the same sentence written in English and the same sentence written in Dutch using the same letters of the alphabet. If you don't know Dutch and you only know English and I give you some words in Dutch, you'll tell me that these words contain some very unusual patterns. Some things are not right, and you'll say these words are probably not English words. The same thing happens in the case of the Indus script. The computer found several texts -- two of them are shown here -- that have very unusual patterns. So for example the first text: there's a doubling of this jar-shaped sign. This sign is the most frequently-occurring sign in the Indus script, and it's only in this text that it occurs as a doubling pair.

Why is that the case? We went back and looked at where these particular texts were found, and it turns out that they were found very, very far away from the Indus Valley. They were found in present day Iraq and Iran. And why were they found there? What I haven't told you is that the Indus people were very, very enterprising. They used to trade with people pretty far away from where they lived, and so in this case, they were traveling by sea all the way to Mesopotamia, present-day Iraq. And what seems to have happened here is that the Indus traders, the merchants, were using this script to write a foreign language. It's just like our English and Dutch example. And that would explain why we have these strange patterns that are very different from the kinds of patterns you see in the text that are found within the Indus Valley. This suggests that the same script, the Indus script, could be used to write different languages. The results we have so far seem to point to the conclusion that the Indus script probably does represent language.

If it does represent language, then how do we read the symbols? That's our next big challenge. So you'll notice that many of the symbols look like pictures of humans, of insects, of fishes, of birds. Most ancient scripts use the rebus principle, which is, using pictures to represent words. So as an example, here's a word. Can you write it using pictures? I'll give you a couple seconds. Got it? Okay. Great. Here's my solution. You could use the picture of a bee followed by a picture of a leaf -- and that's "belief," right. There could be other solutions. In the case of the Indus script, the problem is the reverse. You have to figure out the sounds of each of these pictures such that the entire sequence makes sense. So this is just like a crossword puzzle, except that this is the mother of all crossword puzzles because the stakes are so high if you solve it.

My colleagues, Iravatham Mahadevan and Asko Parpola, have been making some headway on this particular problem. And I'd like to give you a quick example of Parpola's work. Here's a really short text. It contains seven vertical strokes followed by this fish-like sign. And I want to mention that these seals were used for stamping clay tags that were attached to bundles of goods, so it's quite likely that these tags, at least some of them, contain names of merchants. And it turns out that in India there's a long tradition of names being based on horoscopes and star constellations present at the time of birth. In Dravidian languages, the word for fish is "meen" which happens to sound just like the word for star. And so seven stars would stand for "elu meen," which is the Dravidian word for the Big Dipper star constellation. Similarly, there's another sequence of six stars, and that translates to "aru meen," which is the old Dravidian name for the star constellation Pleiades. And finally, there's other combinations, such as this fish sign with something that looks like a roof on top of it. And that could be translated into "mey meen," which is the old Dravidian name for the planet Saturn. So that was pretty exciting. It looks like we're getting somewhere.

But does this prove that these seals contain Dravidian names based on planets and star constellations? Well not yet. So we have no way of validating these particular readings, but if more and more of these readings start making sense, and if longer and longer sequences appear to be correct, then we know that we are on the right track. Today, we can write a word such as TED in Egyptian hieroglyphics and in cuneiform script, because both of these were deciphered in the 19th century. The decipherment of these two scripts enabled these civilizations to speak to us again directly. The Mayans started speaking to us in the 20th century, but the Indus civilization remains silent.

Why should we care? The Indus civilization does not belong to just the South Indians or the North Indians or the Pakistanis; it belongs to all of us. These are our ancestors -- yours and mine. They were silenced by an unfortunate accident of history. If we decipher the script, we would enable them to speak to us again. What would they tell us? What would we find out about them? About us? I can't wait to find out.

Thank you.


では実験から始めたいと思います 4000年後の未来を想像してください 現在の文明は 消え去り 本も 電子機器も フェースブックもツイッターもありません 英語やアルファベットに関する知識は 全て忘れ去られたものとします そんな未来の考古学者らが 遺跡と化した都市を掘りおこした時 何が発掘されるでしょう? 長方形のプラスチック片に 不思議な記号が記されたものや 丸い金属の破片や 記号が描かれた 円筒形の容器かもしれません 考古学者が 北米のどこかで 丘陵に埋もれた 巨大な記号を発見して 名声を得るかも知れません さて これらの人工物から 4000年後の未来の人々は 何を学び得るでしょう?

これは仮定の質問ではありません 実際に このような質問は 4000年前に栄えたインダス文明を解き明かそうとしている 我々が現在直面している問題なのです インダス文明と ほぼ同時期に より名の知られた エジプトやメソポタミア文明も栄えていました でもインダス文明の規模はそれらよりも大きく その領域は 約百万平方キロメートルに及び 現在のパキスタン 北西インド そしてアフガニスタンとイランの一部にまで達していました これほど広大な文明なら 強力な権力者や王がいたはずで 彼らの栄光を称える巨大遺跡も見つかるはずです ただ そうしたものは 一切発掘されていません 発見されたのは小さなものばかり

これがその一例です これは復元レプリカですが さてこれは誰でしょう? 王? 神? 神官? ひょっとしたら私達と同じ 普通の人かもしれません それはまだ不明です さらに文字付きの人工物も発見されています もちろんプラスチックの破片ではなく 石の印章や銅版 土器 そして驚くことに 一枚の大きな標示板も 都市の入り口から出土しています 「ハリウッド」と書かれているかは不明です いや「ボリウッド」かもしれませんね 現時点では その内容は全く不明です それはインダス文字が解読されていないからです 記号の意味は全く不明です

こうした記号は印章に多く見られます これがその品です 四角の中に一角獣らしき動物が彫られています 実に素晴らしい芸術品ですが どの位の大きさのものでしょうか? この位でしょうか? またはこの位でしょうか? お見せしましょう 印章の復元レプリカです 2~3センチ四方の 小さなものです これをどう使ったかというと 粘土に印をつけ 輸送荷物に取り付けていたようです FedExの箱に付いてくる 納品書のようなものです 印章の 内容はどうでしょう 送り主の名前? 品物に関する情報? それは不明です なぜなら 文字が解読されていないからです

文字の解読は 単なる知的パズルではなく 南アジアの政治や文化史と 深い関わりのある 問題なのです インダス文字はある意味3つの仮説がたたかう ― 「戦場」と化しています 一つ目の勢力が 信じて疑わないのは インダス文字は 言語を表すものではないということ つまり彼らによれば 記号は交通標識や 盾に刻まれたシンボルと変わりません 二つ目の勢力は インド・ヨーロッパ語の一つを表す記号だと主張します 今日のインド地図を見ると 北インドで使われる言語は主に インド・ヨーロッパ語族に属しています つまりインダス文字は サンスクリットのような 古代のインド・ヨーロッパ語の文字だというのです

最後の勢力は インダス文明の人々は 今日の南インド人の祖先であったと信じています インダス文字が表すのは 古代の ドラビダ語族つまり 南インド人が話す語族ということです この説の支持者は ドラビダ語の話者がインド北部 アフガニスタンの近くに 少数いることを取り上げ おそらくインド全域で ドラビダ語が話されていた時期があり したがって インダス文明もドラビダ系ではないかと主張します

どの仮説が正しいかは 謎ですでも文字を解読すれば 答えがでるはずです でも文字の解読は難問です 「ロゼッタストーン」がないからです いや その言語学習ソフトではなく 古代の遺物で 同じ内容の文章が 既知と未知の文字で記されているものです インダス文字にはそれに相当する遺物が存在しません さらに話されていた言語も不明です さらに厄介なのは 存在する文字列が非常に短いということです 既にお見せした印章など 小さいものに書かれています

立ちはだかる障害を 乗り越えられるのでしょうか インダス文字は果たして解読可能なのでしょうか 残りの時間のスピーチは題して 「私が如何にして心配するのを止めて ― インダス文字の問題を愛するようになったか」です 私は中学の教科書で出会って以来 インダス文字にはずっと魅せられてきました その魅力とはインダス文字が 最後の主な未解読古代言語であるということです 私はコンピューター神経科学者なので 日中の仕事は 脳のコンピューターモデルを作り 脳がどのように予測するか どのように判断を下すか どのように学習するのかなどを研究しています

しかし2007年にインダス文字と再会したのです インドを訪問した際に コンピューターモデルを利用し 文字解読に挑戦している インド人科学者に会う機会がありました そのとき 彼らと協力する いい機会だと思って 早速 飛びつきました その結果をお知らせします いや一緒に解読していきましょう 用意はいいですか

未解読の文字列の場合 まず筆記の方向を考えます ここに二つの文字列があります さてその方向は 右から左 それとも左から右でしょうか ちょっと考えてみてください 右から左だと思う方? 左から右? 半々ですね 種明かしをすると 左側では 文字がつまっています おそらく4000年前の筆者は 右から左に書いていたら 場所が足りなくなったので 文字を詰め込んだようです また重なった記号があるので 文字列の方向は 右から左だったのでしょう 一つ分かっていることは 言語を表す文字列では方向が非常に重要で インダス文字には 右から左という 特性があるとわかりました

他にどんな特性があるでしょうか 言語にはパターンがあります 例えば英語ではQという文字の 次にはどの文字が来るでしょう そうUですね それでは次の文字は 何だと思いますか? EIAなど幾つか候補があります でもBCDはありえませんね インダス文字にも似たようなパターンがあります 多いのはダイヤ型の記号から始まる文字列です そしてその次に現れるのは 引用符のような記号です これはQとUの例に似ていますね そしてその次には 魚のような記号やその他の記号が現れますが 下にある記号は決して現れません さらに記号のなかには 列の最後尾を好むものもあり この瓶に似た記号もそうです そしてこの記号は 最も頻繁に見られる記号です

そこで思いついたことは コンピュータに このパターンを 学習させることです 早速 文字列をコンピューターに取り込み どの記号が一緒に見られ どれが前後関係にあるのかを 統計モデルにして学習させました 次に完成したコンピューターモデルを 試すテストを行いました 記号の一部を削除し それを予想できるかを試したのです 例を見てみましょう いわばこれは 世界最古の 「ウィール・オブ・フォーチュン」ゲームです

さてその結果 コンピューターは75%の正解率で 正しい記号を予想しました 残りの25%も 2番目か3番目に予測した文字が正解でした この手順は とても実用的でもあります 破損している文字が多いからです ご覧の通りです コンピューターモデルを利用すれば 破損部分を予想することができます これが予想された記号です 破損部分を再生することで 解読に役立つデータをさらに増やすことができます

また コンピューターモデルを次のように利用できます サルが キーボード入力した場合 結果はおそらくこうなります このように無秩序な文字列では エントロピーは非常に高くなります 物理・情報論理の用語です 完全に無秩序な文字列を想像してください コーヒーをキーボードにこぼしたことはありますか? キーが故障し 同じ文字を繰り返すなんてこともあります この文字列のエントロピーはとても低いと言えます 変化がないからです 一方 言語のエントロピーは中程度です 単調すぎず 無秩序すぎでもありません さてインダス文字はどうでしょう? あらゆるシーケンスのエントロピーを図に表しました 一番上は 完全に無秩序なシーケンスで ランダムな文字列です 興味深いことに ヒトゲノムや楽器音楽もここに含まれます どちらも非常に柔軟なので エントロピーが高いのです 最も低い位置にあるのが 単調なAばかりのシーケンスや コンピュータープログラムです これはFortranという言語で 厳密なルールに従います 言語で使われる文字列は 中間範囲に見られます

さてインダス文字はどのあたりでしょう? インダス文字は 言語文字の範囲内だと分かりました 当時この結果の発表は 大きな論議を巻き起こしました 特にインダス文字は言語を 表すものではないと主張する人たちが 非難の声を上げました 私にも嫌がらせメールが届きました 私の生徒達には もっと自分の身の安全を考えてと言われました まさか解読業が 危険な職業だなんて思いもしませんよね さてこの結果は何を示しているのでしょう? それはインダス文字が 言語の特性をもっていることです ですから 見かけが言語文字で 振る舞いも言語文字ならば それはきっと言語文字だといえませんか? この文字が本当に言語を表しているという 他の証拠はあるでしょうか?

言語文字は実際複数の言語を表せます 例えばこの英文を オランダ語で表す場合は やはりアルファベットを利用します 英語しか知らなければ オランダ語の これらの言葉には 見慣れないパターンがあるはずです 見慣れない部分があるため 英語の言葉ではないと判断できます インダス文字でも同じことが言えます コンピューター処理の結果 この2つの文字列に 見慣れないパターンが発見されました 例えば上の行を見ると 瓶の記号が連続しています この記号はインダス文字で 最も頻繁に起こる記号ですが このように連続する例は ここ以外に見つかっていません

なぜなのでしょう? この文字列の発掘場所をもう一度 調査した結果 発見場所は インダス渓谷から遠く離れた 現在のイラクやイランの周辺だとわかりました なぜそこで発見されたかというと 実はインダス文明の人々は 進取の気性に富んだ人々でした 遠く離れた人々とも貿易を行うため 海を渡り メソポタミアまで旅しました今のイラクです どういうことかというと インダス文明の貿易人 商人は 外国語を表すために文字を使っていたということです 英語とオランダ語の例のように そう考えればこのような見慣れない パターンの文字列にも 説明がつきます つまりインダス文字は 複数の言語表示に使用できるのです これまで見てきた結果から インダス文字は言語を表していると言えそうです

言語を表す文字だとすれば 記号をどう読むべきか これが次の大きな課題です 記号の多くは 人間や虫や 魚や鳥の絵のようです 古代文字の多くは 「判じ物」の原理に基づいています つまり言葉を絵で表しています 例えばここに言葉があります これを絵で表せますか? やってみてください できましたか? それでは 私の回答です 蜜蜂と葉っぱの絵をあわせ ビー・リーフと読ませて“belief”となります 他にも回答はあるかもしれません インダス文字の場合 問題は逆です シーケンス全体の意味が通るような 絵の発音を解明しなければいけません まるでクロスワードパズルのようです ただしこれは最難級のクロスワードパズルなのです なぜならその解明結果は大きな賭けの対象でもあるからです

同僚のイラヴァサム・マハデヴァンとアスコ・パーポラは このパズル問題に取り組んでいます パーポラの研究内容を少しお見せしましょう ここに短い文字列があります 縦線が7本 その隣に魚らしき記号があります これらの印章は 荷物に取り付けられた 粘土に記されていたものですので その粘土の一部には 商人の名前が記載されているはずです インドでは 古くからの伝統で 子供の誕生時に見えた星座に ちなんだ占星術的な名前がつけられてきました ドラビダ言語では 「魚」という言葉は「ミーン」で 「星」という言葉の同音語です 7つの星は 「エル・ミーン」と発音し ドラビダ語で 北斗七星を指します 同じく6つの星から成る文字列は 「アル・ミーン」と発音し 旧ドラビダ語で プレアデス星団を指します 他の組み合わせを見ると 魚の記号と屋根のようなものが見えます これは「メイ・ミーン」と発音し 古ドラビダ語で土星を指します これには血が騒ぎました 核心に近づいているようです

だからといって印章に 惑星や星座にちなんだ ドラビダ語の名前が含まれるとは限りません 今の段階では 特定の解読法を決定づける ことができません でもさらに分析が進み より長い文字列が 間違いなく解読できているようであれば 正しい方向に進んでいることになります 今のところ 我々は TEDという言葉を エジプト象形文字やくさび文字で表すことができます これは両文字が 19世紀に解読されたからです これらの文字を解読すれば 古代文明が語る言葉を直接知ることができます マヤ文明は 20世紀になって語り出しました でも インダス文明は無言のままです

「それがどうした?」と思うかもしれません インダス文明は 南インド人や北インド人や パキスタン人だけでなく 私達全員が共有するべきなのです 彼らは私達全員 あなたの そして私の先祖なのです ただ歴史という不運な事故によって 口を封じられてしまったのです 文字さえ解読できれば 再び私達に語りかけてくれるでしょう 何を語ってくれるでしょうか 何が明かされるでしょうか彼ら そして私達について 明らかになるのが待ちきれません



