The joy of lexicography
Erin McKean




Now, have any of y'all ever looked up this word? You know, in a dictionary? (Laughter) Yeah, that's what I thought. How about this word? Here, I'll show it to you. Lexicography: the practice of compiling dictionaries. Notice -- we're very specific -- that word "compile." The dictionary is not carved out of a piece of granite, out of a lump of rock. It's made up of lots of little bits. It's little discrete -- that's spelled D-I-S-C-R-E-T-E -- bits. And those bits are words.

Now one of the perks of being a lexicographer -- besides getting to come to TED -- is that you get to say really fun words, like lexicographical. Lexicographical has this great pattern: it's called a double dactyl. And just by saying double dactyl, I've sent the geek needle all the way into the red. (Laughter) (Applause) But "lexicographical" is the same pattern as "higgledy-piggledy." Right? It's a fun word to say, and I get to say it a lot. Now,one of the non-perks of being a lexicographer is that people don't usually have a kind of warm, fuzzy, snuggly image of the dictionary. Right? Nobody hugs their dictionaries. But what people really often think about the dictionary is, they think more like this. Just to let you know, I do not have a lexicographical whistle. But people think that my job is to let the good words make that difficult left-hand turn into the dictionary, and keep the bad words out.

But the thing is, I don't want to be a traffic cop. For one thing, I just do not do uniforms. And for another, deciding what words are good and what words are bad is actually not very easy. And it's not very fun. And when parts of your job are not easy or fun, you kind of look for an excuse not to do them. So if I had to think of some kind of occupation as a metaphor for my work, I would much rather be a fisherman. I want to throw my big net into the deep, blue ocean of English and see what marvelous creatures I can drag up from the bottom. But why do people want me to direct traffic, when I would much rather go fishing? Well, I blame the Queen. Why do I blame the Queen? Well, first of all, I blame the Queen because it's funny. But secondly, I blame the Queen because dictionaries have really not changed.

Our idea of what a dictionary is has not changed since her reign. The only thing that Queen Victoria would not be amused by in modern dictionaries is our inclusion of the F-word, which has happened in American dictionaries since 1965. So, there's this guy, right? Victorian era. James Murray, first editor of the Oxford English Dictionary. I do not have that hat. I wish I had that hat. So he's really responsible for a lot of what we consider modern in dictionaries today. When a guy who looks like that, in that hat, is the face of modernity, you have a problem. And so, James Murray could get a job on any dictionary today. There'd be virtually no learning curve.

And of course, a few of us are saying: okay, computers! Computers! What about computers? The thing about computers is, I love computers. I mean, I'm a huge geek, I love computers. I would go on a hunger strike before I let them take away Google Book Search from me. But computers don't do much else other than speed up the process of compiling dictionaries. They don't change the end result. Because what a dictionary is, is it's Victorian design merged with a little bit of modern propulsion. It's steampunk. What we have is an electric velocipede. You know, we have Victorian design with an engine on it. That's all! The design has not changed.

And OK, what about online dictionaries, right? Online dictionaries must be different. This is the Oxford English Dictionary Online,one of the best online dictionaries. This is my favorite word, by the way. Erinaceous: pertaining to the hedgehog family; of the nature of a hedgehog. Very useful word. So, look at that. Online dictionaries right now are paper thrown up on a screen. This is flat. Look how many links there are in the actual entry: two! Right? Those little buttons, I had them all expanded except for the date chart. So there's not very much going on here. There's not a lot of clickiness. And in fact, online dictionaries replicate almost all the problems of print, except for searchability. And when you improve searchability, you actually take away the one advantage of print, which is serendipity. Serendipity is when you find things you weren't looking for, because finding what you are looking for is so damned difficult.

So -- (Laughter) (Applause) -- now, when you think about this, what we have here is a ham butt problem. Does everyone know the ham butt problem? Woman's making a ham for a big, family dinner. She goes to cut the butt off the ham and throw it away, and she looks at this piece of ham and she's like, "This is a perfectly good piece of ham. Why am I throwing this away?" She thought, "Well, my mom always did this." So she calls up mom, and she says, "Mom, why'd you cut the butt off the ham, when you're making a ham?" She says, "I don't know, my mom always did it!" So they call grandma, and grandma says, "My pan was too small!" (Laughter)

So, it's not that we have good words and bad words. We have a pan that's too small! You know, that ham butt is delicious! There's no reason to throw it away. The bad words -- see, when people think about a place and they don't find a place on the map, they think, "This map sucks!" When they find a nightspot or a bar, and it's not in the guidebook, they're like, "Ooh, this place must be cool! It's not in the guidebook." When they find a word that's not in the dictionary, they think, "This must be a bad word." Why? It's more likely to be a bad dictionary. Why are you blaming the ham for being too big for the pan? So, you can't get a smaller ham. The English language is as big as it is.

So, if you have a ham butt problem, and you're thinking about the ham butt problem, the conclusion that it leads you to is inexorable and counterintuitive: paper is the enemy of words. How can this be? I mean, I love books. I really love books. Some of my best friends are books. But the book is not the best shape for the dictionary. Now they're going to think "Oh, boy. People are going to take away my beautiful, paper dictionaries?" No. There will still be paper dictionaries. When we had cars -- when cars became the dominant mode of transportation, we didn't round up all the horses and shoot them. You know, there're still going to be paper dictionaries, but it's not going to be the dominant dictionary. The book-shaped dictionary is not going to be the only shape dictionaries come in. And it's not going to be the prototype for the shapes dictionaries come in.

So, think about it this way: if you've got an artificial constraint, artificial constraints lead to arbitrary distinctions and a skewed worldview. What if biologists could only study animals that made people go, "Aww." Right? What if we made aesthetic judgments about animals, and only the ones we thought were cute were the ones that we could study? We'd know a whole lot about charismatic megafauna, and not very much about much else. And I think this is a problem. I think we should study all the words, because when you think about words, you can make beautiful expressions from very humble parts. Lexicography is really more about material science. We are studying the tolerances of the materials that you use to build the structure of your expression: your speeches and your writing. And then, often people say to me, "Well, OK, how do I know that this word is real?" They think, "OK, if we think words are the tools that we use to build the expressions of our thoughts, how can you say that screwdrivers are better than hammers? How can you say that a sledgehammer is better than a ball-peen hammer?" They're just the right tools for the job.

And so people say to me, "How do I know if a word is real?" You know, anybody who's read a children's book knows that love makes things real. If you love a word, use it. That makes it real. Being in the dictionary is an artificial distinction. It doesn't make a word any more real than any other way. If you love a word, it becomes real. So if we're not worrying about directing traffic, if we've transcended paper, if we are worrying less about control and more about description, then we can think of the English language as being this beautiful mobile. And any time one of those little parts of the mobile changes, is touched, any time you touch a word, you use it in a new context, you give it a new connotation, you verb it, you make the mobile move. You didn't break it. It's just in a new position, and that new position can be just as beautiful.

Now, if you're no longer a traffic cop -- the problem with being a traffic cop is there can only be so many traffic cops in any one intersection, or the cars get confused. Right? But if your goal is no longer to direct the traffic, but maybe to count the cars that go by, then more eyeballs are better. You can ask for help! If you ask for help, you get more done. And we really need help. Library of Congress: 17 million books, of which half are in English. If only one out of every 10 of those books had a word that's not in the dictionary in it, that would be equivalent to more than two unabridged dictionaries.

And I find an un-dictionaried word -- a word like "un-dictionaried," for example -- in almost every book I read. What about newspapers? Newspaper archive goes back to 1759,58.1 million newspaper pages. If only one in 100 of those pages had an un-dictionaried word on it, it would be an entire other OED. That's 500,000 more words. So that's a lot. And I'm not even talking about magazines. I'm not talking about blogs -- and I find more new words on BoingBoing in a given week than I do Newsweek or Time. There's a lot going on there.

And I'm not even talking about polysemy, which is the greedy habit some words have of taking more than one meaning for themselves. So if you think of the word "set," a set can be a badger's burrow, a set can be one of the pleats in an Elizabethan ruff, and there's one numbered definition in the OED. The OED has 33 different numbered definitions for set. Tiny, little word,33 numbered definitions. One of them is just labeled "miscellaneous technical senses." Do you know what that says to me? That says to me, it was Friday afternoon and somebody wanted to go down the pub. (Laughter) That's a lexicographical cop out, to say, "miscellaneous technical senses."

So, we have all these words, and we really need help! And the thing is, we could ask for help -- asking for help's not that hard. I mean, lexicography is not rocket science. See, I just gave you a lot of words and a lot of numbers, and this is more of a visual explanation. If we think of the dictionary as being the map of the English language, these bright spots are what we know about, and the dark spots are where we are in the dark. If that was the map of all the words in American English, we don't know very much. And we don't even know the shape of the language. If this was the dictionary -- if this was the map of American English -- look, we have a kind of lumpy idea of Florida, but there's no California! We're missing California from American English. We just don't know enough, and we don't even know that we're missing California. We don't even see that there's a gap on the map.

So again, lexicography is not rocket science. But even if it were, rocket science is being done by dedicated amateurs these days. You know? It can't be that hard to find some words! So, enough scientists in other disciplines are really asking people to help, and they're doing a good job of it. For instance, there's eBird, where amateur birdwatchers can upload information about their bird sightings. And then, ornithologists can go and help track populations, migrations, etc.

And there's this guy, Mike Oates. Mike Oates lives in the U.K. He's a director of an electroplating company. He's found more than 140 comets. He's found so many comets, they named a comet after him. It's kind of out past Mars. It's a hike. I don't think he's getting his picture taken there anytime soon. But he found 140 comets without a telescope. He downloaded data from the NASA SOHO satellite, and that's how he found them. If we can find comets without a telescope, shouldn't we be able to find words?

Now, y'all know where I'm going with this. Because I'm going to the Internet, which is where everybody goes. And the Internet is great for collecting words, because the Internet's full of collectors. And this is a little-known technological fact about the Internet, but the Internet is actually made up of words and enthusiasm. And words and enthusiasm actually happen to be the recipe for lexicography. Isn't that great? So there are a lot of really good word-collecting sites out there right now, but the problem with some of them is that they're not scientific enough. They show the word, but they don't show any context. Where did it come from? Who said it? What newspaper was it in? What book?

Because a word is like an archaeological artifact. If you don't know the provenance or the source of the artifact, it's not science, it's a pretty thing to look at. So a word without its source is like a cut flower. You know, it's pretty to look at for a while, but then it dies. It dies too fast. So, this whole time I've been saying, "The dictionary, the dictionary, the dictionary, the dictionary." Not "a dictionary," or "dictionaries." And that's because, well, people use the dictionary to stand for the whole language. They use it synecdochically. And one of the problems of knowing a word like "synecdochically" is that you really want an excuse to say "synecdochically." This whole talk has just been an excuse to get me to the point where I could say "synecdochically" to all of you. So I'm really sorry. But when you use a part of something -- like the dictionary is a part of the language, or a flag stands for the United States, it's a symbol of the country -- then you're using it synecdochically. But the thing is, we could make the dictionary the whole language. If we get a bigger pan, then we can put all the words in. We can put in all the meanings. Doesn't everyone want more meaning in their lives? And we can make the dictionary not just be a symbol of the language -- we can make it be the whole language.

You see, what I'm really hoping for is that my son, who turns seven this month -- I want him to barely remember that this is the form factor that dictionaries used to come in. This is what dictionaries used to look like. I want him to think of this kind of dictionary as an eight-track tape. It's a format that died because it wasn't useful enough. It wasn't really what people needed. And the thing is, if we can put in all the words, no longer have that artificial distinction between good and bad, we can really describe the language like scientists. We can leave the aesthetic judgments to the writers and the speakers. If we can do that, then I can spend all my time fishing, and I don't have to be a traffic cop anymore. Thank you very much for your kind attention.

誰か この単語を調べたことのある人はいますか? 辞書でね (笑) 思ったとおりですね この単語はどうでしょう さあ お見せしましょう レキシコグラフィー 辞書を編集する作業のことです 「編纂する」という単語に注目してください 辞書は 花崗岩や岩の塊から削りだされるのではなく 数多くの小さなかけらから作られるのです 小さくて不連続(discrete)な ― つづりはD-I-S-C-R-E-T-Eですね - かけらです かけらとは単語のことです

辞書編集者の特権のひとつは TEDに参加したり 本当に楽しい言葉を口にできることです 例えば"lexicographical (辞書編集に関する)" "lexicographical" 素晴らしい強弱パターンです 2つの強弱弱格を持つのです 「2つの強弱弱格」というだけで オタクの目の色が変わります でも"lexicographical"は"higgledy-piggledy (乱雑な)"と同じパターンです ね? 口にするだけで浮き浮きします 私はこんな言葉をしょっちゅう口にします 今度は辞書編集者をしていて困ることをお話しします 辞書のイメージは温かでモコモコして心地よいものとは程遠く 抱きしめられるようなものではないのです 辞書に対して人々が持っている感覚はこのようなものです 辞書編集に笛など使いませんからお間違いなく 良い単語が辞書に収まるように導いて 悪い単語を締め出すのが 私の仕事と思われています

でも私は交通警官にはなりたくありません 制服を着る仕事はしないんです それに 単語の良し悪しを決めるのは 簡単ではありませんし 楽しくもありません 面白くない仕事には やらない理由を探すものです 自分の仕事を何かの職業に例えるならば 漁師でありたいものです 英語という深く青い海に網を投げ入れて 底から素敵な生き物を引き揚げたいのです でも私は漁に行きたいのに 交通整理が望まれるのはなぜでしょう 女王のせいです なぜ女王を責めるかって? なによりそう言うと楽しいですし 辞書が昔から 全然変わっていないからです

辞書というものは ビクトリア朝以来 変わらないのです 近代の辞書が女王の不興をかうとすれば "F---"という単語が載っていることだけです アメリカの辞書に1965年から載っています ジェームズ マレーは ビクトリア時代の人で オックスフォード英語辞典の初代の編集者です こんな帽子 私は持っていません 欲しいなぁ 彼は 今日の辞書の原型を作り上げる上で 非常に大きな役割を果たしました あんな帽子をかぶった人が 近代を象徴しているなんて問題です 彼は現代でも辞書の仕事ができるでしょう 辞書は何も変わっていないのですから

コンピュータがあるじゃないかと言う人もいます でもそれがどうしたんですか? 私はコンピュータ好きです オタクなんです グーグルの本検索が禁止されたらハンストします でもコンピュータがするのは 辞書編纂のスピードを上げることぐらいです 辞書そのものを変えることはありません 辞書というのはビクトリア時代のデザインが 少しだけ近代的になったものですから レトロなんです あるのは電動二輪車です ビクトリア時代のデザインにエンジンがついただけなんです! デザインは変わっていません

オンラインの辞書はどうかって? オンラインの辞書は違うはずです オックスフォード英語辞典のオンライン版です ところで 私の好きな言葉があります "Erinaceous" "ハリネズミの"とか "ハリネズミ的な"といった意味です とても役に立つ言葉です これを見てください 今のオンライン辞書は 紙がスクリーンに映し出されたものです 変わり映えしないのです リンクもたったの2つ! わかるでしょ? あの小さなボタン ― 日付以外の全部を拡大しました オンラインの世界でも大したことは起きていないのです クリックの手応えもありません 実際 オンライン辞書は紙の辞書の問題点を ほとんど全部引き継いでいます 検索性を除いては それに 検索性を高めると 紙の長所 つまりセレンディピティがなくなります セレンディピティとは 探しものがあまりにも難しくて 何か別のものを見つけてしまうことです

(笑) つまり私たちが直面しているのは ハムの端っこの問題なんです ハムの端っこの問題って何だか知ってます? 家族の夕食にハムを料理している女の人がいました ハムの端を切り落とし 捨てようとしたその端を見て 「すごく美味しそうなのになぜ捨てるんだろう?」 「お母さんはいつもそうしてたわ」 で お母さんに電話して聞きます 「何でハムの端っこは切り落とすの?」 「さあ おばあちゃんがいつもそうしてたから」 それでおばあちゃんに電話してみると 「鍋が小さすぎたんだよ!」(笑)

そうです 良い単語と悪い単語があるんじゃなくて 鍋が小さすぎるんです! ハムは端っこもおいしいので 捨てなくていいんです 場所を探していて そこが地図で見つからないと 「役立たずの地図め!」と思います ガイドブックにないバーなどを見つけると 「ガイドに載ってないんだから良い場所に違いない!」と思います でも 辞書にない言葉を見つけると 「これは悪い単語だ」と思うのです なぜ? 悪いのは辞書かもしれないのに なぜ ハムがフライパンよりも大き過ぎることを責めるんですか? そうしても小さなハムは手に入りませんよ 英語という言葉はとても大きいのです

ハムの端っこの問題を抱えているのなら それについて考えているのなら 結論は必然的に得られますが直感に反するものです 紙は単語の敵なのです どうしてかって? 私は本が大好きです 本は私の親友です でも本は辞書にとって最適の姿ではないのです 「まあなんてこと 私の美しい紙の辞書は無くなるの?」とご心配ですか 違います 紙の辞書は今後も生き続けます 車が主要な交通手段になった時にも 馬を集めて射殺したりしません だから 紙の辞書はこれからも存在するのです でもそれは主要な辞書ではなくなるでしょう 本という形式は辞書にとって 唯一の形式ではなくなるでしょうし 辞書のプロトタイプでもなくなるでしょう

こんな風に考えてみてください 人為的な制約は恣意的な区別や 歪んだ世界観につながります もし生物学者たちが人をうならせるような動物しか 研究できなかったとしたらどうなるでしょう 動物を美的な基準で審査して 人々が可愛らしいと思うものだけを研究できるとしたら? 人気の大型獣には詳しくても その他の動物については知らないことになるでしょう これは問題です 全ての単語を研究すべきだと思うのです 考えてみれば 控えめな単語を部品として 美しい表現を生み出すことができるのだから 辞書の編纂は実のところ材料科学のようなものです 用いる材料の許容範囲を調べながら 表現の構造 つまりスピーチや文章を 組み立てるのです 時々こう言われます 「で どうすればその単語が本物だとわかる?」 彼らはこう考えます 「単語というのが自らの思考を表現するための 道具だとするならば どうしてネジ回しは金槌よりも良いと言えるのだろう? どうして大槌は丸頭ハンマーよりも良いと言えるのだろう? どれも用途に合った働きをするだけなのに」と

それで「どうやったら単語が本物かどうかわかる?」と聞くのです 子ども向けの本を読んだことのある人なら誰でも 愛情はものごとを本物にするということを知っています 気に入った単語があるなら 使って下さい そうすれば本物になります 辞書に載っているかどうかは人為的な区別です それによって単語がよりリアルなものになるなんてことはありません あなたが愛情を抱くから単語が本物になるのです 交通整理をしようと思わなければ 紙を乗り越えたならば そしてコントロールのことよりも 記述に気を配るようになれば 英語という言語を こんな美しいモビールだと考えることができます モビールの小さな部品は触れると動きます つまり ある単語を選んで 新しい文脈や含意で使ったり 動詞にしたりすると モビールが動きます 壊れるのではなく ただ新しい配置に動くのです その配置も同じぐらい美しいかもしれません

交通警官であることをやめれば ― 交通警官の問題点は ひとつの交差点に彼らが大勢いると かえって混乱してしまうことです でももし交通整理ではなく 通過車両の台数を数えるなら 人数が多い方がいいのです 助けを求めることができるのです! 手伝いがあればより多くのことができます 本当に手助けが必要なのです 国会図書館には1700万冊の本があります その半分が英語の本です 辞書に載っていない単語のある本が 10冊のうち1冊だけだったとしても 大辞典2冊分以上の量になります

私は 辞書未掲載の単語を ― 今使った"辞書未掲載"のような ― 読む本のほぼ全てで見かけます 新聞はどうでしょう? 新聞のアーカイブは1759年までさかのぼります 5810万ページです 辞書未掲載の単語が 100ページにほんの一つだけあったとすると オックスフォード英語大辞典に匹敵する分量になります 50万個の単語です ものすごい数です 雑誌やブログは言うまでもありません 1週間にブログ「ボインボイン」で見つける新語は 「ニューズウイーク」や「タイム」より多いのです いろんなことが起きています

言葉の多義性については触れてもいません 一部の単語は一つ以上の意味を 持とうとする欲張りな習性があります たとえば"set"はアナグマの巣穴でもあり エリザベス朝様式の襟のひだでもあります オックスフォード英語大辞典には "set"の意味が33通り載っています 小さな言葉ですが 33の定義があるのです その一つは「雑多な技術上の意味」とだけ記されています きっとこういうことなんでしょう 金曜日も夕方 さっさとパブに行きたかったんでしょうね 辞書編集の交通警官がひとこと "雑多な技術上の意味"で片付けたわけです

こうした単語が無数にあるから 助けが必要なのです 実際 手伝ってもらえるのです そんなに大変なことではありません 辞書編纂はロケット科学ではないのですから たくさんの単語や数のことを話しましたが 視覚的に説明するとこうなります 辞書を英語という言語の地図だと考えるならば 明るいところが我々の知っている部分で 暗いところは闇の中にある部分です これがアメリカ英語の全ての単語を網羅する地図だとすれば 私たちはあまり多くを知らないことになります 言語の形すら知らないのです もしこれが辞書で アメリカ英語の地図だとするならば 何となくフロリダの場所は想像できますが カリフォルニアはありません! アメリカ英語からカリフォルニアが欠けているのです 私たちはあまり多くを知りませんし カリフォルニアが欠けていることすら知りません 地図上に空白があることすらわかりません

もう一度言いますが 辞書編纂はロケット科学ではないのです でも仮にそうだとしても 最近ではロケット科学も 熱心なアマチュアによって行われているのです ご存知ですか? だから 単語を見つけるのはそんなに難しいはずはないのです 他の分野では多くの科学者たちが 人々の助けを得て 良い成果をあげています 例えば 「eバード」ではアマチュアのバードウォッチャーたちが 鳥の目撃情報をアップロードすることができます それをもとに鳥類学者が出かけて 鳥の数や季節移動などを追跡するのです

イギリスにマイク オーツという人がいます 彼はメッキ会社の重役ですが 140以上のすい星を発見してきました 多く見つけたので すい星に彼の名もつきました 火星を過ぎて どんどん進んでいます 写真には当分収めることができないでしょう でも彼は140個のすい星を望遠鏡なしで見つけたのです NASAのSOHO衛星から得られたデータをダウンロードして 見つけたのです 望遠鏡を使わずにすい星を発見できるのなら 単語だって発見できると思いませんか?

私が何をしようとしているかおわかりでしょう 他の誰もがそうしているように インターネットの世界に行くのです インターネットは単語を集めるのにはすごく良い場です コレクターたちがたくさんいます あまり知られていない技術的な事実なのですが インターネットは単語と熱意で作り上げられています そして単語と熱意は辞書編纂にも求められます すごいことだと思いませんか? 今でも単語を集めるのに本当に役立つサイトがたくさんありますが その一部は十分に科学的でないという問題があります 単語はあっても文脈が欠けているのです その単語はどこから来たのか?誰が言ったのか? どの新聞や本に載っていたのか?

単語というのは考古学的な工芸品のようなものです 工芸品の来歴や出所がわからなければ それは科学ではありません ただ見るだけのものです 原典のない単語は切り花のようで しばらくは見てきれいですが やがて枯れます あまりにも早く枯れてしまうのです わたしはずっと "The Dictionary" (「その辞書」)と言っています 「不特定の辞書」や「複数の辞書」ではありません それは 「その辞書」があれば言葉全体を表すことができるからです 「その辞書」を代喩的に使うのです 「代喩的」なんて言葉を知っていると どうにかして「代喩的」と口にしたくなります 今日ずっと話をしてきたのは 皆さんに「代喩的」と言うためでした 本当にごめんなさい でも何かの一部を使うとき ― 辞書と言うのは言語の一部ですし 旗が国のシンボルとしてアメリカを表したりしますが ― 代喩的に使っているということになるのです 大事なのは 辞書は言語全体になり得るということです 大きな鍋を使えば 全ての単語をそこに入れられるのです 全ての意味も入れられるのです 皆さん 人生により多くの意味を望みますよね? 辞書は 言語のシンボルであるだけでなく 言語全体にすることができるのです

私が本当に望んでいるのは 今月7歳になる息子が 辞書はこんな形式のものだった事を ほとんど忘れてくれるようになることです 辞書はかつてこのようなものでした 息子の時代には この種の辞書が8トラックのテープのように 無用で廃れたフォーマットになって欲しいのです 人々が本当に必要としたものではなかったのです もしすべての単語を辞書に入れることができて 良いとか悪いの人為的区別をする必要がなくなれば 科学者のように言語を表すことができるでしょう 美的な判断は作家や話し手に任せればよいのです そうなれば 私はもう交通警官をやめて 漁に専念することができるのです ご清聴を感謝します

