TED日本語 - ベン・ウェリントン: ビックデータを使ったNYCでの最悪な駐車場の見つけ方

TED日本語

TED Talks(英語 日本語字幕付き動画)

TED日本語 - ベン・ウェリントン: ビックデータを使ったNYCでの最悪な駐車場の見つけ方

TED Talks

ビックデータを使ったNYCでの最悪な駐車場の見つけ方
How we found the worst place to park in New York City -- using big data
ベン・ウェリントン
Ben Wellington

内容

市の各課は、都市生活を反映している多くのデータや統計にアクセスしています。しかし、データ分析者のベン・ウェリントンはこの面白いトークの中で、時としてそのデータを使ってやるべきことが分かっていないと示唆しています。ウェリントンは、予期せぬ質問とスマート・データ・クランチングを組み合わせると、不思議と役立つ洞察力が生じることを示し、大量のデータを公表することで誰でも使えるようになる秘訣を共有しています。

Script

Six thousand miles of road,600 miles of subway track,400 miles of bike lanes and a half a mile of tram track, if you've ever been to Roosevelt Island.

These are the numbers that make up the infrastructure of New York City. These are the statistics of our infrastructure. They're the kind of numbers you can find released in reports by city agencies. For example, the Department of Transportation will probably tell you how many miles of road they maintain. The MTA will boast how many miles of subway track there are. Most city agencies give us statistics. This is from a report this year from the Taxi and Limousine Commission, where we learn that there's about 13,500 taxis here in New York City. Pretty interesting, right? But did you ever think about where these numbers came from? Because for these numbers to exist, someone at the city agency had to stop and say, hmm, here's a number that somebody might want want to know. Here's a number that our citizens want to know. So they go back to their raw data, they count, they add, they calculate, and then they put out reports, and those reports will have numbers like this.

The problem is, how do they know all of our questions? We have lots of questions. In fact, in some ways there's literally an infinite number of questions that we can ask about our city. The agencies can never keep up. So the paradigm isn't exactly working, and I think our policymakers realize that, because in 2012, Mayor Bloomberg signed into law what he called the most ambitious and comprehensive open data legislation in the country. In a lot of ways, he's right. In the last two years, the city has released 1,000 datasets on our open data portal, and it's pretty awesome. So you go and look at data like this, and instead of just counting the number of cabs, we can start to ask different questions.

So I had a question. When's rush hour in New York City? It can be pretty bothersome. When is rush hour exactly? And I thought to myself, these cabs aren't just numbers, these are GPS recorders driving around in our city streets recording each and every ride they take. There's data there, and I looked at that data, and I made a plot of the average speed of taxis in New York City throughout the day. You can see that from about midnight to around 5: 18 in the morning, speed increases, and at that point, things turn around, and they get slower and slower and slower until about 8: 35 in the morning, when they end up at around 11 and a half miles per hour. The average taxi is going 11 and a half miles per hour on our city streets, and it turns out it stays that way for the entire day. (Laughter) So I said to myself, I guess there's no rush hour in New York City. There's just a rush day. Makes sense. And this is important for a couple of reasons. If you're a transportation planner, this might be pretty interesting to know. But if you want to get somewhere quickly, you now know to set your alarm for 4: 45 in the morning and you're all set. New York, right?

But there's a story behind this data. This data wasn't just available, it turns out. It actually came from something called a Freedom of Information Law Request, or a FOIL Request. This is a form you can find on the Taxi and Limousine Commission website. In order to access this data, you need to go get this form, fill it out, and they will notify you, and a guy named Chris Whong did exactly that. Chris went down, and they told him, "Just bring a brand new hard drive down to our office, leave it here for five hours, we'll copy the data and you take it back." And that's where this data came from. Now, Chris is the kind of guy who wants to make the data public, and so it ended up online for all to use, and that's where this graph came from. And the fact that it exists is amazing. These GPS recorders -- really cool. But the fact that we have citizens walking around with hard drives picking up data from city agencies to make it public -- it was already kind of public, you could get to it, but it was "public," it wasn't public. And we can do better than that as a city. We don't need our citizens walking around with hard drives.

Now, not every dataset is behind a FOIL Request. Here is a map I made with the most dangerous intersections in New York City based on cyclist accidents. So the red areas are more dangerous. And what it shows is first the East side of Manhattan, especially in the lower area of Manhattan, has more cyclist accidents. That might make sense because there are more cyclists coming off the bridges there. But there's other hotspots worth studying. There's Williamsburg. There's Roosevelt Avenue in Queens. And this is exactly the kind of data we need for Vision Zero. This is exactly what we're looking for.

But there's a story behind this data as well. This data didn't just appear. How many of you guys know this logo? Yeah, I see some shakes. Have you ever tried to copy and paste data out of a PDF and make sense of it? I see more shakes. More of you tried copying and pasting than knew the logo. I like that.

So what happened is, the data that you just saw was actually on a PDF. In fact, hundreds and hundreds and hundreds of pages of PDF put out by our very own NYPD, and in order to access it, you would either have to copy and paste for hundreds and hundreds of hours, or you could be John Krauss. John Krauss was like, I'm not going to copy and paste this data. I'm going to write a program. It's called the NYPD Crash Data Band-Aid, and it goes to the NYPD's website and it would download PDFs. Every day it would search; if it found a PDF, it would download it and then it would run some PDF-scraping program, and out would come the text, and it would go on the Internet, and then people could make maps like that. And the fact that the data's here, the fact that we have access to it -- Every accident, by the way, is a row in this table. You can imagine how many PDFs that is. The fact that we have access to that is great, but let's not release it in PDF form, because then we're having our citizens write PDF scrapers. It's not the best use of our citizens' time, and we as a city can do better than that.

Now, the good news is that the de Blasio administration actually recently released this data a few months ago, and so now we can actually have access to it, but there's a lot of data still entombed in PDF. For example, our crime data is still only available in PDF. And not just our crime data, our own city budget. Our city budget is only readable right now in PDF form. And it's not just us that can't analyze it -- our own legislators who vote for the budget also only get it in PDF. So our legislators can not analyze the budget that they are voting for. And I think as a city we can do a little better than that as well.

Now, there's a lot of data that's not hidden in PDFs. This is an example of a map I made, and this is the dirtiest waterways in New York City. Now, how do I measure dirty? Well, it's kind of a little weird, but I looked at the level of fecal coliform, which is a measurement of fecal matter in each of our waterways. The larger the circle, the dirtier the water, so the large circles are dirty water, the small circles are cleaner. What you see is inland waterways. This is all data that was sampled by the city over the last five years. And inland waterways are, in general, dirtier. That makes sense, right? And the bigger circles are dirty. And I learned a few things from this. Number one: Never swim in anything that ends in "creek" or "canal." But number two: I also found the dirtiest waterway in New York City, by this measure,one measure. In Coney Island Creek, which is not the Coney Island you swim in, luckily. It's on the other side. But Coney Island Creek,94 percent of samples taken over the last five years have had fecal levels so high that it would be against state law to swim in the water.

And this is not the kind of fact that you're going to see boasted in a city report, right? It's not going to be the front page on nyc.gov. You're not going to see it there, but the fact that we can get to that data is awesome. But once again, it wasn't super easy, because this data was not on the open data portal. If you were to go to the open data portal, you'd see just a snippet of it, a year or a few months. It was actually on the Department of Environmental Protection's website. And each one of these links is an Excel sheet, and each Excel sheet is different. Every heading is different: you copy, paste, reorganize. When you do you can make maps and that's great, but once again, we can do better than that as a city, we can normalize things.

And we're getting there, because there's this website that Socrata makes called the Open Data Portal NYC. This is where 1,100 data sets that don't suffer from the things I just told you live, and that number is growing, and that's great. You can download data in any format, be it CSV or PDF or Excel document. Whatever you want, you can download the data that way. The problem is, once you do, you will find that each agency codes their addresses differently. So one is street name, intersection street, street, borough, address, building, building address. So once again, you're spending time, even when we have this portal, you're spending time normalizing our address fields. And that's not the best use of our citizens' time. We can do better than that as a city. We can standardize our addresses, and if we do, we can get more maps like this.

This is a map of fire hydrants in New York City, but not just any fire hydrants. These are the top 250 grossing fire hydrants in terms of parking tickets. (Laughter) So I learned a few things from this map, and I really like this map. Number one, just don't park on the Upper East Side. Just don't. It doesn't matter where you park, you will get a hydrant ticket. Number two, I found the two highest grossing hydrants in all of New York City, and they're on the Lower East Side, and they were bringing in over 55,000 dollars a year in parking tickets. And that seemed a little strange to me when I noticed it, so I did a little digging and it turns out what you had is a hydrant and then something called a curb extension, which is like a seven-foot space to walk on, and then a parking spot. And so these cars came along, and the hydrant -- "It's all the way over there, I'm fine," and there was actually a parking spot painted there beautifully for them. They would park there, and the NYPD disagreed with this designation and would ticket them. And it wasn't just me who found a parking ticket. This is the Google Street View car driving by finding the same parking ticket.

So I wrote about this on my blog, on I Quant NY, and the DOT responded, and they said, "While the DOT has not received any complaints about this location, we will review the roadway markings and make any appropriate alterations." And I thought to myself, typical government response, all right, moved on with my life.

But then, a few weeks later, something incredible happened. They repainted the spot, and for a second I thought I saw the future of open data, because think about what happened here. For five years, this spot was being ticketed, and it was confusing, and then a citizen found something, they told the city, and within a few weeks the problem was fixed. It's amazing. And a lot of people see open data as being a watchdog. It's not, it's about being a partner. We can empower our citizens to be better partners for government, and it's not that hard. All we need are a few changes. If you're FOILing data, if you're seeing your data being FOILed over and over again, let's release it to the public, that's a sign that it should be made public. And if you're a government agency releasing a PDF, let's pass legislation that requires you to post it with the underlying data, because that data is coming from somewhere. I don't know where, but it's coming from somewhere, and you can release it with the PDF. And let's adopt and share some open data standards. Let's start with our addresses here in New York City. Let's just start normalizing our addresses. Because New York is a leader in open data. Despite all this, we are absolutely a leader in open data, and if we start normalizing things, and set an open data standard, others will follow. The state will follow, and maybe the federal government, Other countries could follow, and we're not that far off from a time where you could write one program and map information from 100 countries. It's not science fiction. We're actually quite close.

And by the way, who are we empowering with this? Because it's not just John Krauss and it's not just Chris Whong. There are hundreds of meetups going on in New York City right now, active meetups. There are thousands of people attending these meetups. These people are going after work and on weekends, and they're attending these meetups to look at open data and make our city a better place. Groups like BetaNYC, who just last week released something called citygram.nyc that allows you to subscribe to 311 complaints around your own home, or around your office. You put in your address, you get local complaints. And it's not just the tech community that are after these things. It's urban planners like the students I teach at Pratt. It's policy advocates, it's everyone, it's citizens from a diverse set of backgrounds. And with some small, incremental changes, we can unlock the passion and the ability of our citizens to harness open data and make our city even better, whether it's one dataset, or one parking spot at a time.

Thank you.

(Applause)

道路なら6千マイル 地下鉄なら600マイル 自転車専用道路なら400マイル トラムウェイなら0.5マイル ルーズベルト島に行ったらわかりますね

これはニューヨーク市(NYC)のインフラを表す数字です インフラを統計的にまとめ 市の各部局が公表した報告書の数字です 例えば交通課では 保守管理した道路の距離を 報告するかもしれませんし 都市交通局は誇らしげに地下鉄の路線の距離を 示すでしょう 市の部局の大半が統計を使います 今年の報告書や タクシー・リムジン委員会(TLC)によると ここNYCには約13,500台のタクシーがいます とても面白いでしょう? でも これらの数字はどこから来たのでしょうか? こういう数字が存在するためには 市の職員の誰かがふと 「これは誰かが知りたがっている数字だ」と 気づかなければなりません これが市民が知りたがっている数字なのです そのため 加工していないデータを 数えたり 足したり 計算して 報告書を発行するので 報告書には このような数字があるのです

問題は 私たちが聞きたい質問をどのように知るのか? 様々な質問があるのです 実際ある意味では 市民には文字通り 市に関する質問が無数にあり 各部局は対応しきれません パラダイムは上手く機能しておらず 政治家もそれに気付いていると思います 2012年ブルームバーグ市長は アメリカで最も熱望され 包括的なオープンデータ法案を 成立させたからです 多くの意味で市長は正しいのです 過去2年間NYCは オープンデータポータルのデータセットを 1,000件公表しました 物凄いことですよね だから タクシーの数を数えなくても このようにデータを見られるので 違う質問もできるのです

そこで 私は質問しました NYCのラッシュアワーはいつ? 厄介ですよね 正確なラッシュアワーの時間帯は? 私はタクシーがただの数字 ではないと考えたのです 市内の路上を走り回る GPSレコーダーであり 乗客を乗せる度に記録しています そこにデータがあるのです 私はそのデータを調べて 1日のNYCのタクシーの 平均スピードを策定しました ご覧のとおり 真夜中から朝の5時18分まで スピードは速くなり そこからスピードが落ちていきます だんだん遅くなり 朝の8時35分には 時速11.5マイルになります 路上を走る平均的なタクシーのスピードは 時速11.5マイルです 日中の時速は変わらないのです (笑) 私はNYCにラッシュアワーが ないのだと思いました ただラッシュデイがあるのです なるほど これは2つの理由で重要です あなたが交通プランナーなら とても知りたいかもしれませんよね どこかに早く着きたければ 目覚まし時計を 朝の4時45分にセットすればいいのです NYのことですよ

でも このデータには裏話があります こんなデータは 入手できなかったのです 実際 出所は情報公開法による請求でした これはTLCのホームページにあるフォームです データにアクセスするため このフォームをダウンロードして 記入すると 情報が得られます クリス・ウォンという男性が それをしました クリスが行くと 新品のハードディスクを 事務所に持って来るよう 職員から言われました 「5時間後にデータをコピーしてお返しします」 そうやってこのデータを取得したのです さて クリスはデータを公表するタイプなので ネット上で誰でも利用できるようにしました そうやってこのグラフが作られました 存在自体が驚きですね GPSレコーダーの記録 すごいです ではデータを公表するために 役所にハードディスクを持って行き データを受取る市民がいるという事実はどうでしょう もともと公的データで 得られてしかるべきものでした 「公」のデータでしたが 非公開でした 市として もっと上手いやり方があります 市民がハードディスクを 持って歩かなくてもいいのです

情報公開で得られないデータセットもあります これは自転車事故に基づいて作成した NYCで最も危険な交差点の地図です 赤のエリアはより危険です 地図によると まずマンハッタンの東側 特にロワー・マンハッタン地域で 自転車事故が多発しています 多くのサイクリストが そこで橋を渡ってくるので 納得できますよね しかし他の危険地域も調査の価値ありです ウィリアムズバーグと クイーンズ州ルーズベルト・アベニューです これこそが ビジョン・ゼロに求めるデータで まさに 私たちが探し求めているものです

しかし このデータを入手するにも 工夫が必要だったのです このロゴを知っている人は? 何人か手を上げていますね PDFをコピー・ペーストして 文書を作成しようと したことがありますか? 更に手が上がりました ロゴを知らなくてもコピー・ペーストしてみる いいですね

つまり お見せしたのは PDFだったのです 実際 物凄い数のPDFを ニューヨーク市警は公開しました それにアクセスする方法は 物凄い時間をかけて コピー・ペーストするか ジョン・クラウスのようにするかです ジョン・クラウスは ニューヨーク市警クラッシュデータ・バンドエイド というプログラムを書き コピー・ペーストを不要にしました ニューヨーク市警のホームページから PDFをダウンロードします データを収集するプログラムを実行し PDFの保護を解除するプログラムを実行し 編集できるテキストに戻し ネット上に上げるのです だから誰でも地図も作れるのです ここにデータがあり それにアクセスできるのです ところで この表では 事故毎に一列になっています PDFの量はどのくらいだと思いますか アクセスできることは素晴らしいのですが PDF以外にして欲しいものです 市民がデータ読み取りプログラムを 書くはめになるからです 市民は時間の有効利用できませんし 市として もっと良くやれるのです

さて 良いニュースは デブラシオの行政が数か月前に このデータを公表したことで 私たちはアクセスできるようになりました しかしまだ 多くのデータがPDFのままです 例えば 犯罪データはPDFしかありません また犯罪データだけでなく 市の予算もです 市の予算はPDFでしか読めません 私たちがデータ分析を出来ないだけでなく 予算に賛成票を投じる議員も PDFしか使えません そのため 議員は賛成する 予算の分析できないのです 市の行政として 私たちはそれよりも少しましだと思うのです

さて PDFではないデータもたくさんあります 私の作った地図を例にとると これはNYCで一番汚い河川です どうやって汚さを測るのか? ちょっと変なんですけど 糞便性大腸菌のレベルを つまり 河川ごとの糞便物質の指標を調べました 円が大きいほど 水が汚れているのです 大きな円が汚水で 小さな円がきれいな水です ご覧のものは 陸地の河川です これは過去5年間に 市が採取した全データなのです 陸地の河川は一般的により汚いのです 納得ですか? より大きな円は汚いのです こんなことがわかります その1: 河口で泳がないこと その2: NYCに一番汚い河川があること が測定から判明しました コニー・アイランド・クリークです コニーアイランドの海水浴場ではなく 対岸です しかし 5年間に渡り コニー・アイランド・クリークで採取した試料の94%では 糞便性大腸菌のレベルがとても高く 河川で泳ぐことは州法に触れます

市の報告書で強調されるような 成果とは言えませんね nyc.govのトップ・ページに載ったりもしません そうやって見せようとしていなくても そういうデータに到達したことが凄いのです でも データがオープン・データ・ポータルに 掲載されていなかったので 超簡単とは言えませんでした オープン・データ・ポータルで探しても 部分的な数か月か1年分しか見つかりません 実際 環境保護課のホームページにありました リンクは全てエクセルで 全て違う形式でした 見出しも全て違うので コピー・ペーストして 編集します それでようやく 地図が作れます 素晴らしいことですが ここでもまた 市としてはもっと上手なやり方があり 標準化できるのです

Socrata のオープンデータポータルNYC というホームページで 目的を果たせそうです ここにある1100個のデータセットは 今話したような問題がなく その数が増えていくのは 素晴らしいことです CSV、PDF、エクセルなどに データをダウンロードできるのです どんなデータであれ ダウンロードできるのです 問題は ダウンロードする時 部署ごとに住所の切れ目がバラバラなことです 街路名、交差点の通り、通り、区 住所、建物、建物の住所などです だから このポータルを使ってもまだ 時間がかかるのです 住所のフィールドを標準化するのに 時間をかけるので 市民の時間の 有効活用になりません 私たちは市として上手にできるのです 私たちは住所を標準化できます そうすれば こんな地図がもっと増えます

これはNYCの消火栓の地図ですが ただの消火栓ではないのです 駐車違反切符に関して トップ250の消火栓なのです (笑) この地図には学べることがあったので 私のお気に入りです その1 アッパー・イースト・サイドに駐車しないこと だめですよ どこに駐車しても 消火栓の違反切符をもらいますよ その2 NYCの中で上位2位の消火栓を特定しました ロワー・イースト・サイドにあり 駐車違反切符で年間55,000ドルを超える 収益を上げていました そのことに気付いた時 私はちょっと変な感じがしました ちょっと調べて分かったのですが 消火栓があって 脇に縁石に囲まれた路側帯があります 幅7フィートで歩ける場所です 駐車する場所はその隣です だから 駐車する車が現れても 消火栓がずっと 向こうにあるので 大丈夫と思うのです 実際 駐車スペースはきれいに塗ってあります そこに駐車すると ニューヨーク市警はこれは困ると 違反切符を貼るのです 駐車違反切符を見つけたのは 私だけではありません Googleストリート・ビューカーも 駐車違反切符を撮影していたのです

私が I Quant NYというブログに このことを書くと 交通課が 回答を寄せました 「この場所について 交通課は 苦情を言われたことはありませんが 道路標示を検討し 適切なものに変更します」 定型的な行政の反応だと 私は内心思いました 半ば諦めてもいたのです

数週間後 信じられないようなことが 起こりました 交通課はその場所を塗り直しました 一瞬 私はオープンデータの 未来を見たと思いました ここで起きたことを考えてみてください 5年間 この場所は 駐車違反切符でだらけでした 市民が何かを見つけ 市に話すと 数週間以内に 問題が解決したのです 素晴らしい 多くの人がオープンデータが番犬になると考えますが むしろパートナーと見るべきなのです 市民に行政のより良いパートナーになる 力を与えます そんなに難しいことではありません 必要なのは 少しの変化です 公開要請のデータがあり 何度となく公開を求められるなら データを公開しましょう それは公開すべきという合図なのです そして PDFを公開する部局のみなさん 基礎資料をデータと一緒に掲載する 規則にしてください そのデータは どこかから来ているからです どこかは分かりませんが どこかから来ているのです それをPDFと共に公開できるのです そしてオープンデータの基準を 採用し共有しましょう ここNYCの住所から始めましょう まず住所を標準化することから 始めるのです NYはオープンデータのリーダーだからです 問題があっても オープンデータの 絶対的なリーダーです 標準化に着手し オープンデータの基準を作るなら 自治体も州も おそらく連邦政府も倣うでしょう 他国も倣うかもしれません プログラムや100か国の地図情報を 書いた時から そんなに時間が経っていないのです SFではありません 実際つい最近のことです

ところで これにより得するのは誰でしょう? ジョン・クラウスや クリス・ウォンだけではありません NYCでは現在 何百もの 活発な会合があります それらの会合に何千人が出席します 彼らは仕事の後や週末に集まります オープンデータを調べ 都市をより住みやすくするために 会合に参加するのです BetaNYCのような団体は先週 citygram.nycを公表し 自宅や職場に関する311への苦情の 定期購読を可能にしました 住所を入力し 地元の苦情を検索します これらの情報を求めているのは 技術者コミュニティーだけではありません 私がプラットで教えている学生の 都市プランナーも 政策支持者も 皆もです 様々な背景の市民もです 小さな変化の積み重ねで オープンデータを利用し より良い都市を作るため 市民の情熱や能力を解き放つのです 変化は1つのデータセットや1か所の駐車場からです

ありがとう

(拍手)

― もっと見る ―
― 折りたたむ ―

品詞分類

  • 主語
  • 動詞
  • 助動詞
  • 準動詞
  • 関係詞等

関連動画