2009年01月04日

「グーグル方式の科学」

著者:ケヴィン・ケリー ( Kevin Kelly )
訳 :堺屋七左衛門


この文章は Kevin Kelly による "The Google Way of Science" の日本語訳である。



グーグル方式の科学  The Google Way of Science


ペタバイトレベル以上のきわめて大規模なデータベースができると、人間の学習方法が変わってしまいそうな予感がある。今までの科学の方法では、仮説を構築して観察したデータに合致させる、あるいは新しいデータを集めるということをしていた。そこには数多くの観察がある。どのような理論であれば、今までのデータをうまく説明することができて、そこから次の観察結果を予想できるのか?

きわめて大量のデータがあれば、理論の部分は省略して、いきなり観察結果を予想できるかもしれない。グーグルは早くからそのことに気づいていた。たとえば、グーグルのスペルチェッカーを考えてみよう。ググっているときに単語のつづりを間違えると、グーグルは正しいつづりを示してくれる。どのようにして正しいつづりの単語を予測するのだろうか?正しいつづりの理論を知っているわけではなく、またつづりの規則を習得しているわけでもない。実際にはグーグルはつづりの規則などまったく知らない。

そのかわりに、グーグルは非常に大規模な観察結果のデータを持っている。あるつづりについて、"X"という単語を書いたつもりなのかと質問すると、Y人の人が「はい」と答えることがわかる。グーグルのスペルエンジンはこのようなデータでできている。正しい英語のつづりがどんなものであるかはまったく知らない。だから、同じシステムでどの言語のつづりでも修正することができる。

実は、グーグルはその翻訳プログラムについても、大量のデータによる同じ学習方法を使っている。そのプログラムは、人間が翻訳した文書の大量のデータを比較照合することで、英語からフランス語へ、あるいはドイツ語から中国語へ翻訳する。たとえば、グーグルはその仏英翻訳エンジンを訓練するのにカナダの文書を使っている。カナダの文書は英語版とフランス語版の両方が発行されることが多い。グーグルには、言語についての理論、たとえばフランス語の理論があるわけではないし、また、人工知能翻訳機があるわけでもない。その代わりに超大量のデータがあって、それが全体として「これからあれへ」、すなわち、ある言語から他の言語への関連を決定する。

そのように翻訳システムを調整してしまえば、どの言語からどの言語へでも翻訳できる。そしてその翻訳はかなり出来が良い。専門家のレベルではないが、要点を知るには十分である。中国語のウェブページを選ぶと、少なくともそれが英語でどんな意味なのかという感じはわかるようになる。でも、グーグルの研究所長ピーター・ノーヴィグは以前、私に自慢したことがある。「あの中国語翻訳プログラムを作っている連中は、誰も中国語ができないんだ。」中国語の理論も理解もない。あるのはただデータだけだ。(サールの「中国語の部屋」という問題に対する反証が欲しければ、ここにそれがある。)

つづりの法則について何も知らずに、正しい書き方を覚えることができるならば、また、翻訳しようとする言語の文法についての理論や概念を知らずに、翻訳ができるようになるとすれば、そのほかに理論を知らなくてもできることとしては何があるだろう?

今月の「ワイアード」の巻頭記事でクリス・アンダーソンは、もしかしたら理論を使わずに科学ができるのではないかという発想について論じている。

それは大量のデータと応用数学が他のあらゆる道具に取って代わる世界である。言語学から社会学に至るまで、すべての人間行動の理論は不要になる。生物分類学、存在論、心理学などは忘れよう。人間がある行動をする理由など誰にもわからない。問題はその行動であって、私たちはそれを今までにない忠実さで追跡し測定することができる。十分なデータがあれば、数が物を言う。

ペタバイトのおかげで「十分な相関がある」と言えるようになる。モデルをさがす必要はない。データが何を意味するかという仮説を立てなくても分析ができる。史上最大のコンピュータ・クラスタに数値を放り込めば、科学が見つけられないパターンを統計アルゴリズムが見つけてくれる。


この見解には一理あるかもしれない。多くの科学、たとえば天文学、物理学、遺伝学、言語学、地質学などでは、きわめて大規模なデータセットを生成しつつあり、現時点でもペタバイトレベルに及ぶデータが流通している。あと10年のうちに、それはエクサバイトのレベルになるだろう。昔ながらの「機械学習」によって、計算機はこの大量のデータから、人間にはたぶん見つけられないパターンを抽出することができる。そのパターンとは、相関である。そこに因果関係があるかないかわからないが、とにかく新しいことを発見できる。したがって、従来のやり方とは異なっていても、科学がしているのと同じことを達成できるのだ。

アンダーソンが示しているのは、十分な相関があればそれでよい場合があるということである。健康についてその良い例がある。多くの医療行為は相関的方法に基づいている。医者は病気の真の原因を見つけているとは限らない。あるいはもし見つけたとしても、それを理解するのではない。それでも、経過を正確に予測して症状を治療することができる。しかしこれが本当に科学だろうか?それで仕事はできたとしても、モデルがないのであれば、他人がそれを元にして何かを築き上げることができるものなのか?

まだその答えはわからない。科学におけるこの方法は専門用語では、データインテンシブ・スケーラブル・コンピューティング(Data Intensive Scalable Computation : DISC)という。他の用語としては、グリッド・データファーム・アーキテクチャ(Grid Datafarm Architecture)、ペタスケール・データインテンシブ・コンピューティング (Petascale Data Intensive Computing)などがある。これらの方法で重要な点は、大量のデータによる計算の性質であって、計算クラスターそのものではない。オンライン産業では、この調査方法を「アナリティクス(分析論)」の一種だと言っている。クラウド・コンピューティングの会社、たとえばグーグル、IBM、ヤフー(pdf)、およびいくつかの大学では、この問題についての研究会を実施している。要するに、これらの先駆者たちは、大規模科学のためにクラウド・コンピューティングを、すなわち「一つのマシン」(訳注:地球上のネットや通信システム全体)を利用しようとしている。現在のツールとしては、たとえばMapReduce(マップリデュース)やHadoop(ハドゥープ)などのような超並列ソフトウェア・プラットフォーム(以前の私の投稿邦訳)を参照されたい)、そして安い記憶装置とデータセンターの巨大なクラスターが使われている。今のところ、ゲノム研究以外の分野の科学者は、この新しいツールをあまり使っていない。NSF(米国科学財団)のクラスター調査プログラムは、大規模データベースに適した実験観察結果を持っている科学者と、クラスターやクラウド・コンピューティングの利用権および専門知識のある計算機科学者を引き合わせることを目的としている。

私の推測では、この新しい手法は、科学的方法の進化に役立つ道具になると思う。既存の方法に取って代わるのではなく(残念ながら科学に終わりはない!)、すでに確立した理論に基づく科学を補完するだろう。このデータ中心の手法による問題解決を「相関分析法」と呼ぶことにしよう。クリスは彼の論文に「理論の終焉」("The End of Theory") という題をつけたために、またとない機会を逃したと思う。その題名は否定的な表現であり、何かがなくなるということだ。そうではなくて、これは何かの始まりであり、肯定的な名前をつけることでその誕生を後押しする良い機会なのだ。また、否定的でない名前をつければ、その主題がわかりやすくなる。「理論がなくなる」というかわりに「相関分析法」という名前を私は提案する。この相関的なシステムにモデルがないとは思えない。創発的、無意識的、潜在的なモデルがシステムに埋め込まれていて、それが答えを生成すると私は考えている。英語を話す人たちがグーグルの「中国語の部屋」で働いていて、誰も中国語の理論を知らないとしても、それでもやはり、その「部屋」に理論があると考えることができる。そのモデルは、システム製作者の認識や理解を超えているのかもしれない。そのモデルがうまくいっているから、それを発見しようとする価値がないのだ。それでもやはりモデルは存在する。私たちから見える必要のないレベルで機能しているだけなのである。

それでうまくいっているのだから、モデルの不可視性は問題ではない。これは理論の終わりではなく、私たちが理解している理論の終わりである。クリス・アンダーソンの記事に対して、ジョージ・ダイソンが書いた記事がこれをうまく説明している。

私たちが長い間とらわれていた考え方では、人間の脳は現実に対する何らかの「モデル」を持っていて、それと同様の「モデル」を構築すれば人工知能が実現できるというものであった。「モデル」とは何か?それには二つの条件がある。(1) 正しく機能するものであること。(2) 人間が理解できるものであること。ところが、大きくて分散的なペタバイト規模の創作物、たとえばGenBank(ジェンバンク)やGoogle(グーグル)などは、実にうまく機能する方法で現実を把握しつつあるが、人間はその方法を必ずしも理解しているわけではない。

脳を分解して神経細胞ごとに調べてみても、結局、モデルを見つけることができないのと同じように、真の人工知能は、明解なモデルや知能の理論をまったく必要とせずに実現できるということに、いつか気づくのだろう。現実はとてもうまく仕事をしている。

妥当な定義に従うとすれば、「主上心(Overmind)」(またはケヴィンの「一つの計算機」とか、その他どんな名前でも良いが)は、考えることを始めている。しかし、それは人間と同じ方法で考えている、あるいは人間が理解できる尺度で考えている、ということではない。

クリス・アンダーソンが言おうとしているのは、次のようなことである。科学(および何らかの非常に成功した事業)は、自然を直接に読み取るだけでなく、さらに「主上心」をも読み取る方法を理解した人たちが遂行するようになってくるだろう。


ここでジョージ・ダイソンが示唆しているのは、この新しい科学の方法 ―きわめて大量のデータを集めて、「一つのマシン」を使って相関的な解答を計算すること― が、新しい種類の科学者と意思疎通する手段であるとも考えられるということだ。その科学者とは、人間自身の能力を超える抽象度で(超大量の世界(zillionics邦訳)) において)モデルを生成できるような人である。

今までのところ、「相関分析法」すなわち「グーグル方式の科学」は、言語翻訳やマーケティングなど、主に社会学的な領域で活用されてきた。超大量のデータが存在する分野である。その超大量のデータは人間全体のオンラインでの活動で生成されたものである。しかし自然に関する観察や計測が年中無休で常時行われるようになり、センサーやプローブの種類も増えている。したがって科学も超大量の世界に突入して、「相関分析法」という新しい道具で容易に処理できるようになるだろう。この分野の科学では、うまくいく答えが得られるかもしれないが、それを私たちは理解することができない。これは不完全な理解なのか?それとも今までと異なる種類の理解なのか?

おそらく理解と解答は過大評価されている。パブロ・ピカソは次のように言ったと伝えられている。「計算機の問題点は、解答だけを提示することだ。」この巨大なデータ駆動の相関的システムは多くの解答 ―正しい答え― を私たちに提示するだろうが、提示するものはそれだけである。「一つの計算機」が行うことは、良い解答を提示することである。来たるべきクラウド・コンピューティングの世界では、完璧な良い解答がコモディティー化するだろう。そのとき、それ以外の科学の真価は、良い質問を問いかけることになる。





Creative Commons License

この作品は、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。
posted by 七左衛門 at 18:45 | 翻訳