著者:ケヴィン・ケリー ( Kevin Kelly )
訳 :堺屋七左衛門
この文章は Kevin Kelly による "Culturomics" の日本語訳である。
カルチャロミクス Culturomics
未来の図書館は、あらゆる本と雑誌と新聞(とブログ)を集めて、徹底的にハイパーリンクをつけて一つに統合したテキストを収蔵しているだろう。このような集積はすでに始まっていて、グーグル、アマゾン、その他の組織が、図書館の本をデジタル化して機械可読にする試みを実施している。すべての本を一度に読むことができて、無数の言葉の中から一定の傾向を推論できるとしたらどうだろう?
これは文化について量的な解析を行うものであるから、「Culturomics (カルチャロミクス = 文化の網羅的解析)」と言う人もいる。しかし、私は世界図書館での読書だと考えている。
グーグルと大学の連合チームは、今までに約1500万冊の本をデジタル化している。ハーバード大学の研究者たちは、そのうち十分信頼できる500万冊を選んで、その全文を一つのファイルに結合して60億語からなる一つの文章として扱えるようにした。2010年12月のサイエンス誌に掲載された報告では、この集積した書籍の文章について、単語の使用傾向を分析している。
その分析用ツールは、グーグルNグラムビューワー(Google Ngram Viewer)として公開されていて、誰でも利用することができる。単語または句を指定すると、書籍におけるその語句の出現回数と年月の経過との関係をグラフとして表示する。二つの語句(概念)を比較して、その時間経過による使用状況の変化を見ることもできる。
"Quantitative Analysis of Culture Using Millions of Digitized Books"(数百万冊のデジタル化書籍による文化の量的解析)という論文では、著者等は二つの傾向だけでなく、何百ものベクトルを同時に検証した所見を報告している。
この研究方法を使えば、辞書編集、文法の変化、集合的記憶、技術の受容、名声の追求、検閲、歴史疫学など、さまざまな分野について有益な見解が得られる。
ウェブ上にあるすべての言葉を集めて非常に大規模な文章を作れば、ウェブの文章に対して同様のNグラム分析を実施することもできる。ただし、年代別分析の期間は書籍と同じではない。それでもなお、興味深くて意外な結果が得られる。マイクロソフトは、Bing(ビング)でNグラムプロジェクトを実施している。それによれば、(ウェブ上で)最もよく使われる英単語の上位1万語は、1年余りの間に10%が入れ替わるという。単語使用の変化がこれほど速いのは予想外のことで、言語が急速に変化しつつあることを示唆している。
TEDxボストンという催しで、この研究グループが初期の成果概要について講演している。
現在および過去の言葉や画像について計測し定量化することによって、文化に対するエックス線写真が得られるというのはその通りだと思う。ある概念の普及過程やその衰退を追跡したり、文化による学習または忘却の状況を検証し研究することができる。カルチャロミクス(文化の網羅的解析)は、全世界的な社会基盤を理解し管理するための重要な手段になるだろう。
この作品は、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。