つくづくソフトウェア業界を、従来の枠組みだけで見ちゃいけないと思う。
今月の11日だったかな、New York Timesが、Rubyのライブラリをオープンにしたことを発表した。
New York Timesと言えば、Amazon EC2とS3を使って、過去130年分の記事データを、たった一日でPDF化して、かけたコストが滅茶苦茶安かったと評判になった会社。短時間で終わった理由は、Hadoopを使って100台の仮想サーバーをぶんまわしたから。Hadoopの並列処理機構をつかったので、台数が増えると性能が上がるという訳。聞いたところによると、従来の手法を使ったら、完成に数ヶ月かかったとか。しかも、かけたコストは、20万円もしなかったとか。
しかも開発したのは、たった一人のエンジニア。
そんな経験を活かして、ノウハウをRubyで実装し、オープンソースにしたのが、mrtoolkit。
いわゆる大規模なバッチ処理を、一人で作って。Amazon使って、多分インフラ構成するのに数時間。データ送り込むのに数時間。処理するのに数時間。終わったデータ受け取るのに数時間。
「人月の神話」どころの話じゃないよな。
Groovin’ High: New York Timesが公開したオープンソース
まだ1次情報に当たってないけど… そんな短時間で全記事PDF化したんだ。
2 years ago • 340 notes