June 8, 2009

つくづくソフトウェア業界を、従来の枠組みだけで見ちゃいけないと思う。

今月の11日だったかな、New York Timesが、Rubyのライブラリをオープンにしたことを発表した。


New York Timesと言えば、Amazon EC2とS3を使って、過去130年分の記事データを、たった一日でPDF化して、かけたコストが滅茶苦茶安かったと評判になった会社。短時間で終わった理由は、Hadoopを使って100台の仮想サーバーをぶんまわしたから。Hadoopの並列処理機構をつかったので、台数が増えると性能が上がるという訳。聞いたところによると、従来の手法を使ったら、完成に数ヶ月かかったとか。しかも、かけたコストは、20万円もしなかったとか。

しかも開発したのは、たった一人のエンジニア。

そんな経験を活かして、ノウハウをRubyで実装し、オープンソースにしたのが、mrtoolkit。

いわゆる大規模なバッチ処理を、一人で作って。Amazon使って、多分インフラ構成するのに数時間。データ送り込むのに数時間。処理するのに数時間。終わったデータ受け取るのに数時間。

「人月の神話」どころの話じゃないよな。

Groovin’ High: New York Timesが公開したオープンソース

まだ1次情報に当たってないけど… そんな短時間で全記事PDF化したんだ。

  1. colonelmuska reblogged this from k32ru
  2. strauss-works reblogged this from grimoire013
  3. grimoire013 reblogged this from yuuhi-k
  4. yuuhi-k reblogged this from grimoire013
  5. duub4u reblogged this from syntaximg
  6. odamikio reblogged this from shinobixx
  7. syntaximg reblogged this from shinobixx
  8. digiminagawa reblogged this from shinobixx
  9. shinobixx reblogged this from tgck
  10. dotsandstripes3841 reblogged this from tgck
  11. tgck reblogged this from compozz
  12. kechol reblogged this from arvanista
  13. arvanista reblogged this from monoqlo
  14. monoqlo reblogged this from compozz
  15. compozz reblogged this from darylfranz
  16. xiuk reblogged this from reretlet
  17. kitutuki reblogged this from kaosf
  18. akobay80 reblogged this from kaosf
  19. kaosf reblogged this from highlandvalley
  20. shohei7 reblogged this from mtakeshi
  21. takashi0215 reblogged this from s-hsmt
  22. hara19 reblogged this from masuonline
  23. s-hsmt reblogged this from shinjihi
  24. sinkorotext reblogged this from tohya
  25. s-takagi reblogged this from hohou
  26. taka16 reblogged this from grimoire013
  27. shinjihi reblogged this from peperon999
  28. fvms reblogged this from tohya
  29. ikemo reblogged this from peperon999
  30. malberry reblogged this from pcatan
  31. es-s-etc reblogged this from peperon999
  32. kawa3 reblogged this from peperon999