Hadoopのインストール

What is Hadoop?

グループ会社でHadoopを使っている人の勉強会に参加したのをきっかけにインストールしてみようと思いました。
MapReduceアルゴリズムというものらしいがよくわからないのでひとまず自分の環境にインストールしていきます。

Hadoopのダウンロード

以下のページに行ってDownloadをクリック

http://hadoop.apache.org/common/

ダウンロード可能なファイルを探す

http://hadoop.apache.org/common/releases.html

# 以下でダウンロード(最新版と思われるhadoop-0.20.1をダウンロード)
$ cd /usr/local/src/
$ wget http://ftp.riken.jp/net/apache/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz
インストール
# 展開
$ tar xvfz hadoop-0.20.1.tar.gz
# /optに権限がなかったので追加
$ sudo chown ***:www /opt
$ sudo chmod 775 /opt
# 移動(/optは私の好みです)
$ mv hadoop-0.20.1 /opt/hadoop/
$ vi /opt/hadoop/conf/hadoop-env.sh 
# ちょっとここよくわからないので適宜書き直してください。
export JAVA_HOME="/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0"
実行テスト

※@ITと同じ内容

$ cd /opt/hadoop
$ mkdir input
$ cp conf/*.xml input/
$ bin/hadoop jar hadoop-0.20.1-examples.jar wordcount input output.wordcount
$ bin/hadoop jar hadoop-0.20.1-examples.jar grep input output.grep 'dfs[a-z.]+' 

以上のようにするとoutptu.grep/というディレクトリが作成され、中にpart-00000ファイルが作成される。ファイルの中身はdfsadminという文字列であった。

正直まだHadoopがどういったものか理解していないので環境ができたのでしばらく使ってみる。
Hadoop Streemingというものもあるらしいのでそちらにも手を出してみる。