超簡単 ! Windows で Mahout IN ACTION (Mahout IN ACTIONの自習その1)

最近結構その手の方々には人気の Mohout 本「Mahout IN ACTION」。
で、結局買ってしまったので、せっかくだから、自習してみようと思います。

そんなに速いペースでは読めないと思うので、取り合えず、1日最低4ページを目処にしてみようかと思います。

Mahout in Action

Mahout in Action

で、今回はabout this bookとChap1 "Meet Apache Mahout"。
Chap1 では、開発環境の作り方が書いてあります。
今回は、Windowsで超簡単に作ってみます。

about this book

この本は誰むけに作った?

  • 機械学習を勉強したい人向け → NO
  • 最新の頭のいいアプリケーションを開発したい → YES
  • AIや機械学習の研究者向け → YES(自分のアルゴリズムを実装して試す)

主に3つのパートで書いてある

  1. 推薦 (Chap6でhadoopも使うよ)
  2. クラスタリング (hadoopも使うよ)
  3. 分類

Chap1

Mahoutはヒンズー語で「象使い」。
Hadoopのマスコットは象で、これを使うということ。

Mahoutは数多くの機械学習をテーマにしているが、
主に、recommendation(協調フィルタリング)、クラスタリング、分類の3つの分野を主に使う。

セットアップ

というのがこの本の解説。

で、面倒なので、超簡単にしましょう。

WindowsでMahout in action

まず、Hadoopは今回は入れません。
Mahout in action のサンプルにMavenの設定ファイルがあるので、これを使います。

1, Java SDK を入れる。
2, Eclipse Indigoを入れる。
3, m2eclipse を Eclipse に入れる。

Help > Install new software...
Addボタンで、以下のURLを入れる。
http://download.eclipse.org/technology/m2e/releases
出てくるプラグインをインストール

4, Mahout in action のexampleをダウンロードして展開

http://manning.com/owen/

  • >download の Source Codeをダウンロード

Eclipseのプロジェクトをおくディレクトリに展開。

5, Eclipseに前記のプロジェクトをインポート

File -> New -> Java Project
先ほど展開したディレクトリ名を指定する。
ここまでで、各ファイルがeclipseに入る。

ここがポイントかな

前記プロジェクト名を右クリック -> Configure -> Convert to Maven Project...

これで、勝手に必要なライブラリもプロジェクトにインポートされ、ディレクトリ構成もMaven用に書き換わって、コンパイルも通る。

ということで、HadoopもMahoutも勝手に入ってきます。

幸せでした。