MAHOUT In Action - RecommenderIRStatsEvaluatorの中身

Mahout In Action　の中身から外れて、RecommenderIRStatsEvaluatorを hack してみましょう。
実装は、GenericRecommenderIRStatsEvaluatorクラスですね。
この evaluate()メソッドがどうなってるんでしょうか？

引数は以下です。

recommenderBuilder:レコメンダー作成用
dataModelBuilder：テストデータのデータモデル作成用
dataModel：データ全体
rescorer：スコアを修正用
at：上位何位までを推薦したときの精度を評価するか
relevanceThreshold：よい推薦と考える閾値
evaluationPercentage：テストに使うデータ量

中身の処理

evaluationPercentageは通常1.0を使うと思うので、これに関連する部分は省きます。
intro.csvを使って試してみましょう。

どうやら、ユーザごとに学習データを作成して、評価しているみたい。

以下をユーザごとに実行している。

1, ユーザA用学習データを作成
1-1, at*2個以上のコンテンツ評価がないユーザは評価しない（データ数が十分でないと判断）。
　　　ここで、ユーザID1は評価対象から除外。
1-2, よい推薦と考える閾値を設定（relevanceThresholdがある場合はこれ、NaNなら、平均+分散）。
1-3, テストデータを選択（コンテンツ評価上位からat個までで、かつ閾値以上のコンテンツ評価を選択）。
1-4, テストデータがないユーザは評価しない。
1-5, ユーザA以外のコンテンツ評価と、ユーザAのテストデータ以外の評価で、学習データを作成。

2, ユーザA用レコメンダーを作成
2-1, ユーザA用学習データを使ってレコメンダー作成

3, 正解数を測定し、適合率再現率を出す
3-1, ユーザA用レコメンダーから、ユーザAのat番目までの推薦アイテムを取得。
3-2, 推薦アイテムが、テストデータ内にあったら正解数カウント。
3-3, 適合率、再現率を計算

最後に、適合率と再現率は、ユーザごとの結果の平均を出力している。

この評価の仕方って普通？

なんか釈然としないところ

ユーザごとの適合率、再現率を平均している点
各ユーザのもっともよさそうなコンテンツを除いている点

なんとなく、想像していたのは、全体の適合率と再現率を測ると思っていた。

なので、各ユーザからat個分のコンテンツ評価をランダムに選択し、テストデータにする。
残りを学習データにする。
レコメンダーは、学習データで学習。
レコメンダーから、全ユーザの推薦アイテムを取得。
全体の正解数をカウント。
適合率と再現率を出力。

後者のもっともよさそうなコンテンツを除いている点は、理解できる。
というのは、どのくらいベストな推薦ができるかを測るので、よい評価のアイテムをテストデータにするということ。

やっぱり、前者が釈然としない。

実際のシチュエーションでは、同じくらいの時間経過なので、各ユーザのデータの少なさも同じくらいなのではないかな。