Wikipediaのローカルインストール:mwdumperのコンパイル

Wikipediaをローカルに環境構築しようとするとき、いろいろ方法はあるが、良く使われるのは、SQLを直接インポートする方法。

大まかな方法は以下。マニュアルを読むとデータがでかいときには、SQLを使えと書いてあるので。

  1. http://dumps.wikimedia.org/jawiki/ から*.sql.gz と jawiki-yyyymmdd-pages-articles.xml.bz2をダウンロード
  2. mwdumperで、jawiki-yyyymmdd-pages-articles.xml.bz2 から text, revision, pageテーブルのINSERT SQLを作成
  3. すべてのSQLをつかってデータベース作成

ここで、上記2のmwdumperのマニュアルを読むと

 

To import current XML export dumps, you should build MWDumper from source.

Third-party builds (which starts in GUI mode by default so you won't need most of the parameters below, just run it with java -jar mwdumper.jar) may not contain the latest bug fixes. There are also third party builds without the gui default. An old JAR at download.wikimedia.org doesn't work.

 じゃあ、結局、ソースからコンパイルするのか。しかたない。

 コンパイルしてみると、src/org/apache/commons/compress/のソースがない!

いろいろ探してみると、メンテナンスができていなかったらしい。で、コンパイルできるものを、メインのgitに入れたようだ

https://gerrit.wikimedia.org/r/gitweb?p=mediawiki/tools/mwdumper.git;a=summary

ということで、以下のようにしてみた。

用意したのは、以下。

1、https://gerrit.wikimedia.org/r/p/mediawiki/tools/mwdumper.gitからソースを取得。

[File]->[Import]、[Git]->[Projects from git]、URIに上記を入れる。

eclipseプロジェクト(Java,m2e)のままgitに登録されているので、そのままインポートできる。

2、コンパイル

pom.xmlで依存モジュールが定義できているので、勝手にコンパイルされる。つまり、特殊な操作はない。

また、antやmakeではコンパイルできない。これらの設定ファイルが古いようだ。

3、mwdumper.jar作成

プロジェクトを右クリック->[Run as..]->[Maven buid...]、Goalに"package"といれて、Run

4、依存モジュールを全部入れたjarを作る(試してません)

ここにあるようにするとできるみたい

http://hondou.homedns.org/pukiwiki/index.php?Maven%20Fat%20Jar

http://www.in-vitro.jp/blog/index.cgi/Maven/20091130_01.htm