Wikipediaのローカルインストール:mwdumperのコンパイル
Wikipediaをローカルに環境構築しようとするとき、いろいろ方法はあるが、良く使われるのは、SQLを直接インポートする方法。
大まかな方法は以下。マニュアルを読むとデータがでかいときには、SQLを使えと書いてあるので。
- http://dumps.wikimedia.org/jawiki/ から*.sql.gz と jawiki-yyyymmdd-pages-articles.xml.bz2をダウンロード
- mwdumperで、jawiki-yyyymmdd-pages-articles.xml.bz2 から text, revision, pageテーブルのINSERT SQLを作成
- すべてのSQLをつかってデータベース作成
ここで、上記2のmwdumperのマニュアルを読むと
To import current XML export dumps, you should build MWDumper from source.
Third-party builds (which starts in GUI mode by default so you won't need most of the parameters below, just run it with java -jar mwdumper.jar
) may not contain the latest bug fixes. There are also third party builds without the gui default. An old JAR at download.wikimedia.org doesn't work.
じゃあ、結局、ソースからコンパイルするのか。しかたない。
コンパイルしてみると、src/org/apache/commons/compress/のソースがない!
いろいろ探してみると、メンテナンスができていなかったらしい。で、コンパイルできるものを、メインのgitに入れたようだ。
https://gerrit.wikimedia.org/r/gitweb?p=mediawiki/tools/mwdumper.git;a=summary
ということで、以下のようにしてみた。
用意したのは、以下。
1、https://gerrit.wikimedia.org/r/p/mediawiki/tools/mwdumper.gitからソースを取得。
[File]->[Import]、[Git]->[Projects from git]、URIに上記を入れる。
eclipseプロジェクト(Java,m2e)のままgitに登録されているので、そのままインポートできる。
2、コンパイル
pom.xmlで依存モジュールが定義できているので、勝手にコンパイルされる。つまり、特殊な操作はない。
また、antやmakeではコンパイルできない。これらの設定ファイルが古いようだ。
3、mwdumper.jar作成
プロジェクトを右クリック->[Run as..]->[Maven buid...]、Goalに"package"といれて、Run
4、依存モジュールを全部入れたjarを作る(試してません)
ここにあるようにするとできるみたい
http://hondou.homedns.org/pukiwiki/index.php?Maven%20Fat%20Jar