読者です 読者をやめる 読者になる 読者になる

Wikipediaインストール-mediawikiインストール、データ追加

mediawikiインストール

# cd /path-to-install
# svn co -r58524 http://svn.wikimedia.org/svnroot/mediawiki/branches/wmf-deployment
# cd wmf-deployment
# chmod 777 config
Apacheを設定
# vi /etc/httpd/conf.d/wikipedia.conf

##### Settings for wikipedia
Alias /wikipedia/ "/path/to/mediawiki/"

# /etc/init.d/httpd restart
mediawiki設定

http://localhost/wikipedia/を参照し、設定。
DataBase設定で、Mysql 4.1 5.0 utf8 を選択。

# cp config/LocalSettings.php ./
# chmod 700 config
# rm config/LocalSettings.php

データ追加

http://meta.wikimedia.org/wiki/Data_dumps を参照。

mwdumperで page, revision, text のSQL生成

http://download.wikimedia.org/tools/ から mwdumper をダウンロード。
gccjavaで以下を実行。

$ java -Xmx512m -Xms128m -XX:NewSize=32m -XX:MaxNewSize=64m -XX:SurvivorRatio=6 -XX:+UseParallelGC -XX:GCTimeRatio=9 -XX:AdaptiveSizeDecrementScaleFactor=1 -server -jar mwdumper.jar --output=gzip:pages_full_1.5.sql.gz --format=sql:1.5 jawiki-20091102-pages-articles.xml.bz2
(1時間くらい)
データを追加
$ mysql -u wikiuser -p wikidb
mysql> truncate table page;
mysql> truncate table revision;
mysql> truncate table text;
mysql> quit
$ for i in `ls jawiki-*.sql.gz`; do echo $i; zcat $i | mysql -u wikiuser -ppasswd wikidb; done >log 2>&1
(4時間くらい)
$ cat log
...
jawiki-20091102-protected_titles.sql.gz
ERROR 1062 (23000) at line 39: Duplicate entry '0-' for key 1
...

ということでエラーなので、SQLを分割して入れてみる。mysqlの-fオプションでエラーSQLを無視して実行してくれる。

$ zcat jawiki-20091102-protected_titles.sql.gz | perl -ne 's/\),\(/\);\nINSERT INTO protected_titles VALUES\(/g; print' | mysql -f -u wikiuser -p wikidb

次はpage,text,revisionを入れる

$ zcat pages_full_1.5.sql.gz | mysql -u wikiuser -p wikidb
(12時間くらい)

で、必要に応じて、最後に、maintenance/update.phpを実行。

$ php maintenance/update.php
(24時間?)