【署名のお願い】自然エネルギー100%と原発の段階的廃止を実現するため「エネルギー基本計画」を変えよう!

note.mu徒然なるままに

PENTAHOやらRapidminerやらでテキストマイニング(環境構築編)

このやり方が正しいのかわからないのだけど・・・・
というかどこか間違えているようです。
理由:Rapidminerで実行するRMeCabが日本語文字化け状態(T.T)(緩募:解決策)
私がソフトを導入したOSはWindows Server 2008 R2 Standard


PENTAHOがJavaアプリケーションなので
1,JREのインストール
openJDK よりダウンロードして、インストールします。

・Windowsファイアーウォールのパブリックは無効化しています。

環境変数にPATHとJAVA_HOMEを追記します。
PATHは、JAVA_HOME/bin。JAVA_HOMEはインストールしたフォルダー

2,R言語のインストール
The Comprehensive R Archive Network よりダウンロードして、インストールします。
JavaでR言語を起動するために、Rjavaというのも導入しました。
rJava - Low-level R to Java interface - download/files よりダウンロードして、zipを解凍し、をProgram File(x86)へ移動します。
環境変数にPATHとR_HOMEとR_USERを追加。
PATHは、R_HOME/bin。R_HOMEはインストールしたフォルダー。R_USERは作業用なのでどこでもありっぽいですが、とりあえずC:\User\ユーザー名\Documents。
Rのスタート画面から 「編集」→「GUIプリファレンス…」のメニューを選び、"Font" を日本語フォント(TT MS Gothic等)に変更する。
「Save」ボタンをクリックして、 変更した設定を保存する。 この設定は "Rconsole" というファイルに保存されている。テキストエディタで"font"を修正しても有りっぽい。
"C:\Program Files\R\R-2.9.0\etc\"にある"Rdevga"をR_USERにコピーして
TT Arial : plain
TT Arial : bold
TT Arial : italic
TT Arial : bold&italic
という 4 行を探し,

TT MS Gothic : plain
TT MS Gothic : bold
TT MS Gothic : italic
TT MS Gothic : bold&italic
で置き換える。
MS Word で編集し,書式なしテキストで保存する。

テキストマイニングのAPIのインストール(MeCab)
mecab
よりダウンロードして、インストールします。
MeCabのR言語拡張ツールRMeCabのインストール
RMeCab よりRMeCab_xxx.zipをダウンロードして、
「パッケージ」ー「ローカルにあるZipファイルからのパッケージのインストール」にてパッケージをインストールします。

3,Wekaのインストール(とりあえず入れたけど使い方不明につき・・・
WEKA
よりダウンロードしインストールします

4,INFOBRIGHTオープンソースのダウンロード
infobright
-ICEの最新バージョンよりダウンロード
解凍したフォルダ内EXEにてインストール(MySQL内蔵)
"C:\Program Files\Infobright"
my-ib.iniにdefault-character-set=utf8を追加
[mysqld]では、
#collation_server=latin1_bin
#character_set_server=latin1
default-character-set=utf8
skip-character-set-client-handshake
と変更します。
データベースの作成はコマンドプロンプトにて
cd "C:\Program Files\Infobright\bin\"
mysqladmin.exe -uroot -p create MYDWH
接続の確認”mysql.exe -uroot -p mydwh”
接続ができたらデータベースをチェック
mysql> show databases;

ユーザーのパスワードを修正
mysql> SET PASSWORD FOR root@localhost=PASSWORD('xxxxxx');
データベースエンコーディングのチェック
mysql> show variables like "char%";

5,PENTAHOオープンソースのダウンロード
pentaho より「Files」タブをクリックし、「Data Integration」からダウンロードします。この時に「Business Intelligence Server」からもダウンロードします。
-Pentaho Data Integration(KETTLE)
よりそれぞれ最新バージョンをダウンロード
pdi-ceの解凍したフォルダをProgram File(x86)へ移動します。
C:\Program Files (x86)\pdi-ce-4.4.0-stable\data-integration\libへ追加するJDBCがあれば保存します。
pdi-ce(Kettle)の実行はSpoon.batの起動です。解凍したフォルダに保存されています。
Spoon.batを実行するとKettleRepository追加のウィザードが立ち上がります。
KettleFileRepositoryを選択(任意)し、
マイドキュメントにspoon-repositoryフォルダ(任意)を追加します。
作成したフォルダをspoon-repo(任意)と登録します。

起動後、新規作成にてジョブやデータ変換を追加していきます。ここは後ほど追加するかも(^-^;
で、起動画面が

ジョブやデータ変換のデータベース設定に4で作成したINFOBRIGHTを追加します。
HOST NAME:localhost :(IPやマシンネームは受け付けないエラーになる)
DATABASE NAME:MYDWH
PORT:5029
User Name:root
Password:
接続時のURLは
jdbc:mysql://localhost:5029/mydwh?characterEncoding=utf8
OptionsにcharacterEncoding=utf8を設定

-Business Intelligence Server
biserver-ceの解凍したフォルダをProgram File(x86)へ移動します。
biserver-ceフォルダのstart-pentaho.batをクリックすると、
TOMCATにてポート8080サーバーが稼働します。
MySQLのJDBCドライバクラスファイル(jar)をそれぞれのアプリケーションlibにコピーします。
http://localhost:8080/
デフォルトで設定されているユーザー/パスワードは、「joe/password」です。
administration-consoleフォルダのstart-pac.batをクリックすると
JETTYにてポート8099サーバーが稼働します。
http://localhost:8099/
デフォルトで設定されているユーザー/パスワードは、「admin/password」です。

※実はKETTLEとRapidminerとこのBusiness Intelligence Serverを関連付ける方法が不明(^-^;なので今回使っていない。

6,Rapidminerオープンソースのダウンロード
rapidminer よりダウンロードし、インストールします。
「Extensions」より「R Extension」、「Weka」のインストーラーをダウンロードします。
結局「Weka」は使い方不明で使っていませんが・・・
各インストーラーを実行してプラグインを追加します。

と、ここまでが環境構築でやったこと。MySQLのJDBCが入っていなかったり、パスが通っていなかったりするところもあるので注意して見たほうがよさそうです。
個別のアプリケーション単体での起動では問題ないのですが・・・


RSSFeedから取得した情報でテキストマイニング(データ取得編)

参考にしたサイト:
オープンソースBIのPentaho(ペンタホ)のことならPentaho日本正規代理店KSKアナリティクスにおまかせください。
オープンソースのデータマイニング・ビジネスアナリティクス「Rapid-i」のことなら、KSKアナリティクスにお任せください。
RjpWiki
R のインストール

参考になった本:


人気の投稿

Hot Trends

Wikipedia

検索結果