魔女喰い(裏メモ) https://otspace.stores.jp/items/5d3a42973a7e964d4a66924c @stores_jp
  • 命のおもさ
    1命のおもさ心と体がバラバラ。 今のこの世界の 一面がそうなんだろう とかんじる。 たぶんそれを体験するために 生まれてきたのかもしれないとさえ思う。 続きをみる2025-04-04 14:03
  • 恋はわからない。でも愛はわかると思う
    2恋はわからない。でも愛はわかると思うわたしは、自分の性別がよくわからない。 幼稚園のころ、スカートが嫌で入園を渋り、下の学年での入学は回避したが、 5歳になる頃ひとつ上のクラスにねじ込まれるようにして通うことになった。  続きをみる2025-04-04 11:48
  • 今日も始まってしまう
    3今日も始まってしまうおはようございます。 なんだか、結局2日続いて投稿してしまいました。 今日も始まりましたね。 いままでの自分だったら、過去に自分はどんな発言していたかなーって過去記事を振り返りながら、一貫性をできる...2025-04-03 23:56
  • 「初心者向け!ホームページ制作とブログ活用で集客アップする方法」株式会社アシストのコラムをわかりやすく解説
    4「初心者向け!ホームページ制作とブログ活用で集客アップする方法」株式会社アシストのコラムをわかりやすく解説はじめに 続きをみる2025-04-03 09:51
  • 法華経を中心としてすべてを活かす
    5法華経を中心としてすべてを活かす法華経は爾前の経を離れず、爾前の経は法華経を離れず。これを妙法と言う。 『日蓮大聖人御書全集』新版 474頁 (十法界明因果抄) 法華経を最も上位に置く日蓮仏法からすると爾前経は必要なのかどうかと思...2025-03-31 10:30
  • 勘違いだったかもしれません
    6勘違いだったかもしれません夜中に思い出したことがあるのです。それは、先生が、話していた事を。 「ホルモンテープを貼っているのだから更年期障害は、大丈夫だけれど他に原因があるのかもしれない」 続きをみる2025-03-27 15:35
  • 家族システム理論の実践活用レポート
    7家族システム理論の実践活用レポート1. 家族システム理論の概要 家族システム理論とは、家族を一つのシステムとして捉え、そのメンバーが相互に影響し合っていると考える理論です​ nagahama-mental.com 。つまり、家族内で...2025-03-26 05:38
  • 貧しくとも、心まで貧しくなってはいけない
    8貧しくとも、心まで貧しくなってはいけない今日も思うことを思うままに書かせていただこうと思います。 毎日こうして文章を書くというのは正直、気が重くなるときがあります。 正直書くネタに困ると言うこともあります。 書くネタに困ると言うこともある...2025-03-25 13:55
【署名のお願い】自然エネルギー100%と原発の段階的廃止を実現するため「エネルギー基本計画」を変えよう!

note.mu徒然なるままに

PENTAHOやらRapidminerやらでテキストマイニング(環境構築編)

このやり方が正しいのかわからないのだけど・・・・
というかどこか間違えているようです。
理由:Rapidminerで実行するRMeCabが日本語文字化け状態(T.T)(緩募:解決策)
私がソフトを導入したOSはWindows Server 2008 R2 Standard


PENTAHOがJavaアプリケーションなので
1,JREのインストール
openJDK よりダウンロードして、インストールします。

・Windowsファイアーウォールのパブリックは無効化しています。

環境変数にPATHとJAVA_HOMEを追記します。
PATHは、JAVA_HOME/bin。JAVA_HOMEはインストールしたフォルダー

2,R言語のインストール
The Comprehensive R Archive Network よりダウンロードして、インストールします。
JavaでR言語を起動するために、Rjavaというのも導入しました。
rJava - Low-level R to Java interface - download/files よりダウンロードして、zipを解凍し、をProgram File(x86)へ移動します。
環境変数にPATHとR_HOMEとR_USERを追加。
PATHは、R_HOME/bin。R_HOMEはインストールしたフォルダー。R_USERは作業用なのでどこでもありっぽいですが、とりあえずC:\User\ユーザー名\Documents。
Rのスタート画面から 「編集」→「GUIプリファレンス…」のメニューを選び、"Font" を日本語フォント(TT MS Gothic等)に変更する。
「Save」ボタンをクリックして、 変更した設定を保存する。 この設定は "Rconsole" というファイルに保存されている。テキストエディタで"font"を修正しても有りっぽい。
"C:\Program Files\R\R-2.9.0\etc\"にある"Rdevga"をR_USERにコピーして
TT Arial : plain
TT Arial : bold
TT Arial : italic
TT Arial : bold&italic
という 4 行を探し,

TT MS Gothic : plain
TT MS Gothic : bold
TT MS Gothic : italic
TT MS Gothic : bold&italic
で置き換える。
MS Word で編集し,書式なしテキストで保存する。

テキストマイニングのAPIのインストール(MeCab)
mecab
よりダウンロードして、インストールします。
MeCabのR言語拡張ツールRMeCabのインストール
RMeCab よりRMeCab_xxx.zipをダウンロードして、
「パッケージ」ー「ローカルにあるZipファイルからのパッケージのインストール」にてパッケージをインストールします。

3,Wekaのインストール(とりあえず入れたけど使い方不明につき・・・
WEKA
よりダウンロードしインストールします

4,INFOBRIGHTオープンソースのダウンロード
infobright
-ICEの最新バージョンよりダウンロード
解凍したフォルダ内EXEにてインストール(MySQL内蔵)
"C:\Program Files\Infobright"
my-ib.iniにdefault-character-set=utf8を追加
[mysqld]では、
#collation_server=latin1_bin
#character_set_server=latin1
default-character-set=utf8
skip-character-set-client-handshake
と変更します。
データベースの作成はコマンドプロンプトにて
cd "C:\Program Files\Infobright\bin\"
mysqladmin.exe -uroot -p create MYDWH
接続の確認”mysql.exe -uroot -p mydwh”
接続ができたらデータベースをチェック
mysql> show databases;

ユーザーのパスワードを修正
mysql> SET PASSWORD FOR root@localhost=PASSWORD('xxxxxx');
データベースエンコーディングのチェック
mysql> show variables like "char%";

5,PENTAHOオープンソースのダウンロード
pentaho より「Files」タブをクリックし、「Data Integration」からダウンロードします。この時に「Business Intelligence Server」からもダウンロードします。
-Pentaho Data Integration(KETTLE)
よりそれぞれ最新バージョンをダウンロード
pdi-ceの解凍したフォルダをProgram File(x86)へ移動します。
C:\Program Files (x86)\pdi-ce-4.4.0-stable\data-integration\libへ追加するJDBCがあれば保存します。
pdi-ce(Kettle)の実行はSpoon.batの起動です。解凍したフォルダに保存されています。
Spoon.batを実行するとKettleRepository追加のウィザードが立ち上がります。
KettleFileRepositoryを選択(任意)し、
マイドキュメントにspoon-repositoryフォルダ(任意)を追加します。
作成したフォルダをspoon-repo(任意)と登録します。

起動後、新規作成にてジョブやデータ変換を追加していきます。ここは後ほど追加するかも(^-^;
で、起動画面が

ジョブやデータ変換のデータベース設定に4で作成したINFOBRIGHTを追加します。
HOST NAME:localhost :(IPやマシンネームは受け付けないエラーになる)
DATABASE NAME:MYDWH
PORT:5029
User Name:root
Password:
接続時のURLは
jdbc:mysql://localhost:5029/mydwh?characterEncoding=utf8
OptionsにcharacterEncoding=utf8を設定

-Business Intelligence Server
biserver-ceの解凍したフォルダをProgram File(x86)へ移動します。
biserver-ceフォルダのstart-pentaho.batをクリックすると、
TOMCATにてポート8080サーバーが稼働します。
MySQLのJDBCドライバクラスファイル(jar)をそれぞれのアプリケーションlibにコピーします。
http://localhost:8080/
デフォルトで設定されているユーザー/パスワードは、「joe/password」です。
administration-consoleフォルダのstart-pac.batをクリックすると
JETTYにてポート8099サーバーが稼働します。
http://localhost:8099/
デフォルトで設定されているユーザー/パスワードは、「admin/password」です。

※実はKETTLEとRapidminerとこのBusiness Intelligence Serverを関連付ける方法が不明(^-^;なので今回使っていない。

6,Rapidminerオープンソースのダウンロード
rapidminer よりダウンロードし、インストールします。
「Extensions」より「R Extension」、「Weka」のインストーラーをダウンロードします。
結局「Weka」は使い方不明で使っていませんが・・・
各インストーラーを実行してプラグインを追加します。

と、ここまでが環境構築でやったこと。MySQLのJDBCが入っていなかったり、パスが通っていなかったりするところもあるので注意して見たほうがよさそうです。
個別のアプリケーション単体での起動では問題ないのですが・・・


RSSFeedから取得した情報でテキストマイニング(データ取得編)

参考にしたサイト:
オープンソースBIのPentaho(ペンタホ)のことならPentaho日本正規代理店KSKアナリティクスにおまかせください。
オープンソースのデータマイニング・ビジネスアナリティクス「Rapid-i」のことなら、KSKアナリティクスにお任せください。
RjpWiki
R のインストール

参考になった本:


コメント

人気の投稿

Hot Trends

Wikipedia

検索結果