RSSFeedから取得した情報でテキストマイニング(データ取得編)
PENTAHOやらRapidminerやらでテキストマイニング(環境構築編)
の続き!
・RSSFeedからデータ所得
1,KETTLEでJOB定義
Spoon.batを起動して、Jobを新規作成で追加し、Database接続をINFOBRIGHTにて新規作成します。
オープンソースのコミュニティ版のINFOBRIGHTはデータの更新が出来ないず、バルクロードしか出来ないためテーブルの有無を確認してDelete/Create作成しています。
2,KETTLEでデータ変換
Jobで作成したテーブルにRSSFeedを流し込みます。
データ変換を新規作成し、Jobで定義したDatabase接続を同様にデータ変換側にも追加します。
「デザイン」タブを開き、「入力」の中から「RSS Input」を選択します。
TwitterのRSSFeed取得URLは”http://search.twitter.com/search.atom?q=検索キーワード&rpp=100”で取得出来ます。
「フィールド」タブを開き、「フィールド取得」を行いましょう。自動的にカラム名が入ったフィールドが生成されます。
そして、「名称」をテーブル項目に合わせて修正しておきましょう。
GoogleAlertからフィードURLの取得方法は、
FacebookからはFacebookページのみ取得できるようです。”https://www.facebook.com/feeds/page.php?format=atom10&id=ページID”
(緩募:Facebookで検索結果のRSSFeedを取る方法)
それぞれのRSSFeedのテストプレビューで取得確認OKであれば、次にINFOBRIGHTのバルクロードを追加します。
ここまでの作業では、矢印の線もマッピングもされていない状況だと思います。
そこで、それぞれの「RSSFeed Input」から、INFOBRIGHTのバルクロードまで矢印を付けます。Shift Keyを押しながら、ドラッグすると矢印の線が付きます。
マッピングは、INFOBRIGHTのバルクロードを右クリックにてサブメニューを表示させ、「ステップのマッピング」をクリックして生成します。
「自動」ボタンをクリックでマッピングできます。テーブル項目の順序を変えてしまうと、データは目的の項目に入らないことがあるので注意しましょう。
完成したマッピングを矢印上にかませることで、各RSSFeedがINFOBRIGHTへロードされます。
これで分析に必要なデータは取得できたものと思います。
(蛇足:これからどうなるのRSSFeed!!)
・RSSFeedからデータ所得
1,KETTLEでJOB定義
Spoon.batを起動して、Jobを新規作成で追加し、Database接続をINFOBRIGHTにて新規作成します。
オープンソースのコミュニティ版のINFOBRIGHTはデータの更新が出来ないず、バルクロードしか出来ないためテーブルの有無を確認してDelete/Create作成しています。
Create Table TwiRss (
title TEXT,
link TEXT,
text TEXT,
html TEXT,
comment TEXT,
GUID TEXT,
PubDate TEXT);
2,KETTLEでデータ変換
Jobで作成したテーブルにRSSFeedを流し込みます。
データ変換を新規作成し、Jobで定義したDatabase接続を同様にデータ変換側にも追加します。
「デザイン」タブを開き、「入力」の中から「RSS Input」を選択します。
TwitterのRSSFeed取得URLは”http://search.twitter.com/search.atom?q=検索キーワード&rpp=100”で取得出来ます。
「フィールド」タブを開き、「フィールド取得」を行いましょう。自動的にカラム名が入ったフィールドが生成されます。
そして、「名称」をテーブル項目に合わせて修正しておきましょう。
GoogleAlertからフィードURLの取得方法は、
FacebookからはFacebookページのみ取得できるようです。”https://www.facebook.com/feeds/page.php?format=atom10&id=ページID”
(緩募:Facebookで検索結果のRSSFeedを取る方法)
それぞれのRSSFeedのテストプレビューで取得確認OKであれば、次にINFOBRIGHTのバルクロードを追加します。
ここまでの作業では、矢印の線もマッピングもされていない状況だと思います。
そこで、それぞれの「RSSFeed Input」から、INFOBRIGHTのバルクロードまで矢印を付けます。Shift Keyを押しながら、ドラッグすると矢印の線が付きます。
マッピングは、INFOBRIGHTのバルクロードを右クリックにてサブメニューを表示させ、「ステップのマッピング」をクリックして生成します。
「自動」ボタンをクリックでマッピングできます。テーブル項目の順序を変えてしまうと、データは目的の項目に入らないことがあるので注意しましょう。
完成したマッピングを矢印上にかませることで、各RSSFeedがINFOBRIGHTへロードされます。
これで分析に必要なデータは取得できたものと思います。
(蛇足:これからどうなるのRSSFeed!!)
コメント
コメントを投稿