魔女喰い(裏メモ) https://otspace.stores.jp/items/5d3a42973a7e964d4a66924c @stores_jp
【署名のお願い】自然エネルギー100%と原発の段階的廃止を実現するため「エネルギー基本計画」を変えよう!

note.mu徒然なるままに

RSSFeedから取得した情報でテキストマイニング(データ取得編)

PENTAHOやらRapidminerやらでテキストマイニング(環境構築編) の続き!
・RSSFeedからデータ所得
1,KETTLEでJOB定義
Spoon.batを起動して、Jobを新規作成で追加し、Database接続をINFOBRIGHTにて新規作成します。

オープンソースのコミュニティ版のINFOBRIGHTはデータの更新が出来ないず、バルクロードしか出来ないためテーブルの有無を確認してDelete/Create作成しています。


Create Table TwiRss ( title TEXT, link TEXT, text TEXT, html TEXT, comment TEXT, GUID TEXT, PubDate TEXT);

2,KETTLEでデータ変換
Jobで作成したテーブルにRSSFeedを流し込みます。
データ変換を新規作成し、Jobで定義したDatabase接続を同様にデータ変換側にも追加します。

「デザイン」タブを開き、「入力」の中から「RSS Input」を選択します。

TwitterのRSSFeed取得URLは”http://search.twitter.com/search.atom?q=検索キーワード&rpp=100”で取得出来ます。
「フィールド」タブを開き、「フィールド取得」を行いましょう。自動的にカラム名が入ったフィールドが生成されます。
そして、「名称」をテーブル項目に合わせて修正しておきましょう。


GoogleAlertからフィードURLの取得方法は、


FacebookからはFacebookページのみ取得できるようです。”https://www.facebook.com/feeds/page.php?format=atom10&id=ページID”
(緩募:Facebookで検索結果のRSSFeedを取る方法)

それぞれのRSSFeedのテストプレビューで取得確認OKであれば、次にINFOBRIGHTのバルクロードを追加します。

ここまでの作業では、矢印の線もマッピングもされていない状況だと思います。
そこで、それぞれの「RSSFeed Input」から、INFOBRIGHTのバルクロードまで矢印を付けます。Shift Keyを押しながら、ドラッグすると矢印の線が付きます。
マッピングは、INFOBRIGHTのバルクロードを右クリックにてサブメニューを表示させ、「ステップのマッピング」をクリックして生成します。
「自動」ボタンをクリックでマッピングできます。テーブル項目の順序を変えてしまうと、データは目的の項目に入らないことがあるので注意しましょう。
完成したマッピングを矢印上にかませることで、各RSSFeedがINFOBRIGHTへロードされます。



これで分析に必要なデータは取得できたものと思います。

(蛇足:これからどうなるのRSSFeed!!)

コメント

人気の投稿

Hot Trends

Wikipedia

検索結果