
このブログを検索
Time in Fujisawa:
11:19AM
2025-04-04
日の出: 05:23 日の入り: 18:07
日長: 12時 44分
2025-04-04
日の出: 05:23 日の入り: 18:07
日長: 12時 44分
魔女喰い(裏メモ) https://otspace.stores.jp/items/5d3a42973a7e964d4a66924c @stores_jp
- 2
法華経を中心としてすべてを活かす2025-03-31 10:30法華経は爾前の経を離れず、爾前の経は法華経を離れず。これを妙法と言う。 『日蓮大聖人御書全集』新版 474頁 (十法界明因果抄) 法華経を最も上位に置く日蓮仏法からすると爾前経は必要なのかどうかと思...2025-03-31 10:30
- 3
勘違いだったかもしれません2025-03-27 15:35夜中に思い出したことがあるのです。それは、先生が、話していた事を。 「ホルモンテープを貼っているのだから更年期障害は、大丈夫だけれど他に原因があるのかもしれない」 続きをみる2025-03-27 15:35
- 4
家族システム理論の実践活用レポート2025-03-26 05:381. 家族システム理論の概要 家族システム理論とは、家族を一つのシステムとして捉え、そのメンバーが相互に影響し合っていると考える理論です nagahama-mental.com 。つまり、家族内で...2025-03-26 05:38
- 5
貧しくとも、心まで貧しくなってはいけない2025-03-25 13:55今日も思うことを思うままに書かせていただこうと思います。 毎日こうして文章を書くというのは正直、気が重くなるときがあります。 正直書くネタに困ると言うこともあります。 書くネタに困ると言うこともある...2025-03-25 13:55
- 6
【AI関係コラム】AIがパクっちゃ駄目だって言われた日2025-03-25 12:52AIが裁判官に怒られたんだってよ。 時は2025年2月11日 アメリカで、とある訴訟の判決が出たんです。 続きをみる2025-03-25 12:52
- 7
私が朝と夜に別々の創作活動をやっているわけ2025-03-25 08:51私はフリーランスの看護師をしながら、朝時間と夜寝る前の時間を使って毎日執筆作業をしています。 でも、朝と夜、 それぞれやることをきっちりわけてやるようにしたらサボらずにどちらも続けられるようになって...2025-03-25 08:51
- 8
突然インスタアカウントが停止になった2025-03-22 05:18はじめに 3/20未明、私のInstagramアカウント @kanagawa.date.momo(横浜から行く神奈川おでかけスポット・グルメ)は突然停止させられてしまった。 停止直前で8000弱のフ...2025-03-22 05:18
note.mu徒然なるままに
- リンクを取得
- ×
- メール
- 他のアプリ
RSSFeedから取得した情報でテキストマイニング(データ取得編)
PENTAHOやらRapidminerやらでテキストマイニング(環境構築編)
の続き!
・RSSFeedからデータ所得
1,KETTLEでJOB定義
Spoon.batを起動して、Jobを新規作成で追加し、Database接続をINFOBRIGHTにて新規作成します。


オープンソースのコミュニティ版のINFOBRIGHTはデータの更新が出来ないず、バルクロードしか出来ないためテーブルの有無を確認してDelete/Create作成しています。


2,KETTLEでデータ変換
Jobで作成したテーブルにRSSFeedを流し込みます。
データ変換を新規作成し、Jobで定義したDatabase接続を同様にデータ変換側にも追加します。

「デザイン」タブを開き、「入力」の中から「RSS Input」を選択します。

TwitterのRSSFeed取得URLは”http://search.twitter.com/search.atom?q=検索キーワード&rpp=100”で取得出来ます。
「フィールド」タブを開き、「フィールド取得」を行いましょう。自動的にカラム名が入ったフィールドが生成されます。
そして、「名称」をテーブル項目に合わせて修正しておきましょう。

GoogleAlertからフィードURLの取得方法は、

FacebookからはFacebookページのみ取得できるようです。”https://www.facebook.com/feeds/page.php?format=atom10&id=ページID”
(緩募:Facebookで検索結果のRSSFeedを取る方法)
それぞれのRSSFeedのテストプレビューで取得確認OKであれば、次にINFOBRIGHTのバルクロードを追加します。

ここまでの作業では、矢印の線もマッピングもされていない状況だと思います。
そこで、それぞれの「RSSFeed Input」から、INFOBRIGHTのバルクロードまで矢印を付けます。Shift Keyを押しながら、ドラッグすると矢印の線が付きます。
マッピングは、INFOBRIGHTのバルクロードを右クリックにてサブメニューを表示させ、「ステップのマッピング」をクリックして生成します。
「自動」ボタンをクリックでマッピングできます。テーブル項目の順序を変えてしまうと、データは目的の項目に入らないことがあるので注意しましょう。
完成したマッピングを矢印上にかませることで、各RSSFeedがINFOBRIGHTへロードされます。


これで分析に必要なデータは取得できたものと思います。
(蛇足:これからどうなるのRSSFeed!!)
・RSSFeedからデータ所得
1,KETTLEでJOB定義
Spoon.batを起動して、Jobを新規作成で追加し、Database接続をINFOBRIGHTにて新規作成します。


オープンソースのコミュニティ版のINFOBRIGHTはデータの更新が出来ないず、バルクロードしか出来ないためテーブルの有無を確認してDelete/Create作成しています。


Create Table TwiRss (
title TEXT,
link TEXT,
text TEXT,
html TEXT,
comment TEXT,
GUID TEXT,
PubDate TEXT);
2,KETTLEでデータ変換
Jobで作成したテーブルにRSSFeedを流し込みます。
データ変換を新規作成し、Jobで定義したDatabase接続を同様にデータ変換側にも追加します。

「デザイン」タブを開き、「入力」の中から「RSS Input」を選択します。

TwitterのRSSFeed取得URLは”http://search.twitter.com/search.atom?q=検索キーワード&rpp=100”で取得出来ます。
「フィールド」タブを開き、「フィールド取得」を行いましょう。自動的にカラム名が入ったフィールドが生成されます。
そして、「名称」をテーブル項目に合わせて修正しておきましょう。

GoogleAlertからフィードURLの取得方法は、

FacebookからはFacebookページのみ取得できるようです。”https://www.facebook.com/feeds/page.php?format=atom10&id=ページID”
(緩募:Facebookで検索結果のRSSFeedを取る方法)
それぞれのRSSFeedのテストプレビューで取得確認OKであれば、次にINFOBRIGHTのバルクロードを追加します。

ここまでの作業では、矢印の線もマッピングもされていない状況だと思います。
そこで、それぞれの「RSSFeed Input」から、INFOBRIGHTのバルクロードまで矢印を付けます。Shift Keyを押しながら、ドラッグすると矢印の線が付きます。
マッピングは、INFOBRIGHTのバルクロードを右クリックにてサブメニューを表示させ、「ステップのマッピング」をクリックして生成します。
「自動」ボタンをクリックでマッピングできます。テーブル項目の順序を変えてしまうと、データは目的の項目に入らないことがあるので注意しましょう。
完成したマッピングを矢印上にかませることで、各RSSFeedがINFOBRIGHTへロードされます。


これで分析に必要なデータは取得できたものと思います。
(蛇足:これからどうなるのRSSFeed!!)
- リンクを取得
- ×
- メール
- 他のアプリ
人気の投稿
Hot Trends
Wikipedia
検索結果
コメント
コメントを投稿