Twitterフォロワーの分析をしよう(6)

2019/11/27
Read the rest of this entry »

Twitterフォロワーの分析をしよう(6)

Let’s analyze Twitter followers! (6)

让我们来分析Twitter的追随者!(6)

 

This contents is Japanese Only.

Twitterフォロワーの分析をしよう(1)

Twitterフォロワーの分析をしよう(2)

Twitterフォロワーの分析をしよう(3)

Twitterフォロワーの分析をしよう(4)

Twitterフォロワーの分析をしよう(5)

 

前回まででデータ取得が完了しました。

今回からは解析をしていきます。

 

取得され、作成されたデータ

はじめに取得され、作成されたデータをみていきます。

「TwitterAnalyzeToolKit\TWTimeLineCapt」フォルダーにある、Outsにすべてのダウンロード済みのデータがあります。

chart1

 

Outsフォルダーの中には7つのフォルダーと2つのファイルがあります。

順番にみていきます。

chart2

 

UserTimeRun.csvファイル

取得した全ユーザーのタイムランです。

Excelにインポートできます。

これを全部読んで、フォローする、しないを決めても良いのですが、日が暮れます。

できるだけ楽して、フォローするユーザーを選択します。

 

FailUserTimeRun.csvファイル

ブロック済み、鍵アカウントなどタイムランを読み込めないアカウントの一覧です。

相手の素性もわかりませんし、ScreenNameも取得できない場合もあり、真っ先にアンフォローするリストです。

 

UserTimeRunJSONフォルダー

Twitterから取得したタイムラインを1つ1つファイルにしてあります。

オフライン解析の時はこのファイルをロードして展開して使用します。

 

IDSOUTフォルダー

TextMargerと同等の機能が実装されており、入力ファイルを分割しています。

今回の場合は不要なフォルダーです。

 

IDSINフォルダー

最初にIDファイル(両思い+片思い+片思われ<日付>.csv)を入れた場所です。

 

Analysis000Counter

取得されたツイートがある一定期間内のものであるかを仕分けます。

10件ぐらい呟いたけど、その後放置され、またポツポツ呟く場合など沢山あります。

削除対象

詳しくは後述します。

 

Analysis001Counter

取得できたツイート数を勘定して仕分けます。

ちょっとだけ呟き放置されているアカウントも沢山あります。

詳しくは後述します。

 

Analysis002Counter

毒語を吐くアカウントを仕分けます。

詳しくは後述します。

 

Analysis003Counter

取得したTweetの品詞別の統計解析です。

フォロワーの呟きの中で使われた用語の回数が出てきます。

例えば、前日17時半から1時頃に全フォロー中、フォロワーの直近21タイムランでは、 「ショート」という単語は483回、「ロング」という単語は326回です。

「みんな売り方向に傾いているのかな?」と思いたくなる結果です。

対義語の定点観測は、素晴らしい結果を導けそうなデータが得られます。

chart3

 

確認のためにExcelで開く

同じ操作が何回も出てくるので、この作業は1回しか説明しません。

Excelを起動し、新規ファイルを開きます。

A1セルを選択しておきます。

データタブのテキストファイルをクリックします。

chart4

 

「TwitterAnalyzeToolKit\TWTimeLineCapt\Outs\Analysis000Counter」フォルダの「FALSELIST.csv」で説明していきます。

「FALSELIST.csv」を選択し、インポートします。

chart5

 

ウィザードが起動してきます。

「カンマや~」、「先頭行~」をチェックし,「次へ」をクリックします。

chart6

 

「カンマ」チェックし,「次へ」をクリックします。

chart7

 

User.Idの列を選択し、文字列をチェックします。

後からでも治せます。

「次へ」をクリックします。

chart8

 

OKをクリック。

chart9

 

エクセルのセルにデータが抽出されます。

 

まだ情報がありますが、必要そうなものだけ抽出しています。

列左から「UserTimeRun」は対象が「ツイートと返信」抽出している、「id」はテキストid。ツイッターのつぶやきごとが持つ個別のID。

「CreateAt」は呟かれたUTC時間。

「CreatedAt.LocalDateTime」は呟かれた日本時間なので、重要です。この場合は現在11月ですが3つほど呟いて放置しています。

「User.Id」はTwitterのアカウントのIDです。普段みることはありません。Twitter APIの操作はこの番号でおこないます。

「ScreenName」は@を抜いたユーザーのアカウント。

「Language」は呟きのテキストの言語です。外国語を抜くなら「ja」以外になります。

「RetweetedStatus」はリツイートしたときの元のテキストIDです。元の呟きを引用して、新たな呟きIDが発生されます。

「Source」は呟いた端末です。

「Text」は呟きの内容です。

chart10

 

Twitterが応答してきた生のデータが見たい場合は、「TwitterAnalyzeToolKit\TWTimeLineCapt\Outs\UserTimeRunJSON」フォルダーに保存されています。

「< User.Id >_<id>.json」の名前で各つぶやきが保管されています。

「id」を手掛かりにさがしてみてください。

(本当はユーザーごとにファイルにすれば良かったけど作業がオワッタのでもう作り直す気なし。オープンソースなので、だれか直してください。)

 

続きは、また次回に・・・。

相場分析のリクエストがありましたら“Contact Us”からお知らせください。ご要望にお応えできるように努力いたします。

このブログはあくまでも個人的な見解であり、投資判断は各自でお願い致します。当ブログは一切の投資損益に対する責任を負いません。

ブログに来て下さってありがとうございます。明日もよろしくお願いいたします。

If you have some request to analyze, please write to “Contact Us”.

We do best effort for your request.

These are only personal opinions on this blog, and you need the investment judgment in each one. This blog doesn’t assume the responsibility to all the investment profit and loss.

Thank for watching our contents. My best regards next day.

如果您需要行情分析,请点击“Contact Us”联系我们。我们将尽力满足您的要求。

本博客仅为个人意见,请各自做出投资判断。本博客概不对任何投资盈亏负责。

感谢您访问本博客。欢迎再次使用。

© 2024 Retar