Twitterの呟きビックデータを取得してみましょう。

2021-05-06

Twitterの呟きビックデータを取得してみましょう。

Twitterを9年間もやっているとそれなりに巨大なデータとなっているものです。

前職の同期で3万ツイートしていた人がおり「うわっ何をそんなつぶやくことがあるんや。暇なんか」と言われてました。 ※当時、私のツイート数は10万で文字通り暇だったんでしょう…。

私は卑怯な人間なのであまりSNSを知らない体で聞きました。 「Twitterって大体どのぐらい呟くのが普通なん」 聞いてみると、たかだかつぶやき数は2000ぐらい。多くても8000ぐらいが同期のつぶやき数でした。 私はとりあえず「時代に付いていくためにTwitter始めるか」と行ってその場はおひらきとなりました。

そんな思い出も交えつつ、呟き続け今では15.3万ツイートを記録しています。随分とクソを溜め込んだなという感想です。

しかし、農業でもクソは立派な肥料となり役に立つことが知られています。 この呟きビックデータも何かに活用したいとい思いが沸々と湧き出てきたのが今日の記事です。

何をするのか

Twitterの呟きビックデータを取得し、感情コーパスに当てはめ感情の起伏を時系列に見ようと考えてます。

STEP1:Twitterの呟きデータをダウンロード ←今回

STEP2:ダウンロードした呟きデータをプログラムから読み込み STEP3:呟きデータを形態素解析にかけて字句毎に分割する STEP4:字句毎の感情コーパスに当てはめ感情推定を実施する

これらのSTEPに分けて記事を書いていく予定です。 この手の話はPythonでやるのが一般的ですが、Webアプリにして一般公開するような遊びも視野に入れて今回はGolangで書きます。 ※難しそうならおとなしくPython使います。

今回はSTEP1の記事を記載します。

STEP1: Twitterの呟きデータをダウンロード

Twitterの自分のProfileを開きます。

もっと見るから、設定とアカウントを開きます。

データのアーカイブをダウンロード
アカウントに保存されている情報の種類を確認できます。

データのアーカイブをダウンロードするをクリックすると、パスワードを求められますので入力する。

データを申請してもすぐにダウンロードできないですが、 準備できたらメールが届き、アーカイブをダウンロードできます。

ダウンロードした結果

Zipデータをダウンロードできます。 解凍するとYour archive.htmlというファイルがあります。 このファイルを開くと過去の「ツイート」や「いいね」をつけたツイートを見ることができます。

tweet.jsに過去のツイートデータが含まれています。

まとめ

次回、このTweet.jsに含まれているデータを取り込みます。 JSON形式やXMLで貰えたら良いのですがHTMLで表示する都合なのかこの形式です。次回はこの癖のあるデータ形式を取り込んでいきます。