いるかのボックス: Raspberry Piでツイートをリアルタイム収集する

Raspberry PiとPython3でMongoDBを使うでRaspberry PiのPython3でMongoDBが使用できるようになったので、TwitterのStreaming APIでツイートをリアルタイムに収集して、MongoDBに格納してみる。

環境

Raspbian StretchとPython3.5.3。

$ cat /etc/os-release
PRETTY_NAME="Raspbian GNU/Linux 9 (stretch)"
NAME="Raspbian GNU/Linux"
...
$ python3 -V
Python 3.5.3
$ mongod --version
db version v2.4.14

Twitter APIのキーとトークンの取得

Streaming APIを利用するには以下4つのAPIキーとトークンが必要で、なければTwitterの開発者向けのページで申請しておく。

・Consumer Key (API Key)
・Consumer Secret (API Secret)
・Access Token
・Access Token Secret

MongoDBの準備

MongoDBのインストールやPython3で使用するための準備はRaspberry PiとPython3でMongoDBを使うを参照。あとは、MongoDBのtestデータベースにツイートを格納するsampleコレクションを作成しておく。

$ mongo
> use test
switched to db test
> db.createCollection("sample")
{ "ok" : 1 }

ツイートのリアルタイム収集

Raspberry PiとPython3とTwitterでOCRボットを作ると同様にRequests-OAuthlibを使ってツイートを収集するので、pipでインストールしておく。

$ sudo pip3 install requests_oauthlib

以下のPython3コードで「ラーメン」を含むツイートのデータを収集する。APIではJSONでデータを取得できるのでそのままMongoDBのコレクションに格納する。ただし、リツイートは収集しない。

import json
import re
from requests_oauthlib import OAuth1Session, OAuth1
from pymongo import MongoClient

# Twitter APIの認証情報
# Twitterの開発者向けのページで取得したキーとトークンを使う
CONSUMER_KEY = 'Consumer Key'
CONSUMER_SECRET = 'Consumer Secret'
ACCESS_TOKEN = 'Access Token'
ACCESS_TOKEN_SECRET = 'Access Token Secret'

# 認証情報の設定
tw = OAuth1Session(CONSUMER_KEY,
                client_secret=CONSUMER_SECRET,
                resource_owner_key=ACCESS_TOKEN,
                resource_owner_secret=ACCESS_TOKEN_SECRET)

def streaming():
    #Twitterデータのリアルタイム検索
    url = 'https://stream.twitter.com/1.1/statuses/filter.json'
    # 検索キーワード（ラーメン）の指定
    data={'track':'ラーメン'}
    # Streaming APIを使うときはオプションstream=Trueを指定
    r = tw.post(url, data=data, stream=True)

    # MongoDBに接続
    # localhostの27017ポート（デフォルト）に接続
    client = MongoClient('localhost', 27017)
    # testデータベース
    db = client.test
    # testデータベースのsampleコレクション
    col = db.sample

    for line in r.iter_lines():
        if line:
            status = json.loads(line.decode('utf-8'))
        else:
            continue

        # リツイートは収集しない
        pat = re.compile('\ART @.*? ')
        match = pat.match(status['text'])
        if match: continue

        # ツイートを表示
        print(status['text'] + '\n')

        # APIで取得したデータ（JSON）をそのままコレクションに格納
        col.insert(status)

if __name__ == '__main__':
    streaming()

上記コードを実行してしばらく待つ。

収集したデータの確認

MongoDBに格納されたデータを確認する。ツイートはtextフィールドに格納されている。

$ mongo
> use test
switched to db test
> db.sample.find({}, {'_id': 0, 'text': 1})
{ "text" : "ヴィエティンバンク(CTG)\n\n#Nasdaq.#Vietnam.#hotel.#Yacht.#旅館.#温 泉.#民宿.#ラーメン.#うどん.#そば.#寿司.#焼肉.#焼鳥.#餃子.#天ぷら.#味噌.#海鮮.#野菜.#料理.#和食.… https://t.co/Mfdiu1Lbpz" }
{ "text" : "#ら行でなぜモテないのか分かる\n\nラーメン\n了解\nルナ\n霊能\nログ" }
{ "text" : "https://t.co/gj19JhTbgV\n\n#ラーメン　#大阪　#口こみ　#パスタ　#食べログ１位　＃イタリアン　＃ダイエット　＃八尾市　＃美味しい" }
{ "text" : "横綱ラーメン替え玉付き\n#ラーメン https://t.co/55qfQiTzhv" }
{ "text" : "ジブン　ラーメン　ツクル　タベル" }

いるかのボックス

2018年5月19日土曜日

Raspberry Piでツイートをリアルタイム収集する

環境

Twitter APIのキーとトークンの取得

MongoDBの準備

ツイートのリアルタイム収集

収集したデータの確認

0 件のコメント:

コメントを投稿