いるかのボックス: Pythonで国会会議録のテキストを取得する

国立国会図書館が国会会議録の検索APIを公開している。会議録の発言を発言や会議単位で検索できて、結果はXMLで取得できる。PythonでこのAPIを使って国会会議録の発言テキストを取得してみる。

環境

Ubuntu 18.04(WSL)とPython3.6.5。

$ cat /etc/os-release | grep PRETTY_NAME
PRETTY_NAME="Ubuntu 18.04.1 LTS"
$ python3 -V
Python 3.6.5

APIで会議録の取得

アクセスURLは2つで、発言単位と会議単位で発言を取得できる。1回のリクエストで取得できる発言には制限があって、発言単位では100、会議単位では5が最大数。ともにmaximumRecordsで取得する発言または会議を指定できる。今回は会議単位の取得で、検索条件は国家基本政策委員会合同審査会（党首討論）1議会分とする。

from urllib.request import Request, urlopen
from urllib.parse import quote
from urllib.error import URLError, HTTPError

def create_query():
    """
    リクエストクエリの作成
    """
    # 国家基本政策委員会合同審査会（党首討論）1回分の発言を取得する
    params = {
        'nameOfMeeting': '国家基本政策委員会合同審査会',
        'maximumRecords': 1
        }

    return '&'.join(['{}={}'.format(key, value) for key, value in params.items()])
    
def main():
    # クエリはパーセントエンコードしておく
    request_url = 'http://kokkai.ndl.go.jp/api/1.0/meeting?' + quote(create_query())

    req = Request(request_url)

    try:
        with urlopen(req) as res:
            res_xml = res.read().decode('utf8')
    except HTTPError as e:
        print('HTTPError: {}'.format(e.reason))
    except URLError as e:
        print('URLError: {}'.format(e.reason))
    else:
        print(res_xml)

if __name__ == '__main__':
    main()

以下のようにデータをXMLで取得できる。取得できたのは最新の国家基本政策委員会合同審査会（党首討論）の、発言者ごとの発言。はじめに会議情報があって、そのあとに発言者ごとの発言テキストが続く。

<?xml version="1.0" encoding="utf-8"?>
<data>
    <numberofrecords>66</numberOfRecords>
    <numberofreturn>1</numberOfReturn>
    <startrecord>1</startRecord>
    <nextrecordposition>2</nextRecordPosition>
    <records>
        <record>
            <recorddata>
                <meetingrecord>
                    <session>196</session>
                    <nameofhouse>両院</nameOfHouse>
                    <nameofmeeting>国家基本政策委員会合同審査会</nameOfMeeting>
                    <issue>2号</issue>
                    <date>2018-06-27</date>
                    <speechrecord>
                        <speechorder>0</speechOrder>
                        <speaker></speaker>
                        <speech>平成三十年六月二十七日（水曜日）
　　　午後三時開会

XMLから必要な情報を取得する

XMLのままだと利用しにくいこともあるので、xml.etree.ElementTreeモジュールを使って解析する。APIが返す詳しいXMLの仕様は国会会議録の検索APIの返戻タグ一覧を参照。会議単位で取得した場合、会議ごとに発言がまとまっているので、会議名などに続いて発言者とその発言を取得する。ただし、会議録内の先頭の発言は会議録情報なのでスキップする。

from urllib.request import Request, urlopen
from urllib.parse import quote
from urllib.error import URLError, HTTPError
import xml.etree.ElementTree as ET

def create_query():
    """
    リクエストクエリの作成
    """
    # 国家基本政策委員会合同審査会（党首討論）1回分の発言を取得する
    params = {
        'nameOfMeeting': '国家基本政策委員会合同審査会',
        'maximumRecords': 1
        }

    return '&'.join(['{}={}'.format(key, value) for key, value in params.items()])

def parse_xml(res_xml):
    root = ET.fromstring(res_xml)

    try:
        for record in root.findall('./records/record/recordData/meetingRecord'):
            # 会議録情報の取得
            nameOfMeeting = record.find('nameOfMeeting').text
            issue = record.find('issue').text
            date = record.find('date').text
            print(nameOfMeeting, issue, date)
            for speechRecord in record.findall('speechRecord'):
                # 発言者と発言の取得
                speaker = speechRecord.find('speaker').text
                speech = speechRecord.find('speech').text
                if speaker is not None:
                    # 先頭のspeechRecord（speaker=None）は出席者一覧などの会議録情報なのでスキップ
                    print(speaker)
                    print(speech)
    except ET.ParseError as e:
        print('ParseError: {}'.format(e.code))

def main():
    # クエリはパーセントエンコードしておく
    request_url = 'http://kokkai.ndl.go.jp/api/1.0/meeting?' + quote(create_query())

    req = Request(request_url)

    try:
        with urlopen(req) as res:
            res_xml = res.read().decode('utf8')
    except HTTPError as e:
        print('HTTPError: {}'.format(e.reason))
    except URLError as e:
        print('URLError: {}'.format(e.reason))
    else:
        parse_xml(res_xml)

if __name__ == '__main__':
    main()

コードを実行すると、以下のようにAPIで取得したXMLから発言テキストを取り出せる。

国家基本政策委員会合同審査会 2号 2018-06-27
鉢呂吉雄
○会長（鉢呂吉雄君）　ただいまから国家基本政策委員会合同審査会を開会いたします。
　この際、一言御挨拶を申し上げます。
　参議院国家基本政策委員長の鉢呂吉雄でございます。（拍手）
　衆議院の佐藤勉委員長とともに、衆参両院の皆様方の御協力を賜りまして、その職責を全うしたいと存じますので、どうぞよろしくお願い申し上げます。
　この際、合同審査会における発言に関して申し上げます。
　前回の合同審査会での御発言に簡潔さに欠ける点があった旨の指摘が両院合同幹事会においてございましたので、内閣総理大臣及び野党党首におかれましては、御発言はそれぞれ簡潔にされるよう、特にお願いをいたします。また、本日は、時間表示装置を使用いたします。表示装置は発言者の持ち時間を示します。持ち時間が終了したときに表示がゼロとなり、赤色のランプが点灯しますので、御承知願います。
　なお、委員及び傍聴議員各位におかれましても、不規則発言等、議事の妨げとなるような言動は厳に慎んでいただきますように、御協力をお願い申し上げます。
　それでは、国家の基本政策に関する調査を議題とし、討議を行います。立憲民主党代表枝野幸男君。（拍手）

枝野幸男
○枝野幸男君　総理、まず、簡潔にお答えいただけるはずのお尋ねから最初に申し上げたいと思いますが、消費税についてです。

いるかのボックス

2018年11月28日水曜日

Pythonで国会会議録のテキストを取得する

環境

APIで会議録の取得

XMLから必要な情報を取得する

0 件のコメント:

コメントを投稿