いるかのボックス: PythonでWikipediaページのアクセス数を取得する

Wikipediaではページごとのアクセス数を公開している（Analytics Datasets: Pageviews）。1時間ごとにダンプファイルが作成されており、すべての言語のページアクセス数が一つのファイルにまとめられている。このファイルからPythonで日本語Wikipediaページのアクセス数を取得してみる。

環境

WSL2(Ubuntu20.04)。

$ lsb_release -dr
Description:    Ubuntu 20.04.2 LTS
Release:        20.04
$ python3 -V
Python 3.8.5
$ pip3 list | grep pandas
pandas                 1.2.1

データのダウンロード

ダンプファイルのダウンロードはAnalytics Datasets: Pageviewsの「Download Pageviews Data」からできる。今回は2021年3月30日9時台（おそらくGMT?）のファイルをダウンロードする。ダウンロードしたファイルは解凍しておく。

$ curl -O https://dumps.wikimedia.org/other/pageviews/2021/2021-03/pageviews-20210330-090000.gz
$ gunzip pageviews-20210330-090000.gz

とりあえずファイルの中身を確認。半角スペース区切りで4列ある。Wikipedia pageviews analysisによると、1列目がドメインコード、2列目がページタイトル、3列目がアクセス数、4列目は今はメンテナンスされていないらしい。

$ head pageviews-20210330-090000
aa - 2 0
aa Main_Page 10 0
aa Wikipedia 1 0
aa Wikipedia:Community_Portal 3 0
aa Wikipedia:Sandbox 2 0
aa.b Main_Page 6 0
aa.d Main_Page 1 0
aa.m Main_Page 1 0
ab - 1 0
ab 1603 1 0

Pythonでページアクセス数を取得する

ダンプファイルのドメインコードは、言語とモバイル用ページなどの種類を表している（Analytics/Data Lake/Traffic/Pageviews）ようで、今回はja（PC用ページ）とja.m（モバイル用ページ）ドメインのページアクセス数を取得する。

まずは、Pythonで読み込んだファイルをPandasのDataFrameにしてjaドメイン、ja.mドメインのページ数を確認。

import pandas as pd

df = pd.read_csv('./pageviews-20210330-090000', header=None, quotechar="'", delim_whitespace=True)

# jaとja.m（モバイル用ページ）ドメインのみにする
df = df[df[df.columns[0]].isin(['ja', 'ja.m'])]

# ドメインごとのページ数
print(df[df.columns[0]].value_counts())

各ドメインのページ数はそれぞれ約24万ページ。

ja.m    241299
ja      238166

ja.mドメインとjaドメインで同じタイトルのページがあるので、タイトルごとにアクセス数をまとめて、jaドメイン、ja.mドメインをあわせたアクセス数上位20ページを表示。

import pandas as pd

df = pd.read_csv('./pageviews-20210330-090000', header=None, quotechar="'", delim_whitespace=True)

# jaとja.m（モバイル用ページ）ドメインのみにする
df = df[df[df.columns[0]].isin(['ja', 'ja.m'])]

# 4つめの列を削除
df = df[df.columns[1:3]]

# タイトルごとに閲覧数を合算
grouped = df.groupby(df.columns[0]).sum()

# 閲覧数上位20ページ
print(grouped.sort_values(by=[grouped.columns[0]], ascending=False).head(20))

結果は以下の通り。スエズ運河などちょうど話題になっていることや、著名人やアニメのページのアクセス数が多い。それらに混じって競走馬のページがアクセス数上位にある。

                   2
1
メインページ         41803
特別:検索           4819
スエズ運河           2755
大倉士門            2742
黄砂              2680
キタサンブラック        2490
-               2228
呪術廻戦            1638
Hysteric_Blue   1532
サトノダイヤモンド       1520
能町みね子           1484
矢作穂香            1392
トウカイテイオー        1333
ゴールドシップ         1227
新世紀エヴァンゲリオン     1173
堀潤              1112
岩橋玄樹            1018
ウマ娘_プリティーダービー   1012
菊池梨沙             929
中村吉右衛門_(2代目)     887

ちなみに、特定ページのアクセス数を確認したいだけなら、ページビュー分析を使うのが簡単。

いるかのボックス

2021年4月13日火曜日

PythonでWikipediaページのアクセス数を取得する

環境

データのダウンロード

Pythonでページアクセス数を取得する

0 件のコメント:

コメントを投稿