2018年9月7日金曜日

青空文庫のデータを一括ダウンロードする

青空文庫のデータがGitHubで一括ダウンロードできるということなので、実際に試してみた。

知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!(窓の杜)


環境


Bash on Ubuntu on Windows



GitHubから一括ダウンロード


青空文庫のデータがアップロードされているのはGitHubのaozorabunko。gitで最新版のみをダウンロードする。


約1.6GBとなかなかのサイズ。


aozorabunkoというディレクトリが作成され、zip圧縮された作品のテキストデータをはじめ、その配下にさまざまなファイルがある。


ダウンロードしたファイルから目的の作品を探す


作品テキストデータのzipはaozorabunko/cards/配下に著者ごとのディレクトリに分けられて存在するが、ファイル名は作品ごとのIDなどからつけられており、ファイル名を見ただけでは著者や作品名がわからない。青空文庫には作家別の作品一覧表のcsv(拡充版)があって、それを見ると作品とファイル名の対応がわかる。このcsvもzip圧縮されてGitHubのデータに含まれている。2ファイルあるのは文字コードの違い。


そのcsvを使って目的の作品のテキストデータを探すコマンドを作成した。作品タイトル、著者の苗字、下の名前を「キーワード」で検索できる(長いコマンドなので自動改行されて表示されているが、実際は1行のコマンド)。


「太陽」で検索すると、以下の結果になった。作品ID、作品タイトル、著者、作品zipファイルの場所が出力される。

2018年9月7日の時点で14938もの作品があるということだが、これだけ大量の文章をボランティアでまとめているなんて、青空文庫はすごいな。

0 件のコメント:

コメントを投稿