青空文庫のデータがGitHubで一括ダウンロードできるということなので、実際に試してみた。
Bash on Ubuntu on Windows
青空文庫のデータがアップロードされているのはGitHubのaozorabunko。gitで最新版のみをダウンロードする。
約1.6GBとなかなかのサイズ。
aozorabunkoというディレクトリが作成され、zip圧縮された作品のテキストデータをはじめ、その配下にさまざまなファイルがある。
作品テキストデータのzipはaozorabunko/cards/配下に著者ごとのディレクトリに分けられて存在するが、ファイル名は作品ごとのIDなどからつけられており、ファイル名を見ただけでは著者や作品名がわからない。青空文庫には作家別の作品一覧表のcsv(拡充版)があって、それを見ると作品とファイル名の対応がわかる。このcsvもzip圧縮されてGitHubのデータに含まれている。2ファイルあるのは文字コードの違い。
そのcsvを使って目的の作品のテキストデータを探すコマンドを作成した。作品タイトル、著者の苗字、下の名前を「キーワード」で検索できる(長いコマンドなので自動改行されて表示されているが、実際は1行のコマンド)。
「太陽」で検索すると、以下の結果になった。作品ID、作品タイトル、著者、作品zipファイルの場所が出力される。
2018年9月7日の時点で14938もの作品があるということだが、これだけ大量の文章をボランティアでまとめているなんて、青空文庫はすごいな。
知らなかった……“青空文庫”の全データは“GitHub”から一括ダウンロードできる!(窓の杜)
環境
Bash on Ubuntu on Windows
GitHubから一括ダウンロード
青空文庫のデータがアップロードされているのはGitHubのaozorabunko。gitで最新版のみをダウンロードする。
約1.6GBとなかなかのサイズ。
aozorabunkoというディレクトリが作成され、zip圧縮された作品のテキストデータをはじめ、その配下にさまざまなファイルがある。
ダウンロードしたファイルから目的の作品を探す
作品テキストデータのzipはaozorabunko/cards/配下に著者ごとのディレクトリに分けられて存在するが、ファイル名は作品ごとのIDなどからつけられており、ファイル名を見ただけでは著者や作品名がわからない。青空文庫には作家別の作品一覧表のcsv(拡充版)があって、それを見ると作品とファイル名の対応がわかる。このcsvもzip圧縮されてGitHubのデータに含まれている。2ファイルあるのは文字コードの違い。
そのcsvを使って目的の作品のテキストデータを探すコマンドを作成した。作品タイトル、著者の苗字、下の名前を「キーワード」で検索できる(長いコマンドなので自動改行されて表示されているが、実際は1行のコマンド)。
「太陽」で検索すると、以下の結果になった。作品ID、作品タイトル、著者、作品zipファイルの場所が出力される。
2018年9月7日の時点で14938もの作品があるということだが、これだけ大量の文章をボランティアでまとめているなんて、青空文庫はすごいな。
0 件のコメント:
コメントを投稿