三省堂が選んだ「今年の新語 2020」の大賞に「ぴえん」が選ばれた。
4種類の辞書の説明が掲載されているが、そのうちの大辞林の説明は次のようになっている。
(若者言葉で)軽度の悲しみや落胆、また喜びや感激の気持ちを表す語。
今回はTwitterのデータをKH Coderで分析して、Twitter上の「ぴえん」の使われ方と大辞林の説明を比較してみる。
環境
Windows10 Pro Version 2004
Windows版 KH Coder Version 3.Beta.01g
分析対象のツイート
対象はTwitter APIで収集した「ぴえん」を含むツイート(リツイート除く)で、期間は12月5日~12月11日の1週間。多数投稿するユーザーのツイートを除外するために収集期間に8回以上投稿したユーザーのツイートを除外した(8回に特別な理由はないが、中央値は1なので投稿1回のユーザーが多い)。ちなみにツイート数上位10ユーザーの投稿数は次の通りで、中には1000を超えるユーザーもいた。
1326
128
116
90
76
73
60
54
42
40
さらに、ツイートからURL、@ではじまるユーザーネーム、絵文字を除去した。最終的な対象ツイートは109660件で、日ごとのツイート数は次の通り。
12/05 16669
12/06 16142
12/07 15257
12/08 14825
12/09 15686
12/10 15581
12/11 15500
ツイートの収集や集計などはPythonで行っているが詳細は省略。
KH Coderで分析
まずは抽出語を確認。もちろん「ぴえん」は圧倒的な最上位にある。
次に共起ネットワークを作成した。設定では「最小出現数」と「最小文書数」は同数とし、対象が80語以上になるようにした上で、上位80語を使用した。
KH Coderで再分析
もろもろの設定などをして再度共起ネットワークを作成した。
まずは、「みんなからの匿名質問を募集中!」と「会う話したい。」という同じフレーズではじまるツイートを除外した結果、対象ツイートは108001件となった。
続いて強制抽出する語の設定。KH Coderでは強制抽出する語のリストをテキストファイルから読み込める。次のようなテキストファイルを用意。
---cell---ぴえんヶ丘どすこいの助ぴえんヶ丘どすこい之助ぴえんヶ丘どすこいのすけぴえんこえてぱおんぴえん超えてぱおんぱおん
使用しない語のリストもテキストファイルから読み込める。「ぴえん」「言う」「思う」以外に抽出語上位の記号、ひらがな一文字もリストに加えておく。
---cell---ぴえん思う言うー()えあま
再度共起ネットワークを作成する。設定は前回と同じ。
0 件のコメント:
コメントを投稿