KH Coderで使うテキストデータで悩ましいのが表記ゆれや誤字・脱字。新聞記事であればその心配をする必要はないが、アンケートの自由回答などの個人が書いたものであれば考慮する必要がある。きちんと対処するのであれば、テキストエディタなどの置換機能を使用して表記を統一するか、KH Coderのコーディング機能を利用する手があるが、データが多 いとすべて統一するのはかなりの手間がかかる。データ量によっては現実的に不可能な場合もあると思う。
そこで実際に僕が行ったのは、重要と思われる語にしぼって表記の統一を行い、その他はそのままにして分析する方法。整形をしていないテキストデータから抽出語リストを集計して、出現数の多い語の中で必要なものをテキストエディタで表記統一した。手順は以下の通り。
1.テキストデータの前処理を行う
方法はKH Coderでテキストマイニングをするを参照。
2.抽出語リストの出力
[ツール]>[抽出語]>[抽出語リスト]>[OK]で以下のような抽出語リストを出力する。
3.抽出語リストから表記を統一する語を選択
抽出語リストの各語の横の数字が出現数なので、出現数が多い語の中で表記ゆれや誤字に外灯するものがあればテキストエディタなどで置換する。例えば、「先生」と「せんせい」という表記があったら「先生」に統一する。
また、対象のテキストデータは、ひとつのテキストファイルにまとめたものをそのままKH Coderで分析することが可能。改行で段落を自動認識してくれるので、段落ごとの集計結果を出力できる。別の見方をすると、段落ごとに集計したいなら、改行でテキストを分けておく必要がある。
他には、段落よりも大きな単位で(新聞記事 であれば記事ごと、アンケートであれば1回答ごと、小説であれば章ごと)分析を行うことも可能。CSVファイルを使う方法とHTMLタグを使用する方法が ある。例えば新聞記事をCSVファイルに保存する場合、1行に1記事分のテキストを保存する(結果として記事数と行 数は同じになる)。このCSVファイルをKH Coderで取り込むと、文、段落の他にH5という集計単位が表示され、分析結果を出力するときにこのH5を指定すると、記事ごとの集計結果が得られ る。
そこで実際に僕が行ったのは、重要と思われる語にしぼって表記の統一を行い、その他はそのままにして分析する方法。整形をしていないテキストデータから抽出語リストを集計して、出現数の多い語の中で必要なものをテキストエディタで表記統一した。手順は以下の通り。
1.テキストデータの前処理を行う
方法はKH Coderでテキストマイニングをするを参照。
2.抽出語リストの出力
[ツール]>[抽出語]>[抽出語リスト]>[OK]で以下のような抽出語リストを出力する。
3.抽出語リストから表記を統一する語を選択
抽出語リストの各語の横の数字が出現数なので、出現数が多い語の中で表記ゆれや誤字に外灯するものがあればテキストエディタなどで置換する。例えば、「先生」と「せんせい」という表記があったら「先生」に統一する。
また、対象のテキストデータは、ひとつのテキストファイルにまとめたものをそのままKH Coderで分析することが可能。改行で段落を自動認識してくれるので、段落ごとの集計結果を出力できる。別の見方をすると、段落ごとに集計したいなら、改行でテキストを分けておく必要がある。
他には、段落よりも大きな単位で(新聞記事 であれば記事ごと、アンケートであれば1回答ごと、小説であれば章ごと)分析を行うことも可能。CSVファイルを使う方法とHTMLタグを使用する方法が ある。例えば新聞記事をCSVファイルに保存する場合、1行に1記事分のテキストを保存する(結果として記事数と行 数は同じになる)。このCSVファイルをKH Coderで取り込むと、文、段落の他にH5という集計単位が表示され、分析結果を出力するときにこのH5を指定すると、記事ごとの集計結果が得られ る。
0 件のコメント:
コメントを投稿