知識情報演習III

後半第5回

レポート課題

上記資料の p.12～16 を参照して下さい。

文書群ファイルのサンプル documents.txt
検索質問ファイルのサンプル query.txt

後半第4回>

前回の続きでidf.plの作成まで終わらせて下さい。

この授業のレポート課題はこちらです。

query.txtはこちらです。

extract.plの例を作ってみました。コメントを読んで勉強してみて下さい（ブラウザ上で文字化けした時は自分で何とかしてみて下さい。IEでは化けませんでした。右クリックして名前を付けてローカルに保存し，エディタで開くのもお勧めです）。

後半第3回

本日のPPTファイルはこちら。unix上で見る為のPDF版はこちら。

演習 1

tf_idf.pl の内容を入力して実行して下さい。

コピーペーストできないPDFファイルなので，全て自分で入力して下さい。
- その方がプログラムをよく読むことを想定しています。
- 印刷はできます。

次に上記プログラムを，重み tf(t,d)×idf(t) を計算して出力するように修正して下さい。

実際には，最後の方に何行か追加すればよいです。

演習 2

先ほどのPDF版資料の24～28ページに示したextract.pl，stopword.pl，stemming.pl，tf.pl，idf.plを作成して下さい。
文書群ファイルのサンプルはdocuments.txtです。　　　　　　　　　　tf_idf_rev.pl

前半第2回

本日のPPTファイルはこちら。unix上で見る為の簡略版PDFはこちら。

英語文章のサンプルdocuments.txtはこちら。

＜ヒント＞ idfってどうやってプログラム？
→ ある文書中に出現する単語をハッシュにキーとして登録していくことで，その文書中の異なり単語を把握することができます。例えばある文書中に出現する単語が：

dog dog cat dog cat bird

だとしたら，この文書に出現する異なり単語は：

dog cat bird

になりますが，これは以下のようにすると把握できます。まず上の6語の行を$lineに入れ：

%kotonari=();
@a = split(" ", $line); ←単語に区切る
foreach $tmp (@a){ $kotonari{$tmp}=1; };
その上でハッシュ%kotonariからキーを取り出す形で別のハッシュ%idfの頻度を増やしていく...

前半第1回

前半第1回のPPTファイルはこちら。

「Perl入門」はこちら。

「Perl入門」中のサンプルsample1.txt，sample2.txt，documents.txtはこちら。