知識情報演習III


後半第5回

本日のPPTファイルはこちら。unix上で見る為のPDF版はこちら。

レポート課題

上記資料の p.12〜16 を参照して下さい。



文書群ファイルのサンプル documents.txt
検索質問ファイルのサンプル query.txt


後半第4回>

前回の続きでidf.plの作成まで終わらせて下さい。

この授業のレポート課題はこちらです。

query.txtはこちらです。

extract.plの例を作ってみました。コメントを読んで勉強してみて下さい(ブラウザ上で文字化けした時は自分で何とかしてみて下さい。IEでは化けませんでした。右クリックして名前を付けてローカルに保存し,エディタで開くのもお勧めです)。



後半第3回

本日のPPTファイルはこちら。unix上で見る為のPDF版はこちら。

演習 1

演習 2


前半第2回

本日のPPTファイルはこちら。unix上で見る為の簡略版PDFはこちら。

英語文章のサンプルdocuments.txtはこちら。

<ヒント> idfってどうやってプログラム?
→ ある文書中に出現する単語をハッシュにキーとして登録していくことで,その文書中の異なり単語を把握することができます。例えばある文書中に出現する単語が:

dog dog cat dog cat bird

だとしたら,この文書に出現する異なり単語は:

dog cat bird

になりますが,これは以下のようにすると把握できます。まず上の6語の行を$lineに入れ:

%kotonari=();
@a = split(" ", $line); ←単語に区切る
foreach $tmp (@a){ $kotonari{$tmp}=1; };
その上でハッシュ%kotonariからキーを取り出す形で別のハッシュ%idfの頻度を増やしていく...


前半第1回

前半第1回のPPTファイルはこちら。

「Perl入門」はこちら。

「Perl入門」中のサンプルsample1.txtsample2.txtdocuments.txtはこちら。