知識情報演習III
後半第5回
本日のPPTファイルはこちら。unix上で見る為のPDF版はこちら。
レポート課題
上記資料の p.12〜16 を参照して下さい。
文書群ファイルのサンプル documents.txt
検索質問ファイルのサンプル query.txt
後半第4回>
前回の続きでidf.plの作成まで終わらせて下さい。
この授業のレポート課題はこちらです。
query.txtはこちらです。
extract.plの例を作ってみました。コメントを読んで勉強してみて下さい(ブラウザ上で文字化けした時は自分で何とかしてみて下さい。IEでは化けませんでした。右クリックして名前を付けてローカルに保存し,エディタで開くのもお勧めです)。
後半第3回
本日のPPTファイルはこちら。unix上で見る為のPDF版はこちら。
演習 1
- tf_idf.pl の内容を入力して実行して下さい。
- コピーペーストできないPDFファイルなので,全て自分で入力して下さい。
- その方がプログラムをよく読むことを想定しています。
- 印刷はできます。
- 次に上記プログラムを,重み tf(t,d)×idf(t) を計算して出力するように修正して下さい。
演習 2
前半第2回
本日のPPTファイルはこちら。unix上で見る為の簡略版PDFはこちら。
英語文章のサンプルdocuments.txtはこちら。
<ヒント>
idfってどうやってプログラム?
→ ある文書中に出現する単語をハッシュにキーとして登録していくことで,その文書中の異なり単語を把握することができます。例えばある文書中に出現する単語が:
dog dog cat dog cat bird
だとしたら,この文書に出現する異なり単語は:
dog cat bird
になりますが,これは以下のようにすると把握できます。まず上の6語の行を$lineに入れ:
%kotonari=();
@a = split(" ", $line); ←単語に区切る
foreach $tmp (@a){ $kotonari{$tmp}=1; };
その上でハッシュ%kotonariからキーを取り出す形で別のハッシュ%idfの頻度を増やしていく...
前半第1回
前半第1回のPPTファイルはこちら。
「Perl入門」はこちら。
「Perl入門」中のサンプルsample1.txt,sample2.txt,documents.txtはこちら。