サンプル・プログラムの実行例
サンプル・プログラム
parsewords2.php | サンプル・プログラム本体。 |
解説:ファイルやURLからテキストを読み込む
302: //ファイル
303: if (isset($_FILES['upload']['tmp_name']) && ($_FILES['upload']['tmp_name'] != '')) {
304: $sour = file_get_contents($_FILES['upload']['tmp_name']); //ファイルを一気に読み込む
305: $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
306: $sour = strip_tags($sour); //タグを消去しておく
307: if ($sour == FALSE) {
308: $errmsg = 'ファイル ' . $_FILES['upload']['tmp_name'] . ' は存在しません';
309: }
310:
311: //URL
312: } else if ($url != '') {
313: $sour = file_get_contents($url); //コンテンツを一気に読み込む
314: $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
315: $sour = strip_tags($sour); //タグを消去しておく
316: if ($sour == FALSE) {
317: $errmsg = 'URL ' . $url. ' は存在しません';
318: }
319: }
読み込んだら、組み込み関数 mb_convert_encoding で文字エンコードを揃え、HTMLタグを組み込み関数 strip_tags を使って取り除いておく。
URLから分解テキストを読み込む流れも同様である。
いずれも、読み込めたかどうかエラー処理を加えておく。
あとは、「PHPとKAKASIを使って単語に分解する(その1)」と同様、KAKASI を使ってテキストを単語に分解していく。
参考サイト
- KAKASI:公式サイト
- PHPとKAKASIを使って単語に分解する(その1):ぱふぅ家のホームページ
- PHPで2つの文章の類似度を計算する(KAKASI版):ぱふぅ家のホームページ
- PHPで形態素解析を行う:ぱふぅ家のホームページ
- kakasiの辞書に単語を追加する:TagoSuckの独習プログラム日記
(2021年5月30日)PHP8対応,リファラチェック追加