PHPとKAKASIを使って単語に分解する (その2)

(1/1)
KAKASI を使って漢字かなまじり文を平仮名やローマ時に変換するプログラムの続きである。今回は、テキストだけでなく、ファイルやURLを指定して分解できるように機能を拡張した。

(2021年5月30日)PHP8対応,リファラチェック追加

サンプル・プログラムの実行例

PHPとKAKASIを使って単語に分解する(その2)

サンプル・プログラム

圧縮ファイルの内容
parsewords2.phpサンプル・プログラム本体。

解説:ファイルやURLからテキストを読み込む

 302: //ファイル
 303: if (isset($_FILES['upload']['tmp_name']) && ($_FILES['upload']['tmp_name'!'')) {
 304:     $sour = file_get_contents($_FILES['upload']['tmp_name']);   //ファイルを一気に読み込む
 305:     $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
 306:     $sour = strip_tags($sour);      //タグを消去しておく
 307:     if ($sour == FALSE) {
 308:         $errmsg = 'ファイル ' . $_FILES['upload']['tmp_name'. ' は存在しません';
 309:     }
 310: 
 311: //URL
 312: else if ($url !'') {
 313:     $sour = file_get_contents($url);    //コンテンツを一気に読み込む
 314:     $sour = mb_convert_encoding($sour, INTERNAL_ENCODING, 'auto');
 315:     $sour = strip_tags($sour);      //タグを消去しておく
 316:     if ($sour == FALSE) {
 317:         $errmsg = 'URL ' . $url. ' は存在しません';
 318:     }
 319: }

ファイルから分解テキストを読み込むには、組み込み変数 $_FILES['upload']['tmp_name'] があれば、組み込み関数  file_get_contents  を用いてファイル内容を変数 $sour に読み込む。
読み込んだら、組み込み関数  mb_convert_encoding  で文字エンコードを揃え、HTMLタグを組み込み関数  strip_tags  を使って取り除いておく。

URLから分解テキストを読み込む流れも同様である。
いずれも、読み込めたかどうかエラー処理を加えておく。

あとは、「PHPとKAKASIを使って単語に分解する(その1)」と同様、KAKASI を使ってテキストを単語に分解していく。

参考サイト

(この項おわり)
header