メモ | refirio.org

Memo

Igo（形態素解析）を使う

※MeCabよりも手軽に形態素解析を利用できる。

[PHP]文章を解析して単語ごとに分解する（形態素解析）
http://php-archive.net/php/morphological-analysis/
[PHP]自然言語処理（形態素解析）を利用した簡易全文検索
http://php-archive.net/php/full-text-search1/■辞書ファイルの入手https://sourceforge.net/projects/mecab/files/mecab-ipadic/
から
2.7.0-20070801
をダウンロード。（辞書ファイル。）

■本体の入手https://osdn.jp/projects/igo/releases/
から
igo-0.4.5.jar
をダウンロード。（Igo本体。）

もしくは
igo-0.4.5-src.tar.gz
をダウンロードして
cd igo-0.4.3-src
ant
でコンパイル。（igo-0.4.5.jar が作成される。）

■辞書ファイルのビルド

例えば C:\igo で作業する場合、この場所に igo-0.4.5.jar とmecab-ipadic-2.7.0-20070801 を置く。
ビルドに成功すると、ipadicフォルダが作られる。これが辞書となる。

cd C:\igo
java -Xmx1024m -cp igo-0.4.5.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP
■PHPプログラムの入手https://osdn.jp/projects/igo-php/
から
igo-php 0.1.7
をダウンロード。

■サンプルプログラムの作成<?php
require_once 'igo-php/lib/Igo.php';
$igo = new Igo('./ipadic', 'UTF-8');
$text = 'これはテストです';
$result = $igo->wakati($text);
//$result = $igo->parse($text);
print_r($result);


※ipadicディレクトリ（辞書データ）はバイナリモードでアップロードする。
  アスキーモードだと正しく認識されない。

■単語の追加

Java製形態素解析エンジン「Igo」を試してみる
http://www.mwsoft.jp/programming/munou/igo_install.html

MeCabの辞書を利用できるため、データの作成方法はMeCab用と同じ。
mecab-ipadic-2.7.0-20070801 内に User.name.csv を作成し、以下の内容を記述する。
（ファイル名は任意。文字コードはECU。）

ランスロット,1291,1291,500,名詞,固有名詞,人名,名,*,*,ランスロット,ランスロット,ランスロット
マーリン,1291,1291,500,名詞,固有名詞,人名,名,*,*,マーリン,マーリン,マーリン


追加したら、辞書ファイルを再ビルドする。

■はてなキーワードの単語を追加する場合http://developer.hatena.ne.jp/ja/documents/keyword/misc/catalog
から
http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
をダウンロード。

mecab-wikipedia-hatena-csv.php で keywordlist_furigana.csv から hatena-list.csv を作成する。
ファイルの文字コードをEUCに変換し、mecab-ipadic-2.7.0-20070801 内に置く。

その後、辞書ファイルを再ビルドする。
PHPのメモリ消費が大きいようなら ini_set('memory_limit', -1); を追加して様子を見る。

■Wikipediaの単語を追加する場合https://ja.wikipedia.org/wiki/WP:DD
の
https://dumps.wikimedia.org/jawiki/
から
https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
をダウンロード。
ファイルを展開して jawiki-latest-all-titles-in-ns0 を入手する。

mecab-wikipedia-hatena-csv.php で jawiki-latest-all-titles-in-ns0 から wikipedia-list.csv を作成する。
ファイルの文字コードをEUCに変換し、mecab-ipadic-2.7.0-20070801 内に置く。

その後、辞書ファイルを再ビルドする。
PHPのメモリ消費が大きいようなら ini_set('memory_limit', -1); を追加して様子を見る。

※無改造の mecab-wikipedia-hatena-csv.php ではてなキーワードとWikipediaの両方を取り込むと、形態素解析の際にメモリ消費が大きすぎた。
  mecab-wikipedia-hatena-csv.php を改造して辞書データのサイズを抑え、はてなキーワードのみ取り込むようにした。
  また、読み仮名をカタカナで登録するなどの調整も行った。
Memo

Advertisement