Pythonで書かれた形態素解析ライブラリ。
pipでインストール可能なので、MeCabよりも手軽に扱うことができる。
ただし処理速度はMeCabに敵わない。
内包辞書として mecab-ipadic-2.7.0-20070801 が使われている。
■Janomeをインストール
$ pip3 install janome
$ python3
Python 3.8.7 (default, Feb 7 2021, 00:21:33)
[GCC 8.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize("すもももももももものうち"):
... print(token)
...
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
>>> exit()
Welcome to janome's documentation! (Japanese) - Janome v0.4 documentation (ja)
https://mocobeta.github.io/janome/
Python, Janomeで日本語の形態素解析、分かち書き(単語分割) | note.nkmk.me
https://note.nkmk.me/python-janome-tutorial/
Janomeを使ってPythonで形態素解析 - Qiita
https://qiita.com/charon/items/661d9a25b2233a9f8da4
■最新の mecab-ipadic-NEologd を導入
作成された neologd.csv を作業フォルダに配置する。
今回は janome ディレクトリで作業するものとする。
janome/neologd.csv
以下のプログラムで辞書をビルドする。
from janome.dic import UserDictionary
from janome import sysdic
user_dict = UserDictionary('neologd.csv', 'utf8', 'ipadic', sysdic.connections)
user_dict.save('neologd')
…が、Raspberry Pi 4 4B-32GB の環境では「MemoryError」となって処理が止まった。
JanomeでNEologd辞書を使う - Qiita
https://qiita.com/_likr/items/0fc845f59b4ad685cc06