sudachipy(v0.6.10)のユーザー辞書のフォーマットとサンプル
sudachipy(v0.6.10)向け
$ pip show sudachipy
Name: SudachiPy
Version: 0.6.10
Summary: Python version of Sudachi, the Japanese Morphological Analyzer
Home-page: https://github.com/WorksApplications/sudachi.rs/tree/develop/python
Author: Works Applications
Author-email: sudachi@worksap.co.jp
License: Apache-2.0
Location: C:\Users\og3\anaconda3\Lib\site-packages
Requires:
Required-by: SudachiDict-full
注意
ユーザー辞書をcsvからビルドするときは以下を注意すること。
- ユーザー辞書をビルドするときはヘッダーは入れないようにする。
- 不要な部分は*を入れる。
サンプル(csv)
ユーザー辞書の素になる辞書データのcsvは以下のようなフォーマットにする。
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音,表層形(連結),発音(連結),意味情報,ユーザー定義情報,word-structure
もつ焼き,1287,1287,5000,名詞,普通名詞,一般,*,*,*,もつ焼き,モツヤキ,モツヤキ,もつ焼き,モツヤキ,*,*,*
寿司,1287,1287,5000,名詞,普通名詞,一般,*,*,*,寿司,スシ,スシ,寿司,スシ,*,*,*
値について
- 表層形 → 実際の単語(「もつ焼き」など)
- 左文脈ID・右文脈ID → 文脈のID(デフォルトは 1287,1287 にする)
- コスト → 品詞の優先度(低いほど優先されるが、5000 くらいに設定することが多い、らしい)
- 品詞・細分類 → その単語の品詞情報(例:「名詞, 普通名詞, 一般」)
- 活用型・活用形 → 動詞・形容詞なら活用情報(名詞なら *)
- 原形 → その単語の原型(基本的に「表層形」と同じでおk)
- 読み・発音 → ひらがな/カタカナでの読み(どっちでもいい)
コメント