sudachipy(v0.6.10)のユーザー辞書のフォーマットとサンプル

PC・プログラミング

2025.02.26

目次

sudachipy(v0.6.10)のユーザー辞書のフォーマットとサンプル

sudachipy(v0.6.10)のユーザー辞書のフォーマットとサンプル

sudachipy(v0.6.10)向け

$ pip show sudachipy
Name: SudachiPy
Version: 0.6.10
Summary: Python version of Sudachi, the Japanese Morphological Analyzer
Home-page: https://github.com/WorksApplications/sudachi.rs/tree/develop/python
Author: Works Applications
Author-email: sudachi@worksap.co.jp
License: Apache-2.0
Location: C:\Users\og3\anaconda3\Lib\site-packages
Requires:
Required-by: SudachiDict-full

注意

　ユーザー辞書をcsvからビルドするときは以下を注意すること。

ユーザー辞書をビルドするときはヘッダーは入れないようにする。
不要な部分は*を入れる。

サンプル（csv）

　ユーザー辞書の素になる辞書データのcsvは以下のようなフォーマットにする。

表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音,表層形（連結）,発音（連結）,意味情報,ユーザー定義情報,word-structure
もつ焼き,1287,1287,5000,名詞,普通名詞,一般,*,*,*,もつ焼き,モツヤキ,モツヤキ,もつ焼き,モツヤキ,*,*,*
寿司,1287,1287,5000,名詞,普通名詞,一般,*,*,*,寿司,スシ,スシ,寿司,スシ,*,*,*

値について

表層形 → 実際の単語（「もつ焼き」など）
左文脈ID・右文脈ID → 文脈のID（デフォルトは 1287,1287 にする）
コスト → 品詞の優先度（低いほど優先されるが、5000 くらいに設定することが多い、らしい）
品詞・細分類 → その単語の品詞情報（例：「名詞, 普通名詞, 一般」）
活用型・活用形 → 動詞・形容詞なら活用情報（名詞なら *）
原形 → その単語の原型（基本的に「表層形」と同じでおk）
読み・発音 → ひらがな/カタカナでの読み（どっちでもいい）

コメント