表記ゆれを確認します。
基本のリスト以外にも、ユーザーが自由に辞書を作成・設定できます。
ノックアウトリストを用意することで、特定の単語を表記ゆれから除外することもできます。
実行すると、右ペインに結果が表示されます。表記ゆれに引っかかった項目ごとに、リストが作成されます。ボタンをクリックすると、左ペインの該当場所に移動できます。
表記ゆれの辞書は、「tool/notation_fluctuation/dic」ディレクトリ内に、UTF-8形式のテキストファイルで格納します。利用する際は、設定の「表記ゆれ 使用辞書リスト」に、「;」区切りでファイルを指定します。後に指定したものが優先されます。
表記ゆれの確認から除外したい際は、設定の「表記ゆれ ノックアウト辞書リスト」に、「;」区切りでファイルを指定します。こちらも保存場所は同じです。
「表記ゆれ 使用辞書」は、1行ごとに1設定になります。各行は、以下のいずれかの方法で記述します。
ひと山|一山|人山 名詞-一般
ひと山|一山|人山 名詞
ひと山|一山|人山
ひと山|一山|人山 RE
「|」で単語を書き連ね、タブ文字を1つ置いたあと、品詞を書きます。品詞の区分についは、MeCab の品詞ID を「-」区切りで指定します(MeCab: 品詞 ID、github)。
「名詞」のように書いた場合は「名詞」全てにマッチします。
品詞を指定しなかった場合は、単純な文字列検索をおこないます。その際、短すぎる単語は、検索が一致しすぎるので、思うような結果にならなくなります。
品詞を指定せず、タブ文字を2つ置いたあとに「RE」と書いた場合は、正規表現でのマッチングをおこないます。長母音を置くか置かないかのような違いの場合は、以下のように書くとよいです。
サーバー|サーバ(?!ー) RE
動詞のように変化する品詞の場合は、以下のように基本形を書いておけばマッチします。
走る|はしる 動詞
内部的な処理では、形態素解析をしたあと「実際に表示されている文字列」と「基本形の文字列」の両方で確認をおこなって、表記ゆれを確認しています。そのため、変化する形をすべて書かなくても大丈夫です。
各行の「//」以降は、コメントとして無視されます。
利用データは以下になります。
同梱の「TANSI_v110_kai.txt」では、『日本語表記ゆれ辞書「たんし」』を利用しています。「tool/notation_fluctuation/dic/TANSI_v110」内に、ライセンスなどのファイルを格納しています。こちらは、変化した形を書き連ねている形式なので、加工して生成した「TANSI_v110_kai.txt」は、その形式を踏襲しています。
同梱の「IT.txt」では、『inao/WEB+DB PRESS用語統一ルール』を利用しています。実際の形式に合わせて加工をして、不要と思われるものは除去しています。また、不足分を補っています。
「ノックアウト辞書」は、以下の形式になります。
小説|ノベル 漫画|マンガ|コミック
「ノックアウト辞書」では、改行か「|」で単語を区切ります。そして、区切られている単語が全て無視されます。