ツール:表記ゆれ確認

目的

 表記ゆれを確認します。

 基本のリスト以外にも、ユーザーが自由に辞書を作成・設定できます。

 ノックアウトリストを用意することで、特定の単語を表記ゆれから除外することもできます。

使い方

 実行すると、右ペインに結果が表示されます。表記ゆれに引っかかった項目ごとに、リストが作成されます。ボタンをクリックすると、左ペインの該当場所に移動できます。

 表記ゆれの辞書は、「tool/notation_fluctuation/dic」ディレクトリ内に、UTF-8形式のテキストファイルで格納します。利用する際は、設定の「表記ゆれ 使用辞書リスト」に、「;」区切りでファイルを指定します。後に指定したものが優先されます。

 表記ゆれの確認から除外したい際は、設定の「表記ゆれ ノックアウト辞書リスト」に、「;」区切りでファイルを指定します。こちらも保存場所は同じです。


 「表記ゆれ 使用辞書」は、1行ごとに1設定になります。各行は、以下のいずれかの方法で記述します。

ひと山|一山|人山	名詞-一般
ひと山|一山|人山	名詞
ひと山|一山|人山
ひと山|一山|人山		RE

 「|」で単語を書き連ね、タブ文字を1つ置いたあと、品詞を書きます。品詞の区分についは、MeCab の品詞ID を「-」区切りで指定します(MeCab: 品詞 IDgithub)。

 「名詞」のように書いた場合は「名詞」全てにマッチします。

 品詞を指定しなかった場合は、単純な文字列検索をおこないます。その際、短すぎる単語は、検索が一致しすぎるので、思うような結果にならなくなります。

 品詞を指定せず、タブ文字を2つ置いたあとに「RE」と書いた場合は、正規表現でのマッチングをおこないます。長母音を置くか置かないかのような違いの場合は、以下のように書くとよいです。

サーバー|サーバ(?!ー)		RE

 動詞のように変化する品詞の場合は、以下のように基本形を書いておけばマッチします。

走る|はしる	動詞

 内部的な処理では、形態素解析をしたあと「実際に表示されている文字列」と「基本形の文字列」の両方で確認をおこなって、表記ゆれを確認しています。そのため、変化する形をすべて書かなくても大丈夫です。

 各行の「//」以降は、コメントとして無視されます。


 利用データは以下になります。

 同梱の「TANSI_v110_kai.txt」では、『日本語表記ゆれ辞書「たんし」』を利用しています。「tool/notation_fluctuation/dic/TANSI_v110」内に、ライセンスなどのファイルを格納しています。こちらは、変化した形を書き連ねている形式なので、加工して生成した「TANSI_v110_kai.txt」は、その形式を踏襲しています。

 同梱の「IT.txt」では、『inao/WEB+DB PRESS用語統一ルール』を利用しています。実際の形式に合わせて加工をして、不要と思われるものは除去しています。また、不足分を補っています。


 「ノックアウト辞書」は、以下の形式になります。

小説|ノベル
漫画|マンガ|コミック

 「ノックアウト辞書」では、改行か「|」で単語を区切ります。そして、区切られている単語が全て無視されます。