デジタル校正の覚え書き【旧版】

誤認識されやすい文字リスト

へ べ ぺ(ひらがな) ヘ ベ ペ(カタカナ)
これは OCR ソフトで入力されたテキストによくあり、なおかつ非常に見つけにくい誤認識。このリストの最右翼です。かつて痛い目をみたことがあるので、テキストファイルを開いたら、ふつうに引き合わせ校正を始める前に必ず「へ」チェックをする習慣がつきました。フォントによっては慣れてくると肉眼でもけっこうわかったりしますが、検索をかけてひとつひとつチェックするのがいちばん確実。面倒がらずに検索検索。デジタルテキストの便利さというべきか厄介さというべきか。カタカナ語の直前直後にあるひらがなの「へ」がカタカナの「ヘ」になっていることが頻々。
(ひらがな) (カタカナ)
そういえばこの手の誤認識にお目にかかった回数はそんなに多くなかったような気も。でもなくはない。はず。
(カタカナ) (漢字)
「夕方(ゆうがた)」が「タ方」になってたり、なんてことがよくあります。
(カタカナ) (漢字)
字面の大きさが見分け方のポイントのひとつ。
(カタカナ) (漢字)
そういえばこんなものもあった。
(音引き) (マイナス、全角ハイフン) (ダーシ) (漢字)
校正屋も歩けば棒に当たる。どれもただの棒切れにしか見えませんが、棒切れにもいろいろと種類がございまして。棒に当たったら、そのたびに「これはどのタイプの棒切れかな?」と立ち止まって考えるようにしております。ゴシック系のフォントだと非常にわかりづらいので、明朝系のフォントでチェックすべし。
(ゲン・へ-る) (メツ・ほろ-ぶ)
これけっこう多いです。とりたててわかりづらいというほどではないが、数が多いだけに見落としをすることもなくはない?
(シャ) (もり) (レイ) (サツ)
「しめすへん」と「きへん」の違い。「会社」が「会杜」になっていたりとか。ふだんはあまり「杜」なんて漢字にお目にかからないので、ついうっかり、てなことになりやすいかも。
(シ・さ-す) (ラツ)
「剌(ラツ)」という漢字を使った言葉、とっさには思いつかないかもしれませんが、「溌剌」とかですね、わりによく使われる語としては。
(ゾク) (トウ)
遭遇した回数はあまり多くありませんが、それでもやっぱりたまにありますね。
(も-つ) (ま-つ)
よくありそうで案外ない、かと思いきやたまにあったりするので気が抜けない。(意味不明?)
(はな-す) (かた-る)
意味も似通っているだけに案外素通りしやすいかも。
(ヒン) (ドン)
「貧すれば鈍する」ならぬ「貧すれば貪する」? この誤認識にもちょくちょくお目にかかります。注意してさえいればかえって発見しやすいタイプ。
(あが-める) (たた-る)
字形は似ていても意味は大違い。これにも何度も遭遇してます。
(テツ) (サン)
「撤去(てっきょ)」が「撒去」になっていたり、「撒布(さんぷ)」が「撤布」になっていたり、など。
(シャ・セキ) (セキ)
「くさかんむり」と「たけかんむり」の違い。あらかじめ要注意語として疑いの目で見れば「慰籍」「狼籍」などわかりやすいですが、逆に言うと「慰藉」「狼藉」という語に馴染みがあまりなければスルーしやすい。
壺 壷(つぼ)  殻 殼(から)
どちらも読みは同じですが字体が異なります。このように、読みも意味も同じで字体だけが異なる漢字のそれぞれに別々のコードが割り当てられていることもあるので、注意が必要。『JIS漢字字典』や、『校正必携』にある「JIS漢字異体字・代用字一覧表」などで調べないとなかなかわかりにくいですね。
屋 星
へーっ、OCR ソフトにとってはこういう字がわかりにくいのか、と感心(?)させられた例。
昔 音
そう言われてみれば、似てるかも、、、。
(シャ) (さけ)
これらふたつの文字についてはよく知られているのでは、と思います。「洒落(しゃれ)」が「酒落」になっていた、なんてのが代表的。よく知られているだけに発見も比較的されやすいんですが、それでもやっぱりたまーにある。
(とり) (からす)  (右側が「とり」) (右側が「からす」)
これらも、あらかじめ念頭に置いておきさえすれば案外見落とさずに済む類の誤認識。
日 目  白 自  問 間  句 旬
上の「とり」と「からす」の例もそうですが、横棒を多く読んだり少なく読んだりという誤認識は OCR の得意中の得意。発見しにくいわけでもないのですが、数が多いのと、前後にある文字との兼ね合いなどもあって、見落としてしまうこともなきにしもあらず。
(左側が「日」) (左側が「目」)  (左側が「口」) (左側が「日」)
「曖昧(あいまい)」が「曖味」になっていたり「瞹昧」になっていたり……。
(わら-う) (さら-す)  (サク) (サク)
誤認識のタイプとしては上と同じですが、これらの漢字はお目にかかる機会がわりあい少ないほうかも。それでもやっぱりあるんですよね。「昨日」が「咋日」になっていたのを見つけたときに初めて「咋」という字があることを知りました(不勉強)。それにしても、OCR ソフトの誤認識によって知らなかった漢字を知るというのもいいんだか悪いんだか。
候 侯
これは縦棒を多く読んだり少なく読んだりという誤認識。1字1字単独で見れば「なーんだ」と思うのに、「気侯」だの「王候」だのと熟語になっていると、つい見落としてしまいがちになる。
治 冶
「さんずい」と「にすい」の違い。「鍛冶屋(かじや)」の「冶」が「治」になっていたり、なんてことがしばしば。
采 釆
前者は「拍手喝采」とかの「采」。後者は音読み「ハン」、部首名「のごめ」。うっかり見落としそうになって冷や汗かいた。こりゃOCRが誤認識するのもしょーがないわなあ、という気にもなった。
跳 眺
たしかにOCRが間違うのも無理ないかなと思える字形。けっこう頻出。
掃 帰
「帰って」が「掃って」になっていた事例が複数。逆に「掃く」が「帰く」になる例はいまのところ見ていません。
追 迫
「追って」「迫って」の形になると、どちらもそれぞれに正しく読めてしまうので OCRだけでなく人間も間違えやすいです。文脈で判断しようにも 「彼女が必死の形相で追って/迫ってきた!」 なんてなるとどちらも間違いではなさそうに見えるので困ります。
因 困
「困難」が「因難」に。一見して明らかに難しそうな漢字だとおのずから注意喚起されるのに対し、困や因は画数少なめだし困難という語も一般的でつい軽く読んでしまうので油断しやすくなる。
情 憶
「記憶」が「記情」になっているのを見つけました。 自分の知らない「記情」っていう言葉があるのかと思っちゃったよ。 (実際、「えーこんな単語知らなーい、なんかの間違いじゃないのー」 と思いつつ辞書を引くとただの自分の無知であることが判明することも多い。)
描 猫
「猫(ねこ)」が繰り返し出てくる文中で、ちょいちょい「描」になっていました。
粛 蕭
「蕭条と雨が降る」みたいな文脈で、「粛条」。 漢字の字面から自分なりに勝手に想像するイメージみたいなものがあると、 違和感に気づきやすくなります、自分の場合。 「粛」は恐そうなイメージ、「蕭」は目の詰んだレース編みのイメージ。
著 者
「芸者」さんが「芸著」さんになっていました。 人間の目には「くさかんむり」の有無ってわりと大きな違いに見えますが、 努めてOCRの立場で考えると、前の漢字「芸」の下部「ム」のあたりが、 「者」の上にくさかんむりがあるかのように錯覚させる一因となったのかも。 (症例は縦組でした。横組だともしかしたらまた違ってくるのかも)
蓄 畜
これも「くさかんむり」の有無。
葉 薬 築
「葉のにおい」というフレーズに引っかかり、「えっ? 葉? ずいぶん匂いが強いんだねー、菖蒲みたいな? っていうかホントに葉? もしかして、クスリ?」と思って調べたらやっぱり「薬のにおい」が正解でした。 ついでに「薬」つながりで、熟語のなかで「建築物」が「建薬物」となっている例もありました。「建薬物」って爆発か何かしそうで怖い。 「葉」と「薬」、「薬」と「築」の誤認例は上のとおりですが、 「葉」と「築」とを誤認した例はいまのところ見つけていません。
規 現
「表現」が「表規」に。「自己表規」なんてなるとなんだか几帳面で窮屈そうに見える。
絵 給
「給仕」が「絵仕」に。もうウエイターという横文字が普及してるし、いまどき給仕と言う人はどれだけいるんだろうか。
猟 蝋
「蝋人形」が「猟人形」に。どっちもちょっと無気味な雰囲気ではあります。
緒 猪
「猪口」が「緒口」に、「野猪」が「野緒」に。「猪」であるべきところが「緒」、というのは複数ありましたが、その逆はいまのところ見つけていません。
熊 態
「態々(わざわざ)」が「熊々」に。くまくま……ちょっと間が抜けててかわいい。
煮 意
「意趣」が「煮趣」に。用例としては「意趣返報」「意趣返し」などですね。
粗 組
「め組の喧嘩」が「め粗の喧嘩」だったら……華のない喧嘩になりそう。
挟 揉
漢字自体はそれほどよく似ているわけではなさそうですが、文脈によって 「挟まれる」「揉まれる」と送り仮名が共通することもあるので、 人間の目でもうっかり見逃してしまう可能性があるケース。
基 甚
「甚(はなは)だ」が「基だ」に。
命 余
それぞれ漢字単独で見てもあまりピンとこないのですが、「身長は六尺命、堂々たる体躯であった」のような形で出現しました(実例をそのまま挙げるのが難しいので作文しています)。もちろん「身長は六尺余、〜」が正解です。
線 綿
「線の厚く入った蒲団」。 蒲団に厚く入れるものは、線(せん)ではなく綿(わた)。ふかふか。
流 派
「立派」が「立流」に。何かの流派のようです。
繁 繋
これは「舟を繋(もや)う」が「〜繁う」というふうになっていました。 「もやう」を「繋う」と書くのはあまり一般的ではないと思いますが、読みはどうであれ「繋」と「繁」がいかにもOCRにとって識別苦手そうな字面に見えるので、掲載。
愚 憑
「憑かれたような表情で」が「愚かれた〜」になっていたりすると、 鬼気迫る場面もおバカっぽくスポイルされてしまいそうです。
後 彼
あまり似ていないように見えるのですが、そして全然頻出でもなんでもなかったのですが、出て来た文脈を覚えていないぐらいふつうの場所でいきなり三人称代名詞の「彼(かれ)」が「後」になっていたので、虚を衝かれました。
遂 逐
これまで載せていなかったのが意外なほど、ありがち。このふたつの漢字の読みや意味の違いを理解し、誤認識されがちだと心得た上で見れば、たとえば「遂(お)われる」に違和感を覚えるはず。
巳 已 己
これも、ありがち。たとえば「利已的」。これも、ありがちなことをいったん覚えてさえしまえば、センサー働かせやすいタイプの誤字だと思う。
革 草
誤認例を作文すると「広原には風が吹き革がなびいていました」。どう考えても変だし気づきそうなものですが、長文を長時間にわたって読んでいる途中で出てきたりすると、やられたりします。OCR的には確かに似ているように見える字だと思う。
借 惜
「お金が惜しくて借しくてたまらない」……話題がお金だと「借」の字もしっくり見えるかもしれません。
埋 理
OCR入力したテキストをチェックする際に、「理」および「埋」を検索して誤認がないかどうか洗い出したほうが安全だと思うぐらい頻出。「理」を含む語のほうが数が多いので、「理」であるべきところが「埋」になってしまうケースが目に留ります。たとえば、「理める」は見かけたことないけど、「料埋」はよくある。
士 土
これも頻出。「土地」が「士地」に、「紳士」が「紳土」に、その他いろいろ、語尾に「〜士」の付く職業なども「弁護土」のようになる可能性があります。
大 太
「太鼓(たいこ)」が「大鼓」になっていた例がありました。ただし単語だけ見ると「大鼓(おおつづみ)」でも語としては正しいので、文脈からの判断。
揚 場
「場所」が「揚所」になっているなど、「場」であるべき箇所が「揚」になっていることがありました。
抜 披 玻 被
これまでに確認した例は、「抜露」(正しくは披露)、「披璃」(正しくは玻璃)、「披る」(正しくは被る)。この中では最初の「抜露」が圧倒的に頻出だと思われます。ごく個人的には「玻璃(はり)」という語に誤りがあると気になります、文学的な趣を出すために狙って使われるような語なので。
緑 縁
「緑結びの神様」……人口爆発して砂漠化している地球には縁結びよりエコロジカルで良さそうだ。
熱 熟
「熟柿」が「熱柿」に。「成熟」が「成熱」に。OCRはおアツいのがお好きなようです。
横 機
「機会」や「機械」のはずが、「横会」や「横械」に。 これも、人間の目で見るとそんなでもなさそうなのに、OCRの目で見ると苦手なのね、という例。
探 深
「探夜」「探海」のように、「深」であるべきところが「探」になることがある模様。
み ゐ
ひさしぶりに仮名のエントリー。いわゆる旧仮名遣い、歴史的仮名遣いの文章で見られる例です。「居る」の意味で「ゐる」となるべきところが「みる」だったり、送り仮名で「用ゐる」となるべきところが「用みる」になったり。



校正部屋 > デジタル校正の覚え書き【旧版】誤認識されやすい文字リスト
<http://www.planaria.org/prr/ver1/charlist.html>
Copyleft: <kat@planaria.org>