PDFの文字をコピーしたときに濁点や半濁点がバラバラ文字(合成文字)になったら

PDFの文字をコピーしたときに濁点や半濁点がバラバラ文字(合成文字)になったら

寒くなったり暑くなったりで毎日の服装に困っているyanagimachiです。

この前PDFから文字だけを抜き出すツールをMacで使ったところ、濁点や半濁点がバラバラ文字(合成文字)になってしまいました。 こういうときはどうすればいいのでしょうか?

テキストだと分かりづらいので、画像にしてみました。 20160324_2_yanagimachi.png

ぱっと見気づかなかったので指摘に驚いてしまいましたが、データを用意したのは私。
でも作業するのは別の人!
迷惑かけられないし(すでに日常的にかけてるし?)どうすれば・・・と思ったら、バラバラ文字(NFD)からいつもの文字(NFC)変換するツールがありました。

ちなみに原因は「Unicodeによる文字の正規化の種類の違い」らしいです。

ツールの使い方

  1. NFD→NFC変換ツールをブラウザで開いて、【変換したいテキスト】にバラバラ文字を入力。
  2. 「↓変換」ボタンをクリックすると、【変換後のテキスト】に変換されたいつもの文字が出てきます。

これで大量のテキストも安心ですね!

  • このエントリーをはてなブックマークに追加

この記事を読んだ人にオススメ