PDFの文字をコピーしたときに濁点や半濁点がバラバラ文字(合成文字)になったら
寒くなったり暑くなったりで毎日の服装に困っているyanagimachiです。
この前PDFから文字だけを抜き出すツールをMacで使ったところ、濁点や半濁点がバラバラ文字(合成文字)になってしまいました。 こういうときはどうすればいいのでしょうか?
テキストだと分かりづらいので、画像にしてみました。
ぱっと見気づかなかったので指摘に驚いてしまいましたが、データを用意したのは私。
でも作業するのは別の人!
迷惑かけられないし(すでに日常的にかけてるし?)どうすれば・・・と思ったら、バラバラ文字(NFD)からいつもの文字(NFC)変換するツールがありました。
ちなみに原因は「Unicodeによる文字の正規化の種類の違い」らしいです。
ツールの使い方
- NFD→NFC変換ツールをブラウザで開いて、【変換したいテキスト】にバラバラ文字を入力。
- 「↓変換」ボタンをクリックすると、【変換後のテキスト】に変換されたいつもの文字が出てきます。
これで大量のテキストも安心ですね!