PDF 内部構造テキスト新しいページはコチラ

@@ 391行: / 391行: @@
-　ワードが生成したＭＳゴシックフォントのエンコード方式がIdentity-Hと指定されていることが大きな要因となっています。
+　フォントによっては、それこそ既存のフォントを勝手に編集して自作した個人的なモノが使われてPDFファイルが広く世に出回っているパターンもあります。CMap情報が無い場合はテキストとしての情報を構築するのをあきらめるPDF出力アプリがあります。ワードでさえ、そのように判断します。この場合、文字のように見えて、すべてがグリフ情報からベジェ曲線グラフィックに置き換えられます。まだまだ先の発想になりますが、すべてを理解したのち、PDF原稿から文字を抜き出す的な完全な自動化はテキストという考え方だけでは無理です。さらにOCRのような処理まで含めて考えることで、PDFから文字が抜き出せるということになります。簡単には、抜き出せる部分もあるので、特定のPDFに対しては文字が抽出できるようなものは作れると思います。
+　とにもかくにも、置き換えがうまくいかないのは、ワードが生成したＭＳゴシックフォントのエンコード方式がIdentity-Hと指定されていることが大きな要因となっています。
 ===== '''/Encoding''' =====

2022年7月19日 (火) 00:00時点における版