Satoshi プロダクトマネージャー 2023-6-9
概要
PDF 文字を認識すると、ユーザーが PDF ファイルのコンテンツを編集または抽出するのに役立ちます。この記事では、PDF 文字を認識する 2 つの簡単な方法を説明します。
PDFファイルがスキャンされたものであるか、画像で構成されている場合、特定のコンテンツを検索するときに結果を見つけるのが難しくなります。OCR機能(光学式文字認識)を使用してページの内容を認識し、検索、コピー、ペーストできる新しいドキュメントを作成する必要があります。
PDF の文字認識には、OCR 機能を搭載したソフトウェアが最適です。OCR 機能により、文字認識中の混乱やコンテンツの損失を回避できます。具体的な操作手順を見ていきましょう。
Renee PDF Aideは、PDFファイルの編集と形式変換を統合した多機能ツールソフトウェアです。高度なOCR(光学文字認識)テクノロジーが統合されており、スキャンしたPDFファイルを Word / Excel / PowerPoint / Image / HTML / TXT など一般的な形式のファイルに変換できます。また、PDFドキュメント全体または指定したページを変換することも可能です。変換速度は1分あたり80ページで、PDF形式ファイルの特定ページの最適化や破損ファイルの修復、大きなファイルの読み込み時間の最適化、複数ページのファイルの分割、複数の指定ページの結合など、簡単で多彩な機能を備えています。PDFファイルのまとめるや表示角度の調整、暗号化・復号化、透かしの追加なども可能です。
さらに、Renee PDF Aideは日本語/英語/フランス語/ドイツ語/イタリア語/スペイン語/ポルトガル語/中国語/韓国語などの言語の変換もサポートし、OCRモードで認識言語を選択すると、文字認識の精度が向上します。変換効率が高く、パソコン初心者でも簡単に扱えます。
Renee PDF Aideには2つの機能があり、1つはPDFファイルの基本的な編集操作を満たす機能で、もう1つの機能は、PDF形式ファイルを他の一般的に使用される形式ファイルに変換することです。Renee PDF Aideの OCR 機能を使用してPDF文字認識を完了する方法を見てみましょう。
操作手順は非常に簡単で、具体的なプロセスは次のとおりです。
① Renee PDF Aideをダウンロードしてインストールし、ソフトウェアを実行して、Convert PDF部分を選択します。
② 上部の出力形式でWord/Excel/PowerPoint /TXTなどを選択します。
③「ファイル追加」ボタンをクリックし、PDFファイルを追加します。変換するページを指定できます。「変換」ボタンをクリックします。
OCR テクノロジーを有効にする手順:
Renee PDF Aideには、OCRテクノロジーを有効にするための3つの機能が含まれています。
写真やPDFスキャン内の文字を認識し、OCRテクノロジーを利用して文字認識の精度を向上させることができます。
- A:画像又はスキャナで読み取ったPDFから文字認識:このオプションは、スキャンされたPDFファイルまたは画像の変換に適しており、OC技術を利用して、テキスト認識の精度をさらに向上させることができます。
- B:埋め込みフォントの認識(文字化け回避):このオプションは、フォーマット変換の完了後にファイル内の文字化けを回避するために、PDFソースファイルに埋め込みフォントがある状況に適用できます。
- A+B(遅くなる):プログラムは、ファイル内のフォントが画像であるかPDF埋め込みフォントであるかを自動的に認識し、変換して出力します。 ただし、認識には時間がかかり、変換時間は長くなります。
Adobe Acrobat Proは、Adobeが開発したPDFファイル編集ソフトウェアです。このソフトはPDFファイルの作成から編集までを一気通貫で行うことができ、非常に信頼性の高いPDF編集ツールです。さらに、シンプルで実用的なユーザー編集インターフェイスも備えており、PDFファイルを作成した後に注釈を付けたり、共有・管理・圧縮・印刷・保護したり、インテリジェントに検索することもできます。多数の優れたPDFファイルエディターを備えています。
Adobe Acrobat Proを使用すると、PDFの文字認識は簡単です。手順は以下の通りです。
- 1. Adobe Acrobat Proを開きます。
- 2. [ファイル]メニューから、認識したいPDFファイルを開きます。
- 3. [ツール]パネルから、[認識]を選択します。
- 4. [テキストの認識]をクリックします。
- 5. [すべてのページ]または[現在のページ]を選択します。
- 6. [認識]ボタンをクリックします。
上の手順で、PDFの文字認識が実行されます。
Adobe Acrobat Proソフトウェアをダウンロードしてインストール後、[ファイル] – [開く] (ショートカットキー: Ctrl+O) を選択し、OCRが適用された編集可能なPDFコピーに変換するために文字を認識する必要があるPDFファイルをインポートします。その後、[結合]、[コラボレーション]、[セキュリティ]、[署名]、[フォーム]、[マルチメディア]、[注釈]などの編集操作を実行するために、メニューバーの機能ボタンを使用できます。操作が完了したら、[ファイル] – [エクスポート] を選択し、Word文書や編集可能なファイル形式を選択します。
上では、Adobe Acrobat Pro ソフトウェアまたは Renee PDF Aide を使って PDF 文字を認識する 2 つの方法を紹介しました。どちらの方法も OCR テクノロジーを使って文字認識の精度を向上させます。違いは、Renee PDF Aide は Adobe Acrobat Pro よりも動作閾値が低く、提供されている機能は使用頻度の高い機能ばかりであり、非常にコンパクトなので、Adobe Acrobat Pro を使いながら非常に高速に動作します。初心者に優しくなく、多くの編集機能の使用率も高くないため、ユーザーにとっては操作の難易度がある程度高くなります。したがって、Renee PDF Aide を使って PDF 文字認識操作を完了することをすすめます。
関連記事 :
2024-01-31
Imori : 多くの記事や電子書籍は PDF 形式で目の前に表示されますが、多くの電子デバイスは TXT テキスト形式のみをサポートしています...
2024-03-12
Ayu : PDFドキュメントはユーザーが読んで使用することを目的としており、テキストを直接抽出することはできません。しかし、次の記事ではP...
2022-06-14
Imori : PDFはファイル保存や転送によく利用されます。しかし、PDFのテキスト入力は簡単ではありません。プロのソフトが必要です。この記事...
2022-06-14
Imori : テキストファイルはテキストデータのみで構成されており、どのコンピューターシステムでも利用できる一般的なファイル形式です。 PDF...