【簡単】オンラインOCR無料ツールでPDF文字認識する方法

You are here:

ホーム
サポート
PDF変換
【簡単】オンラインOCR無料ツールでPDF文字認識する方法

Ayu サポートマネージャー 2021-4-2

概要
スキャンされたPDFを編集可能な形式に変換したい場合、OCR機能を利用する必要があります。この記事は、フリーのOCRソフト、オンラインOCRツールとその使い方を紹介します。

一、OCRについて
二、スキャンされたPDFと普通のPDF
三、フリーのOCRオンラインツール
四、プロのOCR付きPDF変換ソフト
- 1、スキャンされたPDFから文字認識
- 2、画像から文字認識
五、PDF修復・編集・最適化などの操作

一、OCRについて

1、OCRとは

OCR（Optical Character Recognition/Reader、光学的文字認識）とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。現在、Renee PDF Aideなど多くのOCRソフトも高精度な読み取りを実現できます。複雑なファイルからも文字認識できます。

OCRテキスト認識ソフトウェアを使用すると、ファイルのフォントがデータベース内のフォントと比較されます。フォントと文字が認識されます。OCR技術は便利ですが、100%の精度に到達することは困難です。変換後ファイルを確認して修正する必要があります。

2、OCRを使うメリット

OCR技術は文書の処理によく利用されています。OCRは単にグリフや単語の形の分析だけでなく、文字の部位が描かれる順序、改行、方向なども分析し、列や画像を分割したり、キーワードで検索したりすることもできます。OCRのメリットは時間を節約できることです。文字認識は簡単で、数秒で完了できます。画像検索より、テキスト検索のほうが便利です。

弁護士、医者、または教師の場合、文書のデータ入力、印刷された文書のテキスト版をより迅速に作成するとき、OCRは役立ちます。

3、OCR技術の応用

OCRの最もよく利用される応用分野は、手書きや印刷された文字など紙のドキュメントをコンピュータが利用できる編集可能なMicrosoft WordやGoogle Docs等のデジタルの文字コードに変換することです。このOCR技術は日常生活のさまざまなサービスや分野に利用されています。

応用分野の例は以下の通り。

(小切手、パスポート、請求書、銀行報告書、領収書など)ビジネス文書のデータ入力。
自動車ナンバー自動読取装置。
空港における、パスポートの認識と情報抽出。
名刺情報から連絡先情報の抽出。
印刷された文書の電子画像を検索可能にする。
印刷された文書のテキスト版をより迅速に作成。

普通のPDFはWordなどの編集可能な形式に変換できますが、スキャンされたPDFを変換する場合、OCR技術が必要です。次にスキャンされたPDFと普通のPDFについて紹介します。

二、スキャンされたPDFと普通のPDF

PDFを作成する方法はたくさんあり、作成するデバイスやソフトによって、PDFが異なります。PDFには主に2つのタイプがあります。1つはPDF作成ソフトを使用して作成されました。もう1つはスキャナーまたは他の写真画像機器によって作成されました。

スキャンされたPDFは、Wordなどから作成された通常のPDFファイルと同じように見えますが、実際には、ファイルをスキャンすると、ファイル全体が画像として扱われます。この時、PDFのテキストをコピーできません。このようなPDFを、Wordに変換するには、プロのPDF変換ソフト（OCR付き）が必要です。
スキャンしたPDFファイルと通常のPDFファイルはどういう違いがあり、どのように区別しますか？次に区別するための3つの簡単な方法について説明します。

1、文字選択

スキャンされたPDFで、文字を選択できません。普通のPDFは任意に文字を選択できます。

2、PDFページを拡大

スキャンされたPDFを拡大すると、内容がぼやけたり、にじんで見えます。普通のPDFなら、拡大しても、きちんと見えます。

3、ファイルプロパティを確認

Adobe ReaderでPDFファイルを開き、ファイルのプロパティを確認します。スキャンされたPDFを開き、PDFが画像のみであり、編集可能なテキストコンテンツがないため、ドキュメントのプロパティにフォント情報は表示されません。通常のPDFを開き、プロパティでテキストのフォントを確認できます。

スキャンされたPDFを識別したい場合は、次のオンラインOCRサービスを使用できます。

三、フリーのOCRオンラインツール

OCRオンラインツールは高速にスキャンされたPDFや画像から文字を認識・抽出できます。ソフトをインストールせずに利用できます。同時に次のようなデメリットもあります。

OCRオンラインツールのデメリット：

文字認識精度が低い。
アップロードするファイルのサイズに制限があります。
変換速度が遅い。
情報漏えいのリスクがあります。

1、ocr.space

ocr.space はフリーのオンラインOCR変換ツールです。登録せずに利用できます。JPG、PNG、GIF、PDFなどの変換を対応します。二十以上の言語を認識できます。ファイルサイズは最大5MBまでアップロードできます。

ocr.spaceでOCR認識

2、NewOCR.com

NewOCR.comはフリーのOCR文字認識サービスを提供し、PDF以外、JPEG，JFIF，PNG，GIF，BMP，PBM，PGM，PPM，PCXなどから文字認識も可能です。出力形式はTXT、Word、PDFなどを対応します。PDFをアップロード後、認識効果をプレビューでき、ページを回転したりすることもできます。

NewOCR.comでOCR認識

3、Convertio

ConvertioはスキャンされたPDFをWord、TXT、Excel等数十種類のファイルに変換できます。パソコン、Googleドライブ、URL等からPDFをアップロードできます。言語と出力形式を選択し、変換後ファイルをダウンロードします。最大10ページを変換できます。それ以上のページを変換する場合、登録が必要です。

ConvertioでOCR認識

4、PDF2Go

PDF2Goは非常に便利なサービスです。PDFまたは画像をアップロードし、「Start」をクリックするとTXTファイルに変換されます。時間がかかる場合ありますその他の簡単な編集機能も提供されています。

PDF2GoでOCR認識

5、OCRConvert

OCRConvert.comはフリーのオンラインOCRツールです。高速にスキャンされたPDFまたは画像から文字認識できます。PDF，GIF，BMP，JPEG，PNGなどの形式を対応します。ほかのOCRオンラインツールと同じ、アップロードするPDFファイルのサイズに制限があり、ファイルサイズは最大5MBまで、一度5つのファイルのみアップロードできます。インターフェースがシンプルで、操作も簡単です。

OCRConvertでOCR認識

以上のフリーOCRオンラインツールも満足できない場合、次のPDF編集・変換ソフトRenee PDF Aideを試してみてください。

四、プロのOCR付きPDF変換ソフト

Renee PDF Aideは強力なOCR機能搭載、画像を認識し、編集可能なテキスト文書に変換できます。PDFをWord / Excel / PowerPoint / EPUB / Image / HTML / TXTなどの形式に変換でき、速度は80ページ/分に達します。

OCRモードで認識する言語を選択すると、精度を上げることができます。日本語/英語/フランス語/ドイツ語/ロシア語/イタリア語/ポルトガル語など多言語変換に対応します。インターフェースが分かりやすく、初心者も簡単に利用できます。オンラインOCRツールより、こちらのほうが安全性が高く、制限もありません。

対応OS:Windows 10/8.1/8/7/Vista/XP（32bit/64bit）

Renee PDF Aide　-　初心者向けな多機能PDFツール

使いやすい初心者も簡単に利用できます。

多機能PDF変換/暗号化/復号化/結合/透かし追加等。

安全性高いAES256暗号化アルゴリズムを使用し、PDFを保護します。

処理速度速い複数のファイルを同時に編集/変換できます。

複数形式対応 Excel/Text/PPT/EPUB/HTML/JPG等に変換可能。

多形式対応 Excel/Text/PPT/EPUB/HTML...

使いやすい初心者簡単に操作できます。

多機能PDF変換/暗号化/結合/透かし等。

無料体験無料体験 5632名のユーザー様に無料体験をしていただきました！

1、スキャンされたPDFから文字認識

操作手順：

① Renee PDF Aideをダウンロードしてインストールし、ソフトウェアを実行して、Convert PDF部分を選択します。

多機能PDFツールRenee PDF Aide

② 上部の出力形式で「Word」を選択します。

PDFをWordに変換

③「ファイル追加」ボタンをクリックし、変換するページを指定できます。「OCRを使用」にチェックを入れ、「変換」ボタンをクリックします。

PDFをWordに変換

TipsOCRモードには3つの選択があります。

A：画像又はスキャナで読み取ったPDFから文字認識：このオプションは、スキャンされたPDFファイルまたは画像の変換に適しており、OC技術を利用して、テキスト認識の精度をさらに向上させることができます。
B：埋め込みフォントの認識（文字化け回避）：このオプションは、フォーマット変換の完了後にファイル内の文字化けを回避するために、PDFソースファイルに埋め込みフォントがある状況に適用できます。
A+B（遅くなる）：プログラムは、ファイル内のフォントが画像であるかPDF埋め込みフォントであるかを自動的に認識し、変換して出力します。ただし、認識には時間がかかり、変換時間は長くなります。

2、画像から文字認識

画像から文字抽出する場合、上に「OCR」機能を選択します。

操作手順：

① Renee PDF Aideをダウンロードしてインストールし、ソフトウェアを実行して、Convert PDF部分を選択します。

多機能PDFツールRenee PDF Aide

② 上部のメニューバーでOCRを選択し、[ファイル追加]ボタンをクリックし、PDFファイルをインポートします。

ファイルを追加し、出力形式を選択

③ [OCR言語]で対応する言語を選択します。[その他言語をOCRで文字認識]ボタンをクリックして他の言語パックをダウンロードすることもできます。対応する言語パックを選択した後、[画像の向き]オプションで画像に対応する画像の方向を選択します。OCRが画像テキストをスムーズに認識できるようにするためです。

OCR言語

④ 出力場所を設定し、「開始」ボタンをクリックします。

出力場所を設定して出力

五、PDF修復・編集・最適化などの操作

Renee PDF AideはPDF変換以外、PDF編集機能もあります。例えば、PDF修復機能は破損されたPDFファイルを修復できます。サイズが大きいPDFを圧縮できます。PDFを分割したり、結合したり、表示角度を調整したり、暗号化/解析したり、透かしを追加したりすることもできます。

PDF修復

注意：Renee PDF Aideは次のような機能があります。

1、異常なPDFを修復する

ネットワーク突然中断されたなど、不適切な操作や予期しない状況でPDFファイルに損傷を与える場合があります。PDFが破損されたかを確認するには、もう一つのPDFを開いてみてください。ほかのPDFファイルは正常に開けるなら、このPDFファイルが損傷された可能性があります。

モード1：迅速な修理を提供します。
モード2：ファイルをより正確かつ深く修復すると、修復時間が長くなります。

2、PDFを圧縮する

ファイルサイズが大きいPDFファイルを開くのに、時間がかかります。この時ソフトの「最適化」機能で大きなPDFファイルを圧縮しできます。

Web読み込み速度（linearize）：この最適化オプションはWebページのPDFに適しており、最適化後の読み込みがスムーズになります。
画像を圧縮：PDFファイルの写真を圧縮します。
ストリームを圧縮：pdfファイルデータストリームを圧縮します。（PDFファイルサイズが小さくなります）

3、PDFを分割

PDFのいらないページを削除したい、または複数のPDFファイルに分割したい場合、Renee PDF Aideは役立ちます。

分割モード：

小さなPFに分割
指定したページを保持（不要なものを削除）

4、PDFを結合する

PDFファイルの結合は、複数のPDFファイルを1つのPDFに結合することです。指定したページを結合、またはすべてを直接結合することができます。

5、PDFを回転する

PDFファイルページの向きを回転させたい場合、ソフトで回転できます。

6、PDFを暗号化/解析

ソフトはPDFファイルをパスワードで保護できるため、編集、署名、印刷などの権限を制限し、重要な情報を保護できます。dt_gap height=”10″ /]
もしPDFのパスワードを忘れた場合、PDF解析機能も利用して高速にパスワードを解除できます。

7、PDFに透かしを追加する

PDFファイルが盗まれたり他人に使用されたりするのを防ぎ、ファイルの所有権を保護するために、個人用の透かしをPDFに追加できます。Renee PDF Aideでは、前景の透かしまたは背景の透かしをPDFファイルに追加できます。透かしは画像またはPDFファイルにすることができます。

8、画像からPDFに変換

画像を一つのPDFにまたは複数のPDFに変換・結合する機能もあります。

1つのPDFファイルに結合する：すべての画像を一つのPDFファイルに結合します。
1つの画像が1つのPDFファイル：1つの画像が1つのPDFファイルに変換します。