光学式文字認識(OCR)とは何ですか?

光学式文字認識(Optical Character Recognition:OCR)は、手動で入力または入力することなくコンピュータが読むことができる、印刷、タイプ、または手書きのドキュメントのデジタルバージョンを作成するソフトウェアを指します。 OCRは、一般に、 PDF形式のスキャン文書で使用されますが、イメージファイル内にテキストのコンピュータ判読可能なバージョンを作成することもできます。

OCRとは何ですか?

文字認識とも呼ばれるOCRは、数字や文字、句読点(グリフとも呼ばれる)などの文字を、印刷された書類からコンピューターや他のソフトウェアプログラムによって容易に認識され、読み取られる電子形式に変換するソフトウェア技術です。 一部のOCRプログラムは、文書をデジタルカメラでスキャンまたは撮影したときにこれを行い、他の人は、OCRなしで以前にスキャンまたは撮影した文書にこのプロセスを適用することができます。 OCRを使用すると、ユーザーはPDF文書内で検索し、テキストを編集し、文書を再フォーマットできます。

OCRとは何ですか?

迅速かつ毎日のスキャンニーズのために、OCRは大したことではないかもしれません。 大量のスキャンを行う場合、必要なものを正確に見つけるためにPDF内を検索できるため、かなりの時間を節約でき、スキャナプログラムのOCR機能が重要になります。 OCRが役立ついくつかの他の事柄は次のとおりです。

なぜOCRを使うのですか?

なぜ写真を撮るだけではないのですか? 何かを編集したり、テキストだけを検索することはできません。なぜなら、それは単にイメージにすぎないからです。 ドキュメントをスキャンしてOCRソフトウェアを実行すると、そのファイルを編集して検索できるようにすることができます。

OCRの歴史

1914年までのテキスト認識の使用をいち早く利用してきたが、OCR関連の技術の広範な開発と使用は、1950年代に始まった。特に、デジタル化が容易なテキストへの変換が容易な非常に単純化されたフォントの作成が始まった。 これらの簡略化されたフォントの最初はDavid Shepardによって作成され、一般にOCR-7Bとして知られています。 OCR-7Bは、クレジットカードやデビットカードで使用されている標準フォントの金融業界で現在でも使用されています。 1960年代には、いくつかの国の郵便サービスが、OCR技術を使用して、米国、英国、カナダ、ドイツを含む郵便物の分類を大幅にスピードアップし始めました。 OCRは依然として世界中の郵便サービスのためにメールを分類するために使用されるコア技術です。 2000年には、ボットやスパマーを止めるCAPTCHAプログラムを開発するために、OCR技術の限界と能力に関する重要な知識が使用されました。

数十年にわたり、 人工知能機械学習 、コンピュータビジョンなどの関連技術分野の進歩により、OCRはより正確で洗練されたものになりました。 今日、OCRソフトウェアは、パターン認識、フィーチャ検出、およびテキストマイニングを使用して、以前よりも迅速かつ正確に文書を変換します。