PDFをOCRで読み取る。

PDFと言えば、今やスタンダードと言っても良い配布に適したファイルフォーマットであるが、資料を保管するのにも適する。客先の研究所等からコピーさせて貰った学会や参考書などの資料をスキャナで画像として保存すると1ページ1ファイルとなり宜しくない。よってPDFで1ファイルにまとめてしまう。資料と言うものは、単に持っているだけでは駄目なのでで、重要なものに関しては他の資料と共に自分で勉強してまとめるのだが、当然元が画像情報なので、普通のPDFファイルみたいに、文字をコピー出来ない。よって今までは手打ちで文字を打ち込んでいたのだが、時間がかかるのが難点だった。
手打ち以外で文字入力する方法は、音声入力も考えた。だが漢字変換等の手間も有る。そこでOCRはどうだろうと調べてみた。OCRはかれこれ10年ほど前の話になるが、大学のゼミにおいて、英文を翻訳する宿題で、翻訳ソフトに入力する為に試した事があって、OCRの能力に否定的なイメージが有る。だがしかし、この何年かで精度も当然向上しているであろう。使い物になる精度であれば、かなり楽になる。よって調べて探してある1つのソフトを見つけ、試行版を入れてみた。そうしたらもう、凄いの一言。なんでもっと早く試さなかったのだろうかと思う。