PDFのOCR処理

 伝統鍼灸学会の学術誌をすべてテキストファイルで保存するプロジェクトを進めているのですが、23合以降はテキストファイルが存在していたので22合までを拾い出してくればいいことにはなりました。
 何度かアクロバットリーダーには食わせたのですが、全く反応がない状態。エッジでは一部読み込めるところがありクロームだともう少し読めているのですが、テキストデータが取り出せない上にゴミ文字だらけでこれは無理。
 OCRツールの購入か専門業者で処理してもらうことも視野に入れつつ、娘から戻してもらったパソコンでちょっと試そうということになったならアクロバットDCが入っている。OCR機能を内蔵しているので、本日は途中で停止してエラーだったので成功していませんが、テキストデータで使えるレベルのものが出来上がったならラッキーです。