伝統鍼灸学会の学術誌をすべてテキストファイルに変換するという事業、視覚障害者のためが発想の基本でしたが、データベースに仕上げてしまうと今後の活用範囲が広がるということで任されています。
それで40周年での記念CDデータを貰って調べると、23合以降はテキストファイルが付属しており、78合以降は手元にはありませんが印刷所には残っているはずなので22合までをテキスト化すればいいことになりました。
ところが、画像処理しかしていないPDFから文字を取り出すにはOCRが必要で、調べていくとこれが大変。幸いにも娘から戻ってきたパソコンにアクロバットプロが入っていて、何度かチャレンジしてもらってテキストデータを取り出すことに成功。
立命館大学のライセンスで動かせているソフトですけど、学費は支払っているので少しだけこちらでも使わせてもらっています。本当にラッキーでした。ただ、OCRのことですからご認識がかなりあり、手作業できれいなデータに加工していかねばならないです。