それからパソコンに時間がかかっていたので、伝統鍼灸学会の初期のテキストデータがないPDFファイルを強引に読み取らすのに、AIのジェミニでも試していたものの結果判定をしました。
結論として、まだまだ日本語のOCRでは細かな解析までしてくれないのでゴミ文字も多く、認識率からしてもアクロバットプロのOCR機能が上でした。それでも、修正作業は恐ろしく大変ですが…。
朗報なのは、アクロバットプロのような高額で自力では使えないソフトに頼らなくても、小さなサイズのPDFなら無料のAIにテキスト化してもらうだけで十分に読めてしまえるのがわかったこと。テキストデータを含んだPDFファイルになるのでまだひと手間はありますが、30年近かった壁が乗り越えられた手応えです。