プロジェクト概要
歴史的な紙面や旧字体資料は、文字種の多様さや紙面劣化の影響により、一般的なOCRでは安定して扱いにくい領域です。SCIENは、紙面状態ごとに認識可能性を見極めながら、どの範囲をAIで扱い、どこに補助的な人手を残すかまで含めた実装方針を検討しました。
紙面状態に応じた認識方針
比較的読みやすい紙面では高精度な認識が可能である一方、崩し字や劣化が進んだ紙面では前処理や確認プロセスが重要になります。そこで、紙面の状態を前提に、認識フローを複数パターンに分けて整理しました。
関与範囲と検証観点
単にOCRの精度だけを見るのではなく、紙面の保存状態、文字の崩れ、版面構成、後続の検索・活用方法までを踏まえて、デジタル化の全体設計を検討しました。資料資産として再利用できることを重視した構想です。
- 旧字体を含む紙面のOCR適用可能性検証
- 紙面状態ごとの前処理論点整理
- 版面情報を含む文書構造化の検討
- 検索・アーカイブ活用を見据えた実装方針整理
読みやすい紙面での高精度認識
比較的状態のよい紙面については、旧字体を含んでいても高い認識精度が期待できることを確認しました。これにより、全件を人手で入力するのではなく、資料の状態に応じてAI適用範囲を広げる方向性を描いています。
崩れ・劣化を踏まえた前処理設計
一方で、字形の崩れや紙面劣化が進んだ資料では、単純なOCR適用だけでは不十分です。画像前処理や版面の切り出し、後段の確認フローを組み合わせることで、実務上使える認識基盤へ近づける設計を検討しました。
本プロジェクトにおける価値
旧字体という難易度の高い対象に対して、AI適用の可能性と限界を紙面状態ごとに整理した点が本プロジェクトの価値です。アーカイブのデジタル化を無理なく進めるための、現実的な導入ステップを描きました。