April 7, 2018

いきなりpdfを使った要素抽出

作業フローとしては以下の通り
(必要な書類を裁断する)
・ScanSnapなどでスキャン(この時点で全ての文書にOCRを適用)
・必要な箇所をいきなりpdfでトリミング
・保存したpdfを「抽出」にかける
・スキャンできたものはtxtで出力されるが、OCRがかかっていないものについてはpngでのみ出力されるので注意

No comments:

Post a Comment