On Sociology
A casual record of myself
April 7, 2018
いきなりpdfを使った要素抽出
作業フローとしては以下の通り
(必要な書類を裁断する)
・ScanSnapなどでスキャン(この時点で全ての文書にOCRを適用)
・必要な箇所をいきなりpdfでトリミング
・保存したpdfを「抽出」にかける
・スキャンできたものはtxtで出力されるが、OCRがかかっていないものについてはpngでのみ出力されるので注意
No comments:
Post a Comment
Newer Post
Older Post
Home
No comments:
Post a Comment