自前で本の電子データ化を行うことですよ?
まあ、この用語を知ったのは、つい数日前だけど・・・
というわけで、その筋ではデファクトスタンダードといわれている、Fujitsu ScanSnap S1500(カラースキャナ) と PLUS PK-513L(手動断裁機)を購入して自炊ライフを満喫することになった。
まあ、いずれこうなる運命。6畳の狭い部屋だというのに、大小 400冊を超える本が押入れを占拠し、それほど遠くない未来には、生活スペースを侵略し始めるに違いないからで、さらに、年を食うごとに物忘れが酷くなり、読んだ本の内容が、頭に納まりきらない有様。
「はて?あのフレーズが書いてあった本は、なんだったかいのう?」などなど・・・
であるからして、「欲しい」のではなく、「必要」だったのです。
・・・言い訳はこれぐらいにして、本題に。
■ 環境
Windows Vista Business 64bit SP2
AMD Phenom II X4 955 3.20GHz
メモリ 8GB
Fujitsu ScanSnap S1500(カラースキャナ)
PLUS PK-513L(手動断裁機)
Adobe Acrobat 9.4.1 Standard(バンドル版)
GIMP 2.6.11
■ 目標と野望
目標は、「本を電子データ化し、検索可能にすること」。
野望は、「クラウド上に、電子データ管理システムを構築し、どの端末からでもデータの同期と検索ができる環境を構築すること」。
■ 問題と課題
実際に、数種類の本を取り込んでみた結果、以下の問題点が判明した。
- OCR の文字認識率が思ったほどよくない。
- 取り込み時のノイズが、PDF を圧縮したときに顕著に現れる。
- 画質が「エクセレント(カラー 600 dpi)」の場合は、取り込み速度が半分以下になる。
- 「原稿の向きを自動的に補正します」を有効にすると、あらぬ方向に回転してることがある。
- 「文字をくっきりします」は、OCR の認識率を下げるらしい。
- 「白紙ページを自動的に削除します」は、白紙もページに数えられているときに困る。
現時点での課題は・・・
- OCR の読み取り精度を向上させる。
- 将来に再処理できるように原本を残す。
- 処理の手間を低減する。
■ 方針と対策
問題と課題を踏まえた上で、以下のような方針を立てた。
- 取り込み時の設定を見直す。
- 取り込み後の画像にフィルタ処理をおこなう。フィルタ処理は、自動化する。
- 原本を保存する。
- OCR 用の PDF を作成する。
上記の方針を踏まえ、以下の対策を実施した。
1.ScanSnap の設定
【読み取りモード】
「画質の選択」:スーパーファイン(300 dpi)
「カラーモード」:カラー
「継続読み取りを有効にする」
【読み取りモードオプション】
「文字列の傾きを自動的に補正します」だけを有効にする
【ファイル形式】
ファイル形式の選択:JPEG(*.jpg)
【ファイルサイズ】
圧縮率: 1 (ファイルサイズ大)
2.フィルタ処理
フィルタ処理には、GIMP を利用する。
フィルタ処理は、Script-Fu 言語とバッチファイルで自動実行スクリプト化する。
フィルタは、閲覧用(カラー)、閲覧用(モノトーン)および OCR 用(二値化)を作成する。
3.原本の保存
取り込んだ JPEG ファイルは、7z 形式で圧縮を行う。
4.PDF ファイルの作成
PDF ファイルは、フィルタ処理後の JPEG ファイルを「サポートしているファイルを Acrobat で結合」などを使用して作成する。
作成後の PDF ファイルは、Adobe Acrobat 「文書」メニュー ー> 「ファイルサイズを縮小」で「互換性を確保」を”Acrobat 9.0 およびそれ以降”を実行して、圧縮する。ここら辺は、Acrobat 7.0 ぐらいがいいのかもしれないが、あえて Acrobat 9.0 としてみる。
以上ざっくり書いたが、次回以降でスクリプトファイルの内容をまとめることにする。