絶対領域(AbsoluteArea)の徒然: 【悠々自炊ライフ】自炊始めました！（その１）

自炊といっても、食べるほうじゃないですよ？
自前で本の電子データ化を行うことですよ？

まあ、この用語を知ったのは、つい数日前だけど・・・

というわけで、その筋ではデファクトスタンダードといわれている、Fujitsu ScanSnap S1500（カラースキャナ）と PLUS PK-513L（手動断裁機）を購入して自炊ライフを満喫することになった。

まあ、いずれこうなる運命。６畳の狭い部屋だというのに、大小４００冊を超える本が押入れを占拠し、それほど遠くない未来には、生活スペースを侵略し始めるに違いないからで、さらに、年を食うごとに物忘れが酷くなり、読んだ本の内容が、頭に納まりきらない有様。
「はて？あのフレーズが書いてあった本は、なんだったかいのう？」などなど・・・

であるからして、「欲しい」のではなく、「必要」だったのです。

・・・言い訳はこれぐらいにして、本題に。

■ 環境
Windows Vista Business 64bit SP2
AMD Phenom II X4 955 3.20GHz
メモリ 8GB
Fujitsu ScanSnap S1500（カラースキャナ）
PLUS PK-513L（手動断裁機）
Adobe Acrobat 9.4.1 Standard（バンドル版）
GIMP 2.6.11

■ 目標と野望
目標は、「本を電子データ化し、検索可能にすること」。
野望は、「クラウド上に、電子データ管理システムを構築し、どの端末からでもデータの同期と検索ができる環境を構築すること」。

■ 問題と課題
実際に、数種類の本を取り込んでみた結果、以下の問題点が判明した。

OCR の文字認識率が思ったほどよくない。
取り込み時のノイズが、PDF を圧縮したときに顕著に現れる。
画質が「エクセレント（カラー 600 dpi）」の場合は、取り込み速度が半分以下になる。
「原稿の向きを自動的に補正します」を有効にすると、あらぬ方向に回転してることがある。
「文字をくっきりします」は、OCR の認識率を下げるらしい。
「白紙ページを自動的に削除します」は、白紙もページに数えられているときに困る。

現時点での課題は・・・

OCR の読み取り精度を向上させる。
将来に再処理できるように原本を残す。
処理の手間を低減する。

■ 方針と対策
問題と課題を踏まえた上で、以下のような方針を立てた。

取り込み時の設定を見直す。
取り込み後の画像にフィルタ処理をおこなう。フィルタ処理は、自動化する。
原本を保存する。
OCR 用の PDF を作成する。

上記の方針を踏まえ、以下の対策を実施した。

１．ScanSnap の設定

【読み取りモード】
「画質の選択」：スーパーファイン（300 dpi）
「カラーモード」：カラー
「継続読み取りを有効にする」
【読み取りモードオプション】
「文字列の傾きを自動的に補正します」だけを有効にする

【ファイル形式】
ファイル形式の選択：JPEG(*.jpg)

【ファイルサイズ】
圧縮率： 1 （ファイルサイズ大）

２．フィルタ処理
フィルタ処理には、GIMP を利用する。
フィルタ処理は、Script-Fu 言語とバッチファイルで自動実行スクリプト化する。
フィルタは、閲覧用（カラー）、閲覧用（モノトーン）および OCR 用（二値化）を作成する。

３．原本の保存
取り込んだ JPEG ファイルは、7z 形式で圧縮を行う。

４．PDF ファイルの作成
PDF ファイルは、フィルタ処理後の JPEG ファイルを「サポートしているファイルを Acrobat で結合」などを使用して作成する。
作成後の PDF ファイルは、Adobe Acrobat 「文書」メニューー＞「ファイルサイズを縮小」で「互換性を確保」を”Acrobat 9.0 およびそれ以降”を実行して、圧縮する。ここら辺は、Acrobat 7.0 ぐらいがいいのかもしれないが、あえて Acrobat 9.0 としてみる。

以上ざっくり書いたが、次回以降でスクリプトファイルの内容をまとめることにする。

2011年1月4日火曜日

【悠々自炊ライフ】自炊始めました！（その１）