2011年1月4日火曜日

【悠々自炊ライフ】自炊始めました!(その1)

自炊といっても、食べるほうじゃないですよ?
自前で本の電子データ化を行うことですよ?

まあ、この用語を知ったのは、つい数日前だけど・・・

というわけで、その筋ではデファクトスタンダードといわれている、Fujitsu ScanSnap S1500(カラースキャナ) と PLUS PK-513L(手動断裁機)を購入して自炊ライフを満喫することになった。

まあ、いずれこうなる運命。6畳の狭い部屋だというのに、大小 400冊を超える本が押入れを占拠し、それほど遠くない未来には、生活スペースを侵略し始めるに違いないからで、さらに、年を食うごとに物忘れが酷くなり、読んだ本の内容が、頭に納まりきらない有様。
「はて?あのフレーズが書いてあった本は、なんだったかいのう?」などなど・・・

であるからして、「欲しい」のではなく、「必要」だったのです。



・・・言い訳はこれぐらいにして、本題に。

■ 環境
Windows Vista Business 64bit SP2
AMD Phenom II X4 955 3.20GHz
メモリ 8GB
Fujitsu ScanSnap S1500(カラースキャナ)
PLUS PK-513L(手動断裁機)
Adobe Acrobat 9.4.1 Standard(バンドル版)
GIMP 2.6.11


■ 目標と野望
目標は、「本を電子データ化し、検索可能にすること」。
野望は、「クラウド上に、電子データ管理システムを構築し、どの端末からでもデータの同期と検索ができる環境を構築すること」。


■ 問題と課題
実際に、数種類の本を取り込んでみた結果、以下の問題点が判明した。
  • OCR の文字認識率が思ったほどよくない。
  • 取り込み時のノイズが、PDF を圧縮したときに顕著に現れる。
  • 画質が「エクセレント(カラー 600 dpi)」の場合は、取り込み速度が半分以下になる。
  • 「原稿の向きを自動的に補正します」を有効にすると、あらぬ方向に回転してることがある。
  • 「文字をくっきりします」は、OCR の認識率を下げるらしい。
  • 「白紙ページを自動的に削除します」は、白紙もページに数えられているときに困る。

現時点での課題は・・・
  • OCR の読み取り精度を向上させる。
  • 将来に再処理できるように原本を残す。
  • 処理の手間を低減する。


■ 方針と対策
問題と課題を踏まえた上で、以下のような方針を立てた。

  1. 取り込み時の設定を見直す。
  2. 取り込み後の画像にフィルタ処理をおこなう。フィルタ処理は、自動化する。
  3. 原本を保存する。
  4. OCR 用の PDF を作成する。

 上記の方針を踏まえ、以下の対策を実施した。

1.ScanSnap の設定

【読み取りモード】
「画質の選択」:スーパーファイン(300 dpi)
「カラーモード」:カラー
「継続読み取りを有効にする」
【読み取りモードオプション】
「文字列の傾きを自動的に補正します」だけを有効にする

【ファイル形式】
ファイル形式の選択:JPEG(*.jpg)

【ファイルサイズ】
圧縮率: 1 (ファイルサイズ大)


2.フィルタ処理
フィルタ処理には、GIMP を利用する。
フィルタ処理は、Script-Fu 言語とバッチファイルで自動実行スクリプト化する。
フィルタは、閲覧用(カラー)、閲覧用(モノトーン)および OCR 用(二値化)を作成する。


3.原本の保存
取り込んだ JPEG ファイルは、7z 形式で圧縮を行う。


4.PDF ファイルの作成
PDF ファイルは、フィルタ処理後の JPEG ファイルを「サポートしているファイルを Acrobat で結合」などを使用して作成する。
作成後の PDF ファイルは、Adobe Acrobat 「文書」メニュー ー> 「ファイルサイズを縮小」で「互換性を確保」を”Acrobat 9.0 およびそれ以降”を実行して、圧縮する。ここら辺は、Acrobat 7.0 ぐらいがいいのかもしれないが、あえて Acrobat 9.0 としてみる。


以上ざっくり書いたが、次回以降でスクリプトファイルの内容をまとめることにする。