[ScanSpan]　本の電子化まとめ

no link

2010年03月30日 17:59:17

　今年の1月から3月にかけて、ScanSnapと断裁機を使って、本の電子化を行いました。

　スキャンしたページ数は18万7174ページ。電子化した本や冊子、書類などの点数は900点です。

　1点あたりのページ数は208ページなので、ほぼ900冊の本をスキャンしたと言ってよいでしょう。

　かけた日数は48日。仕事をしながらの作業でしたので、正確には何時間か分かりません。

　この作業ですが、最初の頃と最後の頃では、その効率が圧倒的に違っていました。

　そこで、この経験を通して、最短で作業を進められる方法を、マニュアル化しておこうと思います。

　同じように本の電子化をする人が、一から方法を模索するのは馬鹿らしいですので。

　今回の一件を、マンガでも書きました。そちらは下記を参考にしてください。

□創活ノート第14話「本の電子化」
https://codezine.jp/article/detail/4963

● 用意する道具

　用意する道具ですが、以下のものを準備しました。最初の2つだけ購入しています。残りは、部屋にあったものを、そのまま利用しています。

・ドキュメント・スキャナ「FUJITSU ScanSnap S1500 FI-S1500」（Amazon価格：¥37,300）

FUJITSU ScanSnap S1500 FI-S1500

・手動断裁機「プラス断裁機裁断幅A4 PK-513L 26-106」（Amazon価格：¥31,730）

プラス断裁機裁断幅A4 PK-513L 26-106

・ディスク・カッター「ディスクカッター・ライト DC-100」（Amazon価格：¥2,436）

ディスクカッター・ライト DC-100

・カッター「L型カッター L-550P L-550P」（Amazon価格：¥326）

L型カッター L-550P L-550P

・カッター台

・金定規

● 道具についての解説1

○ ドキュメント・スキャナ

　これがないと始まりません。本をスキャンして電子化してくれます。使い方や設定の詳細は後述します。

○ 手動断裁機

　高価なものを買いましたが、中国製の安いものでも十分だと思います。少々斜めに裁断されても、ScanSnapで補正されますので。

　あと、手動断裁機は、替えの刃が高価です。替えの刃の値段（15,000円）だけで、中国製の安い断裁機が買えます。そういう意味でも、安いもので済ましてもよいと思います。

○ ディスク・カッター

　表紙をカットするのに使いました。普通のカッターで代用しても構いません。家にあったので、便利に使いました。

○ カッター

　割と大きめの物を使っています。なぜならば、カッターは背表紙の解体用に使うからです。なので、小さいカッターだと怪我をします。大きめの、しっかりと握れるカッターがよいです。

○ カッター台

　上述の、背表紙の解体の時に利用します。

○ 金定規

　上述の、背表紙の解体の時に利用します。

　ただし、慣れてくると、定規なしで、背表紙をきれいに解体できるようになるので、なくてもよいです。

● 道具についての解説2

　本の電子化の記事でよく紹介されているけど、実際には使わなかったものです。

○ グルーガン

　熱で接着剤を溶かして、背表紙をはがしやすくするためのものです。なくても困りません。

　本のページの横幅を揃えたいという几帳面な人は、あった方がよいかもしれません。でも、電子化すると、そういったことは気にならないので必要ないです。

　また、解体した本を再度修復するつもりがあれば必要だと思います。そういった目的がなければ、この道具は必要ありません。

● 本の解体の仕方1（文庫、平綴じ本）

　本は、効率よく、かつ、スキャンしやすいように解体するのがポイントです。

　以下、その手順を書きます。本の中のハガキや広告は、あらかじめ除いておいてください。

１．表紙を取ります。

２．表紙を、表表紙と背表紙の間で、ディスクカッターでカットします。大型の本は、表紙の耳の部分もディスクカッターでカットします。

３【本の分割】．本の厚さが、断裁機を通らない場合は、以下の方法で本を分割します。

３−１．床にカッター台を置きます。

３−２．本を割って開きます。

３−３．割ったページの間にカッターの刃を置き、軽く何度か上下させます。この時、強く上下させると、滑って関係ない場所を切るので注意が必要です。

３−４．紐がある場合は、背表紙側に引っ張って、取り除きます。（そのまま残すと、細かな糸くずになり、スキャナの内部に散らばってしまいます）

４．本を、断裁機で、背表紙側を数ミリ裁断します。

５【ページの確認作業】．ページが正しく断裁されているかの確認作業を行います。

５−１．切った側とは逆の位置を持ち、扇状に紙を広げます。

５−２．変なしなり方をしている場所があれば、糊でページがくっついているので、ページとページを手で切り離します。

５−３．扇状になった場所の上を指でなぞり、硬い部分があれば、糊でページがくっついているので、ページとページを手で切り離します。

５−４．何度かこの作業を行い、くっついている部分がなければ確認作業終了です。

５−５．大切な本の場合は、指で1枚ずつ分離して、きちんと離れているか確認します。

○ 【本の分割】についての補足

　最初のうちは、金定規を当てた方がよいと思います。慣れれば、金定規なしでも、簡単に切り離せるようになります。

　また、本によっては、数ページずつ中綴じされていて、それが糊でくっついています。そのため、開くページによって、切り離しやすさが違います。

　本にもよりますが、糊が少ない場合は、糊だけでくっついているページの境目を狙うと切りやすいです。逆に糊が多い場合は、そこは避けた方がよいです。

　どちらにしろ、あまり強くカッターを動かさないのがコツです。

○ 【ページの確認作業】についての補足

　ScanSnapの「紙を引き込む力」は強いため、ページがくっついていると、薄い紙はぐちゃぐちゃになります。

　そうしないためには、「糊がくっついていない場所を狙って切ればよい」ということになりますが、そうは簡単にいきません。

　本によって、製本のきれいさが違います。糊が大量にはみ出している本もあるので、注意が必要です。

　また、本の中央ぎりぎりまで情報が書いてあったりします。

　そのため、ケース・バイ・ケースで対応していく必要があります。

　白黒の本なら、紙がぐちゃぐちゃになっても、ScanSnapのソフトウェア側で、折れ目を消してくれます。しかし、カラーではそうはいきません。ここは、解体作業で、気を使うところです。

● 本の解体の仕方2（ハードカバーの単行本）

　厚紙の表紙と背表紙が付いているハードカバーの単行本の場合は、【本の分割】の作業が若干違います。

　以下、その方法を解説します。３以外の部分は、基本的に同じなので、省略します。

３【本の分割】．ハードカバーの単行本は、以下の方法で本を分割します。

３−１．表表紙の厚紙の根元を、カッターで切って取り除きます。

３−２．裏表紙の厚紙の根元を、カッターで切って取り除きます。

３−３．背表紙が手で引っ張って取れるようになるので、引っ張って取り除きます。

３−４．紐がある場合は、背表紙側に引っ張って、取り除きます。（そのまま残すと、細かな糸くずになり、スキャナの内部に散らばってしまいます）

３−５．床にカッター台を置きます。

３−６．表紙側から2ミリほどの位置で、本を割って開きます。

３−７．割ったページの間にカッターの刃を置き、軽く何度か上下させます。この時、強く上下させると、滑って関係ない場所を切るので注意してください。

３−８．切り取った部分は斜めになっているので、綴じ部分を指で逆にひねって真っ直ぐにします。

３−９．裏表紙側から2ミリほどの位置で、本を割って開きます。

３−１０．割ったページの間にカッターの刃を置き、軽く何度か上下させます。この時、強く上下させると、滑って関係ない場所を切るので注意が必要です。

３−１１．切り取った部分は斜めになっているので、綴じ部分を指で逆にひねって真っ直ぐにします。

３−１２．残った部分を、何回かに分けて分割します。

　６〜１１は、分かり難いと思いますので、補足説明を加えます。

　ハードカバーの本の断面は、「（」のように弧を描いています。この弧は、詳しく見ると、以下のような曲線になっています。

／
/
|
|
\
＼

　真ん中の方が平らで、端に行くほど反りが大きくなっています。なので、端の方だけ、薄く分割します。

／
--------<2mm程度で分割>
/
|
|
\
--------<2mm程度で分割>
＼

　そして、切り離した薄い部分を指で逆向きにひねって、真っ直ぐに矯正します。

|←平らにする
--------<分割>
/
|
|
\
--------<分割>
|←平らにする

　これで、断裁機で綺麗に切れるようになります。そして、ScanSnapでも綺麗に取り込めるようになります。

● 断裁機を使う上での注意

　断裁機を使う上で、私が失敗したことを書いておきます。

　断裁機は、紙は切れますが、金属には弱いです。本にホッチキスなどがあり、その部分を誤って切ってしまうと刃が欠けます。

　中綴じの本は、ホッチキスがあることが分かりやすいので、気をつければ避けられますが、平綴じの本で、針金で綴じられている場合は、見落として失敗してしまいます。

　具体的には、以下のような構造です。太線の部分に、針金が入っています。

┌┰────
└┸────

　こういった本は、教科書などに多いです。見落とさないように、気をつけてください。

　さて、誤って刃をかけさせてしまった場合ですが、一応本は切れます。

　ただし、下の方の数ページが切れなかったりします。その場合は、本の下に新聞紙を敷いて、底上げをして裁断するとよいです。

　またその際、毎回新聞紙を切る必要はないです。新聞紙をセロテープで固定しておき、その上に本を置けばよいです。それだけで、綺麗に切れるようになります。

● 本の解体補足

　本は、10〜20冊ほど解体して、ストックを作っておいて、スキャン作業を行いました。

　あまり大量に解体しておくと、山が崩れた時に、ページの順番を修復できなくなりますので。

　また、籠の中に入れて、崩れにくいようにしておきました。

● スキャン前の設定

　さて、本の解体の説明が終わったので、次はスキャンの説明です。

　スキャンは、ScanSnapを使います。取り込んだファイルは自動でPDF化してくれます。そして、OCRもしてくれます。

　ただし、OCRは時間がかかります。このOCRは、後でまとめて行うこともできるので、寝ている間に行うとよいです。無駄な時間は極力省いた方がよいです。

　また、本の種類によって、選ぶ設定が若干異なります。ScanSnapでは、10個までの設定を登録できますので、予め以下の設定を登録しておき、用途に応じて選択するとよいです。

　設定ウィンドウは、タスクトレイにある「青丸にＳ」のアイコンをダブルクリックすると表示されます。

　作製した設定は、設定ウィンドウの［読み取り設定］のメニュー内から、登録・管理することができます。

　それでは、以下、私が用途に応じて作製した設定です。

○ ０．共通部分

　全部の設定に共通する部分です。各設定は、共通しない部分だけを書いていきます。

・アプリ選択
　　アプリケーションの選択：指定したフォルダに保存
・保存先
　　イメージの保存先：〜\scan（パスは任意に設定してください）
　　ファイル名の設定：「日付を使用します」
・読み取りモード
　　読み取り面の選択：両面読み取り
・ファイル形式
　　ファイル形式の選択：PDF
　　テキスト認識の選択：「検索可能なPDFにします」をOFF
・原稿
　　原稿サイズの選択：サイズ自動検出
　　マルチフィード検出：重なりで検出（超音波）
・ファイルサイズ
　　圧縮率：3

○ １．グレー文

　文字中心の書籍用の設定です。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：グレー
　　オプション
　　　　「文字をくっきしりします」をON
　　　　「文字列の傾きを自動的に補正します」をON
　　　　その他は全てOFF

○ ２．グレー文（傾き補正なし）

　「グレー文」から、「文字列の傾きを自動的に補正します」を解除しています。これは、図版が入っている本用の設定です。

　図版が入っていると、その図に引きずられて、傾き補正で、ページが変な方向に曲がったりするためです。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：グレー
　　オプション
　　　　「文字をくっきしりします」をON
　　　　その他は全てOFF

○ ３．グレー絵（傾き補正なし）

　「グレー文」から、さらに「文字をくっきしりします」を解除しています。これは、写真中心の本用の設定です。

　写真が多い場合、「文字をくっきしりします」をONにしていると、写真が黒くなりすぎるので、その対策です。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：グレー
　　オプション
　　　　その他は全てOFF

○ ４．カラー絵（傾き補正なし）

　「グレー絵（傾き補正なし）」のカラー版です。

　カラー本は、だいたい図版中心なので、「文字列の傾きを自動的に補正します」はOFFにしています。

　この設定では、通常の本より、若干色が薄くなりますが、あまり気にしないようにしています。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：カラー
　　オプション
　　　　その他は全てOFF

○ ５．カラー文

　「グレー文」のカラー版です。

　参考書などに多い、文字の一部が色つきになっている本向けの設定です。「カラー絵」と違い、「文字をくっきしりします」をONにしています。

　この設定では、実際の色とは違い、色身が強調されますが、図版が多くなければ気になりません。文字優先で読みやすくしたい場合の設定です。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：カラー
　　オプション
　　　　「文字をくっきしりします」をON
　　　　「文字列の傾きを自動的に補正します」をON
　　　　その他は全てOFF

○ ６．カラー文（傾き補正なし）

　「カラー文」から、「文字列の傾きを自動的に補正します」をOFFにしたものです。

　図版の多い参考書などに使います。

・読み取りモード
　　画質の選択：スーパーファイン（カラー／グレー：300dpi）
　　カラーモードの選択：カラー
　　オプション
　　　　「文字をくっきしりします」をON
　　　　その他は全てOFF

○ ７．マンガ

　マンガ用の設定です。スクリーントーンを潰さずに取り込むために、600dpiにしています。また、マンガの線に引きずられないように、「文字列の傾きを自動的に補正します」をOFFにしています。

　絵の資料ではなく、話だけ分かればよいマンガは「グレー文（傾き補正なし）」で取り込んでいます。

・読み取りモード
　　画質の選択：エクセレント（カラー／グレー：600dpi）
　　カラーモードの選択：グレー
　　オプション
　　　　「文字をくっきしりします」をON
　　　　その他は全てOFF

　設定は以上です。これらの設定を、用途によって切り換えて使用していきます。

● スキャンの設定の切り替え

　タスクトレイにある「青丸にＳ」のアイコンを左クリックすれば切り替えられます。

● 表紙のスキャンについて

　スキャンしたページは、後でAcrobatで向きを変更できます。なので、表紙は、縦向きでも横向きでも構わずスキャンしてください。

　最初の頃は、表紙だけフラット・スキャナでスキャンして、あとで結合していましたが、表紙もScanSnapで取り込んだ方が早いし便利です。これは、後悔しています。

● スキャナの掃除

　ScanSnapは、かなり頻繁に掃除しなければなりません。なぜならば、細かな紙くずが、すぐに内部に充満するからです。

　本体は、簡単に蓋を開けて掃除できるようになっています。

　掃除は、眼鏡拭きがあるとよいです。また、眼鏡拭きでなくても、目が細かく、ガラス（スキャン面）を傷付けないものなら、何でもよいです。

　液体系で拭くのは避けた方がよいです。内部には、電子部品とともに、ゴムの部品もあります。水もエタノールも避けた方が無難です。

　また、スキャン面のガラス窓に、本の糊が付着することがあります。その場合は、ゴシゴシとこすって取り除いてください。そのままにしていると、全ての画像に縦線が入ります。

● カラー画像取り込み時の注意

　ScanSnapは、グレーでの本の取り込みは、ほとんど無敵に近いです。ただ取り込むだけでなく、紙焼けを消したり、折れ目を消したりもしてくれます。エラーもほとんどないです。

　しかしこのScanSnapも、カラーの取り込みには弱いです。

　特に、光沢紙の取り込みには弱く、静電気のせいか、スキャン面にゴミが付きやすく、スキャン後の画像に縦線が入りやすいです。

　カラー画像を取り込む場合は、10ページずつぐらいにして、スキャン後に頻繁に確認して、必要に応じて内部の掃除をするようにしなければなりません。

　特に、黒背景のページでは、ほぼ何らかのエラーが出ると思っていた方がよいです。

● スキャナの上と下の特性の違い

　両面同時にスキャンしてくれるScanSnapには、上側と下側に2つのスキャン窓が付いています。

　この2つのスキャナには、実は精度に違いがあります。これは、電子的な性能の違いではなく、構造的な問題です。

　紙をカーブさせながら取り込みスキャンするため、紙がスキャナの間を通るときの角度が、上と下では若干違います。

　そのため、黒背景のカラー画像の時に、下側のスキャナでは紙の端が白くぼける現象が発生します。

　黒背景のページをスキャンする場合は、上側のスキャナを使うようにした方がよいです。

　では、具体的な作業をどうするかと言うと、表から1回、裏から1回スキャンしておき、あとでAcrobatで合成するのがよいです。

　Acrobatでは、各ページやファイルを、ドラッグ＆ドロップで編集することができます。

● 分割してスキャンした本の結合

　ScanSnapには、Adobe Acrobatが同梱されています。このAcrobatを使って、ドラッグ＆ドロップで簡単に編集を行うことができます。

　とりあえずガンガンスキャンしておき、1冊分取り込んだ時点で結合して、本のタイトルをファイル名にするとよいです。

　スキャンには、エラーがたまにありますので、1冊ごとに確認しておいた方がよいです。

　ちなみに、起こるエラーとしては、ページの二重取り込みはまずないです。

　ただし、しおりが挟まったまま取り込まれることはたまにあります。

　あとは、ページの大きさを判断ミスして、巨大な画像になっている場合も稀にですがあります。

● 消耗品の交換

　500冊ぐらいスキャンしたところで、ページ分離用の部品を交換する必要があります。ゴムが磨り減ってしまうからです。

　私は、この部品交換のタイミングに気付かずに、かなり四苦八苦しました。交換しないと、読み取りエラーが頻発します。

　部品は2,000円ぐらいしますが、消耗品として割り切るしかないです。

FUJITSU パッドユニット 0637841

　あと、もっと大量にスキャンすると、ローラーも替える必要が出てきます。

FUJITSU ピックローラユニット 0637831

● OCR

　スキャンしたあとのPDFは、ScanSnap付属のソフト「ScanSnap Organizer」で、まとめてOCRができます。

　けっこう時間がかかるので、寝ている間にするとよいです。

　この「ScanSnap Organizer」ですが、ScanSnapでスキャンしたPDFしかスキャンできないようになっています。

　しかし、他のPDFであっても、ScanSnapでスキャンしたページをそのPDFに加えれば、OCR可能になります。

　「ScanSnap Organizer」のOCR精度は、Acrobatの精度よりも遥かに高いです。また、日本語、英語などと言語が選べますので、スキャンした本によって、言語を切り替えるとよいです。

　あと、プログラム系の書籍は、OCRが上手くいかないものと思っておいた方がよいです。日本語と英語の混在している紙面になりますので。どちらかの言語を犠牲にしなければいけません。

● PDFファイルとAcrobatの設定

　見開き表示にした際、縦書きの本で、若いページを右側にしたい場合は、以下のような設定にします。

１．Adobe Acrobatの［ファイル］→［プロパティ］で、「文書のプロパティ」ダイアログを表示します。

２．［詳細設定］タブを選び、［読み上げオプション］→［綴じ方］→［右］に設定します。

　これで、縦書きの本も見開きで見られるようになります。

　ちなみに、見開き表示は、以下の方法でできます。

１．Adobe Acrobatのメニュー［表示］→［ページ表示］→［見開きページ］を選択します。

　また、見開きページにした際、1ページ目を表紙にして、2ページ目から見開きにするには、以下のような設定にします。

１．Adobe Acrobatのメニュー［表示］→［ページ表示］→［見開きページモードでページをレイアウト］をチェックします。

● 整理と閲覧

　取り込んだPDFは、Explorerのフォルダでジャンル分けしています。また、スキャン日やページ数などの情報を、エクセルファイルでまとめています。

　また、PDFですが、1ページ目を画像にして、同じフォルダに保存しています。

　なぜそういったことをしているかと言うと、PDF管理ソフトではなく、画像ビューワーで本を探せるようにするためです。

　いくつかのサムネール付きのPDF管理ソフトを試してみたのですが、どうも速度が遅く、使い勝手が悪かったです。なので、画像ビューワーで表紙を見て、PDFにアクセスする方式にしました。

● バックアップ

　ハードディスク2台に保存した上に、DVD2枚に保存して、4重に保存するようにしました。

　よほどのことがない限り、これで十分かと思います。

　スキャンした本は全部捨てました。本は、紙ゴミの日以外にも、地区センターの紙ゴミ用のボックスに出しに行きました。

● まとめ

　本の電子化は、やり方次第で、かかる時間がかなり違います。

　最初の段階で、最後の方法が確立できていれば、たぶん1/4ぐらいの時間で全てが終わったと思います。

　なぜなら、1日あたりのスキャン冊数が、最大で5倍ぐらい違っていましたので。

　というわけで、これからスキャンする人の参考になればと思います。

1つ前の記事：[EX リバーシ]　「ウサギ」ステージ

1つ後の記事：創活ノート第14話「本の電子化」