2010年11月24日水曜日

windows複数コマンド実行バッチ

windows で複数ファイルに対して同じコマンドを実行したい場合に使うバッチのサンプル。
以下は pdftotext をカレントディレクトリの *.pdf に対して実行するバッチ。
for %i in (*.pdf) do pdftotext "%i"

2010年11月1日月曜日

電子書籍の自炊2

PDFをHDDに入れておくだけではデータをコピーしたPCでしか見れず不便なので、Webで参照できるシステムを作ることにした。
テキスト検索もできるようにしてあるので、全文検索エンジンと組み合わせたらさらに便利になるに違いない。
Amazon EC2で作ろうかとも考えたが、ふと思い立ってベアボーンキットを買って自サーバを立てることにした。
shuttle xs35 に RAM 2GB と HDD 500 GB を積んで25000円。
OSはDebian squeezeをインストールした。
ホントはlennyにしたかったけど、LANを認識しないというサイトをいくつか見かけたので。
squeezeでは特に問題なく認識できた。
とりあえずSSHでログインできるところまではセットアップした。

さて、この後はどう作っていこうか。

2010年10月30日土曜日

電子書籍の自炊1

自宅に本が増えすぎたので電子書籍を自作しようと思い立ち、本を業者に頼んで裁断してもらったのが半年以上前。まだ冬だったはず。
手持ちの ScanSnap S510 でスキャンを始めたが、思ったより手間がかかり進まない。
作業状況を書く事で些かでも先に進むと思い、久々にブログを書く事にした。

スキャンは他の作業の合間に行い、大体1冊20-30分程度かかる。
紙の厚さにもよって、50-100枚程度を一回のセットでスキャンできる。
薄すぎる紙は給紙できない。2回やってみて、できない本は諦めて捨てる。
1冊当り2回程度は何らかの問題が起きる。
紙詰まり、裁断不良、2枚給紙、スキャナのハングアップ・・・
50冊程度はスキャンが終わった。
裁断した残りは50冊程度。正確な数は数えてないのでわからない。
先は長いぞ、頑張れ!>俺

PDFはスキャナ付属のOCRにかけてテキスト検索可能にしてある。
100%ではないが、ないよりマシなのでテキスト化の精度では悩まないことにしている。
一冊あたりの容量は20MBくらい。
バックアップはAmazon S3とローカルのHDDにコピーをおいている。
個人のシステムで三重冗長なら十分過ぎるだろう。