5.書類の電子化
5-5.データ容量(続) (旧「ファイリングの部屋」アーカイブ)

ファイリングの部屋
HOMEへ

 

これまで hi-ho.ne.jp で公開していた「ファイリングの部屋」を、この新しいドメイン(filingroom..jp)にもコピーしました。不要と思われるページは削除していますが、内容はそのままです。
従来のアドレスにも、当面は残しておきますが、できるだけこちらを利用していただければ幸いです。

 

前頁の「5-4.データ容量」では、画像データとしてのファイル容量を比較し、同じデータでもTIFF、GIF、JPEGの形式により、大きくファイルサイズが異なるだけでなく、写真や書類の種類によっても違いが出ることを示しました。
ここでは、最近新しく普及しつつある形式について、実際にファイルサイズを求めてみました。
 
JPEG2000
 

これまでは写真を保存するためのファイル形式としては、JPEG以外にはほとんど使われていないのが現状でした。これに対し、2000年に新たにJPEG2000が規格化されました。これはJPEGを発展させた仕様とされ、従来のJPEGより高い圧縮率(1/60程度)とノイズの少なさが得られ、高精細・高品位な画像用途に適しているとされています。また、可逆圧縮も可能となり、これが本当なら非常に助かることになります。
実際に前頁で使ったフルカラーのファイルを使い、試して見ました。

原 稿
TIFF
(LZW)
JPEG2000
JPEG
可逆
高画質
中画質
低画質
高画質
中画質
低画質
書類
385KB
1,020KB
963KB
719KB
476KB
502KB
261KB
174KB
写真
3,621KB
2,161KB
988KB
739KB
488KB
341KB
144KB
89KB

注)圧縮は、Paint Shop Pro8を用い、高画質は圧縮レベルを20に、中画質は40に、低画質は60に設定した。

これで見る限り、JPEG2000のほうが圧縮率が高いとは言い難いようです。興味深いのは、おなじ可逆圧縮であるTIFFとJPEG2000の可逆圧縮を比べると、その大きさが逆となっていることで、どのようなファイル形式を選べばよいかは実際にファイルを変換して比較してみるしかなさそうです。

ノイズが少ないとされている点については、ノイズが出やすいように、圧縮レベルを上げ(いずれもファイルサイズが62KBに圧縮)て比較し、写真の一部を拡大したものが下の写真です。同じファイルサイズでは画質の劣化のしかたは明らかに異なりますが、画像の鮮明度はあまり違わないように感じます。


JPEG2000圧縮

JPEG圧縮
   

JPEG圧縮
ノイズの発生状態が明らかに異なっています。   ノイズがブロック状に発生しているのがわかります。     ブロックノイズを極端に強調しました。
   
DjVu(デジャブー)
 

スキャニング画像向きのフォーマットとして普及し始めた様子です。イメージ部分と文字部分に分離し、それぞれに最適な圧縮をかけ、レイヤを重ねて1枚のイメージを構成しており、同程度の品質のJPEG・GIF画像と比べてると5〜10分の1に、PDFと比べると2〜5分の1ぐらいのファイルサイズになるとされています。
これを確認するために、上と同一のファイル(全てフルカラー)を用いて比較しました。高圧縮であることを比較するために、150dpiのほかに、300dpi相当のイメージでも比較しました。
(DjVuへの変換は「DjVu Shop2.0」を使用し、変換の条件はすべてデフォルトのままとした。)

原 稿
Tiff
DjVu
ホームページ
300dpi
1,050KB
32KB
150pdi
659KB
51KB
書類
300dpi
623KB
123KB
150dpi
385KB
138KB
写真
300dpi
11,954KB
99KB
150dpi
3,621KB
166KB

DjVuのファイルサイズはうたい文句とは違わず、非常に小さくなっていることが分かります。特にホームページについては、これをオリジナルの電子データから直接PDF化したもの(18KB)にかなり近く、画像データから変換した値とは思えないほどです。また非常に面白いのは、ファイルサイズが大きいはずの300dpiのデータのほうが小さくなっていることです。(DjVuの設定を変更することでファイルサイズも変化しますが、この傾向は大きくは変化しないものと思われます。)
DjVuが小さなファイルとなるのは、文字の部分だけを切り分けて、別のレイヤーとして圧縮しているためだと思われます。


通常の表示

Foreground
(前面:カラー)
 

Black&White
(白黒)
 

Background
(背景:カラー)
書類の一部を拡大したもの   カラー文字の場合はその部分がカラーで表示されます。   文字や線画だけを切り出し、白黒で保存しています。   背景のイメージですが、文字の部分でもぼけた部分などは取り出されています。

文字や線画の部分がうまく取り出され、輪郭がぼけないようにうまく処理がされています。しかし、もともとの画像の精度が悪い場合は、背景とされています。このことから、文字そのものを認識しているのではなく、文字を線画として取り扱っていることがわかります。

   
高圧縮PDF
 

DjVuと同じような概念で、紙をスキャニングして得たPDFファイルを処理しているもので、ハイパーギア社が開発しています。
これは、独立行政法人情報処理推進機構の前身である情報処理振興事業協会の補助を受け、「情報ベンチャー事業化支援ソフトウェア等開発事業」として補助を受けたプロジェクトの成果です。

スキャニングした画像データから文字部分を分離し、背景部分と文字部分を個別に圧縮するものです。これをさらに発展させて、文字部分にOCR処理をした上で、透明テキストとして埋め込む用にしたものがあります。

コピー、プリンタ、スキャナなどの機能を持った複合機では、スキャニングした書類を、この高圧縮PDFに変換する機能を持ったものも出てきました。

 

| Topページ | 0.はじめに | 1.情報の記録 | 2.増加する書類 | 3.作成から廃棄まで |
| 4.書類の整理 | 5.書類の電子化 | 6.電子化書類の活用 |

backnext| 7.電子ファイルとファイリング | 8.LANの活用と問題点 | 9.ファイリング意識の向上 |
| 10.ファイリングを考慮した書類の作成 | 11.マネジメントシステム |
| 12.リスク管理 | 13.ファイリングに関する動き | 14.付録 | 15.編集雑記 |


Updated on 2013/09/28