|
壓縮演算法介紹(轉載)! p6 ^4 x4 h; G3 t. [2 s. ]
3 g1 P: a+ x6 }5 X
) K4 ?3 C3 D5 a4 o9 K
4 U4 V: R+ D% \" c9 H
無失真資料壓縮法之原理及演算法的介紹 ' K& U$ L: X7 W* N7 D6 ~3 Y# _
% d* ^: ~; M/ p1 I
u910925 林名哲 國立清華大學電機系2 E, h8 O# n I7 a' |+ y
$ e. s( s+ `5 M4 ~4 T
摘要 0 D k$ J7 g9 D2 T
/ W, _8 o3 F p* a' Y/ |
這篇報告主要是對無失真資料壓縮的理論、原理、演算法做概略性的介紹,並且提出一些簡單的討論、可能的改進方法,以及我對資料壓縮的想法和感想。一開始會從資訊理論的角度切入壓縮方法的主要精神和發展模式,再將壓縮的一般過程做概略式的模組化。演算法上主要會分為最小冗餘法、字典法這兩個部分來分別介紹,並會提到最常見的壓縮演算法(如Huffman Coding,LZ77)。7 H9 r8 [4 b$ p7 h8 a2 i& R
$ q( n2 z: v8 n2 w$ `: [- g9 z介紹
& R! w4 V& q' x) Z# ], c* i5 `5 g4 v n
壓縮向來是計算機科學領域的一門重要學問。在計算機科學的領域裡,我們將大量的資料經由適當的處理過後整理成有條理的資訊。資訊是我們收集和處理資料所希望得到的,也就是說,我們使用各種軟硬體承載大量的資料,最終目的是希望從中獲取有用的資訊。因此,一連串的資料當中真正包含的資訊有多少成了我們關切的問題,這也造成壓縮的必要。當我們在表達資料所用的編碼承載的資訊量比不上它佔有的空間時,為了節省寶貴的儲存空間,以及縮短資訊傳遞的時間,我們就希望能將這串資料以新的方式表示,讓它的容量能接近它真正承載的資訊量,而將不必要的冗餘碼去除。所以去除多餘的編碼,以最節省空間的方式表達特定的資訊,就是所有資料壓縮法的共通目的。
! ^' S) O2 `5 G% T
7 b+ P& I! H6 C2 v在計算機領域中使用的壓縮法,可以大略的粗分為失真和無失真兩種方式。失真壓縮法常應用在類比資料的壓縮上,藉由捨棄非必要的資料來獲取更大的壓縮率。因為使用數位的方式來表達類比的訊息,本來就有著先天上無法完美呈現的缺陷,所以適當的捨棄不必要的類比訊後是可接受的。這種壓縮方式廣泛應用在音訊和影像的壓縮處理,隨著最近多媒體在電腦上的普及重要性,也隨之提高。
4 ^$ W# G+ q5 h1 n( n- K! H- |8 D
然而有些資料卻是不可捨棄的,例如銀行的帳戶記錄,公司職員的人事資料,學生成績等等,這些資料不能有絲毫的更動。所以我們在對它進行重新編碼及壓縮時,必須確保爾後能以相對應的方式完整的還原本來的資料。這種方式稱為無失真的壓縮方式,可想而知它的壓縮率比不上失真的壓縮方式,而且必須更精細的去考慮冗餘資料和資訊承載量的問題。但無失真壓縮方式在實用性上不輸給失真壓縮,無論是網路上的資料傳輸,大型系統的備份等等,都可以看到這種技術的存在。無失真壓縮也是這篇報告主要要探討的領域。 ! E" J. H8 V2 N7 O7 z+ z! K( i
! d" R# P! u+ g& |I. 從資訊理論角度的概觀 ) t, C3 c. ]5 J: U* A
6 r8 _: [* \9 f. v+ D) z: Z! gl 計算資訊的含量 ( D! o7 m5 L% I
- _% k& e4 K( ^3 P7 ]前面提到,壓縮的主要目的在去除多餘的編碼,以達到用等同於一串資料中資訊的含量的容量來儲存它的目的。然而“一串資料中資訊的含量”卻是一個抽象的觀念,就像是我們若把“10:2”看做一串資料,它可能表示“5”這個數字,也有可能表示“統一獅大勝兄弟象的比數”這個訊息。然而近代的資料壓縮技術是隨著資訊理論(Information Theory)的發展而開始的,而對於資訊的含量,在資訊理論中有一套公式化的計量方式,稱為entropy。7 U# T- ` q7 W8 I; W2 U4 k Q% m
: n" K! ?- n+ n- o, O q" EEntropy被定義為:-log2(資料出現的機率)
6 B2 V) a2 _$ I. s7 V* N$ |7 {
# R% \$ D4 y! X5 N4 \ ~也就是,我們在考慮一筆特定的資料(可以想做是某個特定的符號)在一連串資料中所搭載的資訊含量時,可藉由計算它的entropy來判定。Entropy就類似它原本在熱學中的意義一樣,越高的entropy代表著越多的資訊承載量。為什麼entropy會這樣定義,是由幾個學理上的公設而來的,在這裡不多加詳述,但我們可以直觀地這麼想:當一個符號在一連串資料中出現越多次時,它包含的資料量越少。或是說,當一個符號一再在資料中出現時,我們若選擇使用較少的容量來表示這個符號,那我們就能節省比較多空間。也就是說,在重新對資料編碼時,出現越多次的資料選用長度較小的碼來表示,出現很少的資料則可以使用長度較長的碼,這樣我們能預期編碼後的資料量能比原本的少,而達壓縮的目的。後面我們會看到大多數的壓縮方式是採用和這種方法類似的精神。5 B0 F5 J0 b+ y, a: r
9 k0 N& b6 U) u$ n5 t L
Entropy為我們提供了一個估算資料含量的方式,而事實上,我們也可將它想做壓縮的理論下界。也就是說,我們使用各種壓縮法,在最理想的情況下能把資料壓縮到等同於它的entropy的容量。在實際的應用上,我們將會發現即便是最好的壓縮方式也只能最到盡量逼近entropy大小的境界,所以entropy是一個理論上能壓縮到的最小值。
+ W V9 g# R Y) D9 c) z, Z, Z7 x3 }0 D* ~9 m- N' e
l 壓縮法的模型
! r: L4 W5 w+ I9 R3 A0 a) F$ ?/ D1 @# `& r7 C" B
有了計算資料中資訊含量的方式,我們就知道接下來要討論的所有壓縮法的目標:去除資料中冗餘的代號,用最少的容量(最接近entropy)來表示一連串的資訊。接下來我們來看看如何達到這個目的。一般說來,資料壓縮包含輸入一連串的符號並且將它們轉成適當的編碼,有效的壓縮方法會使得重新編碼後的大小比原來的編碼小。而如何將一個或一組符號轉成特定的碼則必須參考一個模組(model)。模組簡單地說就是一組用來處理輸入資料並決定要將它轉成何種碼的數據資料或規則。一個壓縮程式使用模組來定義特定符號的出現率以做為編碼的依據。有了模組之後我們就可以開始用編碼器(encoder)來將資料重新編碼。在前面我們講壓縮時都是以“編碼”這個字眼來說的,那是由於不同的演算法在編碼方式上有很大的差異,所以我們一般以coding這個字眼來講壓縮的方式(e.g., Huffman coding)但這不代表編碼就是整個壓縮過程的全部,稍後我們會強調選擇模組和編碼在決定壓縮效率上有同等重要的地位。藉由前面所說的我們可以歸結出一個壓縮過程的模型:7 {( _& [! { X& \; m9 X* }
0 d9 H" ]( |. p1 l; h$ D
輸入資料->參考模組->編碼->輸出資料
0 Y- k. r/ y- f: n% y% Y* J9 W: F2 Q5 p& E1 u+ U& o- r" Z% s$ I
即使是不同的壓縮方式,以程序的角度來看仍然不脫離這個模型。
, b, G. X/ i/ Y+ a; W. |( {! a7 ?* O
l 選擇模組' T* D9 ^9 p; t, X# `0 P
/ L3 I( o9 z( ^9 d/ R& `) C
如果我們將資料壓縮法比喻為一輛汽車,那編碼的方式可說是汽車的輪胎,而模組就是這台汽車的引擎了。由這裡我們可以看出選擇模組甚至比使用適當的編碼方式還重要。甚至我們在計算資料的entropy時,不同的模組也可能造成entropy的差異,這是因為不同的模組使用的統計方式不一樣,造成“資料出現的機率”也不同的。舉個簡單的例子來說,我們在統計一篇英文文章中各字母出現的機率時,如果只考慮個別字母出現的機率,那‘u’這個字母出現的機率可能只有百分之一,如果我們在統計某個字母是否出現時順便去檢查它的前一個字母,那‘u’這個字母在‘q’之後出現的機率可能就高達百分之九十五。再考慮這兩個機率個別的entropy值,我們可以見到使用不同的統計模組對資料壓縮後的大小可能會造成顯著的不同。因此一個好的壓縮方法除了簡潔的編碼方式以外,如何建構一個適當的模組是更重要的。假使今天有兩個人同時以Huffman coding的演算法來寫一個壓縮程式,雖然它們編碼的方式是相同的,但老練的程式設計師也許會選用一個會參考前面幾個符號來計算出現機率的模組,使得最後的壓縮率大為提昇。這就好像兩個人穿著同樣牌子的運動鞋,跑得快的人是因為它的腳比較有力,而不是鞋子不同所造成的。因此模組是壓縮過程中重要的一環。
* d0 d+ E3 d: O) k
& Q: r/ ^0 c( Rl 編碼
% e S$ n x9 S; p2 [. V8 N( B4 B9 r" }0 p+ H
一但我們經由資訊理論能估計出一個符號所包含資訊的容量之後,接下來就是要把這個符號重新編碼,使得它能切合真正所包含的資訊量。所以,在對資料重新編碼的時候,我們會希望新的碼的長度能盡量接近理論值entropy。我們回頭看一下一般最常用的資訊編碼方式:像是ASCII碼或是EBCDIC碼。無疑地在減少冗贅資料上這兩種編碼方式是不好的,因為在一串訊息中每個符號出現的機率是不同的,將所有符號都以同樣的長度來編碼,顯然的會造成有些資料使用太多的位元,有些資料又用的太少,相較之下形成空間的浪費。從上面的討論中似乎強烈暗示著如果要達到較好的壓縮效果,我們對不同的符號必須使用不同長度的碼來表示。確實,變換長度的編碼方式是許多壓縮演算法使用的手段,我們將在稍後一一介紹。& ]- J! r; P0 L9 p
3 I5 r7 D* J) D$ _% H" a5 U$ n$ b5 T6 ?( r! ~
, x8 x* I7 N. X/ tII. 最小冗餘法 ) b& N* _4 s3 \* e4 D: Z& ?9 I+ |) H
8 Y( l+ D2 v# f' y! ?+ u
l 介紹0 H# X& Y" E% V2 H5 M$ R
: S8 Q! r+ ]" b% u* | P最小冗餘法(Minimum Redundancy Coding)是跟隨資訊理論發展之後隨之出現的演算法。顯然的它們是由資訊理論裡對資訊含量的定義下手所直接產生出來的方法,最主要的手段就是前述的變動長度編碼,資訊含量就少的符號以較短的資料量來編碼,而且每個碼之間必須獨立不能相混淆。這裡我們介紹兩種常見的演算法:Shannon-Fano演算法和Huffman演算法。值得一提的是有些人可能會把Huffman演算法歸類到統計法裡面去,但我看的資料中統計法主要是強調不同統計方式的演算法,也就是產生模組的差異,所以不把Huffman算在裡面。* U4 W% R" g2 y2 p/ R' y {
' C0 ?" z( F& c( A( s0 M
l Shannon-Fano Algorithm
( S T# _* l+ P4 u4 f4 h) F! C. n$ t- Z$ X9 t
這套演算法是由Claude Shannon和Robert Fano兩個人所提出來的。可說是第一個最小冗餘法的代表。這個演算法的程序如下:3 p" d, D/ C1 O {( o- Z3 V
1 v# p) v% L# O$ g- r( s# {1. 對於給定的符號,建立一個包含此符號出現頻率(或次數)的表格。, w a9 l8 ?5 Z
4 j% m7 ^* u9 t) M2. 對此符號和次數相對應的表格依次數多寡進行排序,次數出現最多的符號排在最前面。+ x2 a4 p$ R8 z
& [3 o% X* ~) k, I, r4 _) O3. 將這個表格分為兩部分,也就是依次序,符號出現次數比較多的前半部符號和後半部分開。8 P' v& P5 f# C! B) H
" ~" g& S" ~, H
4. 給定前半部的符號一個二元數字0,後半部則給定1。這個數字做為這些符號的新編碼的第一碼。
: ]0 |3 y% v- _: h4 k! m) H- h: k9 y! I- W0 [9 I0 Z
5. 對兩部分的表格遞迴地重複實行步驟3和4,也就是繼續分割表格並且給定數字,直到分割到剩下單一符號為止。到此每一個符號都會有一個相對應的碼,就是它的新編碼。
- @+ D; d& G1 r8 z( y9 E2 |/ g' Z) P
我們簡單的計算一下這個演算法能壓縮資料的程度。設有一筆資料經統計後含有15個A、7個B、6個C、6個D和5個E,那藉由重新編碼後,A的碼變成00,而B、C、D、E則個別是01、10、110、和111。重新計算壓縮後的資料量,我們知道新的編碼使用89個bits來表示這串資料,而如果我們之前以ASCII碼來表示的話,這39個字元需要花費312個bits,可以看出有顯著的壓縮成果。6 u! v3 Q0 r+ J2 r7 a
" ~, ~8 H9 t& ^ Q
l Huffman Algorithm! e) G; L+ A7 K9 i
: m8 Q% C/ R% N) l
Huffman演算法是MIT的David Huffman發明的。這個方法是當初他為了不想考研究所的期末考而著手挑戰的難題,而他想出的這個方法也成為最廣為人知的壓縮法之一。Huffman法和Shannon-Fano法有不少相近的性質,同樣都是獨一編碼和變動長度。然而它們有一個顯著的不同:Shannon-Fano在建構解碼樹時是以由上往下的方式,然而Huffman法卻反之,是由最底層的葉部開始建構起。Huffman演算法如下:" T3 o& q! Y% p2 q
1 |$ } {3 V+ Z, O$ p! Z$ Q) o
1. 統計每個符號的出現機率,建立數個節點,每個節點包含一個符號和它的出現機率。+ o/ Q& v% C) x5 l+ H+ m! R! {+ @, i
) }) h6 Y6 w. y! D# V2. 將節點依機率大小排序好。
% [3 ^* j+ o( Q# ]7 J7 p" G
5 W4 @) w* O3 v( |3. 將機率最小的兩個節點放在一起,並且產生一個父節點以做為一顆樹,父節點的權重相當於兩個子節點的數字合。
2 l6 W5 v3 Z/ N5 W0 V0 _. r6 ^
, G( y( [& b: D! X$ \; I# L# X3 E4. 將父節點視為新的節點排入原本的節點中考慮,原本的兩個子節點則不再考慮。
0 ` X, [! Q/ C& V% Y5 [! w* E! E
7 d7 ~- v3 k+ }7 Q5 B" M& P2 ~5. 原本的兩個子節點中一個指定二進位1的數字,一個指定0的數字。
v( ^; T5 n, W! V d: N
: ]' T2 g2 Y+ l2 A6. 重複2到5的步驟,直到只剩下一個節點可以考慮,這個節點就是整顆編碼樹的根節點。2 F' x' k1 j! c/ L5 l
3 q8 B [ O5 S藉由以上的程序我們可以建構一顆編碼樹,其中每個樹葉節點都是我們資料中出現的符號,而從樹根走訪至樹葉所會經過的節點中指定的數字就是那個樹葉上的符號所用的編碼。我們重新看一下上一個例子經由Huffman法編碼後,五個字母的字碼分別變為0、100、101、110、111,而總共所花費的空間是87bits,比Shannon-Fano法要少一點。事實上在實際的使用上,Huffman法的表現總是比Shannon-Fano法好一點。而且Huffman法有一個很好的特色:就是前序獨一的性質。我們看看例子裡由Huffman法所編出來的碼,如果是0就一定是A,因為接下來的碼中沒有以0開頭的,所以我們在解碼的時候只要循序讀入個別的位元,藉著走訪編/解碼樹就能到原本的符號,非常的方便。所以Huffman法是一個相當優秀的壓縮編碼。 . h6 f5 P" b2 N+ `3 w" m4 |
& l! h2 L# ]9 i! [6 QIII. 字典法
$ |& o5 M1 j" J. z
4 J; u0 k% w6 f9 s L, F2 ml 介紹
7 Q: F9 y7 {( d' [) N7 ^! t# Z0 ` [5 r* V- p4 G! }/ H
字典法是和最小冗餘法完全不同的編碼方式。字典法不像最小冗餘法基於一種理論的基礎,它提供了直觀易懂的壓縮原理,也就是建立對照目錄的概念。例如我們如果要講某一個單字,可以拿一本共同的字典,然後講說是第幾頁的哪一個字,這樣也可以表示那個單字。簡單的說,字典法就是在壓縮過程中產生一個對照的字典,然後後面出現的符號就去比對前面建立的字典,如果有同樣在字典裡有的符號出現,就以索引的方式來表示它,以此達到壓縮的目的。顯然字典法的效率好壞和它字典建構的方式以及字典大小有很大的關係(就是壓縮法的好壞和模組的關係)。下面我要介紹的是最有名的LZ77法。
! d; p3 q3 W% v! V
2 K/ C# J- t9 Ql LZ77 Algorithm
* g9 z8 L7 ^1 ~/ ~1 {
+ O1 y/ Y9 m; {$ HLZ77是由Ziv和Lempel在1977年發表的論文中提出的。它的特點是概念十分的簡單,亦能達到不錯的壓縮效果。它也是使用如前述的一邊讀資料一邊建立字典檔,然後新加入的資料比對前面建立的字典檔的方式。LZ77演算法中主要的資料結構有一個sliding window和一個look-ahead buffer。一開始sliding window中是空的,而look-ahead buffer中遇到的資料會先存起來,隨著看到的資料越來越多,sliding window中可以比對的“單字”也變多了。只要接下來在look-ahead buffer中看到sliding window中出現過的字串,就會把它以(在視窗中的位移位置,字串的字元數,字串之後第一個字元)這種方式存起來,就成了壓縮過的形式。就這樣一直比對到檔案結束,就可以完成編碼的動作。) d$ @8 g/ F" \0 R
' Q4 P( o+ e8 a; \) B2 n
8 p) H1 C0 r) a. O. p
4 f* ]' ]" m; D1 }7 _" ^8 ^
結論 0 n: |0 e8 @4 e( U& ?- c- v, L- d. P+ V
h( k& d0 M: t- G" W' |3 S7 y
資料壓縮是計算機科學領域中的一門重要學問,它是由資訊理論裡提出的一些原理所發展出來的,如今可以應用到非常廣泛的範圍上。我覺得像是冗餘碼的壓縮方式,在一開始看到的時候會覺得十分神奇,因為不是直覺就能想到的壓縮方法。不過在了解他背後的理論架構之後,就會知道這套方法是依循理論理所當然的架構出來的。這讓我想到數學上的研究雖然抽象,但常常是為所有實際利用開了先河,就像是線性代數是很抽象的概念,但是在工程數學上卻能得到很好的應用。我在找各種資料以前也有試著去想一些壓縮的方法,但怎麼想還是只能想到類似字典法的方式,畢竟它和人的直觀思考是比較接近的。不過在看了許多人提出的壓縮法後,會覺得無失真的壓縮實在是個被研究的蠻透徹的學問,理論和實際應用兼備了,感覺起來我也無法再做多少創新。不過我們也許可以用電機領域的角度來思考它,將快速的無失真資料壓縮製作在硬體上,也是一種很好的應用。但這同時也要考慮到一些系統上的考量,應該是蠻有挑戰性的課題,不過我覺得這可能也有人做過了。總之藉由這次報告找的資料不但滿足我對壓縮到底是如何達成的好奇心,也讓我對資訊科學上理論與實際的結合有更深一層的體認。% [" p* A8 g6 h+ V6 ^) ]2 `
2 r" y1 b8 D4 p& y3 J" u- ?4 U: Z y* M1 C+ v
2 L4 P X6 t# O( a
參考資料
, S3 [% j" b' l& L: \7 S4 F1 Z9 H. t& I/ h. ?( Z, J
[1] The data compression book, 2nd edition, Mark Nelson, M&T Books, 1996.4 w6 M6 D' o9 J$ [
8 e8 E. W6 `" Q, Y4 V4 |/ z
[2] Compression and coding algorithms, Alistair Moffat, Andrew Turpin, Kluwer Academic Publishers, 2002.
. g4 e, h; e( ]3 x x) H' X# ?* j6 N1 K, V3 }/ @
[3] Data compression: techniques and applications hardware and software considerations, Gilbert Held, John Wiley & Sons, 1983.% r6 K7 }- D* d+ D2 p
/ W" {2 @5 j% U |! c) N1 m' D[4] Mastering algorithms with C, Kyle Loudon, Oreilly & Associates, 1999. |
|