close
一切從數位化說起
自電腦發明以後,資訊的數位化是不可阻擋的潮流,也是二十世紀人類文明的重大革命,影響所及,深入現代生活各個層面,反映在音樂方面最常見的產物就是CD。自音樂CD在九零年代成為主流音樂儲存媒體,數位音樂已與你我生活密不可分。本篇文章希望以深入淺出的方式,帶領讀者探索數位音樂的各類儲存格式與訊號處理技巧。

何謂數位化?
從字面上來說,數位化(Digital)就是以數字來描述事物。例如用數字紀錄一張桌子的長寬高尺寸以及各木料間的角度,這就是一種數位化。跟數位常常一起被提到的字是類比(Analog/Analogue)。類比的意思是用相似的東西去表達,例如將桌子用傳統相機將三視圖拍下來,就是一種類比的紀錄方式。

音樂如何數位化?
將音樂數位化,首先必須將音訊數位化。將音訊數位化的方式有很多,最常見的方式是透過PCM(Pulse Code Modulation)。音樂CD即是紀錄此種格式的數位訊號,轉換原理如下。首先我們考慮聲音經過麥克風,轉換成一連串電壓變化的訊號,如圖一所示,我們現在開始將這聲音波型的類比訊號數位化(Analog to Digital)。這張圖的橫坐標為秒,縱坐標為電壓大小。要將這樣的訊號轉為PAM(Pulse Amplitude Modulation)格式的方法,是先以等時距分割橫坐標。假設用每0.01秒分割,則得到圖二。
 
 接著我們把分割線與訊號圖形交叉處的座標位置紀錄下來,就完成了PAM。我們把橫坐標數字紀錄下來,得到如下資料,(0.01,11.65)、(0.02,14.00)、(0.03,16.00)、(0.04,17.74)…..(0.18,15.94)、(0.19,17.7)、(0.20,20)。現在我們已經把這個波形以數字紀錄下來了,也就是完成了來源訊號的PCM。由於我們已經知道時間間隔是固定的0.01秒,因此我們只要把縱座標紀錄下來就可以了,得到的結果就是11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47 16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00這一數列。這一串數字就是將以上訊號數位化的結果。看,我們確實用數字紀錄了事物。在以上的範例中,我們的取樣頻率是100Hz(1/0.01秒)。其實電腦中的.WAV檔的內容就是類似這個樣子,檔頭紀錄了取樣頻率和可容許最大紀錄振幅等資訊,內容就是一連串表示振幅大小的數字,有正有負。前面提到音樂CD是以PCM格式紀錄,而它的取樣頻率(Sample Rate)是44100Hz,振幅紀錄精度是16Bits,也就是說振幅最小可達-32768(-2^16/2),最大可達+32767(2^16/2-1)。在這裡我們可以發現無論使用多麼高的紀錄精度,紀錄的數字跟實際的訊號大小總是有誤差,因此數位化無法完全紀錄原始訊號。我們稱這個數位化造成失真稱為量化失真。

以上是PCM理論上的運作方式,但是實際上我們的電路沒有辦法紀錄瞬間的振幅大小,而是紀錄取樣時距內的振幅最大值,也就是Sample/Hold的運作方式。這樣的運作方式會造成波型的偏移,且很難用事後的運算來補償,為PCM的一大缺點。

為什麼要數位化?
數位化的最大好處是方便資料傳輸與保存,使資料不易失真。只要紀錄資料的數字大小不改變,紀錄的資料內容就不會改變。傳統類比的方式紀錄訊號,如使用LP表面的凹凸起伏或是錄音帶表面的磁場強度來表達振幅大小,在我們複製資料時,無論電路設計多麼嚴謹,總是無法避免雜訊的介入。這些雜訊會變成複製後資料的一部份,造成失真,且複製越多次訊噪比(訊號大小與雜訊大小的比值)會越來越低,有意義的資料細節也越來越少。如果讀者曾經複製過錄音帶或是錄影帶,一定有過發現拷貝版雜訊較大的經驗。在數位化的世界裡,數字轉換為二進位,以電壓的高低判讀1與0,並可加上各種檢查碼,使得出錯機率大大降低,因此在一般的情況下無論資料複製多少次,都可以達到不失真的目標。

或許讀者會問,既然CD是數位化的儲存媒體,為什麼用燒錄機複製的燒片放到CD Player中音質往往比原版片來得差呢?數位化的複製不是不會失真嗎?這個問題我們留到後面再解答。

那麼,數位化的資料如何轉換回原來的音樂訊號呢?這時候我們需要一項裝置叫做DAC(Digital to Analog Converter),中文叫數類轉換器。DAC的功能如其名是把數位訊號轉換回類比訊號,在我們的CD Player,音效卡中都有這裝置,而在許多電路中也經常被用到,例如顯示卡的RAMDAC。我們可以把CD Player中以PCM運作的DAC想像成16個小電阻,各個電阻值是以二的倍數增大。當DAC接受到來自CD讀取機構的二進位PCM訊號,遇到0時相對應的電阻就接上電路,遇到1相對應的電阻不作用,如此每一批16Bits數位訊號都可以轉換回相對應的電壓大小。這些電壓大小看起來會像階梯一樣一格一格,跟原來平滑的訊號差異,因此再輸出前還要通過一個低通濾波器,將高次諧波濾除,這樣聲音就會變得比較平滑。在Hi-Fi音響術語中,我們將讀取CD且輸出類比音訊的器材叫做CD唱盤,單純讀出CD資料輸出數位訊號的器材叫做CD轉盤。我們可以把CD唱盤當作CD轉盤+DAC。在Hi-End音響的領域大部分傾向將CD讀取分成轉盤+DAC。值得一提的是,雖然CD轉盤和DAC間傳遞的是純粹的數位訊號,但是我們往往可以發現更換之間的線材(常用規格S/PDIF為阻抗75歐姆的同軸電纜或是Toslink塑膠光纖),卻可以影響音質,這部分的問題我們也留到後面再說明,而這裡有相關實驗結果
 
細說音樂CD(Compact Disc Digital Audio)
關於音樂CD實在是有太多可以聊了,這個於1982年由Sony和Philips共同制定於紅皮書的儲存媒體,便於攜帶音質又比錄音帶好,流行至今毫無頹勢。關於它的規格有許多有趣的故事,例如為什麼一片標準長度的CD是74分鐘呢?話說這是因為設計者想要把貝多芬第九號交響曲存進一片CD中,於是開始估計CD的直徑,另一套說法是著名指揮家卡拉揚(Herbert von Karajan)這樣要求,也有人說是Sony公司當時主席的太太這樣要求,另一套說法是Sony當時的Mr. Oga所決定的。另外要補充的是Herbert von Karajan指揮的貝多芬第九號交響曲總長度大概在68分鐘左右,一般的版本大概在65~74分中間分布。

根據網友nightmare告知,大賀典雄的傳記記載當卡拉揚還活著時,跟大賀的交情匪淺(算亦師亦友的感情吧),因此當年Philips找上Sony制定CD規格時,大賀就一口咬定一片CD一定要能裝得下貝多芬第九號交響曲(大賀本身是聲樂家),因為古典音樂單首曲目的長度比這個長的也寥寥無幾,為了在聆賞時不影響興致,所以大賀對此非常堅持,而日後大賀用此錄卡拉揚預演的曲目,並讓卡拉揚聽,而卡拉揚非常讚賞這個劃時代的數位媒體,甚至後來在說明會之類的活動時,卡拉揚也幫 CD 說了不少好話。

CD是以螺旋狀由內到外儲存資料,在一片標準74分鐘的CD中,從裡繞到外總共有22188圈,把它全部伸展開來長達5.7km。音樂的CD讀取方式是等線速度(CLV),每秒有1.2m長的資料經過雷射頭,雷射在真空中波長為780nm,以偵測CD表面的凹凸變化判讀訊號。表面的凹凸刻痕寬0.5um,深度為0.11um(約為780nm雷射在CD塑膠材質內波長的1/4),長度為0.8到3.1um。CD是以由凹變凸和由凸變凹定義為1,平坦的部分為0,所以改變刻痕的長度可以改變資料內容。而讀取頭就是靠著凹變凸和由凸變凹時的光干涉作用來判讀訊號。

音樂CD的規格為什麼是44.1kHz、16Bits呢?關於44.1kHz這個數字的選取分為兩個層面。首先我們知道人耳的聆聽範圍是20Hz到20kHz,根據Nyquist Functions,理論上我們只要用40kHz以上的取樣率就可以完整紀錄20kHz以下的訊號。那麼為什麼要用44.1kHz這個數字呢?那是因為在CD發明前硬碟還很貴,所以主要數位音訊儲存媒體是錄影帶,用黑白來記錄0與1。而當時的錄影帶格式為每秒30張,而一張圖又可以分為490條線,每一條線又可以儲存三個取樣訊號,因此每秒有30*490*3=44100個取樣點,而為了研發的方便,CD也繼承了這個規格,這就是44.1kHz的由來。

一張刮痕累累的CD放到CD Player中聽起來聲音常沒有什麼問題,這又是什麼原因呢?這是一個非常複雜的問題,我們必須從CD的訊號儲存格式說起。首先要引入的名詞是block,CD每秒鐘的資料被分成7350個block。每個block內有588bits的資料。可是這588bits無法全部用來儲存有意義的資料,因為過度密集的凹凸變化會造成硬體設計難度的增加,且CD是以由凹變凸和由凸變凹定義為1,無法重複出現1,因此每14個bits中只有8個bits是有意義的,這就是所謂EFM(Eight-to-Fourteen-Modulation)的目的。扣除6bits無意義的資料,每個block剩下588*8/14=336bits,再扣除同步(sync)與合併(merge)資訊,剩下264bits,等於264/8=33bytes。在這33個data bytes中,有1個sub-code byte、12個odd-audio bytes、4個Q-redundancy bytes、12個even-audio bytes和4個P-redundancy bytes。其中最有意義的就是那12+12=24個音訊bytes,每個block共有24*8=192bits,由於CD以16bits紀錄資料大小,因此每個block有6個立體聲取樣點資料(6*16*2=192)。還記得前面說過每秒鐘有7350個block嗎?由此可以得知每秒鐘有6*7350=44100個立體聲取樣點!沒錯,就是這個數字。順帶一提的是每98個block組成一個frame,每秒有75個frame(98*75=7350)。好了,我們還沒講到重點,為什麼有輕微刮痕的CD聽起來還是很正常呢?

答案就在於這24bits的音訊資料,並非單純按照出現順序儲存在單一的block中,而是打散順序離散分布在接下來109個block中,因此若有刮痕造成一部份的資料無法正確讀出,可以藉由前面提到的P-redundancy bytes和Q-redundancy bytes作同位檢查確保資料正確性,進而重建資料,還可利用聲音連續變化的特性,由問題資料的前後取樣點來內插補點。實際編碼時,是先將12bytes的even samples重新排列然後經由C2編碼計算出4 bytes的Q-redundancy得到28bytes的資料,然後由這28bytes的資料來決定這24bytes的音訊要如何分布在0到108個block中。再來將這28Bytes的資料經過C1編碼,如此就得到4bytes的P-redundancy。P-redundancy另外的用途是確保當取樣點都為0時這block中的32bits仍不都為零。另外每個block還有一個sub-code byte,其用途非常廣泛,在lead-in的區域sub-code紀錄了這張CD有幾軌、總長度多少﹔在音軌的部分則記錄了從這軌開頭已經經歷了多少時間、從第一軌開頭又經歷了多少時間、這音軌是二聲道還是四聲道(不過從來沒聽說過四聲道的CD)、是否允許複製、以及該音軌是否有經過Pre-emphasis處理與一些偵錯資訊。另外sub-code也可以用來記錄該CD的UPC(Universal Product Code)碼與該音軌的ISRC(International Standard Recording Code)碼。ISRC由IFPI統一發放,前兩碼英文代表國名,再來三碼英文為發行者,最後五碼是數字。

我們常在古典音樂CD上看到DDD,ADD,AAD字樣,又代表了什麼意思呢?這三個英文其實是Digital或Analog的縮寫,第一個英文表示錄音時的母帶為數位或是類比格式,第二的英文代表混音及剪輯時母帶使用數位或是類比格式,最後一個英文字代表最終的Master母帶是用數位還是類比格式儲存,由於音樂CD的母帶一定是數位化的,因此最後一個英文字都是D。

接下來想要介紹一些CD的衍生物如HDCD,xrcd2等,但是不可避免要提到一些數位錄音著專業術語,因此我們先解釋一下這些術語。
 
數位音訊處理技術名詞解釋
Pre-emphasis Pre-emphasis就是在錄音的時候將高頻訊號放大,放音時再把訊號用同樣的倍率縮小以還原波形(De-emphasis),在類比錄音的時代,這個技巧的主要用途是作為提高訊噪比。例如廣播發送時將頻率1500Hz to 2000Hz以上以每八度音6dB的倍率提高訊號,或是LP唱片(LP)在錄製時的RIAA(美國唱片工業協會)等化曲線(不過這曲線的制定目的主要與LP的結構有關,且放大訊號不只高頻而已),以及錄音帶用的杜比抑噪系統,都是使用同樣的原理。在數位的領域,Pre-emphasis的主要用意在於降低量化失真,因為一般的音樂訊號高頻段往往振幅比較小,而且越高的頻率振幅越小,所以從PCM取樣的原理中我們可以發現這些小振幅會被分配到較少數的bits來記錄,這樣有效描述振幅的數字就變小了,與原波型的誤差就變大了,因此我們使用Pre-emphasis的技巧先增加高頻振幅再取樣來降低高頻量化失真。使用這功能的音樂CD非常少見,推測是因為Pre-emphasis和De-emphasis這一來一回的計算,反而造成了更大的失真。就筆者所知風之谷原聲帶就有經過Pre-Emphasis處理,由之前提到的subcode紀錄著這項資訊。

Supersampling(Oversampling)
Supersampling字面上的翻譯叫做超取樣,原理是從已有的數位訊號經過內插補點計算得到取樣點間的訊號振幅資訊,例如把44.1kHz轉成176.4kHz的四倍超取樣。超取樣並不能幫我們把更多的細節從量化失真中找回來,它的主要用意是幫助我們獲得更正確的類比訊號。怎麼說是更正確的呢?從之前關於PCM取樣的介紹我們知道越高頻的訊號被取樣的次數就會越少,想像一個20kHz的正弦波經過44.1kHz的取樣,一個週期分不到三個取樣點,要從這三個取樣點算出原來的正弦波理論上是可以辦到的,但實作的這樣的數位電路來計算是非常繁雜的,因此發展出來了各種取巧的方式希望能藉由較簡單的計算得到接近原波型的結果,超取樣算是其中的一種方法,用意是為了重建高頻訊號與原始波型。

Dynamic range
中文叫做動態範圍,也就是容許紀錄資料最大值與最小值的比值,例如16Bits紀錄精度的音樂CD其動態範圍最大就是20*log[(2^16)/1]=96.3dB。用越多bit紀錄,我們就可以得到越大的動態範圍。如果能紀錄越大的動態範圍,我們就能紀錄越多的細節,並且更能保存爆炸聲等大音量聲音的波形。當動態範圍不足時,為了不造成破音,我們只好降低錄音音量,可是小範圍的聲音變化可以分配的bit就減少了,造成量化失真更為嚴重。

Peak Level
我們把一段波型的最大振幅叫做Peak,peak level則是這最大振幅與最大可容許紀錄振幅的比值。在16bits的例子中,最大振幅就是32767,20bits的例子中就是524287。在之前PCM取樣原理的介紹中我們可以發現越大的振幅可以分配到越多的bit去紀錄,因此同樣的一段波型只要Peak Level不超過1(超過可能會爆音),則原始類比訊號音量越大紀錄的波型越精準。

Normalize
Normalize就是將一段波型音量放大,放大的目標是讓原波型的最大振幅(peak)等於最大可容許振幅。我們常常會抱怨自做精選集CD這一首音量好大,下一首音量又太小,這時將每首都經過Normalize處理可以改善這個問題。不過由於經放大過後的振幅大小可能不是整數,最後不可避免要用到四捨五入之類的技巧,因此處理過的波型和原波型造成非線性放大產生誤差,再度導致量化失真。所以為了保留音色與相位的正確性,處理數位音樂盡量避免Normalize,除非放到後剛好不須捨棄位數。

Dither
Dither是數位音樂處理上非常神奇的技巧,目的是用少數的bits達到與較多bits同樣的聽覺效果,方法是在最後一個bit(LSB:Least Significant Bit)動手腳。例如用16bits紀錄聽起來好似20bits的資料,聽到原先16Bits無法紀錄的微小資訊。舉例來說,今天我有個20Bits的取樣資料,我現在想把存成16Bits的資料格式,最簡單的轉換方式就是直接把後面四個bits直接去掉,但是這樣就失去用20Bits錄音/混音的意義。比較技巧性的方法是在第17~20Bits中加入一些噪音,這段噪音就叫做dither。這些噪音加入後,可能會進位而改變第16個Bit的資料,然後我們再把最後四個bits刪掉,這個過程我們稱為redithering,用意是讓後面四個bits的資料線性地反映在第16個bit上。由於人耳具有輕易將噪音與樂音分離的能力,所以雖然我們加入了噪音,實際上我們卻聽到了更多音樂的細節。

關於dither有種比喻是說我們透過手指間的細縫只能看到眼前部分的圖形,但是如果前後揮動手掌,就可以透過不同時刻看到的各個圖形的一小部份,在腦中建構出完整的圖形資訊,這是大腦神奇的地方,不是簡單的理論就可以說得通的。在此我提供一個網址,該網頁內提供經過dither處理和原始的wav檔下載,內容是一個固定頻率的聲音以等比例逐漸降低音量,我們可以發現經過dither處理過的聲音聽起來失真比較少且持續比較久,也就是可以讓我們聽到更小的音量與細節,還附有dither前後的波型圖示,網址如下:http://www.mtsu.edu/~dsmitche/rim420/reading/rim420_Dither.html。在眾多的dither技術中,Sony公司的SBM(Super Bit Mapping),LIVE STUDIO RECORDINGS的ULTRA MATRIX PROCESSING,都是專攻20bits轉16bits的技術。Dither在數位音訊處理用途非常廣泛,舉凡兩個波型的相加、振幅的縮放、Normalize都會用到。現在的錄音室已經進展到24bits錄音,在CD還是主流儲存媒體的時代,dither還是非常重要的技術。順道一提,在影像處理領域,將24bits的全彩圖形以16bits的高彩畫面顯示也會用到dither的技術。

Jitter
Jitter一般翻譯作時基誤差,是數位音訊播放音質劣化的原因之一。Jitter會造成聲音的改變,成因並非振幅資料本身的錯誤,而是時間部分出錯了。在之前數位化的過程中我們知道一個取樣點包括振幅和時間這兩項資料,而jitter造成振幅沒有在準確的時間呈現出來使得波型扭曲。在普通的CD Player中,由於讀取機構是由資料流量來判斷轉速是否合宜,而電路的工作時脈又是以讀出的一連串數位訊號的多少來決定,因此當轉速不穩定時,每秒讀出的資料數量就有誤差,而電路工作時脈就受到影響,由電路工作時間所決定的各個取樣點的出現時間與實際的時間就產生誤差,這就是jitter的成因之一。還有很多影響工作時脈的因素可能造成jitter,例如CD的重量與厚度是否均勻影響轉動穩定性、反射面的材質、石英震盪的品質、CD轉盤到DAC之間的連接線,都會造成jitter。要避免jitter發生最直接的方法就是re-clock,將接收的數位訊號先存到緩衝記憶體中,在精準的時鐘運作下重新送出這些數位訊號,並且讓後續的數位電路以這個時鐘為運作基準。有些Hi-End器材使用不同於一般S/PDIF的單線數位傳輸介面,加入包含時鐘訊號的接線用意即在此。S/PDIF將運作時脈資訊藏在資料的變化中,因此資料流量會影響運作時脈。

或許讀者仍對所謂資料正確但是音質受到影響感到疑惑,為了讓讀者對jitter有更深刻的認識在此提出一個相關實驗。準備一張音樂CD,然後複製成另外一張,並用抓音軌軟體檢查確保這兩張CD的資料內容是相同的,可是放到CD Player中聆聽卻發現兩張CD的音質有很大差異。原先猜測是因為CD Player的讀取機制不如電腦光碟機精準,但經過專業用音效卡CardDeluxe數位錄音從CD Player的數位輸出(SPDIF Out)的結果,經過多次的比對我們發現數位錄音的結果與直接抓音軌的資料內容相同,也就是說CD Player讀取資料內容並沒有問題,而影響音質的主要原因是jitter。單位時間資料流量不穩定的變動造成jitter,但這些資料內容本身並沒有出錯,因此不能單從數位錄音的資料發現錯誤。一般來講,除非設計上有瑕疵,jitter不該會大到使資料內容出錯,否則該稱為Error而非jitter。

音樂CD之衍生物與接替產品
HDCD(High Definition Compatible Digital)
別給這個產品名稱給嚇到了,HDCD本質上還是CD,放到一般的CD Player中播放完全沒有問題。HDCD是Pacific Microsonics創始人Keith Johnson和Pflash Pflaumer於1995年提出的規格,其技術本身也包含從20Bits的原始母帶dither至16Bits的技術,但其獨特的地方在於比dither更有效利用CD的第16個Bits(LSB),它不但用dither技術處理LSB,使得音質比一般CD好,甚至將LSB以固定的數字排列,當作是一種指令,這種指令在一般的CD Player對於聽覺沒有影響,可是在搭載HDCD解碼晶片的CD Player上,這些特殊的指令就可以改變聲音的特性,例如增加某頻段的音量,提昇整體動態範圍,或是音場調整。這些加料的功能使得聲音聽起來細節更多,定位更加精準,這正是HDCD的特色。常見的CD如孫燕姿的幾張專輯都經過HDCD處理過。HDCD的技術並非限於音樂CD,在DVD-Audio上也有發揮的空間。目前HDCD的技術屬於Microsoft,Windows XP內建的Media Player就有辨識HDCD的功能。

xrcd(extended resolution compact disc)
Xrcd也是不折不扣的音樂CD,由JVC製作發展。Xrcd的特色是以DIGITAL K2處理。這套技術不光是以20bits 128倍超取樣將類比訊號轉為數位訊號,還加上另一套20Bits轉16bits的dither技巧,意圖將CD製作過程的每一個步驟最佳化!不但非常注重各個器材的供電品質,器材的連接線材,配送系統,且為了降低jitter對音質的影響,所有的數位訊號都改用SDIF-2傳輸,有別於一般所使用的AES/EBU工業標準,並對於時鐘的運作精度做過特別的校正。經處理最後的CD母帶資料儲存於Sony PCM9000 MO,送至位於日本橫濱全世界唯一一條xrcd生產線。Xrcd另外一個特色是以鋁作為反射面(與一般CD相同),JVC宣稱是因為使用鋁可以達到比較低的jitter。Xrcd價位相當高,通常要一千三百元以上,便宜的如麥田之歌也要八百多元,但是音質與音場表現的確有其獨到之處,因此在發燒音響界仍有其市場。

DVD-Audio
DVD-Audio是以DVD(Digital Versatile Disc)作為儲存媒介的新音樂媒體,於1999年三月提出。取樣方式為LPCM(Linear Pulse Code Modulation),可選擇性採用MLP(Meridian Lossless Packing)無失真壓縮技術減少龐大的資料容量。DVD-Audio的取樣率有44.1kHz、48kHz、88.2kHz、96kHz、176.4kHz、192kHz等,可以16Bits、20Bits、24Bits取樣,使用立體聲錄製時最大資料流量可達192kHz 24Bits,當採用5.1聲道(家庭劇院用中置一顆揚聲器、主聲道兩顆、後環繞兩顆、超低音一顆合稱5.1聲道)錄製時最大取樣率可達96kHz。DVD-Audio可於播放時搭配畫面與音樂輸出。DVD-Audio如此高的取樣率最大的好處在於不需要繁複的超取樣運算就可以得到正確的音訊波型,另一個好處是減少jitter對音質的影響。DVD-Audio目前的價位大概在一千兩百元左右。

SACD(Super Audio Compact Disc)
SACD是Sony所提出以DVD為儲存媒體的下一代音樂儲存規格。SACD的最大特色在於摒棄PCM來數位化,改用Delta-Sigma Modulation(屬於PWM(Pulse Width Modulation)的一種)。其實Delta-Sigma Modulation是很常見的技術,平價的CD Player,床頭音響,CD隨身聽,音效卡,都是先將PCM訊號先經過Delta-Sigma Modulation然後再轉為類比訊號。Delta-Sigma Modulation之因為可以用較低的成本和比較少的數位濾波器達到較高品質的聲音水準,因此大受歡迎,Philips的bitstream也屬此類技術。Sony將其改良的Delta-Sigma Modulation技術命名為DSD(Direct Stream Digital)。PWM不同於PCM取樣以訊號振幅大小為主,而是改為紀錄目前資料數值大於或是小於前一個資料,是相當複雜的技術,我們簡略地以下圖表示:


SACD使用DSD的最大好處是從錄音到播放全部都以Delta-Sigma Modulation處理數位訊號,不用在錄音時先用PWM取樣再轉回PCM儲存,放音時又要把PCM經過PWM處理再經轉回類比訊號的層層手續(聽起來很笨,可是絕大部分的CD都是這樣運作的),因此可以降低失真,以下是運作圖示:


SACD同樣也有立體聲和5.1聲道的規格。由於SACD並非PCM編碼,不需要多bits儲存振幅,只要一個bit就夠了,且取樣率使用高達2822400Hz。SACD如同DVD-Audio有單面單層和單面雙層的規格,比較特殊的是混合光碟(Hybrid Disc),此種格式第一層資料與普通CD相同,可以放到CD Player中播放,第二層則是存放正統DSD訊號,供SACD Player播放。Delta-Sigma Modulation是相當專業的技術,想要進一步認識請參考以下文件,內容取自高傳真233期 P.63,作者為黃克強先生。
http://freehomepage.taconet.com.tw/This/is/taconet/top_hosts/Hotech/article4.doc

dts CD

dts CD其資料格式與一般CD相同,都是16bits,44.1kHz,可是紀錄的資料內容並非PCM取樣訊號,而是經過dts(Digital Theater Systems)編碼後的5.1聲道訊號。Dts CD聆賞時必須將CD轉盤的數位輸出接至支援dts的解碼器才能獲得5.1聲道類比訊號。由於dts CD格式與普通CD相同,因此與HDCD、xrcd一樣都可以用普通的方法複製。
 
音樂CD複製要點
音樂CD的複製,終極目標是音質與來源CD相同,甚至更好。要達到這個目的要分為兩個層面討論,首先是資料的正確性,再來是降低jitter。

音樂CD的主要偵錯機制在於C1/C2編碼和subcode,雖然沒有CD-ROM的ECC/EDC編碼嚴謹,但輕微的刮傷還是能重建完整的資料。在複製音樂CD時,最好先將音軌資料抓到硬碟裡,然後再從硬碟燒錄。直接對燒的壞處在於當光碟機發現音軌有問題時,沒有充裕的時間可以多讀幾次確定資料內容,因此很容易燒出爆音,且刮痕太嚴重時,過多無法讀出的資料甚至會造成燒錄中斷。

抓音軌(DAE:Digital Audio Extraction)時光碟機的品質與抓取模式對資料的正確性影響甚大。有些光碟機抓音軌的速度很慢,也有些光碟機抓得很快卻爆音連連。當光碟機抓取的資料量超過本身cache負荷時,光碟機必須暫停讀取,等cache有空間了才能繼續。有些光碟機在經歷這暫停再讀取的過程,再次讀取的位置會跟停止前的位置不同,造成資料的斷層,也就是爆音的出現,這就是抓音軌不宜一味求快的主因。要有優良的抓音軌能力,光碟機必須要具備Accurate Stream的功能,這樣就能避免以上緩衝區滿載重讀出錯的問題,更進階的是C2錯誤資訊擷取功能,也就是當光碟機在抓音軌時會同時偵測C2編碼,如果出錯的話自動重新讀取,對於資料的正確性與速度有顯著幫助。綜合以上要求,TEAC和Plextor出品的CDROM是相當優良的音軌抓取裝置,尤其是Plextor的產品,DAE速度特別出眾。另外在抓音軌時很多人喜歡用Burst Mode求其速度快,但是這種讀取方式只讀一次不回頭,如果片子很乾淨的話不會出什麼問題,要是有刮痕的話常會爆音連連,何況當遇到刮痕時光碟機常常要降低轉速,讀過去了又加速,反覆加速減速嚴重影響光碟機壽命,因此實在不建議使用Burst Mode對付有括痕的片子。

除此之外,我們可以發現將燒好的片子中的音軌抓出來跟來自母片的音軌做比較,來自燒片的wav檔音樂資料前面總是多了一些為0的取樣點,可是檔案總長度卻沒有改變。我們稱這種情形叫做資料排序的offset。這些0的來源有兩個,來自抓音軌光碟機的Read Offset和燒錄機的Write Offset。之所以會有Read Offset是因為光碟機讀寫頭認為自己所在的位置跟實際上資料出現的位置有誤差,因此當音軌抓出來的時候,總是與原始資料產生位移,於檔案開頭多個幾個0或是少了幾個0(以上是以假設這片CD每一軌之間都是靜音來討論),而在這些0之後的資料又跟原始波型完全相同。同理燒錄機的Write Offset成因也是一樣。這些Offset並不會影響音質,只是資料和來源有些微的差異,但音樂資訊是相同的。目前能夠克服offset的抓音軌軟體和燒錄軟體非常少見,個人推薦使用免費軟體Exact Audio Copy(網頁http://www.exactaudiocopy.de/),不但可以單獨設定各光碟機與燒錄機的offset,又有獨特的Secure Mode DAE將每個frame至少重複讀取兩次,如果資料不同會重複讀取到最多82次來確定資料內容。EAC可以做出無論用什麼軟體抓音軌內容都與來源片完全一樣的燒片,是目前尋求燒錄音樂CD資料正確性的最佳解決方案。

接下來要解決的是jitter的問題。影響的jitter層面很廣,舉凡燒錄的速度,空片的材質,燒錄機的電源等都會影響。筆者參考日本的燒片測試網站http://www.ne.jp/asahi/fa/efu/media/media.html後發現以水藍片的jitter較小,金片最大,而不同的燒錄機各有jitter最低的燒錄倍速。為了降低jitter我們建議購買日製That's水藍片或是新加坡/日本製三菱湛藍片並且調整燒錄速度,而且避免開啟Just-Link或是Burn-Proof以免造成資料斷層。很可惜的是雖然經過這一連串的努力,燒錄出來的片子跟原版CD還是有所差異,所以為了尊重著作權與音質表現,請大家支持原版CD。不過台灣很多盜版音樂CD的jitter很大造成音質跟原版片有顯著差異,我們發現用以上的方法燒出來的片子聲音還比較好。這也告訴我們jitter是可以在事後處理加以改善的。

另外要補充的是有些燒錄軟體和DAE軟體上會有Jitter Correction的選項,但是我們從上面的文章可以知道jitter其實不會影響資料的正確性,也就是說jitter大小並不會改變抓出來的的音軌資料內容。這些軟體所謂的Jitter Correction其實是指光碟機會藉由反覆讀取比對資料來確保資料內容的正確性,主要是用來對付有刮痕或壓製有問題的CD。這個Jitter Correction的處理層面跟上述數位音樂的jitter不同,個人建議改稱為Error Correction。

講了半天都在講CD,數位音樂並不只包含CD,接下來就來介紹其他的數位音樂格式,就從我們常看的VCD和前一陣子震驚全台住宿大學生的話題格式MP3開始吧。
arrow
arrow
    全站熱搜

    Jeremy Hsiang 發表在 痞客邦 留言(0) 人氣()