티스토리 뷰
Sound
음향
[ Waveform ]
: 시간 축에 따른 신호의 진폭 변화를 시각화한 것으로, 주로 음성 데이터를 분석하는 데 이용.
: 주기적인 신호인 경우 주기적인 진동을 보이며, 비주기적인 경우 임의의 변화를 보임.
: 주파수 분석이나 푸리에 변환과 같은 방법으로 분석함.
[ Decibel ]
: 어떤 값의 크기를 상대적으로 나타내기 위한 단위. 보통 음향 쪽에서 사용된다.
: 데시벨은 Ldb = 10 log(P / Pref)로 나타낼 수 있으며, P는 측정값, Pref는 참조값으로 기준이 되는 값이다.
[ Digitization ]
: 아날로그 신호를 디지털 신호로 변환하는 과정.
: 이산적이고, 이진적인 값으로 표현.
· Sampling
: ADC(Analog-to-Digital Conversion)의 일종.
: 신호를 일정한 시간 간격으로 샘플링하여 그 값을 디지털화하는 과정.
: 샘플링 주파수에 따라 대역폭이 결정되므로, 적절한 주파수 결정이 중요.
- Nyquist-Shannon Samplig Theorem
: 아날로그 신호를 디지털 신호로 변환할 때, 샘플링 주파수는 최소 2배의 주파수로 샘플링해야만 아날로그 신호로 복원할 때 완벽히 복원할 수 있다는 이론.
: 인간 청각의 한계 주파수는 20kHz이므로, 최소 40kHz의 주파수가 필요하며 커질수록 더 정확한 신호를 얻을 수 있음.
1) CD(44.1kHz) : 오디오 데이터에 추가로 에러 정정을 위한 8bits 데이터를 이용하기 때문에 정확성과 신뢰성을 위해 44.1kHz 이용.
2) DAT(48kHz) : 이산적인 디지털 형태로 변환할 때 Aliasing이라는 정보 손실 문제가 발생하는데, 이를 방지하기 위해 48kHz 이용.
3) 전화(8kHz) : 음성 신호의 대역폭이 최대 4kHz인 것을 고려하여 8kHz로 샘플링. 음성 외의 정보를 차단함으로써 속도 향상.
- Jitter
: 디지털 신호의 타이밍 변동.
: 디지털 신호가 외부의 노이즈나 불안정성으로 샘플링 주기가 변동될 수 있음.
: 오디오의 해상도가 떨어지는 원인이 될 수 있음. → 이로 인해 소리가 깨지거나 노이즈가 발생할 수 있음.
· Quantization
: ADC(Analog-to-Digital Conversion)의 일종.
: 아날로그 신호의 연속적인 값을 이산적인 값으로 변환하는 과정.
1) 8bits : 8비트로 아날로그 신호를 변환·표시하는 방법. 낮은 정확도로 표시되며, 음성 통신 등에 사용됨.
2) 16bits : 16비트로 아날로그 신호를 변환·표시하는 방법. 8bits에 비해 더 넓은 동적 범위와 정밀도를 가짐. CD 등에 사용.
- Dithering
: Quantization Error를 줄이기 위한 기술로, 난수를 더하는 방법.
: 난수는 무작위성이 강한 난수여야 하며, 그렇지 않으면 원본 신호의 왜곡을 유발할 수 있음.
: 무작위 노이즈는 더 많은 세부사항을 인식할 수 있도록 도와줌.
[ Data Size ]
: 음성을 디지털로 저장하기 위해 Sampling과 Quantization을 거쳐 디지털 데이터로 변환해야 함.
: Samplig 주파수와 Quantization 비트 수에 따라 데이터의 크기가 결정됨.
: 디지털화 된 음성을 표현하기 위해 매초 (Sampling Rate) * (Sample Bits) / 8만큼의 bytes가 필요.
ex) CD : Sample Rate = 44100, Sample Size = 16bits → 매 초 86 kb → 매 분 5mb
: 스테레오의 경우 모노의 두 배의 데이터 사이즈 필요.
[ Clipping ]
: 오디오 신호가 주어진 시스템의 최대 출력 레벨을 초과하여 일부분이 잘려 나가는 현상.
: 소리가 너무 크거나 시스템의 동작이 비정상적일 때 발생할 수 있음.
: 신호의 크기를 적절하게 조절하는 것으로 해결 가능.
[ Sound Processing ]
· Noise Gate
: 원하지 않는 잡음이나 배경 소리 등을 차단하기 위해 사용.
: 임계값 이하의 신호는 차단하고, 임계값 이상의 신호만 통과시키는 방식.
: 잡음을 제거할 수 있으나, 임계값을 너무 높게 설정하는 경우 더 산만해 질 수 있음.
: 일반적으로 경과해야 하는 최소 시간(Elapse)을 설정함.
: 사람은 잡음을 구분할 수 있으나, 기계는 구분할 수 없으므로 정확히 잡음만 제거하기는 어려움.
※ Discrete Fourier Transform
: 이산적인 시간 도메인의 신호를 주파수 도메인으로 변환하는 방법.
: 변환은 복소수 값을 가지며, 주파수 성분을 복소수 평면에 벡터로 나타냄.
: 주파수 성분을 모두 합치면 원래 신호가 됨.
: DFT를 더 빠르게 처리하기 위한 FFT(Fast Fourier Transform) 기법도 존재.
· Filtering
: 신호에서 원치 않는 주파수 성분을 제거하거나 강조하기 위해 사용.
- Low-Pass Filtering
: 주파수가 낮은 부분을 보존하고 주파수가 높은 부분을 제거.
: 고주파음을 제거하는 용도로 사용.
- High-Pass Filtering
: 주파수가 높은 부분을 보존하고 주파수가 낮은 부분을 제거.
: Noise Gate는 진폭에 따라 처리하는 반면, High-Pass Filtering은 주파수 성분에 따라 처리한다는 점이 다름.
- Notch Filter
: 특정 주파수 범위의 신호를 억제하는 필터.
- De-esser
: 치찰음(Sibilance)을 제거하기 위해 사용되는 필터링 기술.
: 높은 주파수 대역에서 신호를 감쇠시키는 필터를 작동하여 사용.
: 일반적으로 음성 처리나 녹음에서 유용하게 사용.
- Click Repairer
( Click : 일시적으로 발생하는 큰 진폭의 소음 신호 )
: 디지털 오디오에서 발생하는 여러 노이즈를 제거하는 필터.
: 품질 저하를 방지하는 용도로 사용.
[ Sound Effects ]
· Reverb
: 실제 공간에서 발생하는 반사음을 추가하는 효과.
: Delay와 Feedback을 이용하여 생성.
· Graphic Equalizer
: 오디오 신호의 주파수 대역을 다루는데 사용되는 디지털 필터의 일종.
: 특정 주파수의 Gain과 Damping을 조절하여 음색과 톤을 변화시킴.
· Envelope Sharping
: 음원의 특성을 파악하여 음의 시작과 끝, 강도, 지속시간 등을 수정하여 좋은 음질을 만들어내는 방법.
: ADSR(Attack, Decay, Sustain, Release)를 통해 만들 수 있으며, Fader, Tremolo 등을 구현할 수 있다.
- Fader : 소리의 볼륨을 조절하는데 사용. 일반적으로 노래의 시작, 끝, 가운데 등 다양한 부분에서 사용.
- Tremolo : 소리의 음량을 주기적으로 변화시키는 효과.
· Time Stretching
: 오디오 신호의 재생 속도를 변경하면서 음색을 유지하는 기술.
· Pitch Alteration
: 소리의 음높이를 조절하는 기능.
: 보통 본래 음악을 왜곡하지 않고 원하는 속도와 키로 음악을 조정하기 위해 사용.
- Uniform alteration : 고정된 비율로 음악을 높이거나 낮추는 기술. (옥타브와 주파수 비율)
- Periodic addition : 고유한 주기를 가진 소리를 추가하여 음악의 음높이를 변경하는 기술.
[ Compression ]
: 음향 신호를 변형하여 동적 범위를 줄이는 신호 처리 기술.
: 노래의 전체적인 볼륨을 일정하게 유지하기 위해 사용.
: 입력 신호의 크기를 측정하고, 임계값(threshold)을 초과하는 경우 출력 신호의 크기를 감소.
· Speech Compression
: 네트워크 대역폭을 절약하고, 전송 시간을 단축하기 위한 음성 신호 압축 방식.
- Companding
: 전송이나 저장에 필요한 대역폭을 줄이기 위해 소리의 동적 범위를 압축하는 기술.
: 소리의 크기를 측정하고 이를 기준으로 강도를 조절.
: A-law나 μ-law와 같은 로그 함수를 통해 적용.
: 시끄러운 소리보다 더 자세히 표현되는 조용한 소리로 변환.
: 확장과 압축이 동시에 존재하는 비선형 양자화.
: 데이터를 더 작은 양으로 전송할 수 있다는 장점이 있으나, 왜곡이 있을 수 있으므로 적절한 조절이 필요.
- Differential Pulse Code Modulation (DPCM)
: 아날로그 신호를 디지털 신호로 변환하기 위해 일정 시간 간격으로 샘플링하고, 샘플 간의 차이값을 양자화하여 전송.
: 이전 샘플과 현재 샘플 간의 차이를 인코딩 하는 식으로 동작하므로, 차이가 적을수록 더 효과적이다.
- Adaptive Differential Pulse Code Modulation (ADPCM)
: DPCM과 유사하지만, ADPCM은 다음 샘플 예측에 이전에 사용된 샘플 값을 사용하여 예측 오차로 인코딩.
: DPCM보다 더 나은 압축률과 음성 품질을 제공.
· Perceptually-Based Compression
: 인간의 청각 특성을 이용하여 음원을 압축하는 기술.
: 인간의 귀가 강도(intensity)와 주파수(frequency)에 민감함을 이용하여 압축.
: 너무 낮은 음은 귀가 감지할 수 없으므로 버리거나 낮은 비트율을 적용하여 압축.
: 강한 음향 신호가 주변의 약한 음향 신호를 가리는 것을 이용한 Masking 기술을 이용하여 압축률 향상.
→ Masking Tone 주변의 주파수를 낮은 비트로 압축. 임계값을 높임.
→ 양자화를 거칠게 함. (본래 상태의 작은 신호도의 차이를 큰 차이로 처리)
- Compression Algorithm
: 필터를 사용해 신호를 주파수 밴드로 분할하여 사용. 일반적으로 32개의 밴드 사용.
: 각 밴드에 대한 마스킹 곡선을 생성하고 마스킹을 통한 압축을 진행하며, 압축된 각 밴드를 다시 합쳐 최종 출력.
→ 비선형적인 압축이 이루어지게 됨.
1) MP3 Compression
: MPEG-1, Audio Layer III을 의미하며, 인터넷 상에서 오디오 파일을 공유하기 위해 개발.
: 인간의 특성을 이용한 손실 압축 방식 사용.
: 비트레이트가 낮을 수록 압축률이 높으며, Layer1에서 Layer3으로 갈수록 비트레이트가 낮아짐.
: 보통 Layer3으로 인코딩되며, Layer1은 거의 사용되지 않음.
: 고품질 압축의 경우 보통 10:1 비율로 압축된다. → 압축과 품질을 모두 챙기는 비율.
: VBR(Variable Bit Rate) 방식으로 MP3를 압축하게 되면 유동적으로 비트율을 조절하여 음질 손상을 최소화함.
2) AAC Compression
: MPEG-2, MPEG-4 표준에서 정의.
: MP3와 비교하였을 때 더 높은 압축률과 더 높은 오디오 품질을 제공.
: 동일 비트레이트에서 MP3보다 더 나은 품질을 가짐.
: 현재 Apple의 iTunes에서 오디오 포맷 기준으로 삼고 있음.
[ MIDI ]
: Musical Instrument Digital Interface의 약자로, 전자 음악 기기들 간에 정보를 주고받는 표준 프로토콜.
: MIDI 장비와 컴퓨터 간의 통신을 가능하게 해줌.
'컴퓨터 공학 이론 > 멀티미디어 컴퓨팅' 카테고리의 다른 글
[멀티미디어 컴퓨팅] Video Compression (0) | 2023.06.04 |
---|---|
[멀티미디어 컴퓨팅] Image Compression (0) | 2023.06.04 |
[멀티미디어 컴퓨팅] Image Processing (2) (0) | 2023.06.04 |
[멀티미디어 컴퓨팅] Image Processing (1) (0) | 2023.04.16 |
[멀티미디어 컴퓨팅] Deep Neural Network (1) | 2023.04.16 |