音视频基础概念

web

发布日期: 2023-06-11

更新日期: 2026-05-04

文章字数: 2.2k

阅读时长: 8 分

阅读次数:

前言

模拟信号是指随时间连续变化的物理量，将声音在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化就是以模拟方式进行存储。

数字信号则是离散的，计算机中的数据都是以数字方式存储的。

1.PCM

脉冲编码调制（Pulse Code Modulation, PCM），是一种模拟信号的数字化方法。

它是最常用、最简单的波形编码方式，但是也存在其它方法，比如脉冲密度调制（Pulse Density Modulation, PDM）。

PCM 不是一种格式。它只是一种方法，利用这种方法存储起来的音频，最常见的就是 WAV 格式。

PCM 方法保存音频的质量，同时也是体积，由三个因素所决定：

采样率：SampleRate
位深：Bit Depth
声道数：Channels

PCM 数据采样率最常见的就是 44100 hz。

由此，可以很容易得到 PCM 文件大小为：

SampleRate _ bitDepth _ channelCounts

即：

[时长]s _ [采样率]Hz _ [采样位数]bit * [声道数] / 8 = [文件大小]byte

对于mp3，wav等其他格式的音频文件，文件里还包括了帧头等其他附加信息，所以文件体积还会稍大一些。

假设一个采样率为 44100HZ，位深为 16bit，声道数为 2 的 WAV，60 秒大小应为：

44100 _ 16bit _ 2 * 60s / 8bit=10,584,000Byte=10.0936889648MB

2.数字音频基础概念

2.1 采样率 sampleRate

采样率（采样频率）：1秒内进行采样的次数，符号是fs，单位为Hz，1000Hz = 1KHz

采样率越高，所能描述的声波频率就越高，数字波形的形状就越接近原始模拟波形，声音的还原就越真实。

根据奈奎斯特－香农采样定理，只有采样频率高于原始模拟信号中最高频率的两倍时，才能把数字信号表示的模拟信号准确还原回去。例如，CD 的采样率为每秒 44,100 个采样，因此可重现最高为 22,050 Hz 的频率，此频率刚好超过人类的听力极限 20,000 Hz。实际应用中采样频率一般为信号最高频率的2.56～4倍。

数字音频领域常用的采样率如下表：

采样频率	品质级别	对应频率范围
8000 Hz	电话所用采样率，这对于听清电话里的人声已经足够	0- 4000 Hz
11025 Hz	AM电台（低端多媒体）	0 - 5512 Hz
22050 Hz	FM电台（高端多媒体）无线电广播所用采样率，广播音质	0 - 11050 Hz
32000 Hz	miniDV数码视频camcorder、DAT(LPmode)所用采样率	0 - 16000 Hz
44100 Hz	音频CD，也常用于MPEG-1音频（VCD，SVCD，MP3）所用采样率	0 - 22050 Hz
48000 Hz	miniDV、数字电视、标准DVD、DAT、电影和专业音频所用的数字声音所用采样率	0 - 24000 Hz
96000 Hz	DVD-Audio、一些LPCMDVD音轨、BD-ROM（蓝光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用采样率	0 -48000 Hz
192000 Hz	声卡支持的采样率	0- 96000 Hz

人耳能够感觉到的最高频率为20kHz，要满足人耳的听觉要求，则需要每秒进行40k次采样，即40kHz。我们常见的CD采样率为44.1kHz。(比如硬件的扬声器最高是16KHz，则手机MIC采样率就不用太高，节省传输带宽）

2.2. 采样位数(位深) Bit depth

采样位数（又称位宽，位深，位深度，采样精度），单位为Bit

字面意义就是采样值的二进制编码的位数。在音频中，表示是用多少个点来描述声音信号的强度。采样位数反应了采样系统对声音的辨析度，位数越高，对声音的记录就越精细，所以也称之为采样精度，采样深度。

采样位数直接影响采集信号的信噪比/动态范围。较高的采样位数可提供更多可能的振幅值，产生更大的动态范围、更低的噪声基准和更高的保真度。

位深度	品质级别	采样振幅值	范围
8位（现在少见）	电话	256	48.16 dB
16位（常用）	音频CD，适用于普通流行歌曲	65536	96.33 dB
24位	音频DVD，一般用于电影配乐，交响乐团等等大动态的音频信号	16777216	144.49 dB
32位	最佳	4294967296	192.66 dB

如果说采样率表示的是，X 轴的密集程度。采样率越高，X 轴越密集。那么位深，就是表示 Y 轴的密集程度。

借用网络上一个总结：声波，有频率和振幅，频率高低决定音调，振幅大小决定响度；采样率是对频率采样，位深是对振幅采样。

每秒钟所采样样本的总数目是采样率，而采样位数就是每个样本中信息的比特数。

何为比特数？懂电脑的人会告诉你1Byte(字节)等于8个Bit。通常情况下，文件大小的算法是这样的。

比如，所选择的采样率为44100，位深为16Bit，单轨道，时长为60S，则Bits的值为44100161*60=42336000

然后我们再将Bits转换成Byte，直接除以8等于5292000个Byte，有了Byte我们就可以将其转换成KB或者M(结果大约是5168KB，5M左右)。

计算公式：Bits=采样率 _ 位深 _ 通道 * 时长(秒)

位深影响信号的信噪比和动态范围，也决定了文件的大小，理论上来说，位深越高，质量越好，同时其所生成的文件也越大。

2.3. 声道 Channels

声音的频道数是针对输出而言的。几个声道就表示支持几个输出。

声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，通俗的说声道数就是录音时的麦克风数量，也是播放时的音响数量。声道数，也叫通道数，轨道数，音轨数。

常见的声道数有单声道（Mono），双声道（即立体声，Stereo），5.1声道，7.1声道等。

2.4. 比特率 Bit Rate

比特是由bit音译而来，指二进制数中的位，它是数字信息的最小度量单位。

顾名思义，比特率，Bit的速率的意思。即为每秒处理多少个Bit。又称之为位率、位速和码率。单位是bit/s。因为通常计算出来的数字都比较大，大家就用kbit/s了（也有人用bps，或者kbps来当比特率的单位，意思是一样的）

【注】：一个 kb（千比特）表示 1000比特

音频的比特率=采样率 _ 位深度 _ 通道数

在通信领域，比特率就是指每秒传送或处理的比特的数量（位数），所以比特率又称为”二进制位速率“，简称”位速或位率“，常用于形容传输速度，带宽。比如，我们的网速，就经常使用比特率来表示：100MBps，指的是理论下每秒传输 100MByte 的数据。

那在音频领域，这个词是什么含义呢？

在数字多媒体领域，比特率是每秒播放连续的音频或视频的比特的数量，是音视频文件的一个属性。此时它相当于术语”数字带宽消耗量或吞吐量“，也俗称为”码率“。

如果是无损的 PCM 制作的音频数据，则比特率没有太大意义。因为参数已经确定了。我们上面的 44100, 16bit, 2 Channel 的参数的 PCM，他的比特率为 1.4Mbps（就是把上面的 60s 改为 1s 就可以算出来啦）。

比特率这个参数更多的是来描述压缩音频，特别是有损压缩音频的质量。

常用比特率的表述：

类型	比特率	用途
音频	32 kbit/s	AM调幅广播质量，一般只适用于语音
	96 kbit/s	FM调幅广播质量，一般用于语音或低质量流媒体
	128，160，192 kbit/s	中等比特率质量
	256 kbit/s	常用的高质量比特率
	320 kbit/s	MP3标准支持的最高水平
	400 - 1411 kbit/s	用于FLAC、WavPack、Monkey`s Audio以及ALAC等无损音频压缩格式
	1411.2 kbit/s	以线性PCM编码存储数字音频CD （即采样率44100Hz，位数16bit，立体声的PCM音频）
视频	1.15 Mbit/s	VCD质量（使用MPEG1压缩）
	9.8 Mbit/s（最高）	DVD质量（使用MPEG2压缩）
	8 - 15 Mbit/s	高清晰度电视（HDTV）质量（使用H.264压缩）
	29.4 Mbit/s（最高）	HD DVD质量
	40 Mbit/s（最高）	1080p蓝光光盘（Blu-ray Disc）质量（使用MPEG2、H.264或VC-1压缩）