我正在尝试理解声音和图像的数字化。据我所知,它们都需要将模拟信号转换为数字信号。两者都应使用采样和量化。
声音:我们在y轴上有振幅,在x轴上有时间。在图像数字化期间,x和y轴上是什么?
什么是图像数字化的采样率标准? CD使用44kHz(声音数字化)。图像使用的采样率如何?
量化:声音-我们使用位深度-表示幅度水平-图像:也使用位深度,但这意味着我们能够识别多少个完整性? (是真的吗?)
声音和图像数字化之间还有什么其他区别?
图像的获取可以概括为空间采样和转换/量化步骤。 (x,y)上的空间采样归因于像素大小。数据(在第三轴z上)是芯片上光电效应产生的电子数。这些电子被转换为ADU(模拟数字单元),然后转换为位。被量化的是灰度级的光强度,例如8位数据将给出2 ^ 8 = 256级灰度。
图像由于空间采样(分辨率)和强度量化(灰度级)而丢失信息。
[除非您在谈论视频,否则图像将不会以Hz(1 /次)为单位,而是以1 /距离为单位进行采样。重要的是验证Shannon-Nyquist定理以避免混淆。您能够获得的空间频率直接取决于光学设计。必须为此设计分别选择像素大小,以避免混叠。
EDIT:在下面的示例中,我绘制了一个正弦函数(白色/黑色条纹)。在左侧部分,信号已正确采样,在右侧部分,信号被欠采样了4倍。这是相同的信号,但是由于像素较大(采样较小),因此会出现数据混叠的现象。这里的条纹是水平的,但是垂直的条纹也有相同的效果。
没有用于图像采样的空间轴的通用标准。 20兆像素传感器或照相机将以与2百万像素传感器或照相机完全不同的空间分辨率(每毫米像素或每度视角像素)生成图像。这些图像通常会重新缩放为另一个非标准分辨率以进行查看(72 ppi,300 ppi,“视网膜”,SD / HDTV,CCIR-601,“ 4k”等)]
对于音频,48k开始变得比44.1ksps更为普遍。 (在iPhone等上)
(“关于标准的一件好事是它们太多了”)
原始格式的幅度缩放也没有单一标准。转换或重新量化为存储格式后,对于RGB颜色分离,最常见的是8位,10位和12位量化。 (JPEG,PNG等格式)
声道格式在音频和图像之间是不同的。X,Y,其中X是时间,Y是振幅仅适用于单声道音频。立体声通常需要T,L,R用于左右声道。图像通常采用X,Y,R,G,B或5维张量,其中X,Y是空间位置坐标,而RGB是该位置的颜色强度。在某些可见的EM频率范围内,某些镜头的每个入射立体角在一定的可见EM频率范围内,图像强度可能与每个快门持续时间的入射光子数量有些相关(取决于伽马校正等)。
用于音频的低通滤波器和用于图像的拜耳滤波器通常用于使信号更接近带宽限制,因此可以以较少的混叠噪声/伪像对其进行采样。