确定最佳音质

问题描述 投票:11回答:9

如何在同一音频剪辑的音频文件列表中确定最佳音频质量,而无需查看音频文件的标题。棘手的部分是所有文件来自不同的格式和比特率,并且它们所有的transcoded都具有相同的格式和比特率。如何有效地完成这项工作?

algorithm audio signal-processing
9个回答
13
投票

这里概述的许多答案涉及常见的音频测量,例如THD + N,SNR等。然而,这些并不总是与人类对音频伪像的听觉相关。有损音频压缩技术通常通过增加THD + N和SNR来起作用,但是旨在以人耳难以检测的方式这样做。更传统的音频测量技术可能会发现某个频段的SNR降低,但是如果相邻频段中的能量如此之多以至于没有人会注意到这种差异,那么这是否重要?

题为“A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation”的研究论文概述了一种算法,用于根据耳朵听到的模型量化人耳检测听觉差异的能力。它涉及与人类所感知的音频质量相关的因素。本文包括一项研究,将他们的算法结果与主观双盲测试进行比较,让您了解他们的模型是如何运作的。

我找不到这篇论文的免费副本,但是一个像样的大学图书馆应该把它存档。

实现该算法需要一些频域中的音频信号处理知识。具有DSP经验的本科生应该能够实施它。如果您没有参考波形,可以使用本文中的信息来量化令人反感的伪像。

该算法适用于PCM音频,最好是时间对齐的,当然不需要知道文件类型或标题。


9
投票

我不是软件开发人员(我是音频工程师),你用mp3算法压缩时听到的是: - 低频率:所以你可以检查更高范围的能量损失 - 失真的立体声:所以你可以做一个Mid / Side矩阵,并检查Side中的THD - 相位相干性:也许你可以用相关计来检查它

希望它有所帮助,这对于计算机来说是一项艰巨的任务!


8
投票

首先,我不是音频工程师,但我一直试图保持联系音频压缩,因为我有一个很大的mp3收集,我有一些想法分享这个主题。

从人的角度来看,您所寻求的音质是否最佳?如果是这样,你不能用“客观手段”来衡量,比如比较眼镜等。

如果一个眼镜是丑陋的,它并不一定意味着质量很糟糕。重要的是,如果有人能够将编码文件与进行盲测的原始资源区分开来。期。如果你想检查编码音频轨道的质量,你必须进行a blind ABX test

LAME(以及所有其他类型的有损MP3,AAC,AC3,DTS,ATRAC ......压缩器)都是所谓的感知编码器。它利用了关于人类音频感知性质的某些事实。因此,您不能仅仅依靠频谱图来评估其质量。

Source

现在,如果您的目标来自客观的方式/观点,您可以使用EAQUAL,它代表音频质量评估:

它是一种客观测量技术,用于测量编码/解码音频文件的质量(与PEAQ非常相似)

(...)

然而,当使用客观测试方法时,结果仍然没有结果,并且大多数仅供编解码器开发人员和研究人员使用。

......或者Friedman statistical analysis tool

(...)对数据集进行多次统计分析,特别适合收听测试数据。

我不是说频谱分析仪没用。这就是我发布一些实用程序的原因。我只是说要小心所有这些统计方法:作为Hydrogenaudio社区said once的某人,你不要用眼睛听。 (查看我发布的这个帖子,这是一个很好的资源)。要从人的角度真实地证明音频质量,你应该测试耳朵而不是图形。

这是一个复杂的主题,恕我直言,我建议你寻找像Hydrogenaudio这样的专业音频社区。


4
投票

如果您有原始文件,则可以通过估算传递函数来估计它的变化方式。您需要假设一些模型,可能从低通滤波器开始,添加一些污迹(卷积),然后运行估算器以产生质量测量。你可以浏览关于Estimation_theory的维基百科文章


4
投票

如果我理解正确,你有一堆音频文件以不同的格式开始,质量各异。它们都被转换为相同的格式,所以你不能使用标题来确定哪些是最高质量的,哪些不是。

这是一个难题。可能会有一些技巧可以解决一些质量问题,但是检测一些像MP3这样的低比特压缩算法转换的东西会非常困难。

一些简单的技巧:

  • 检查最大振幅 - 如果低,则质量不好。
  • 测量最高频率 - 如果低,原始可能具有较低的采样率。

1
投票

假设你只是想估计一组参数,我认为disown的答案是好的。不幸的是,您还必须为已估计的参数定义比较函数。

如果两个压缩都应用了具有相同大频率范围的band-pass filter会发生什么,但其中一个允许频率高于另一个。其中一个更好吗?哪一个?

答案可能取决于您正在使用的文件中使用的频率。

一个客观的衡量标准是看哪个文件丢失了更少的entropy。不幸的是,要做到这一点并不容易。


1
投票

我对此不太确定,但这是一个很好的起点:

http://en.wikipedia.org/wiki/Signal-to-noise_ratio

我不认为你可以从一个信号计算SNR,但是如果你有一组信号,那么你可能能够计算出比较所有信号的SNR。

页面底部有一些有趣的链接,如果不可能,也可以提供一些感兴趣的路线。

另外,我不是音频工程师,但我对信号处理有一点了解,有没有办法测量音频信号的量化水平?也许有待研究的东西。


1
投票

如果你没有原始音频,这可能是很多工作;从绝对意义上来说,几乎可以肯定是根本不可能的,因为你无法分辨哪条轨道的特性是故意的,哪些是虚假的。你甚至可能有来自不同录音或混音的编码,在这种情况下,简单的比较在任何情况下都是毫无意义的。

因此,假设您没有原始版本,您可能做的最好的是启发式方法 - 这可能会很好地工作,但需要付出很多努力才能实现。

  • 投资一些音频处理软件和技能;使用它来构建软件,以启发式方式识别常见的编码器缺陷,仅基于输出。这样的缺陷可能是声音命中的时间局部性差(压缩时超大窗口的建议),左右信号之间的高度相关性,有限的频率范围等等(具有正确经验的人可能列出数十个)。
  • 在某些滑动比例上评估每个启发式音频的质量。
  • 使用常识和尽可能多的时间+人员进行测试,因为您必须权衡各种相关因素。例如,虽然将频率再现高达24Khz可能会很好,但这并不是很重要;另一方面,缺乏锐度可能会更烦人。

如果你很幸运,有人在你面前完成了这项工作,因为这听起来像是一个昂贵的主张。


1
投票

一种新的比特率降低音频http://citeseer.ist.psu.edu/cache/papers/cs/15888/http:zSzzSzwww-ft.ee.tu-berlin.dezSzPublikationenzSzpaperszSzAES1996Copenhagen.pdf/a-new-perceptual-quality.pdf感知质量测量方法

感知音频编码算法执行极大的不相关性降低以实现高编码增益。不发送被认为是不可感知的信号分量,并且根据音频信号的掩蔽阈值对编码噪声进行频谱整形。简单的质量测量(例如,信噪比,谐波失真)不能将这些听不见的伪像与可听错误分开,不能用于评估这种编码器的性能。

对于感知音频编解码器的质量评估,需要适当的测量算法,其通过将编解码器的输出与未编码的参考进行比较来检测和评估可听的假象。提出了一种基于滤波器组的感知模型,其产生比基于FFT的方法更好的时间分辨率,因此允许对掩模前后的更精确建模以及对每个滤波器通道内的包络的精细分析。

也可以看看 http://academic.research.microsoft.com/Paper/201987.aspx?viewType=1

© www.soinside.com 2019 - 2024. All rights reserved.