[机器学习中数据归一化的缺点[关闭]

问题描述 投票:-1回答:1
我想知道数据标准化对Python或MATLAB中的模型开发有哪些弊端。我看到有人说它可以提高AI模型的准确性而又不反映现实世界的问题。我是AI的初学者,我想知道您对我是否应该对数据进行规范化的意见。

提前感谢

python matlab machine-learning artificial-intelligence normalization
1个回答
-2
投票
欢迎使用stackoverflow!通常,我们在这里解决棘手的编码问题,但是我将尝试一个更通用的基于意见的答案:

缩放很好!究其原因,本质上是计算机存储数字的方式-实际上是浮点数或两倍数,即有理数。这些位的特定部分为基数保留,其余代表指数(称为

尾数)。就像某些软件包提供的“科学”表示形式:1234,5变为1,2345 * 10 ^ 3。您不必阅读wikipedia-article就可以理解,如果您乘以/加法/等,它会变得非常困难(或者更好的是“不准确”)。在这个表示中有大量和非常少的数字。这就是原因之一。因此,如果您从模型的随机初始化开始(例如,在NN中),则权重通常较小([0,1])。如果您的数据很大,则调整权重会花费更长的时间,因为它们很远-这并不总是相关的,但是如果您有一个较大范围的输入和一个较小范围的输入,则可能会变得不准确...

另一件事是,如果您不按比例缩放数据,则可能会成为

biased

结果–最佳:对称地围绕0。有一个really good article on this from the 19990s here。我什至无法解释它的一半,所以您最好阅读它。简而言之:扩展数据不是必需的,但是您不会做错-而且您实际上可以改善培训。 (这样做!)

BTW:您不应该缩放输出(也就是您的标签)。那只会使重新缩放变得乏味;)

© www.soinside.com 2019 - 2024. All rights reserved.