IEEE 浮点数界限为 (b-a)+a，其中 0=<a<=b

Question

这是一个特定的利基问题，因此在标题中充分说明：

问题

给定两个非负数

和

，其中

小于或等于

，我关心以下算法中的

是否小于或等于

。

算法：

x = b-a;
y = x+a;

y<=b

一般只要

0<=a<=b

那么长吗？

备注

我希望这些属性得到充分分析，但维基百科和 GPT 却一无所知。
谁有一些好的参考资料？
我不仅关心
```
float
```
和
```
double
```
。我关心任何符合 IEEE 标准的号码。

Answer 1

符号

a和b分别是

和

的值，对于x和y也类似。 b⁻ 是小于 b 的下一个可表示的浮点格式值，b⁺ 是大于 b 的下一个可表示值。

纯字体的数学代表实数数学。 b−a 是不四舍五入的实数减法结果。

code font

中的数学表示浮点运算。

b-a

是执行浮点减法的结果，等于 b−a 根据选定的舍入方法舍入到可表示的值。

假向上舍入

如果使用向上舍入（朝 +∞ 舍入），则

≤

显然是错误的：

令 b 为 1，a 为 ½(b−b⁻)。（我假设格式的指数范围足以表示 a。）则 b−a 不可表示，并且位于 b⁻ 和 b 之间。向上舍入，

x = b-a

生成

。那么 x+a 位于 b 和 b⁺ 之间，因此，向上舍入，

y = x+a

会生成 b⁺。这违反了

≤

。

向下舍入或向零舍入为真

向下舍入（向−∞）或向零舍入，我们考虑两种情况：

为零，

不为零（0<

≤

）。

当

= 0 时，

x = b-a

产生

，

y = x+a

产生

，并且满足

≤

。

当

不为零时，由于舍入方向，

x = b-a

会产生小于或等于 b−a 的值。然后

y = x+a

产生小于或等于 x+a ≤ b−a+a = b 的值，因此

≤

成立。

四舍五入为最接近值时为假

对

float

使用 IEEE-754 二进制 32 并进行舍入到最接近、偶数连接，此代码会生成大于

的

：

float b = 0x.FFFFFFp0;
float a = 0x.0000018p0;
float x = b-a;
float y = x+a;

解释：设 b 为 1−2⁻²⁴。（这是紧邻 1 之前的可表示值，等于 0.FFFFFF₁₆。）令 a 为 1½•2⁻²⁴（相当于 1.5•2⁻²⁴、3•2⁻²⁵、或 0.0000018₁₆).

b−a = 1−2⁻²⁴ − 3•2⁻²⁵ = 1-5•2⁻²⁵ = 0.FFFFFD8₁₆，这在二进制32中无法表示。（在二进制中，其前导 1 位位于 2⁻¹，尾随 1 位位于 2⁻²⁵，其跨度超过了二进制 32 格式有效数中的 24 位。）相邻的可表示值 1−3•2⁻²⁴ = 0.FFFFFD₁₆ 和 1−2•2⁻²⁴ = 0.FFFFFE₁₆。由于这些是等距的，因此使用舍入到最接近的舍入、连到偶数进行舍入会产生具有偶数低位的数字，0.FFFFFE₁₆ = 1−2•2⁻²⁴。因此

x = b-a

将

设置为该值。

现在考虑

y = x+a

。 x+@a 为 1−2•2⁻²⁴ + 3•2⁻²⁵ = 1−2•2⁻²⁵ = 0.FFFFFF8₁₆。这不具有代表性。它位于相邻可表示值 1−2⁻²⁴ = 0.FFFFFF₁₆ 和 1 = 1.00000₁₆ 之间。同样，使用偶数低位的数字，因此

y = x+a

产生 1。由于

是 1 并且

是 1−2⁻²⁴，因此

≤

为假。

IEEE 浮点数界限为 (b-a)+a，其中 0=<a<=b

问题描述投票：0回答：1

问题

备注

1个回答

符号

假向上舍入

向下舍入或向零舍入为真

四舍五入为最接近值时为假

最新问题

IEEE 浮点数界限为 (b-a)+a，其中 0=<a<=b

问题描述 投票：0回答：1

问题

备注

1个回答

符号

假向上舍入

向下舍入或向零舍入为真

四舍五入为最接近值时为假

最新问题

问题描述投票：0回答：1