我正在阅读本关于网络编程的指南,我非常喜欢:https://beej.us/guide/bgnet/html/split/slightly-advanced-techniques.html#serialization
不过我对某些事情感到困惑。在关于序列化的这一节中,他讨论了出于字节排序原因而序列化 int,这对我来说很有意义,但他还包括这两个函数 pack754 和 unpack754,用于以 IEEE-754 格式序列化浮点数。
uint64_t pack754(long double f, unsigned bits, unsigned expbits)
{
long double fnorm;
int shift;
long long sign, exp, significand;
unsigned significandbits = bits - expbits - 1; // -1 for sign bit
if (f == 0.0) return 0; // get this special case out of the way
// check sign and begin normalization
if (f < 0) { sign = 1; fnorm = -f; }
else { sign = 0; fnorm = f; }
// get the normalized form of f and track the exponent
shift = 0;
while(fnorm >= 2.0) { fnorm /= 2.0; shift++; }
while(fnorm < 1.0) { fnorm *= 2.0; shift--; }
fnorm = fnorm - 1.0;
// calculate the binary form (non-float) of the significand data
significand = fnorm * ((1LL<<significandbits) + 0.5f);
// get the biased exponent
exp = shift + ((1<<(expbits-1)) - 1); // shift + bias
// return the final answer
return (sign<<(bits-1)) | (exp<<(bits-expbits-1)) | significand;
}
long double unpack754(uint64_t i, unsigned bits, unsigned expbits)
{
long double result;
long long shift;
unsigned bias;
unsigned significandbits = bits - expbits - 1; // -1 for sign bit
if (i == 0) return 0.0;
// pull the significand
result = (i&((1LL<<significandbits)-1)); // mask
result /= (1LL<<significandbits); // convert back to float
result += 1.0f; // add the one back on
// deal with the exponent
bias = (1<<(expbits-1)) - 1;
shift = ((i>>significandbits)&((1LL<<expbits)-1)) - bias;
while(shift > 0) { result *= 2.0; shift--; }
while(shift < 0) { result /= 2.0; shift++; }
// sign it
result *= (i>>(bits-1))&1? -1.0: 1.0;
return result;
}
令我困惑的是,这些函数的工作原理是查看第一位的符号,然后查看接下来的 X 位的指数,然后查看接下来的 Y 位的尾数。那么这是否意味着浮点必须在主机上采用 IEEE-754 格式才能工作?
这只是为了解释格式,还是您在现实生活中实际上会这样做?
那么这是否意味着浮点必须在主机上采用 IEEE-754 格式才能工作?
不,即使
long double
不是 IEEE,打包/解包也会“工作”(请参阅以下问题)。
这只是为了解释格式,还是您在现实生活中实际上会这样做?
看起来像学习者代码。 我不会使用提供的打包/解包代码,因为它的弱点(如下),尤其是 2 个very低效
while
循环。
pack754()
至少有这些缺点:
if (f == 0.0) return 0;
在序列化过程中会丢失信息,因为它对于 +0.0 和 -0.0 都返回 0。 测试 FP 符号位时,不要使用 if (f < 0)
,而是使用 if (signbit(f))
,即使 f
为零或 NAN,也能很好地提取符号位。
long double
可能超过 64 位,因此 uint64_t pack754(long double f, unsigned bits, unsigned expbits)
在尝试打包为 64 位时会丢失信息。 我想 OP 正在容忍这种信息丢失。
1LL<<significandbits
是溢出时的 UB (significandbits >= 63
)。 1ULL<<significandbits
有一些优势,但溢出 (significandbits >= 64
) 仍然是一个问题。
将
float
数学与后来的long double
数学一起使用是短视的。 ((1LL<<significandbits) + 0.5L)
更有意义。
与代码中的
while(fnorm >= 2.0)
不同,使用 long double frexpl(long double value, int *p)
来提取标准化值和指数。 使用 long double ldexpl(long double x, int p)
重新组合。
+ 0.5f
圆角有很多拐角问题。 最好使用lround()
和朋友。
...
对于 FP 值的简单跨平台交换,我会考虑
sprintf(buf, "%La", x)
到 pack 和 strtold()
到 unpack。