来自Brian W. Kernighan的C编程语言
&运算符仅适用于内存中的对象:变量和数组元素。它不能应用于表达式,常量或寄存器变量。
如果不在内存中,表达式和常量存储在哪里?这句话是什么意思?
例如:
&(2 + 3)
为什么我们不能拿它的地址?它存放在哪里? 对于C ++,答案是否也一样,因为C一直是它的父级?
这链接question explains,这种表达式是rvalue
对象和所有rvalue
对象没有地址。
我的问题是这些表达式存储在哪里,以至于无法检索到它们的地址?
考虑以下功能:
unsigned sum_evens (unsigned number) {
number &= ~1; // ~1 = 0xfffffffe (32-bit CPU)
unsigned result = 0;
while (number) {
result += number;
number -= 2;
}
return result;
}
现在,让我们玩编译器游戏并尝试手动编译。我假设您正在使用x86,因为这是大多数台式计算机使用的。 (x86是Intel兼容CPU的指令集。)
让我们通过一个简单的(未经优化的)版本来解释这个例程在编译时的样子:
sum_evens:
and edi, 0xfffffffe ;edi is where the first argument goes
xor eax, eax ;set register eax to 0
cmp edi, 0 ;compare number to 0
jz .done ;if edi = 0, jump to .done
.loop
add eax, edi ;eax = eax + edi
sub edi, 2 ;edi = edi - 2
jnz .loop ;if edi != 0, go back to .loop
.done
ret ;return (value in eax is returned to caller)
现在,正如您所看到的,代码中的常量(0
,2
,1
)实际上显示为CPU指令的一部分!事实上,1
根本没有出现;编译器(在这种情况下,只是我)已经计算了~1
并在代码中使用结果。
虽然你可以获取CPU指令的地址,但取一部分的地址通常是没有意义的(在x86中你有时可以,但在许多其他的CPU中你完全不能这样做),并且代码地址是从根本上不同于数据地址(这就是为什么你不能将函数指针(代码地址)视为常规指针(数据地址))。在某些CPU架构中,代码地址和数据地址完全不兼容(尽管大多数现代操作系统使用它的方式与x86不同)。
请注意while (number)
相当于while (number != 0)
。 0
根本没有出现在编译代码中!它是由jnz
指令暗示的(如果不是零则跳转)。这是为什么你不能拿那个0
的地址的另一个原因 - 它没有一个,它实际上无处可去。
我希望这能让你更清楚。
存储这些表达式的位置,以便无法检索地址?
你的问题不是很好。
int a = 0;
这样做有两件事:首先,它声明了一个整数变量a
。这被定义为您可以采取的地址。编译器可以在给定平台上执行任何有意义的操作,以允许您获取a
的地址。
其次,它将变量的值设置为零。这并不意味着编译程序中某处存在值为零的整数。它通常可以实现为
xor eax,eax
也就是说,XOR(异或)eax
注册自己。这总是导致零,无论以前是什么。但是,在编译的代码中没有固定的值0
对象来匹配您在源代码中编写的整数文字0
。顺便说一句,当我说上面的a
是你可以采取的地址时 - 值得指出的是,除非你接受它,否则它可能没有真正的地址。例如,该示例中使用的eax
寄存器没有地址。如果编译器可以证明程序仍然是正确的,那么a
可以在该寄存器中存活,并且永远不会存在于主存中。相反,如果你在某处使用表达式&a
,编译器将注意创建一些可寻址的空间来存储a
的值。
请注意,我可以轻松地选择一种不同的语言,我可以使用表达式的地址。
它可能会被解释,因为一旦机器可执行输出替换它们,编译通常会丢弃这些结构。例如,Python具有运行时内省和code
对象。
或者我可以从LISP开始并扩展它以提供对S表达式的某种操作地址。
它们两者的共同关键是它们不是C,这在设计和定义方面并不提供这些机制。
这些表达式最终成为机器代码的一部分。表达式2 + 3
可能被转换为机器代码指令“将5加载到寄存器A”。 CPU寄存器没有地址。
将地址用于表达式并没有多大意义。你能做的最接近的是一个函数指针。表达式的存储方式与变量和对象的存储方式不同。
表达式存储在实际的机器代码中。当然,您可以找到评估表达式的地址,但这样做是没有意义的。
阅读有关装配的一些内容。表达式存储在文本段中,而变量存储在其他段中,例如数据或堆栈。
https://en.wikipedia.org/wiki/Data_segment
解释它的另一种方法是表达式是cpu指令,而变量是纯数据。
还有一件事要考虑:编译器经常优化掉东西。考虑以下代码:
int x=0;
while(x<10)
x+=1;
此代码可能会优化为:
int x=10;
那么在这种情况下(x+=1)
的地址意味着什么呢?它甚至不存在于机器代码中,因此根据定义它根本没有地址。
表达式和常量如果不在内存中则存储在何处
在某些(实际上很多)情况下,根本不存储常量表达式。特别是,想想optimizing compilers,看看CppCon 2017:Matt Godbolt的talk“我的编译器最近为我做了什么?解开编译器的盖子“
在某些具有2 + 3
的C代码的特定情况下,大多数优化编译器将constant folded设置为5,并且该常量可能只是在machine code的某些code segment指令(作为某些位域)内,甚至没有明确定义的内存位置。如果该常量5是一个循环限制,一些编译器可能已经完成了loop unrolling,并且该常量将不再出现在二进制代码中。
另见this答案等...
请注意,C11是一个用英语写的规范。阅读其n1570标准。另请阅读更大的C ++ 11(或更高版本)规范。
C(和C ++)的semantics禁止使用常量的地址。
答案太复杂了。您的初始语句的真正含义是它适用于堆栈内存或堆内存中的值,即您实际可以写入的内存。表达式和常量(程序本身)实际上存储在内存中,但您无法写入此内存。因此,能够参考那个记忆是没有意义的;如果你尝试,你会得到一个段错误。