基于范围的for循环对性能有益吗？

Question

在 Stack Overflow 上阅读有关 C++ 迭代器和性能的各种问题**，我开始想知道

for(auto& elem : container)

是否被编译器“扩展”为最佳版本？（有点像

auto

，编译器会立即推断出正确的类型，因此永远不会变慢，有时会更快）。

** 例如，如果你写

有关系吗？

for(iterator it = container.begin(), eit = container.end(); it != eit; ++it)

或

for(iterator it = container.begin(); it != container.end(); ++it)

对于非失效容器？

Answer 1

标准是您的朋友，请参阅 [stmt.ranged]/1

对于以下形式的基于范围的 for 语句
for ( for-range-declaration : expression ) statement
让 range-init 等价于括号括起来的表达式
( expression )
对于基于范围的 for 形式的语句
for ( for-range-declaration : braced-init-list ) statement
让 range-init 等同于花括号 init-list。在每种情况下，基于范围的
for
语句相当于
{
  auto && __range = range-init;
  for ( auto __begin = begin-expr,
             __end = end-expr;
        __begin != __end;
        ++__begin )
  {
    for-range-declaration = *__begin;
    statement
  }
}

所以，是的，该标准保证实现最佳形式。

对于许多容器，例如

vector

，在此迭代期间修改（插入/删除）它们是未定义的行为。

Answer 2

出于好奇，我决定查看这两种方法的汇编代码：

int foo1(const std::vector<int>& v) {
    int res = 0;
    for (auto x : v)
        res += x;
    return res;
}

int foo2(const std::vector<int>& v) {
    int res = 0;
    for (std::vector<int>::const_iterator it = v.begin(); it != v.end(); ++it)
      res += *it;
    return res;
}

两种方法的汇编代码（使用 -O3 和 gcc 4.6）完全相同（省略了

foo2

的代码，因为它完全相同）：

080486d4 <foo1(std::vector<int, std::allocator<int> > const&)>:
80486d4:       8b 44 24 04             mov    0x4(%esp),%eax
80486d8:       8b 10                   mov    (%eax),%edx
80486da:       8b 48 04                mov    0x4(%eax),%ecx
80486dd:       b8 00 00 00 00          mov    $0x0,%eax
80486e2:       39 ca                   cmp    %ecx,%edx
80486e4:       74 09                   je     80486ef <foo1(std::vector<int, std::allocator<int> > const&)+0x1b>
80486e6:       03 02                   add    (%edx),%eax
80486e8:       83 c2 04                add    $0x4,%edx
80486eb:       39 d1                   cmp    %edx,%ecx
80486ed:       75 f7                   jne    80486e6 <foo1(std::vector<int, std::allocator<int> > const&)+0x12>
80486ef:       f3 c3                   repz ret

所以，是的，两种方法是相同的。

更新：同样的观察也适用于其他容器（或元素类型），例如

vector<string>

和

map<string, string>

。在这些情况下，在基于范围的循环中使用引用尤其重要。否则会创建一个临时代码并出现大量额外代码（在前面的示例中不需要它，因为

vector

仅包含

int

值）。

对于

map<string, string>

的情况，使用的 C++ 代码片段是：

int foo1(const std::map<std::string, std::string>& v) {
    int res = 0;
    for (const auto& x : v) {
        res += (x.first.size() + x.second.size());
    }
    return res;
}

int foo2(const std::map<std::string, std::string>& v) {
    int res = 0;
    for (auto it = v.begin(), end = v.end(); it != end; ++it) {
        res += (it->first.size() + it->second.size());
    }
    return res;
}

汇编代码（对于这两种情况）是：

8048d70:       56                      push   %esi
8048d71:       53                      push   %ebx
8048d72:       31 db                   xor    %ebx,%ebx
8048d74:       83 ec 14                sub    $0x14,%esp
8048d77:       8b 74 24 20             mov    0x20(%esp),%esi
8048d7b:       8b 46 0c                mov    0xc(%esi),%eax
8048d7e:       83 c6 04                add    $0x4,%esi
8048d81:       39 f0                   cmp    %esi,%eax
8048d83:       74 1b                   je     8048da0 
8048d85:       8d 76 00                lea    0x0(%esi),%esi
8048d88:       8b 50 10                mov    0x10(%eax),%edx
8048d8b:       03 5a f4                add    -0xc(%edx),%ebx
8048d8e:       8b 50 14                mov    0x14(%eax),%edx
8048d91:       03 5a f4                add    -0xc(%edx),%ebx
8048d94:       89 04 24                mov    %eax,(%esp)
8048d97:       e8 f4 fb ff ff          call   8048990 <std::_Rb_tree_increment(std::_Rb_tree_node_base const*)@plt>
8048d9c:       39 c6                   cmp    %eax,%esi
8048d9e:       75 e8                   jne    8048d88 
8048da0:       83 c4 14                add    $0x14,%esp
8048da3:       89 d8                   mov    %ebx,%eax
8048da5:       5b                      pop    %ebx
8048da6:       5e                      pop    %esi
8048da7:       c3                      ret

Answer 3

Range-for 尽可能快，因为它缓存了最终迭代器^{[提供的引用]}，使用预增量并且仅取消引用迭代器一次。

所以如果你倾向于写：

for(iterator i = cont.begin(); i != cont.end(); i++) { /**/ }

那么，是的，range-for 可能会稍微更快，因为它也更容易编写，所以没有理由不使用它（在适当的时候）。

NB. 我说过它是尽可能快，但它并不是比可能更快。如果您仔细编写手动循环，您可以获得完全相同的性能。

Answer 4

不。它与带有迭代器的旧

for

循环相同。毕竟，基于范围的

for

在内部与迭代器一起工作。编译器只是为两者生成等效的代码。

Answer 5

在极少数情况下，它可能会更快。由于您无法命名迭代器，优化器可以更轻松地证明您的循环无法修改迭代器。这会影响例如循环展开优化。

Answer 6

硬件加速器展开循环，因此不希望为循环的每次迭代重新计算重要的

S::end()

（例如

for(auto x = s->begin(); s->end() != x; ++x) {}

）。

std::for_each

（或

for(auto &x : s) {}

）应该解决

altera-id-dependent-backward-branch

（什么是具有ID依赖的向后分支的循环？）或其他此类问题

基于范围的for循环对性能有益吗？

问题描述投票：0回答：6

6个回答

最新问题

基于范围的for循环对性能有益吗？

问题描述 投票：0回答：6

6个回答

最新问题

问题描述投票：0回答：6