在多核的CPU架构中,每一个核心core都会有自己的缓存行(cache line),因此如果一个变量如果同时存在不同的核心的cache line时,就会出现伪共享(false sharing)的问题。此时如果一个核心修改了该变量,该修改需要同步到其它核心的缓存。
上图说明了伪共享的问题。在核心1上运行的线程想更新变量X,同时核心2上的线程想要更新变量Y。不幸的是,这两个变量在同一个缓存行中。每个线程都要去竞争缓存行的所有权来更新变量。如果核心1获得了所有权,缓存子系统将会使核心2中对应的缓存行失效。当核心2获得了所有权然后执行更新操作,核心1就要使自己对应的缓存行失效。这会来来回回的经过L3缓存,大大影响了性能。如果互相竞争的核心位于不同的插槽,就要额外横跨插槽连接,问题可能更加严重。
我们可以通过padding来确保两个共享变量不位于同一个cache-line中,这对于链表等传统结构的共享(首尾节点通常位于同一cache-line)有重大意义。如下面这个例子:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
| #include<thread> #include <iostream>
using namespace std;
struct foo { int x;
/* int64_t pad1; int64_t pad2; int64_t pad3; int64_t pad4; int64_t pad5; int64_t pad6; int64_t pad7; int64_t pad8; int64_t pad9; int64_t pad10; int64_t pad11; int64_t pad12; int64_t pad13; int64_t pad14; int64_t pad15; int64_t pad16; */
int y; };
static struct foo f;
void sum_a(void) { clock_t start = clock(); int s = 0; int i; for (i = 0; i < 1000000000; ++i) s += f.x;
cout << "sum_a cost: "<< clock()-start << "ms"<< endl; }
void inc_b(void) { clock_t start = clock(); int i; for (i = 0; i < 1000000000; ++i) ++f.y;
cout << "inc_b cost: "<< clock()-start << "ms"<< endl; }
int main() { std::thread t1(sum_a); std::thread t2(inc_b);
t1.join(); t2.join(); return 0; }
|
未添加padding时,在我的机器上运行结果为:
inc_b cost: 4692ms
sum_a cost: 5722ms
添加padding后,运行结果为:
inc_b cost: 2161ms
sum_a cost: 2194ms