我有这样的十六进制数字范围
0xabcd****
0xabdc**89
0x****abcd
0xde****ab
# 50 or so more entries like these
# where * is any hex number
我需要一个哈希函数,该函数将接受 4 字节值并为成员资格生成 Y/N 答案。
我尝试使用 gperf,但不幸的是它不会将 * 解释为通配符。 以前有人遇到过这个问题吗?我的代码是 C 语言。
如果我可以相信我的算术,每个
****
有 16^4 个可能的值,因此四个通配符规范枚举 3 * 16^4 + 16^2
值 - 大约 200,000 - 有点超出 gperf 的范围(其文档假设“大”密钥集是 15,000)。
通配符对我来说意味着正则表达式,所以为什么不尝试一下呢?这里尝试将“4byte 值”定义为 uint32_t,并向
regex(3)
机器呈现该值的文本编码。这可能不是您想要的,但因为拼凑起来很有趣,所以就给您吧。
#include <sys/types.h>
#include <regex.h>
#include <stdint.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <unistd.h>
static regex_t the_re;
int
matcher_init(void)
{
static const char the_re_string[] = "(abcd....|abdc..89|....abcd|de....ab|"
/* OP's 4, plus 46 more... */
"..d80a..|..7bc5..|c6..514a|..b7585a|"
"4732ecc4|7c22e4da|5a5e..63|....e866|"
"..fdc367|ac....b4|70249edc|..e97e32|"
"....94d8|....fa6c|4591..ff|..e4..67|"
"aab285..|....f81b|15bb22ba|3cf4....|"
"57d3ad86|..bd..1e|..ec67b7|..693aaf|"
"323c..18|cab237cb|d4b2c6b4|2a15..2f|"
"....d196|..5e..10|....b1f1|b54e9838|"
"..0cf1..|5c1a..fb|....f34d|19..d34c|"
"..cacb48|..4c2d09|48..bc..|f98cc7..|"
"ac..2b1a|..beb5..|98..03..|..61c35e|"
"....1245|61..5ca8)";
int res;
if ((res = regcomp(&the_re, the_re_string, REG_EXTENDED|REG_NOSUB)) != 0) {
char ebuf[256];
(void) regerror(res, &the_re, ebuf, sizeof ebuf);
(void) fprintf(stderr, "regcomp failed: %s\n", ebuf);
return -1;
}
return 0;
}
int
matcher_matches(uint32_t u)
{
char ubuf[9];
(void) sprintf(ubuf, "%08x", u);
return regexec(&the_re, ubuf, 0, 0, 0) == 0;
}
int
main(void)
{
int i;
unsigned tf, iterations, matches;
time_t start;
uint32_t tvals[] = {
0xabcd0000, 0xabdc0089, 0x0000abcd, 0xde0000ab,
0x00d80a00, 0x007bc500, 0xc600514a, 0x00b7585a,
0x4732ecc4, 0x7c22e4da, 0x5a5e0063, 0x0000e866,
0x00fdc367, 0xac0000b4, 0x70249edc, 0x00e97e32,
0x000094d8, 0x0000fa6c, 0x459100ff, 0x00e40067,
0xaab28500, 0x0000f81b, 0x15bb22ba, 0x3cf40000,
0x57d3ad86, 0x00bd001e, 0x00ec67b7, 0x00693aaf,
0x323c0018, 0xcab237cb, 0xd4b2c6b4, 0x2a15002f,
0x0000d196, 0x005e0010, 0x0000b1f1, 0xb54e9838,
0x000cf100, 0x5c1a00fb, 0x0000f34d, 0x1900d34c,
0x00cacb48, 0x004c2d09, 0x4800bc00, 0xf98cc700,
0xac002b1a, 0x00beb500, 0x98000300, 0x0061c35e,
0x00001245, 0x61005ca8 };
if (matcher_init() == -1) {
return 1;
}
/* test known values */
tf = 0;
for (i = 0; i < sizeof(tvals) / sizeof(tvals[0]); i++) {
if (!matcher_matches(tvals[i])) {
(void) printf("0x%08x should match; didn't...\n", tvals[i]);
tf = 1;
}
}
if (tf) {
return 1;
}
/* some random probes */
srand((time(0) << 16) | (getpid() & 0xFFFF));
iterations = matches = 0;
(void) time(&start);
for (i = 0; i < 1000000; i++) {
uint32_t u = (uint32_t) ((rand() << 16) | (rand() & 0xFFFF));
/* printf("Test: 0x%08x\n", u); */
if (matcher_matches(u)) {
(void) printf("Match: %08x\n", u);
(void) fflush(stdout);
matches++;
}
iterations++;
}
printf("iterations: %d; matches: %d (%u seconds)\n",
iterations, matches,
(unsigned) (time(0) - start));
return 0;
}
对此的回答让我想起了问题本身,经过反思,我想到了一个更直接的方法。为什么更好的答案不首先出现,我永远不会知道。
无论如何,不要使用正则表达式,只使用值和掩码。上面的代码丢失了
matcher_init
调用(以及与正则表达式相关的所有内容),并且 matcher_matches
调用支持可能如下所示。查找的值与我为第一个答案生成的附加 46 相匹配,因此第一个答案中的相同测试代码 main
将继续工作。
我想您可以对 struct vm 数组进行排序,以便首先出现掩码中设置的位数较少的条目,并获得适度的性能增益,但即使如此,第二次尝试对我来说也比基于正则表达式的尝试快大约五倍。
static struct {
uint32_t val, mask;
} vm [] = {
{ 0xabcd0000, 0xffff0000 },
{ 0xabdc0089, 0xffff00ff },
{ 0x0000abcd, 0x0000ffff },
{ 0xde0000ab, 0xff0000ff },
{ 0x00d80a00, 0x00ffff00 },
{ 0x007bc500, 0x00ffff00 },
{ 0xc600514a, 0xff00ffff },
{ 0x00b7585a, 0x00ffffff },
{ 0x4732ecc4, 0xffffffff },
{ 0x7c22e4da, 0xffffffff },
{ 0x5a5e0063, 0xffff00ff },
{ 0x0000e866, 0x0000ffff },
{ 0x00fdc367, 0x00ffffff },
{ 0xac0000b4, 0xff0000ff },
{ 0x70249edc, 0xffffffff },
{ 0x00e97e32, 0x00ffffff },
{ 0x000094d8, 0x0000ffff },
{ 0x0000fa6c, 0x0000ffff },
{ 0x459100ff, 0xffff00ff },
{ 0x00e40067, 0x00ff00ff },
{ 0xaab28500, 0xffffff00 },
{ 0x0000f81b, 0x0000ffff },
{ 0x15bb22ba, 0xffffffff },
{ 0x3cf40000, 0xffff0000 },
{ 0x57d3ad86, 0xffffffff },
{ 0x00bd001e, 0x00ff00ff },
{ 0x00ec67b7, 0x00ffffff },
{ 0x00693aaf, 0x00ffffff },
{ 0x323c0018, 0xffff00ff },
{ 0xcab237cb, 0xffffffff },
{ 0xd4b2c6b4, 0xffffffff },
{ 0x2a15002f, 0xffff00ff },
{ 0x0000d196, 0x0000ffff },
{ 0x005e0010, 0x00ff00ff },
{ 0x0000b1f1, 0x0000ffff },
{ 0xb54e9838, 0xffffffff },
{ 0x000cf100, 0x00ffff00 },
{ 0x5c1a00fb, 0xffff00ff },
{ 0x0000f34d, 0x0000ffff },
{ 0x1900d34c, 0xff00ffff },
{ 0x00cacb48, 0x00ffffff },
{ 0x004c2d09, 0x00ffffff },
{ 0x4800bc00, 0xff00ff00 },
{ 0xf98cc700, 0xffffff00 },
{ 0xac002b1a, 0xff00ffff },
{ 0x00beb500, 0x00ffff00 },
{ 0x98000300, 0xff00ff00 },
{ 0x0061c35e, 0x00ffffff },
{ 0x00001245, 0x0000ffff },
{ 0x61005ca8, 0xff00ffff }
};
int
matcher_matches(uint32_t u)
{
size_t i;
for (i = 0; i < sizeof(vm) / sizeof(vm[0]); i++) {
if ((u & vm[i].mask) == vm[i].val) {
return 1;
}
}
return 0;
}
通配符现在是结构体
mask
字段中的零,而 val
字段中对应的位“不关心”值(设置为零)。
由于您不愿意枚举
gperf
的值(而且 gperf
似乎无论如何都无法处理那么多输入),那么您就不能使用 gperf
来完成您的任务,所以,您问题的答案是您不能使用gperf
创建您的哈希。
我的建议是忘记完美哈希(除了您希望使用
gperf
之外,您没有描述完美哈希的任何要求)。这些值本身分布良好,可以按原样用作哈希值。
考虑到密钥的分布,您可能会考虑使用多级表。 Peter Kankowski 在这里详细讨论了它们。除其他外,它们还用于将大量 unicode 代码点映射到特定属性,例如 is-capital 或 is-punctuation。
对于您的应用程序,用一个位(存在/不存在)替换散列的值侧,然后为涵盖您期望看到的最小/最大的输入范围构建表(这可能是 0x0->0xFFFFFFFF) 。该系统很好地压缩了重复的相邻值。
这种方法提供“恒定时间”查找,但可能对缓存不友好。带掩码的表扫描对缓存非常友好,但时间可变。我不知道什么会更小。