这个(1.4M)可以用gzip解压没问题say
gzip --stdout --decompress ./archiveteam_blip_20150813160102.cdx.gz
它解压缩为
61400
行文本。
但是,这段代码基于
zpipe.c
,libz网站上给出的示例脚本(使用./zpipe archiveteam_blip_20150813160102.cdx.gz
运行,我只得到3000行的数据:
#include <stdio.h>
#include <string.h>
#include <assert.h>
#include "zlib.h"
#if defined(MSDOS) || defined(OS2) || defined(WIN32) || defined(__CYGWIN__)
# include <fcntl.h>
# include <io.h>
# define SET_BINARY_MODE(file) setmode(fileno(file), O_BINARY)
#else
# define SET_BINARY_MODE(file)
#endif
#define CHUNK 16384
int inf(FILE *source, FILE *dest)
{
int ret;
unsigned have;
z_stream strm;
unsigned char in[CHUNK];
unsigned char out[CHUNK];
/* allocate inflate state */
strm.zalloc = Z_NULL;
strm.zfree = Z_NULL;
strm.opaque = Z_NULL;
strm.avail_in = 0;
strm.next_in = Z_NULL;
ret = inflateInit2(&strm, 16 + MAX_WBITS);
if (ret != Z_OK)
return ret;
/* decompress until deflate stream ends or end of file */
do {
strm.avail_in = fread(in, 1, CHUNK, source);
if (ferror(source)) {
(void)inflateEnd(&strm);
return Z_ERRNO;
}
if (strm.avail_in == 0)
break;
strm.next_in = in;
/* run inflate() on input until output buffer not full */
do {
strm.avail_out = CHUNK;
strm.next_out = out;
ret = inflate(&strm, Z_NO_FLUSH);
assert(ret != Z_STREAM_ERROR); /* state not clobbered */
switch (ret) {
case Z_NEED_DICT:
ret = Z_DATA_ERROR; /* and fall through */
case Z_DATA_ERROR:
case Z_MEM_ERROR:
(void)inflateEnd(&strm);
return ret;
}
have = CHUNK - strm.avail_out;
if (fwrite(out, 1, have, dest) != have || ferror(dest)) {
(void)inflateEnd(&strm);
return Z_ERRNO;
}
} while (strm.avail_out == 0);
/* done when inflate() says it's done */
} while (ret != Z_STREAM_END);
/* clean up and return */
(void)inflateEnd(&strm);
return ret == Z_STREAM_END ? Z_OK : Z_DATA_ERROR;
}
/* compress or decompress from stdin to stdout */
int main(int argc, char **argv)
{
int ret;
FILE *source = fopen(argv[1], "r");
/* avoid end-of-line conversions */
SET_BINARY_MODE(source);
SET_BINARY_MODE(stdout);
ret = inf(source, stdout);
if (ret != Z_OK)
{
fputs("zpipe: ", stderr);
switch (ret) {
case Z_ERRNO:
if (ferror(stdin))
fputs("error reading stdin\n", stderr);
if (ferror(stdout))
fputs("error writing stdout\n", stderr);
break;
case Z_STREAM_ERROR:
fputs("invalid compression level\n", stderr);
break;
case Z_DATA_ERROR:
fputs("invalid or incomplete deflate data\n", stderr);
break;
case Z_MEM_ERROR:
fputs("out of memory\n", stderr);
break;
case Z_VERSION_ERROR:
fputs("zlib version mismatch!\n", stderr);
}
}
return ret;
}
您的 gzip 文件有多个 gzip 成员。根据规范,任意数量的 gzip 流的串联也是有效的 gzip 流。来自 zlib.h 中的文档:
与gunzip实用程序和gzread()(见下文)不同,inflate()将不会自动解码连接的gzip成员。 inflate() 将在 gzip 成员的末尾返回 Z_STREAM_END。需要重置状态才能继续解码后续的 gzip 成员。如果 gzip 成员之后有更多数据,则必须执行此操作,以便解压缩符合 gzip 标准(RFC 1952)。
获得
Z_STREAM_END
后,您需要查看是否还有剩余数据或可以读取更多数据,如果有,请执行 inflateReset()
并解码下一个 gzip 成员。