我们有 vertica 服务器、许多数据源(hadoop hive、postgres、一些内部气流 dag 管道),数据来自这些数据源。有几个表,数据来源未知。负责人消失了,colfuence、jira等中没有信息。表格有新鲜数据,定期刷新。有没有办法跟踪进程,一些数据来找到链接服务器?
其实不知道从哪里开始。我正在使用 pycharm 来处理 vertica。
尝试对
query_requests
和 load_streams
系统表进行查询:
如果您的表是
poc.tgt
并且您怀疑其中充满了 INSERT,请执行:
SELECT
session_id
, user
, REGEXP_SUBSTR(request, 'INSERT\s+INTO\s+poc.tgt', 1, 1, 'i') AS reqstart
FROM query_requests
WHERE regexp_ilike(request, 'INSERT\s+INTO\spoc.tgt')
LIMIT 64; -- the first 64 found should give you enough info
如果您的表格名称是
with_array
并且您怀疑它由 COPY
填充,请转到:
SELECT
session_id
, user
, REGEXP_SUBSTR(request, 'COPY\swith_array') AS reqstart
FROM query_requests
WHERE regexp_ilike(request, 'COPY\swith_array')
LIMIT 64