正如标题所说,jOOQ 是否有一种解决方法可以让我使用 DuckDB 查询存储在对象存储中的 parquet 文件?示例:
read_parquet(s3://path/to/my/parquet_file)
我可以想到一种方法,避免使用 jooq-codegen 并通过定义常量、记录映射器和查询构建器手动完成这一切。
有没有更好的方法使用自动生成的类来做到这一点?
是的,但您需要 httpfs 扩展,当然还有必要的权限。
有关详细信息,请参阅 https://duckdb.org/docs/guides/network_cloud_storage/s3_import.html,但简而言之:
import httpfs; -- need only be done once (per user per machine)
load https;
# set up the credentials and S3 region to read data
SELECT * FROM read_parquet('s3://⟨bucket⟩/⟨file⟩');