在 databricks 中的 pyspark 中对复杂嵌套 json 进行模式验证的最佳方法是什么。我当前的输入是一个数据框,其中一列为 json。
我正在尝试使用 Jsonschema 库来使用 udf 来验证它,但它使代码变得非常慢。
如有任何帮助,我们将不胜感激
Jsonschema 是用 Python 编写的,因此可能会很慢。我建议使用用 Rust 编写的 Pydantic v2。如果您有 JSON 格式的 JSON 模式,您可以使用 datamodel-code-gen 工具将其转换为 Pydantic 模型:
这个解决方案可能会更有效,但如果有人向我展示本机 pyspark 解决方案来验证复杂的 JSON,就像在 JSON 模式上工作的库一样,我将不胜感激。
有几种解决方案,但
None
都是完美的。使用 PySpark 最快:
除此之外我检查过
great-expectation
工具,但我仍在检查这个