如果我有一个可能包含null值的字符串列,我试图找出最佳实践。在SQL数据库中,null是合法值,但是通过阅读,我发现很多问题和人们对镶木地板文件中的null值提出疑问。如果以后要使用国外的一组工具(例如Drill,Spark等)来处理这些镶木地板文件。以空值或空字符串存储空值的最佳方法是什么?
这不是关于其他工具的问题,也不是关于业务逻辑的Spark的问题,因为许多其他应用程序将它们视为单独的逻辑实体,因此它们对null
或空字符串""
的考虑有所不同,
但是,如果您的应用程序将它们视为相同,则可以将它们标记为更安全的选项为空字符串""
,这将避免该列将来出现的所有NullpointerExceptions
。
AFAIK所有其他大数据组件(包括Parquet文件格式的Drill,Spark等)都很好地处理null
值。