我是pyspark的新手,在Spark版本2.2.0和Python版本2.7.12上使用pyspark
我试图将2 .csv文件(具有多于1个标题行)读入具有已知模式的2个不同数据帧并执行比较操作。
我不确定是否有任何最佳/更好的方法来创建模式文件(包括列名,数据类型,可空性)并在pyspark程序中引用它以加载到数据帧中。
我为第一个文件编码如下:
我能够为第一个文件的示例数据执行这些步骤。
请建议是否有更好的方法(我还没有探索StructType的DWD选项)。在为第二个文件创建类似的数据帧之后,存在要应用的功能逻辑。
谢谢
如何使用pyspark spark.read.csv读取文件,其中stucttype用于schema,options header = true和mode = DROPMALFORMED,它将忽略任何不匹配schema的记录。
我能够使用yaml配置文件(存储模式)执行此操作,并从pyspark读取以动态构造StructType。
它正在工作并满足要求。如果有更好的方法,很高兴听到。