我有一个带有属性 _id 的类模板,它具有来自 class-transformer 和 typed-graphql 的装饰器 从 'class-transformer' 导入 {classToPlain, Exclude, Expose, plainToClass, Type }; 重要...
TF Transformer 模型永远不会过拟合,只会停滞不前:这条训练曲线的解读和改进建议
此训练曲线适用于处理 2D(不包括批次)顺序信号并使用 Adam 优化器、32 批次大小和学习率的 Transformer 模型:自定义 LR 调度程序,
我有以下代码需要转换为 Pyspark。 我知道如何在 Pyspark 中创建数据帧 df_stack_exchange,但不知道如何创建等效的 allocate_boxes 函数...
我想仅保留 pyspark 字符串列中的唯一字母。请建议任何不使用 udfs 的解决方案。我需要一个 Pyspark 解决方案,而不是 for...
我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至
Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。在执行简单的 .map() 时
我是 pySpark 的新手,尝试了一个简单的 pySpark 代码,例如读取文件并使用 .map(),但在执行时出现 Py4JJavaError 从 pyspark 导入 SparkContext、SparkConf 配置 = SparkCo...
假设我在 Databricks 中有以下 pyspark 数据框: 一些其他列 价格_历史记录 测试1 [{“日期”:“2021-03-21T01:20:33Z”,“price_tag”:“N”,...
我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("
我想在pyspark中实现累加减法。 我有这样的数据集 委员会 科伊特姆 1000 1110 100 1110 50 1110 30 1110 20 1110 2000年 1210 10 1210 200 1210 -100 1210 20 1210 我的德...
pyspark 新手。只是尝试简单地循环变量列表中存在的列。这是我尝试过的,但不起作用。 列列表 = ['colA','colB','colC'] 对于 df 中的 col: 如果 col 在
我有一个 pyspark pandas 数据框。我想使用一些预定义函数执行自定义聚合,并为了简单起见使用 numpy.nanmean 我收到以下错误“aggs 必须是一个字典
作为一些聚合的结果,我想出了以下 Sparkdataframe: ----------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----...
日期 '2020/12/01' 20201227 '2020/12/03' 无效的 '2020-12-13' 在日期列中,有这些类型的数据,我需要更改yyyy-MM-dd格式 我们如何在 Pyspark 中实现这一目标。 基础...
col("name") 与直接在 pyspark pandas udf 函数列名称中使用名称之间有区别吗?
当将输入传递到pyspark中的pandas_udf时,您使用col(“name”),有时您直接使用“name”。有区别吗?另外,有人可以指出我确切的
我有一个 Pyspark 数据框,其中的字符串日期可能是 yyyyMM (例如 200802)或 yyyyMMdd (例如 20080917)。我正在尝试将这些解析为日期。我目前正在考虑的功能是
Pyspark - 转换字符串数组以进行映射,然后映射到可能使用 pyspark 而不是 UDF 或其他性能密集型转换的列
我正在处理一些具有一些键值标头和有效负载的数据。我已成功将标头解析为以下数组: +------------------------------------------------ -----------+-----...
ML.net - CreateTimeSeriesEngine
我正在使用 ML.net 进行时间序列分析项目。在这里我尝试预测欧元兑美元的交易汇率。我从 CSV 文件加载数据并使用内存数据创建 IDataView。 列表 我正在使用 ML.net 进行时间序列分析项目。在这里我尝试预测欧元兑美元的交易汇率。我从 CSV 文件加载数据并使用内存数据创建 IDataView。 List<RateData> infoList = new List<RateData>(); // populate list infoList = FileParser(infoList); IDataView data = mlContext.Data.LoadFromEnumerable<RateData>(infoList); 我设法像这样运行预测估计器 var forecastEstimator = mlContext.Forecasting.ForecastBySsa( outputColumnName: nameof(RatePrediction.CurrentRate), inputColumnName: nameof(RateData.HistoricalRate), windowSize: 14, seriesLength: numRateDataPoints, trainSize: numRateDataPoints, horizon: 1, confidenceLevel: 0.95f ); SsaForecastingTransformer forecaster = forecastEstimator.Fit(RateDataSeries); 然后我尝试创建这样的预测引擎 var ForecastEngine = Forecaster.CreateTimeSeriesEngine(mlContext); 这里我遇到了一些错误。 我的输入和输出类如下: public class RateData { public DateTime TransactionDate { get; set; } public float HistoricalRate { get; set; } } public class RatePrediction { public float CurrentRate; } 我有这样的错误 System.InvalidOperationException: Can't bind the IDataView column 'CurrentRate' of type 'Vector<Single, 1>' to field or property 'CurrentRate' of type 'System.Single'. at Microsoft.ML.Data.TypedCursorable`1..ctor(IHostEnvironment env, IDataView data, Boolean ignoreMissingColumns, InternalSchemaDefinition schemaDefn) at Microsoft.ML.Data.TypedCursorable`1.Create(IHostEnvironment env, IDataView data, Boolean ignoreMissingColumns, SchemaDefinition schemaDefinition) at Microsoft.ML.Transforms.TimeSeries.TimeSeriesPredictionEngine`2.PredictionEngineCore(IHostEnvironment env, InputRow`1 inputRow, IRowToRowMapper mapper, Boolean ignoreMissingColumns, SchemaDefinition outputSchemaDefinition, Action& disposer, IRowReadableAs`1& outputRow) at Microsoft.ML.PredictionEngineBase`2..ctor(IHostEnvironment env, ITransformer transformer, Boolean ignoreMissingColumns, SchemaDefinition inputSchemaDefinition, SchemaDefinition outputSchemaDefinition, Boolean ownsTransformer) at Microsoft.ML.Transforms.TimeSeries.TimeSeriesPredictionEngine`2..ctor(IHostEnvironment env, ITransformer transformer, Boolean ignoreMissingColumns, SchemaDefinition inputSchemaDefinition, SchemaDefinition outputSchemaDefinition) at Microsoft.ML.Transforms.TimeSeries.PredictionFunctionExtensions.CreateTimeSeriesEngine[TSrc,TDst](ITransformer transformer, IHostEnvironment env, Boolean ignoreMissingColumns, SchemaDefinition inputSchemaDefinition, SchemaDefinition outputSchemaDefinition) at USD_EURO_Conversion_rate.TimeSeriesModelHelper.FitAndSaveModel(MLContext mlContext, IDataView RateDataSeries, String outputModelPath) 预测类中的属性需要是float[]类型;向量/数组而不是单个值,例如 public class RatePrediction { public float[] CurrentRate; } 类似于此处的Microsoft 示例。
我有一个数据框,它有字符串值,我有一个数组。 alg_mappings = { ('Full Cover', 40): [['base,permissed_usage'],['si_mv'],['suburb']]# 根据需要添加更多值 } 默认_va...
我正在databricks中进行以下计算,并四舍五入到小数点后两位。 结果 = ( 圆形的( 合并( 当(col('col')!= 0,col('col')), 当(col('col')!...
我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它
从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配
我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...
我正在azure databricks中运行以下代码。 使用 erp_bu 创建查找字典,erp_bu 是具有两列“erp_code”和“bu”的行对象列表 广播查找字典
如何读取包含 Excel 公式的 Excel 文件以通过 PySpark lib com.crealytics.spark.excel 计算值
我有一个 Excel 文件,例如: 它使用 Excel 公式计算每个值的列 我尝试使用以下方法读取该文件: input_MonthGroup_df = Spark.read.format("com.crealytics.spark.ex...
我有如下文件 H201908127477474 123|样品|客户|3433 786|前|数据|7474737 987|解决|数据|6364 T3 637373 我想从文件中删除第一行和最后一行。请给我一些
我在 Spark 数据框中进行条件分组时遇到问题 下面是完整的例子 我有一个数据框,已按用户和时间排序 活动地点用户 0 观看
如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?
我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...
如何在 Step Function 中包含 AWS Glue 爬网程序
这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...
有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?
我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...
我有一个数据框,其中数据的顺序已经正确。 现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数,但是根据 Spark,orderBy 是强制性的,它不允许我喜欢 lea...
尝试在 pyspark 中构建代码时需要帮助,其中需要转置多个列,如下场景
我有一个以下格式的数据集。 样本数据集: 现在我需要转置(测试,Opt_marks,TotalMarks)以下格式的信息。 设计输出: 我在下面尝试过,但没有得到
PySpark 分区镶木地板需要很长时间才能加载,即使使用指定的模式
设置:我有一个包含约 1300 个分区 parquet 文件的文件夹(例如 C:\Project Data\Data-*.parquet),其中 * 是一个计数器,每个文件大小约为 8MB。所有文件都具有相同的架构。 我是茹...