我创建了一个:
// 'datasets' is the name the provider gave for that source
Dataset<Row> datasets = session.read().schema(schema).format("csv").load("datasets.csv");
然后一个:
Dataset<JeuDeDonnees> jeuxDeDonnees = datasets.map((MapFunction<Row, JeuDeDonnees>)row ->
{ /* [...mappings...] */ return new JeuDeDonnees(...); }, Encoders.bean(JeuDeDonnees.class));
}
那是我应用程序的数据管理部分。
我愿意为我的服务提供对所有数据的访问权限(对于最终用户)。
我不能返回完整的
List<JeuDeDonnees>
Spark提取,当然:它会溢出一切。
我愿意:
要么一个一个返回
JeuDeDonnees
对象,一个Stream
Stream<JeuDeDonnees> getNext()
,如果可能的话?jeuxDeDonnees
Spark 数据集,一种 Spark 在返回数据时保持相当平滑的方式?
要么回来
List<JeuDeDonnees> getNext(50)
jeuxDeDonnees
),因为这样做会花费很多,对于每个偏移移动,(如果可能的话,我我不确定)。
解决我的问题的正确方法是什么?