我有一个apache束工作,大约需要6个多小时才能完成。我们摄取了大约2.7Tb的GCS数据以及其他数据源(例如Bigtable / Bq / etc),然后执行CoGroupbyKey.create()。
[GCS数据采用原始字符串的形式,例如userId, hashedPhoneNumber
,例如:
525135a7-cb59-46ec-8d1d-0f12df02f486, 3070816492067005070
从GCS提取数据并使用GroupbyKey创建KV时,我有多个DoFns
uuid -> Set<hashedphoneNumber>
我的问题更多是关于如何加快管道的速度?
请看此答案的“编码器”部分:
还有其他一些一般性的提示和技巧。