ParDo

Pydoc Pydoc




汎用並列処理のための変換です。ParDo変換は、入力PCollection内の各要素を考慮し、その要素に対して何らかの処理関数(ユーザーコード)を実行し、ゼロ個以上の要素を出力PCollectionに出力します。

Beamプログラミングガイドで詳細情報をご覧ください。

以下の例では、カスタムDoFnを作成し、タイムスタンプとウィンドウ情報をアクセスする方法を説明します。

例1:単純なDoFnを使用したParDo

次の例では、delimiterをオブジェクトフィールドとして格納するSplitWordsという単純なDoFnクラスを定義します。processメソッドは要素ごとに1回呼び出され、ゼロ個以上の出力要素を生成できます。

例2:タイムスタンプとウィンドウ情報を使用したParDo

この例では、実行時にパラメータ値をバインドするために、processメソッドに新しいパラメータを追加します。

例3:DoFnメソッドを使用したParDo

DoFnは、より複雑な動作を作成するのに役立ついくつかのメソッドでカスタマイズできます。ワーカーが開始時とシャットダウン時に実行する動作を、setupteardownでカスタマイズできます。要素のバンドルの開始と終了時に実行する動作を、start_bundlefinish_bundleでカスタマイズすることもできます。

既知の問題

  • [Issue 19394] DoFn.teardown()のメトリクスが失われます。
Pydoc Pydoc