Beamのインタラクティブな概要

ここでは、Apache Beamで利用できるインタラクティブなノートブックのコレクションを見つけることができます。これらはColabでホストされています。ノートブックを使用すると、コードをインタラクティブに操作し、変更がパイプラインにどのように影響するかを確認できます。これらのノートブックを使用するために、何かをインストールしたり、コンピューターを変更したりする必要はありません。

Java、Python、Go SDKを使用してApache Beamパイプラインを試すこともできます。

始める

基本を学ぶ

このノートブックでは、Apache Beamとは何か、およびその開始方法の基本について説明します。データパイプライン、PCollection、PTransformとは何か、およびMapFlatMapFilterCombineGroupByKeyなどの基本的な変換について学びます。

Colabで実行 Colabで実行





データの読み書き

このノートブックでは、さまざまなデータ形式との間でデータを読み書きする方法の例をいくつか説明します。組み込みのReadFromTextおよびWriteToText変換を紹介します。また、CSVファイルからの読み取り、SQLiteデータベースからの読み取り、固定サイズの要素のバッチの書き込み、要素のウィンドウの書き込みの方法も説明します。

Colabで実行 Colabで実行





ウィンドウ処理

このノートブックでは、時間間隔またはストリーミングパイプラインに基づいてデータを集計する方法について説明します。GlobalWindowFixedWindowsSlidingWindows、およびSessionsを紹介します。

Colabで実行 Colabで実行





データフレーム

Beam DataFramesは、pandasのようなDataFrame APIを提供して、Beamパイプラインを宣言します。Beam DataFramesの詳細については、Beam DataFramesの概要ページをご覧ください。

Colabで実行 Colabで実行





変換

利用可能な変換の完全なリストについては、Python変換カタログを確認してください。

要素ごとの変換

Map

コレクション内の各要素に対して、単純な1対1のマッピング関数を適用します。

Colabで実行 Colabで実行





FlatMap

コレクション内の各要素に対して、単純な1対多のマッピング関数を適用します。多くの要素は、結果のコレクションに平坦化されます。

Colabで実行 Colabで実行





Filter

述語が与えられた場合、その述語を満たさないすべての要素をフィルターで除外します。

Colabで実行 Colabで実行





Partition

コレクション内の要素を複数の出力コレクションに分離します。

Colabで実行 Colabで実行





ParDo

汎用並列処理の変換。可能な場合は、MapFlatMapFilter、またはその他のより具体的な変換を使用することをお勧めします。

Colabで実行 Colabで実行