Apache Beamの概要

Apache Beamは、バッチとストリーミングの両方のデータ並列処理パイプラインを定義するためのオープンソースの統一モデルです。オープンソースのBeam SDKのいずれかを使用して、パイプラインを定義するプログラムを構築します。次に、パイプラインはBeamのサポートされている**分散処理バックエンド**のいずれかによって実行されます。これには、Apache Flink、Apache Spark、およびGoogle Cloud Dataflowが含まれます。

Beamは、問題を独立して並列に処理できる多くの小さなデータバンドルに分解できるため、容易に並列化できるデータ処理タスクに特に役立ちます。また、BeamをExtract、Transform、Load（ETL）タスクや純粋なデータ統合にも使用できます。これらのタスクは、異なるストレージメディアとデータソース間でデータの移動、データのより望ましい形式への変換、または新しいシステムへのデータのロードに役立ちます。

Apache Beam SDK

Beam SDKは、入力データがバッチデータソースからの有限データセットであるか、ストリーミングデータソースからの無限データセットであるかにかかわらず、任意のサイズのデータセットを表して変換できる統一されたプログラミングモデルを提供します。Beam SDKは、バウンドデータとアンバウンドデータの両方を表すために同じクラスを使用し、そのデータに対して同じ変換を実行します。選択したBeam SDKを使用して、データ処理パイプラインを定義するプログラムを構築します。

Beamは現在、次の言語固有のSDKをサポートしています。