Apache Beamドキュメント

このページでは、Beamプログラミングモデル、SDK、ランナーの概念情報とリファレンス資料へのリンクを提供しています。

概念

すべてのBeam SDKとランナーに共通のBeamプログラミングモデルと概念について学びます。

パイプラインの基礎

SDK

利用可能なすべてのBeam SDKのステータスとリファレンス情報を見つけます。

変換カタログ

Beamの変換カタログには、Beamの組み込み変換の説明とコードスニペットが含まれています。

ランナー

Beamランナーは、特定の(多くの場合分散型の)データ処理システムでBeamパイプラインを実行します。

利用可能なランナー

DirectRunner

マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。

PrismRunner

マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。

FlinkRunner

Apache Flink上で実行されます。

SparkRunner

Apache Spark上で実行されます。

DataflowRunner

Google Cloud Platform内のフルマネージドサービスであるGoogle Cloud Dataflow上で実行されます。

SamzaRunner

Apache Samza上で実行されます。

ランナーの選択

Beamは、パイプラインを異なるランナー間でポータブルにするように設計されています。ただし、すべてのランナーは異なる機能を持っているため、Beamモデルのコア概念を実装する能力も異なります。機能マトリクスは、ランナー機能の詳細な比較を提供します。

使用するランナーを選択したら、そのランナーのページで、ランナー固有の初期設定と、その実行を設定するために必要な、またはオプションの `PipelineOptions` について詳細を確認してください。JavaPython、またはGoのクイックスタートで、サンプルのWordCountパイプラインを実行する手順を参照することもできます。