Apache Beamドキュメント

このページでは、Beamプログラミングモデル、SDK、ランナーの概念情報とリファレンス資料へのリンクを提供しています。

概念

すべてのBeam SDKとランナーに共通のBeamプログラミングモデルと概念について学びます。

入門概念情報については、Beamモデルの基本から始めます。
Beamの概念に関する詳細情報とコードスニペットを提供するプログラミングガイドをお読みください。
パイプラインの実行方法をより理解するために、Beamの実行モデルについて学びます。
Beamに関するお勧めの記事や講演については、学習リソースをご覧ください。
Beamプログラミングモデルの用語を学ぶには、用語集を参照してください。

パイプラインの基礎

パイプラインの構造を計画し、データに適用する変換を選択し、入出力方法を決定することで、パイプラインを設計します。
Beam SDKのクラスを使用して、パイプラインを作成します。
パイプラインのリモート実行のデバッグを最小限に抑えるために、パイプラインをテストします。

SDK

利用可能なすべてのBeam SDKのステータスとリファレンス情報を見つけます。

変換カタログ

Beamの変換カタログには、Beamの組み込み変換の説明とコードスニペットが含まれています。

ランナー

Beamランナーは、特定の（多くの場合分散型の）データ処理システムでBeamパイプラインを実行します。

利用可能なランナー

DirectRunner

マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。

PrismRunner

マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。

FlinkRunner

Apache Flink上で実行されます。

SparkRunner

Apache Spark上で実行されます。

DataflowRunner

Google Cloud Platform内のフルマネージドサービスであるGoogle Cloud Dataflow上で実行されます。

SamzaRunner

Apache Samza上で実行されます。

JetRunner: Hazelcast Jet上で実行されます。
Twister2Runner: Twister2上で実行されます。

+ 詳細を表示

ランナーの選択

Beamは、パイプラインを異なるランナー間でポータブルにするように設計されています。ただし、すべてのランナーは異なる機能を持っているため、Beamモデルのコア概念を実装する能力も異なります。機能マトリクスは、ランナー機能の詳細な比較を提供します。

使用するランナーを選択したら、そのランナーのページで、ランナー固有の初期設定と、その実行を設定するために必要な、またはオプションの `PipelineOptions` について詳細を確認してください。Java、Python、またはGoのクイックスタートで、サンプルのWordCountパイプラインを実行する手順を参照することもできます。

最終更新日：2024/10/31

お探しのものはすべて見つかりましたか？

すべて役に立ち、明確でしたか？変更したいことはありますか？お知らせください！