Apache Beamドキュメント
このページでは、Beamプログラミングモデル、SDK、ランナーの概念情報とリファレンス資料へのリンクを提供しています。
概念
すべてのBeam SDKとランナーに共通のBeamプログラミングモデルと概念について学びます。
- 入門概念情報については、Beamモデルの基本から始めます。
- Beamの概念に関する詳細情報とコードスニペットを提供するプログラミングガイドをお読みください。
- パイプラインの実行方法をより理解するために、Beamの実行モデルについて学びます。
- Beamに関するお勧めの記事や講演については、学習リソースをご覧ください。
- Beamプログラミングモデルの用語を学ぶには、用語集を参照してください。
パイプラインの基礎
- パイプラインの構造を計画し、データに適用する変換を選択し、入出力方法を決定することで、パイプラインを設計します。
- Beam SDKのクラスを使用して、パイプラインを作成します。
- パイプラインのリモート実行のデバッグを最小限に抑えるために、パイプラインをテストします。
SDK
利用可能なすべてのBeam SDKのステータスとリファレンス情報を見つけます。
変換カタログ
Beamの変換カタログには、Beamの組み込み変換の説明とコードスニペットが含まれています。
ランナー
Beamランナーは、特定の(多くの場合分散型の)データ処理システムでBeamパイプラインを実行します。
利用可能なランナー
マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。
マシン上でローカルに実行されます - 開発、テスト、デバッグに最適です。
Apache Flink上で実行されます。
Apache Spark上で実行されます。
Google Cloud Platform内のフルマネージドサービスであるGoogle Cloud Dataflow上で実行されます。
Apache Samza上で実行されます。
- JetRunner: Hazelcast Jet上で実行されます。
- Twister2Runner: Twister2上で実行されます。
ランナーの選択
Beamは、パイプラインを異なるランナー間でポータブルにするように設計されています。ただし、すべてのランナーは異なる機能を持っているため、Beamモデルのコア概念を実装する能力も異なります。機能マトリクスは、ランナー機能の詳細な比較を提供します。
使用するランナーを選択したら、そのランナーのページで、ランナー固有の初期設定と、その実行を設定するために必要な、またはオプションの `PipelineOptions` について詳細を確認してください。Java、Python、またはGoのクイックスタートで、サンプルのWordCountパイプラインを実行する手順を参照することもできます。
最終更新日:2024/10/31
お探しのものはすべて見つかりましたか?
すべて役に立ち、明確でしたか?変更したいことはありますか?お知らせください!