Apache Beam Python SDK

Apache Beam 用の Python SDK は、バッチおよびストリーミング データ処理パイプラインを構築するためのシンプルで強力な API を提供します。

Python SDK を使い始める

Beam Python SDK クイックスタートから始めましょう。Python 開発環境を設定し、Beam SDK for Python を入手し、パイプラインの例を実行します。次に、Beam プログラミングガイド を読んで、Beam のすべての SDK に適用される基本的な概念を学びましょう。

個々の API の詳細については、Python API リファレンスを参照してください。

Python ストリーミングパイプライン

Python ストリーミングパイプラインの実行は、Beam SDK バージョン 2.5.0 以降で使用できます(いくつかの制限があります)。

Python の型安全性

Python は静的な型チェックがない動的型付け言語です。Beam SDK for Python は、パイプラインの構築時と実行時に型ヒントを使用して、真の静的型付けによって達成される正確性の保証をエミュレートしようとします。Python の型安全性の確保では、Direct Runner で潜在的なバグを事前にキャッチするのに役立つ型ヒントの使用方法について説明します。

Python パイプラインの依存関係の管理

パイプラインをローカルで実行する場合、パイプラインが依存するパッケージは、ローカルマシンにインストールされているため使用できます。ただし、パイプラインをリモートで実行する場合は、これらの依存関係がリモートマシンで使用できることを確認する必要があります。Python パイプラインの依存関係の管理では、依存関係をリモートワーカーで使用できるようにする方法を示します。

Python 用の新しい I/O コネクタの開発

Beam SDK for Python は、新しい I/O コネクタを作成するために使用できる拡張可能な API を提供します。新しい I/O コネクタの開発に関する情報と、言語固有の実装ガイダンスへのリンクについては、I/O コネクタの開発の概要を参照してください。

Python で機械学習の推論を行う

推論を行うために機械学習モデルをパイプラインに統合するには、PyTorch および Scikit-learn モデル用の RunInference API を使用します。TensorFlow モデルを使用している場合は、tfx_bsl のライブラリを利用できます。

RunInference API を使用して、複数のタイプの変換を作成できます。API はモデルハンドラーから複数のタイプのセットアップパラメータを受け取り、パラメータタイプがモデルの実装を決定します。詳細については、Beam ML についてを参照してください。

TensorFlow Extended (TFX) は、本番環境 ML パイプラインを展開するためのエンドツーエンドのプラットフォームです。TFX は Beam と統合されています。詳細については、TFX ユーザーガイドを参照してください。

Python マルチ言語パイプライン クイックスタート

Apache Beam を使用すると、サポートされている任意の SDK 言語で記述された変換を組み合わせて、1 つのマルチ言語パイプラインで使用できます。Python SDK を使用してマルチ言語パイプラインを作成する方法については、Python マルチ言語パイプライン クイックスタートを参照してください。

Beam Python での回復不能なエラー

ワーカーの起動中に一般的なエラーが発生し、ジョブの開始が妨げられる可能性があります。これらのエラーと、Python SDK でのトラブルシューティング方法については、Beam Python での回復不能なエラーを参照してください。