Beamのインタラクティブな概要
ここでは、Apache Beamで利用できるインタラクティブなノートブックのコレクションを見つけることができます。これらはColabでホストされています。ノートブックを使用すると、コードをインタラクティブに操作し、変更がパイプラインにどのように影響するかを確認できます。これらのノートブックを使用するために、何かをインストールしたり、コンピューターを変更したりする必要はありません。
Java、Python、Go SDKを使用してApache Beamパイプラインを試すこともできます。
始める
基本を学ぶ
このノートブックでは、Apache Beamとは何か、およびその開始方法の基本について説明します。データパイプライン、PCollection、PTransformとは何か、およびMap、FlatMap、Filter、Combine、GroupByKeyなどの基本的な変換について学びます。
データの読み書き
このノートブックでは、さまざまなデータ形式との間でデータを読み書きする方法の例をいくつか説明します。組み込みのReadFromTextおよびWriteToText変換を紹介します。また、CSVファイルからの読み取り、SQLiteデータベースからの読み取り、固定サイズの要素のバッチの書き込み、要素のウィンドウの書き込みの方法も説明します。
ウィンドウ処理
このノートブックでは、時間間隔またはストリーミングパイプラインに基づいてデータを集計する方法について説明します。GlobalWindow、FixedWindows、SlidingWindows、およびSessionsを紹介します。
データフレーム
Beam DataFramesは、pandasのようなDataFrame APIを提供して、Beamパイプラインを宣言します。Beam DataFramesの詳細については、Beam DataFramesの概要ページをご覧ください。
変換
利用可能な変換の完全なリストについては、Python変換カタログを確認してください。
要素ごとの変換
Map
コレクション内の各要素に対して、単純な1対1のマッピング関数を適用します。
FlatMap
コレクション内の各要素に対して、単純な1対多のマッピング関数を適用します。多くの要素は、結果のコレクションに平坦化されます。
Filter
述語が与えられた場合、その述語を満たさないすべての要素をフィルターで除外します。
Partition
コレクション内の要素を複数の出力コレクションに分離します。
ParDo
汎用並列処理の変換。可能な場合は、Map、FlatMap、Filter、またはその他のより具体的な変換を使用することをお勧めします。
最終更新日:2024/10/31
探していたものはすべて見つかりましたか?
すべてが役立ち、明確でしたか?何か変更したいことはありますか?お知らせください!

