Apache Beam Summit 2024: データ処理における機械学習の力を解き放つ

ブログ

2024/10/16

Apache Beam Summit 2024: データ処理における機械学習の力を解き放つ

XQ Hu , Danny McCormick & Reza Rokni [@rarokni]

先日終了したBeam Summit 2024では、9月4日から5日の2日間にわたり、Beamが幅広い課題に対処する可能性を示す魅力的なプレゼンテーションが数多く行われ、機械学習（ML）に重点が置かれました。これらの課題には、大規模分散データのための特徴量エンジニアリング、データエンリッチメント、モデル推論が含まれていました。全体として、サミットでは47の講演が行われ、そのうち16件が特にMLのユースケースや機能に焦点を当て、その他多くの講演がこれらのトピックに触れました。

講演では、Beamコミュニティの広がりと多様性が示されました。講演者と参加者の中には、23カ国が代表として参加しました。参加者には、Beamユーザー、Beamプロジェクトのコミッター、Beam Google Summer of Codeの貢献者、データ処理/機械学習の専門家が含まれていました。

MLのための使いやすいターンキー変換

最近Beamに追加された機能により、Beamは現在、幅広いML-Opsタスクを処理するMLユーザー向けの豊富なターンキー変換セットを提供しています。これらの変換には、以下が含まれます。

RunInference：CPUとGPUにMLモデルをデプロイする
エンリッチメント：ML機能強化のためにデータをエンリッチする
MLTransform：データをML機能に変換する

サミットでは、これらの機能の使用方法と、人々がすでにどのように使用しているかについての講演が行われました。ハイライトは以下のとおりです。

Cruiseでの自動運転のスケーリングに関する講演
バッチおよびストリーミング推論のためのLLMのデプロイに関する複数の講演
RAGのためのストリーミング処理に関する3つの異なる講演（BeamのGoogle Summer of Codeの貢献者の1人による講演を含む！）

Beam YAML：MLデータ処理の簡素化

Beamパイプラインの作成は難しく、多くの場合、MLタスクの概念の学習、依存関係の管理、デバッグ、コードの保守が必要です。エントリーポイントを簡素化するために、Beam YAMLは、YAML構成ファイルを使用してデータ処理パイプラインを作成する宣言型アプローチを導入しました。コーディングは必要ありません。

Beam Summitは、BeamコミュニティがBeam YAMLのユースケースの一部を紹介する最初の機会でした。MavenCodeやChartBoostのような企業では、Beam YAMLがすでに多くのユーザーのワークフローのコア部分になっていることに関する講演がいくつかありました。これらの企業は、Beam YAMLを使用することで、構成ベースのデータ処理システムを構築し、企業での参入障壁を大幅に下げることができます。

Prism：ローカルおよびリモートランナー環境向けの統合されたMLパイプライン開発フレームワークを提供する

Beamは、ポータブルランナーをサポートしていますが、ローカルパイプラインの開発は従来から困難でした。ローカルランナーは、多くの場合、不完全であり、DataflowRunnerやFlinkRunnerなどのリモートランナーと互換性がありません。

Beam Summitでは、Beamの貢献者が、Prismローカルランナーをコミュニティに紹介しました。Prismは、ローカル開発者のエクスペリエンスを大幅に向上させ、ローカル実行とリモート実行の間のギャップを縮めます。特に、複雑なMLタスクを処理する場合、Prismはこれらのランナー間で一貫したランナーの動作を保証します。これは、以前は一貫したサポートが欠けていたタスクでした。

概要

Beam Summit 2024は、幅広いデータ処理と機械学習の課題に対処するためのApache Beamの大きな可能性を示しました。将来、さらに革新的なユースケースと貢献が見られることを楽しみにしています。

Beamの最新の開発とイベントに関する最新情報を入手するには、Apache Beam Webサイトにアクセスし、ソーシャルメディアでフォローしてください。Beamコミュニティに参加し、プロジェクトに貢献することをお勧めします。一緒に、Beamの可能性を最大限に引き出し、データ処理と機械学習の未来を形作りましょう。

MLのための使いやすいターンキー変換

Beam YAML：MLデータ処理の簡素化

Prism：ローカルおよびリモートランナー環境向けの統合されたMLパイプライン開発フレームワークを提供する

概要

ブログの最新記事