Apache Beam 2.53.0

Beamの新しい2.53.0リリースを発表できることを嬉しく思います。このリリースには、改善と新機能の両方が含まれています。このリリースの詳細については、ダウンロードページを参照してください。

2.53.0の変更点の詳細については、詳細なリリースノートを確認してください。

ハイライト

  • 2.47.0以降のバージョンのBeamを使用しているPythonストリーミングユーザーは、既知の問題(#27330)を修正したバージョン2.53.0に更新する必要があります。

I/O

  • TextIOが複数のヘッダー行のスキップをサポートするようになりました(Java)(#17990)。
  • Python GCSIOがapitoolsの代わりにGCP GCS Clientで実装されるようになりました(#25676
  • ClickHouseでのLowCardinality DataTypeのサポートを追加(Java)(#29533)。
  • KafkaIOへの不良レコード処理のサポートを追加(Java)(#29546
  • Vertex AIおよびHugging Face HubモデルのMLTransformでテキスト埋め込みを生成するサポートを追加。(#29564
  • NATS IOコネクタを追加(Go)(#29000)。

新機能 / 改善点

  • Python SDKがcollections.abc.Collections型を適切に型チェックするようになりました。SDKによって誤って許可されていた一部の型ヒントが失敗する場合があります。(#29272
  • マルチ言語パイプラインをローカルで実行する際にDockerが不要になりました。代わりに、拡張を実行するために使用される同じ(通常は自動起動される)サブプロセスを、クロスランゲージワーカーとしても使用できます。
  • Javaで複合変換にエラーハンドラーを追加するためのフレームワークを追加(#29164)。
  • Python 3.11イメージにgoogle-cloud-profilerが含まれるようになりました(#29561)。

非推奨

  • Euphoria DSLは非推奨となり、今後のリリース(2.56.0以降)で削除されます(#29451

バグ修正

  • (Python)2.47.0以降のSDKの一部のユーザーに影響を与えていたストリーミングパイプラインでの散発的なクラッシュを修正(#27330)。
  • (Python)MLTransformが出力PCollectionで同一の要素をドロップしていたバグを修正(#29600)。

セキュリティ修正

既知の問題

  • Dataflow JavaストリーミングパイプラインでDataflowExecutionStateSamplerにNPEを引き起こす可能性のある競合状態(#29987)。
  • 2.52.0〜2.54.0 SDKで実行され、大きなマテリアライズドサイド入力を使用する一部のPythonパイプラインが、パフォーマンスの低下の影響を受ける可能性があります。これらのSDKバージョンで以前の動作を復元するには、--max_cache_memory_usage_mb=0パイプラインオプションを指定します。(#30360)。
  • 2.53.0〜2.54.0 SDKで実行され、GCSでファイル操作を実行するPythonパイプラインが、過剰なHTTPリクエストの影響を受ける可能性があります。これにより、パフォーマンスの低下やアクセス許可の問題が発生する可能性があります。(#28398
  • Pythonパイプラインでは、非アクティブなバンドルプロセッサをシャットダウンするときに、シャットダウンロジックがロックを過度に保持し、新しい作業の受け入れをブロックする可能性があります。この問題の症状には、長時間実行されるジョブの遅延または停止が含まれます。2.56.0で修正(#30679)。
  • 2.53.0〜2.58.0 SDKで実行され、GCSからデータを読み取るPythonパイプラインが、データ破損の問題の影響を受ける可能性があります(#32169)。この問題は2.59.0で修正されます(#32135)。この問題を回避するには、google-cloud-storageパッケージをバージョン2.18.2以降に更新してください。

既知の問題の最新リストについては、https://github.com/apache/beam/blob/master/CHANGES.mdを参照してください。

貢献者リスト

git shortlogによると、以下の人々が2.53.0リリースに貢献しました。貢献者の皆様に感謝します!

Ahmed Abualsaud

Ahmet Altay

Alexey Romanenko

Anand Inguva

Arun Pandian

Balázs Németh

Bruno Volpato

Byron Ellis

Calvin Swenson Jr

Chamikara Jayalath

Clay Johnson

Damon

Danny McCormick

Ferran Fernández Garrido

Georgii Zemlianyi

Israel Herraiz

Jack McCluskey

Jacob Tomlinson

Jan Lukavský

JayajP

Jeffrey Kinard

Johanna Öjeling

Julian Braha

Julien Tournay

Kenneth Knowles

Lawrence Qiu

Mark Zitnik

Mattie Fu

Michel Davit

Mike Williamson

Naireen

Naireen Hussain

Niel Markwick

Pablo Estrada

Radosław Stankiewicz

Rebecca Szper

Reuven Lax

Ritesh Ghorse

Robert Bradshaw

Robert Burke

Sam Rohde

Sam Whittle

Shunping Huang

Svetak Sundhar

Talat UYARER

Tom Stepp

Tony Tang

Vlado Djerek

Yi Hu

Zechen Jiang

clmccart

damccorm

darshan-sj

gabry.wu

johnjcasey

liferoad

lrakla

martin trieu

tvalentyn