Apache Beam 2.55.0

Beam の新しい 2.55.0 リリースを発表できることを嬉しく思います。このリリースには、改善点と新機能の両方が含まれています。このリリースのダウンロードページをご覧ください。

2.55.0 での変更点の詳細については、詳細なリリースノートを参照してください。

ハイライト

  • Python SDK に、外部 Java トランスフォーム用の自動生成ラッパーが含まれるようになりました! (#29834)

I/O

  • BigQueryIO に不正なレコードの処理のサポートを追加しました(#30081)。
    • Storage Read および Write API の完全サポート
    • ファイルロードの部分的なサポート(ファイルへの書き込みの失敗はサポートされていますが、ファイルから BQ へのロードの失敗はサポートされていません)
    • Extract またはストリーミング挿入のサポートなし
  • PubSubIO に不正なレコードの処理のサポートを追加しました(#30372)。
    • スキーマの不一致の処理はサポートされておらず、スキーマを使用する Pub/Sub トピックへの書き込みのエラー処理を有効にすることは推奨されません
  • BigQueryIO DIRECT_READ の --enableBundling パイプラインオプションが、--enableStorageReadApiV2 に置き換えられました。どちらも実験的なものであり、変更される可能性がありました(Java)(#26354)。

新機能 / 改善

  • クラスター化され、時間でパーティション分割されていない BigQuery テーブルの書き込みを許可します(Java)(#30094)。
  • Redis キャッシュのサポートが RequestResponseIO と Enrichment トランスフォームに追加されました(Python)(#30307)
  • sdks/java/fn-executionrunners/core-construction-java をメイン SDK にマージしました。これらの成果物はユーザー向けではなかったため、もはや存在しないことに注意してください。これらは、他のすべてのコア機能とともに、移植性をコア SDK に取り込むためのステップです。
  • Enrichment トランスフォームに Vertex AI Feature Store ハンドラーを追加しました(Python)(#30388)

破壊的変更

  • Arrow のバージョンが 5.0.0 から 15.0.0 に引き上げられました(#30181)。
  • カスタムワーカーコンテナを構築する Go SDK ユーザーは、ベースとして distroless コンテナに移行したことで問題が発生する可能性があります(セキュリティ修正を参照)。
  • Python SDK で、--max_cache_memory_usage_mb パイプラインオプションのデフォルト値が 100 から 0 に変更されました。このオプションは、2.52.0 SDK バージョンで初めて導入されました。この変更により、ステートキャッシュを使用しない 2.51.0 SDK の動作が復元されます。パイプラインで反復可能なサイド入力ビューを使用している場合は、オプションを手動で設定してキャッシュサイズを増やすことを検討してください。(#30360)。

非推奨

  • N/A

バグ修正

  • SpannerIO.readChangeStream が、Spanner で認証するためにパイプラインオプションから getDialect 呼び出しに資格情報を伝播するように修正しました(Java)(#30361)。
  • GCSIO 関数呼び出しでの HTTP リクエストの数を減らしました(Python)(#30205)

セキュリティ修正

  • Go SDK ベースコンテナイメージが distroless/base-nossl-debian12 に移行し、脆弱なコンテナの表面をカーネルと glibc に削減しました(#30011)。

既知の問題

  • Python パイプラインで、非アクティブなバンドルプロセッサをシャットダウンするときに、シャットダウンロジックがロックを過度に保持し、新しい作業の受け入れをブロックする可能性があります。この問題の症状には、長時間実行されるジョブでの遅延やスタックが含まれます。2.56.0 で修正されました(#30679)。
  • 2.53.0〜2.58.0 SDK で実行され、GCS からデータを読み取る Python パイプラインは、データ破損の問題の影響を受ける可能性があります(#32169)。この問題は 2.59.0 で修正される予定です(#32135)。これを回避するには、google-cloud-storage パッケージをバージョン 2.18.2 以降に更新してください。

既知の問題の最新リストについては、https://github.com/apache/beam/blob/master/CHANGES.md を参照してください

貢献者リスト

git shortlog によると、次の人々が 2.55.0 リリースに貢献しました。すべての貢献者に感謝します!

Ahmed Abualsaud

Anand Inguva

Andrew Crites

Andrey Devyatkin

Arun Pandian

Arvind Ram

Chamikara Jayalath

Chris Gray

Claire McGinty

Damon Douglas

Dan Ellis

Danny McCormick

Daria Bezkorovaina

Dima I

Edward Cui

Ferran Fernández Garrido

GStravinsky

Jan Lukavský

Jason Mitchell

JayajP

Jeff Kinard

Jeffrey Kinard

Kenneth Knowles

Mattie Fu

Michel Davit

Oleh Borysevych

Ritesh Ghorse

Ritesh Tarway

Robert Bradshaw

Robert Burke

Sam Whittle

Scott Strong

Shunping Huang

Steven van Rossum

Svetak Sundhar

Talat UYARER

Ukjae Jeong (Jay)

Vitaly Terentyev

Vlado Djerek

Yi Hu

akashorabek

case-k

clmccart

dengwe1

dhruvdua

hardshah

johnjcasey

liferoad

martin trieu

tvalentyn