ブログ & リリース
2024/03/25
Apache Beam 2.55.0
Beam の新しい 2.55.0 リリースを発表できることを嬉しく思います。このリリースには、改善点と新機能の両方が含まれています。このリリースのダウンロードページをご覧ください。
2.55.0 での変更点の詳細については、詳細なリリースノートを参照してください。
ハイライト
- Python SDK に、外部 Java トランスフォーム用の自動生成ラッパーが含まれるようになりました! (#29834)
I/O
- BigQueryIO に不正なレコードの処理のサポートを追加しました(#30081)。
- Storage Read および Write API の完全サポート
- ファイルロードの部分的なサポート(ファイルへの書き込みの失敗はサポートされていますが、ファイルから BQ へのロードの失敗はサポートされていません)
- Extract またはストリーミング挿入のサポートなし
- PubSubIO に不正なレコードの処理のサポートを追加しました(#30372)。
- スキーマの不一致の処理はサポートされておらず、スキーマを使用する Pub/Sub トピックへの書き込みのエラー処理を有効にすることは推奨されません
- BigQueryIO DIRECT_READ の
--enableBundling
パイプラインオプションが、--enableStorageReadApiV2
に置き換えられました。どちらも実験的なものであり、変更される可能性がありました(Java)(#26354)。
新機能 / 改善
- クラスター化され、時間でパーティション分割されていない BigQuery テーブルの書き込みを許可します(Java)(#30094)。
- Redis キャッシュのサポートが RequestResponseIO と Enrichment トランスフォームに追加されました(Python)(#30307)
sdks/java/fn-execution
とrunners/core-construction-java
をメイン SDK にマージしました。これらの成果物はユーザー向けではなかったため、もはや存在しないことに注意してください。これらは、他のすべてのコア機能とともに、移植性をコア SDK に取り込むためのステップです。- Enrichment トランスフォームに Vertex AI Feature Store ハンドラーを追加しました(Python)(#30388)
破壊的変更
- Arrow のバージョンが 5.0.0 から 15.0.0 に引き上げられました(#30181)。
- カスタムワーカーコンテナを構築する Go SDK ユーザーは、ベースとして distroless コンテナに移行したことで問題が発生する可能性があります(セキュリティ修正を参照)。
- この問題は、現在のカスタムコンテナプロセスが依存している可能性のある追加ツールが、distroless コンテナに欠けていることが原因です。
- カスタムコンテナの構築と使用に関する手順については、https://beam.dokyumento.jp/documentation/runtime/environments/#from-scratch-go を参照してください。
- Python SDK で、
--max_cache_memory_usage_mb
パイプラインオプションのデフォルト値が 100 から 0 に変更されました。このオプションは、2.52.0 SDK バージョンで初めて導入されました。この変更により、ステートキャッシュを使用しない 2.51.0 SDK の動作が復元されます。パイプラインで反復可能なサイド入力ビューを使用している場合は、オプションを手動で設定してキャッシュサイズを増やすことを検討してください。(#30360)。
非推奨
- N/A
バグ修正
SpannerIO.readChangeStream
が、Spanner で認証するためにパイプラインオプションからgetDialect
呼び出しに資格情報を伝播するように修正しました(Java)(#30361)。- GCSIO 関数呼び出しでの HTTP リクエストの数を減らしました(Python)(#30205)
セキュリティ修正
- Go SDK ベースコンテナイメージが distroless/base-nossl-debian12 に移行し、脆弱なコンテナの表面をカーネルと glibc に削減しました(#30011)。
既知の問題
- Python パイプラインで、非アクティブなバンドルプロセッサをシャットダウンするときに、シャットダウンロジックがロックを過度に保持し、新しい作業の受け入れをブロックする可能性があります。この問題の症状には、長時間実行されるジョブでの遅延やスタックが含まれます。2.56.0 で修正されました(#30679)。
- 2.53.0〜2.58.0 SDK で実行され、GCS からデータを読み取る Python パイプラインは、データ破損の問題の影響を受ける可能性があります(#32169)。この問題は 2.59.0 で修正される予定です(#32135)。これを回避するには、google-cloud-storage パッケージをバージョン 2.18.2 以降に更新してください。
既知の問題の最新リストについては、https://github.com/apache/beam/blob/master/CHANGES.md を参照してください
貢献者リスト
git shortlog によると、次の人々が 2.55.0 リリースに貢献しました。すべての貢献者に感謝します!
Ahmed Abualsaud
Anand Inguva
Andrew Crites
Andrey Devyatkin
Arun Pandian
Arvind Ram
Chamikara Jayalath
Chris Gray
Claire McGinty
Damon Douglas
Dan Ellis
Danny McCormick
Daria Bezkorovaina
Dima I
Edward Cui
Ferran Fernández Garrido
GStravinsky
Jan Lukavský
Jason Mitchell
JayajP
Jeff Kinard
Jeffrey Kinard
Kenneth Knowles
Mattie Fu
Michel Davit
Oleh Borysevych
Ritesh Ghorse
Ritesh Tarway
Robert Bradshaw
Robert Burke
Sam Whittle
Scott Strong
Shunping Huang
Steven van Rossum
Svetak Sundhar
Talat UYARER
Ukjae Jeong (Jay)
Vitaly Terentyev
Vlado Djerek
Yi Hu
akashorabek
case-k
clmccart
dengwe1
dhruvdua
hardshah
johnjcasey
liferoad
martin trieu
tvalentyn