ブログ & リリース
2020/02/04
Apache Beam 2.19.0
Beamの新しい2.19.0リリースを発表できて嬉しく思います。このリリースには、改善と新しい機能の両方が含まれています。このリリースのダウンロードページをご覧ください。
2.19.0の変更点の詳細については、詳細なリリースノートを確認してください。
ハイライト
I/O
- BEAM-1440 Python SDK用のBigQueryソース(iobase.BoundedSourceを実装)を作成
- BEAM-2572 Python SDK用のS3ファイルシステムを実装
- BEAM-5192 Elasticsearch 7.xをサポート
- BEAM-8745 BigQueryロードジョブのサイズをより細かく制御
- BEAM-8801 PubsubMessageToRowはprocessElementでuseFlatSchema()をチェックすべきではない
- BEAM-8953 Avro GenericDataモデルをサポートするために、ParquetIO.Read/ReadFiles.Builderを拡張
- BEAM-8946 MongoDBIOITからのコレクションサイズをレポート
- BEAM-8978 HadoopFormatIOITから保存されたデータサイズをレポート
新機能/改善点
- BEAM-6008 Java/Python PortableRunnerでのエラー報告を改善
- BEAM-8296 Sparkジョブサーバーをコンテナ化
- BEAM-8746 ローカルジョブサービスがDocker内から動作できるようにする
- BEAM-8837 PCollectionVisualizationTest: 考えられるバグ
- BEAM-8139 ポータブルSparkアプリケーションjarを実行
- BEAM-9019 Sparkエンコーダー(Beamコーダーのラッパー)を改善
- BEAM-9053 Python SDKで指定されたパスの正しいファイルシステムを取得できない場合のエラーメッセージを改善)Python SDKで指定されたパスの正しいファイルシステムを取得できない場合のエラーメッセージを改善
- BEAM-9055 Fn Data APIの設定名を言語間で統一
SQL
- BEAM-5690 SparkRunnerを使用するBeamSqlでのGroupByKeyの問題
- BEAM-8993 [SQL] MongoDbは述語プッシュダウンを使用すべき
- BEAM-8844 [SQL] BigQueryTableのパフォーマンステストを作成
- BEAM-9023 ZetaSQL 2019.12.1にアップグレード
破壊的な変更
- BEAM-8989 ParDo.getSideInputsの後方互換性のない変更(Apache Nemoクイックスタート実行時の失敗でキャッチ)
- BEAM-8402 Python
DirectRunner
でEnvironmentがどのように表現されるかに関する後方互換性のない変更。 - BEAM-9218 Beam 2.18.0でテンプレートのステージングが壊れている
依存関係の変更
- BEAM-8696 Beam依存関係更新リクエスト: com.google.protobuf:protobuf-java
- BEAM-8701 Beam依存関係更新リクエスト: commons-io:commons-io
- BEAM-8716 Beam依存関係更新リクエスト: org.apache.commons:commons-csv
- BEAM-8717 Beam依存関係更新リクエスト: org.apache.commons:commons-lang3
- BEAM-8749 Beam依存関係更新リクエスト: com.datastax.cassandra:cassandra-driver-mapping
- BEAM-5546 Beam依存関係更新リクエスト: commons-codec:commons-codec
バグ修正
- BEAM-9123 HadoopResourceIdが誤ったディレクトリ名を返す
- BEAM-8962 FlinkMetricContainerがJobManagerでチャーンを引き起こし、Webフロントエンドの誤動作を引き起こす
- BEAM-5495 PipelineResourcesアルゴリズムがほとんどの環境で動作しない
- BEAM-8025 Cassandra IO classMethodテストが不安定
- BEAM-8577 ResourceIdの逆シリアル化中にファイルシステムが初期化されていない可能性がある
- BEAM-8582 Python SDKがDefaultおよびAfterWatermarkトリガーに対して重複レコードを発行
- BEAM-8943 SDKハーネス環境のクリーンアップが失敗すると、SDKハーネスサーバーが適切にシャットダウンしない
- BEAM-8995 Py3.5 PCでapache_beam.io.gcp.bigquery_read_it_testが失敗: TypeError: JSONオブジェクトはstrでなければならず、'bytes'であってはならない
- BEAM-8999 PGBKCVOperationがタイムスタンプコンバイナーを尊重しない
- BEAM-9050 Beamピッカーが__module__がNoneに設定されたクラスをピクルしない。
- さまざまなバグ修正とパフォーマンスの改善。
貢献者のリスト
git shortlogによると、以下の人々が2.19.0リリースに貢献しました。すべての貢献者に感謝します!
Ahmet Altay, Alex Amato, Alexey Romanenko, Andrew Pilloud, Ankur Goenka, Anton Kedin, Boyuan Zhang, Brian Hulette, Brian Martin, Chamikara Jayalath, Charles Chen, Craig Chambers, Daniel Oliveira, David Moravek, David Rieber, Dustin Rhodes, Etienne Chauchot, Gleb Kanterov, Hai Lu, Heejong Lee, Ismaël Mejía, Jan Lukavský, Jason Kuster, Jean-Baptiste Onofré, Jeff Klukas, João Cabrita, J Ross Thomson, Juan Rael, Juta, Kasia Kucharczyk, Kengo Seki, Kenneth Jung, Kenneth Knowles, Kyle Weaver, Kyle Winkelman, Lukas Drbal, Łukasz Gajowy, Marek Simunek, Mark Liu, Maximilian Michels, Melissa Pashniak, Michael Luckey, Michal Walenia, Mike Pedersen, Mikhail Gryzykhin, Niel Markwick, Pablo Estrada, Pascal Gula, Reuven Lax, Rob, Robbe Sneyders, Robert Bradshaw, Robert Burke, Rui Wang, Ruoyun Huang, Ryan Williams, Sam Rohde, Sam Whittle, Scott Wegner, Thomas Weise, Tianyang Hu, ttanay, tvalentyn, Tyler Akidau, Udi Meiri, Valentyn Tymofieiev, Xinyu Liu, XuMingmin