Latest

HyperLogLog++アルゴリズム を使用して、データストリーム内の異なる要素の数を推定します。スケッチを作成およびマージし、スケッチから抽出するための対応する変換は次のとおりです。
HllCount.Init
は、入力をHLL++スケッチに集約します。HllCount.MergePartial
は、HLL++スケッチを新しいスケッチにマージします。HllCount.Extract
は、HLL++スケッチから異なる要素の推定数を抽出します。
スケッチの詳細については、https://github.com/google/zetasketchをご覧ください。
例
例1:カスタム精度でPCollection<Long>
用のlong型スケッチを作成します
例2:PCollection<KV<String, byte[]>>
用のbytes型スケッチを作成します
例3:PCollection<byte[]>
内の既存のスケッチを新しいスケッチにマージします。これは、マージされたスケッチで集約された入力の和集合を要約します。
例4:PCollection<String>
内の異なる要素の数を推定します。
例5:既存のスケッチから異なる要素数の推定値を抽出します。
関連変換
- ApproximateUnique は、キーバリューペア内の異なる要素または値の数を推定しますが(スケッチを公開しません)、
HllCount
よりも精度が低くなります。
最終更新日:2024/10/31
お探しのものが見つかりましたか?
すべて役立ち、分かりやすかったですか?変更したいことはありますか?ご意見をお聞かせください!