重複排除

Javadoc Javadoc


入力コレクションの重複しない要素を含むコレクションを生成します。

データセットによっては、各キーの重複しない値を決定することもできるApproximateUniqueを使用して、近似解を計算する方が効率的な場合があります。

例1: StringPCollectionから重複しない要素を検索します。

static final String[] WORDS_ARRAY = new String[]{
            "hi", "hi", "sue",
            "sue",  "bob"
    };
static final List<String> WORDS = Arrays.asList(WORDS_ARRAY);

PCollection<String> input =
        pipeline.apply(Create.of(WORDS)).withCoder(StringUtf8Coder.of());

PCollection<String> distinctWords = input.apply(Distinct.create());

例2: IntegerPCollectionから重複しない要素を検索します。