beam とアップデート
2016/10/11
Strata+Hadoop World と Beam
Tyler Akidau と私は、Strata+Hadoop World 2016でApache Beamに関する3時間のチュートリアルを行いました。TAのKenn Knowles、Reuven Lax、Felipe Hoffa、Slava Chernyak、そしてJamie Grierには多大なる協力をいただきました。セッションには合計66人が参加しました。

チュートリアルの資料をご覧になりたい場合は、GitHubに公開しています。実際のスライドと、取り上げた演習問題が含まれています。Beamについて学びたいと考えている方にとって、良い出発点となるでしょう。演習問題は架空のモバイルゲームのデータ処理を題材としており、Beamのexamplesディレクトリにあるコードに基づいています。コードには、コードを埋め込む必要がある箇所や、コードを確認するための完全なサンプルソリューションがTODOとして記載されています。これらの例は、ご自身のマシン上でも、Beamがサポートするランナーを使用してクラスタ上でも実行できます。
会議中にBeamについて得たいくつかの重要なポイントを共有したいと思います。
データエンジニアは、Beamを様々なビッグデータフレームワーク間でコードを移植可能な、つまり将来性のある方法として見ています。実際、多くの参加者はまだHadoop MapReduceを使用しており、新しいフレームワークへの移行を考えていました。彼らは、コードを何度も書き直すことが最も生産的なアプローチではないことに気づき始めています。
データサイエンティストもBeamに強い関心を示しています。彼らは、複数の異なるAPIではなく、単一のAPIで分析を行うことに関心を持っています。BeamのPython APIの進捗状況についても話し合いました。見てみたい方は、フィーチャーブランチで積極的に開発されています。Beamが成熟するにつれて、他のサポート言語を追加する予定です。
Beamユーザーから、優れたランナーサポートが採用に不可欠であるという声が明確に聞かれました。私たちはApache Flinkの素晴らしいサポートを持っています。会議中、Sparkランナーへの支援を申し出てくれたボランティアもいました。
マネジメント層やオピニオンリーダーの側では、Beamは以前の会議では「Beamとは何か?」という状態でしたが、今回の会議では「Beamに興味があります。」または「Beamについて十分な情報に基づいた意見を持っています。」という状態に変わりました。これは、初期の技術採用において私が注目する指標の一つです。

チュートリアルは、Apache Spark、Apache Flink、ローカルランナー、DataFlowランナー上で実行されるBeamの実演で締めくくりました。その後、専門家を招いて質疑応答セッションを行いました。
会議に参加する際は、Beamのセッションを探してみることをお勧めします。これらの資料を使用して独自のBeamに関する講演やチュートリアルを行いたい場合は、喜んでお手伝いします。このチュートリアルに加えて、その他のプレゼンテーション資料も用意しています。ユーザーメーリングリストでお問い合わせください。