Apache Spark™ & Hadoop 開発者向けトレーニング...TRAINING SHEET Cloudera...

TRAINING SHEET

Cloudera University のハンズオントレーニングコースでは、開発者が Apache

Spark を使用して、高性能な並列アプリケーションを開発するために必要な主な概

念と専門知識を提供します。

ハンズオンで経験を得る

インストラクター主導の議論や対話形式の実践的な演習問題を通して、参加者は

Hadoop エコシステムを操る以下のようなトピックを学習します:

� ログ収集、設定管理、リソース管理、レポート、アラート、サービス管理のよ

うなクラスタの管理を容易にさせる Cloudera Manager の機能

� YARN、HDFS、Impala、Hive、Spark、Kafka を含む Hadoop に関連する主要

サービスを提供する実環境でスケールするクラスターの設定とデプロイ

� クラスターに適切なハードウェアとインフラストラクチャーの決定

� データセンターに統合するための正しいクラスターの設定とデプロイメント

� HDFS、Kudu および Amazon S3 のようなクラウドオブジェクトストアにある

データの取り込み、保存、アクセス

� Kafka と Flume を使用して、クラスターにファイルベースのデータのロードと

ストリーミングデータを行う方法

� 本番環境クラスターを準備、チューニング、運用するためのベストプラクティ

ス

� トラブルシューティング、診断、クラスターの問題の解決

コースの前提条件

このコースはプログラミング経験のある開発者やエンジニアに適しています。

Hadoop の事前知識は必要ありません。

• Apache Spark のサンプルコードとハンズオン演習は Scala と Python で提供さ

れています。

いずれかの言語でプログラミングを行います。

• Linux のコマンドラインの基本知識が必要です

• SQL の基本知識は役立ちます

認定資格の取得

コース終了後、参加者は Cloudera Certified Associate (CCA) 開発者向け認定資格

のための学習と登録を続けることを推奨します。認定資格は大きな差別化要因であ

り、あなたのスキルと専門知識の具体的な証拠を雇用者と顧客に提供するために、

あなたがこの分野のリーダーとして確立するのに役立ちます。

�

Apache Spark & Hadoop�� Take your knowledge to the next level

“独学で１ヶ月間勉強した内

容以上のことを初日に学習

することができました。残

りの３日間も楽しみです”

TRAINING SHEET

コースの詳細

Cloudera 株式会社〒104-0031 東京都中央区京橋 2-7-14 ビュレックス京橋 2 階

ご質問は [email protected] までご自由にお寄せください。

© 2019 Cloudera, Inc. All rights reserved. Cloudera and the Cloudera logo are trademarks or registered trademarks of Cloudera Inc. in the USA and other countries. All other trademarks are the property of their respective companies. Information is subject to change without notice.

はじめに

Apache Hadoop と Hadoop エコシステム

の紹介

• Apache Hadoop の概要

• データ処理

• ハンズオン演習の紹介

Apache Hadoop ファイルストレージ

• Apache Hadoop クラスターのコンポー

ネント

• HDFS のアーキテクチャー

• HDFS を使用する

Apache Hadoop クラスターでの分散処理

• YARN のアーキテクチャー

• YARN との関わり方

Apache Spark の基本

• Apache Spark とは何か?

• Spark シェルを開始する

• Spark シェルを使用する

• Dataset と DataFrame 入門

• DataFrame の操作

DataFrame のスキーマの操作

• データソースから DataFrame を作成す

る

• DataFrame をデータソースに保存する

• DataFrame のスキーマ

• 積極的、および遅延実行

DataFrame のクエリを使用したデータ分析

• 列の数式を使用した DataFrame のクエ

リ

• グループ化と集約クエリ

• DataFrame の結合

RDD の概要

• RDD の概要

• RDD のデータソース

• RDD の作成と保存

• RDD の操作

RDD によるデータ変換

• 変換関数の記述と受け渡し

• 変換の実行

• RDD と DataFrame の変換

ペアの RDD によるデータの集約

• キー、値ペアの RDD

• Map-Reduce

• その他のペアの RDD 操作

Spark SQL によるテーブルとビューのクエ

リ

• SQL を使用した Spark でのテーブルの

クエリ

• ファイルとビューのクエリ

• Catalog API

Spark での Dataset の操作

• Dataset と DataFrame

• Dataset の作成

• Dataset のロードと保存

• Dataset の操作

Spark アプリケーションの作成、設定、お

よび実行

• Spark アプリケーションの作成

• アプリケーションのビルドと実行

• アプリケーションのデプロイモード

• Spark Application Web UI

• アプリケーションのプロパティの設定

Spark の分散処理

• レビュー: クラスタ上での Apache

Spark

• RDD のパーティション

• 例: クエリのパーティショニング

• ステージとタスク

• ジョブの実行計画

• 例: Catalyst の実行計画

• 例: RDD の実行計画

分散されたデータの永続化

• DataFrame と Dataset の永続化

• 永続化のストレージレベル

• 永続化された RDD の表示

Spark のデータ処理における一般的なパタ

ーン

• 一般的な Spark のユースケース

• Apache Spark での繰り返しアルゴリズ

ム

• 機械学習

• 例: k-means

Structured Streaming の紹介

• Apache Spark Streaming の概要

• Streaming DataFrame の作成

• DataFrame の変換

• ストリーミングクエリの実行

Apache Kafka と Structured Streaming

• 概要

• Kafka メッセージの受信

• Kafka メッセージの送信

Streaming DataFrame の集約と結合

• ストリーミングの集約

• Streaming DataFrame の結合

まとめ

付録: Apache Kafka によるメッセージ処理

• Apache Kafka とは何か?

• Apache Kafka の概要

• Apache Kafka のスケール

• Apache Kafka クラスタのアーキテクチ

ャー

• Apache Kafka コマンドラインツール

Apache Spark™ & Hadoop 開発者向けトレーニング...TRAINING SHEET Cloudera...

Documents

Transcript of Apache Spark™ & Hadoop 開発者向けトレーニング...TRAINING SHEET Cloudera...