Apache Spark™ & Hadoop 開発者向けトレーニング...TRAINING SHEET Cloudera...
Transcript of Apache Spark™ & Hadoop 開発者向けトレーニング...TRAINING SHEET Cloudera...
TRAINING SHEET
Cloudera University のハンズオントレーニングコースでは、開発者が Apache
Spark を使用して、高性能な並列アプリケーションを開発するために必要な主な概
念と専門知識を提供します。
ハンズオンで経験を得る
インストラクター主導の議論や対話形式の実践的な演習問題を通して、参加者は
Hadoop エコシステムを操る以下のようなトピックを学習します:
� ログ収集、設定管理、リソース管理、レポート、アラート、サービス管理のよ
うなクラスタの管理を容易にさせる Cloudera Manager の機能
� YARN、HDFS、Impala、Hive、Spark、Kafka を含む Hadoop に関連する主要
サービスを提供する実環境でスケールするクラスターの設定とデプロイ
� クラスターに適切なハードウェアとインフラストラクチャーの決定
� データセンターに統合するための正しいクラスターの設定とデプロイメント
� HDFS、Kudu および Amazon S3 のようなクラウドオブジェクトストアにある
データの取り込み、保存、アクセス
� Kafka と Flume を使用して、クラスターにファイルベースのデータのロードと
ストリーミングデータを行う方法
� 本番環境クラスターを準備、チューニング、運用するためのベストプラクティ
ス
� トラブルシューティング、診断、クラスターの問題の解決
コースの前提条件
このコースはプログラミング経験のある開発者やエンジニアに適しています。
Hadoop の事前知識は必要ありません。
• Apache Spark のサンプルコードとハンズオン演習は Scala と Python で提供さ
れています。
いずれかの言語でプログラミングを行います。
• Linux のコマンドラインの基本知識が必要です
• SQL の基本知識は役立ちます
認定資格の取得
コース終了後、参加者は Cloudera Certified Associate (CCA) 開発者向け認定資格
のための学習と登録を続けることを推奨します。認定資格は大きな差別化要因であ
り、あなたのスキルと専門知識の具体的な証拠を雇用者 と顧客に提供するために、
あなたがこの分野のリーダーとして確立するのに役立ちます。
�
Apache Spark & Hadoop��� ������ Take your knowledge to the next level
“独学で1ヶ月間勉強した内
容以上のことを初日に学習
することができました。残
りの3日間も楽しみです”
TRAINING SHEET
コースの詳細
Cloudera 株式会社 〒104-0031 東京都中央区京橋 2-7-14 ビュレックス京橋 2 階
ご質問は [email protected] までご自由にお寄せください。
© 2019 Cloudera, Inc. All rights reserved. Cloudera and the Cloudera logo are trademarks or registered trademarks of Cloudera Inc. in the USA and other countries. All other trademarks are the property of their respective companies. Information is subject to change without notice.
はじめに
Apache Hadoop と Hadoop エコシステム
の紹介
• Apache Hadoop の概要
• データ処理
• ハンズオン演習の紹介
Apache Hadoop ファイルストレージ
• Apache Hadoop クラスターのコンポー
ネント
• HDFS のアーキテクチャー
• HDFS を使用する
Apache Hadoop クラスターでの分散処理
• YARN のアーキテクチャー
• YARN との関わり方
Apache Spark の基本
• Apache Spark とは何か?
• Spark シェルを開始する
• Spark シェルを使用する
• Dataset と DataFrame 入門
• DataFrame の操作
DataFrame のスキーマの操作
• データソースから DataFrame を作成す
る
• DataFrame をデータソースに保存する
• DataFrame のスキーマ
• 積極的、および遅延実行
DataFrame のクエリを使用したデータ分析
• 列の数式を使用した DataFrame のクエ
リ
• グループ化と集約クエリ
• DataFrame の結合
RDD の概要
• RDD の概要
• RDD のデータソース
• RDD の作成と保存
• RDD の操作
RDD によるデータ変換
• 変換関数の記述と受け渡し
• 変換の実行
• RDD と DataFrame の変換
ペアの RDD によるデータの集約
• キー、値ペアの RDD
• Map-Reduce
• その他のペアの RDD 操作
Spark SQL によるテーブルとビューのクエ
リ
• SQL を使用した Spark でのテーブルの
クエリ
• ファイルとビューのクエリ
• Catalog API
Spark での Dataset の操作
• Dataset と DataFrame
• Dataset の作成
• Dataset のロードと保存
• Dataset の操作
Spark アプリケーションの作成、設定、お
よび実行
• Spark アプリケーションの作成
• アプリケーションのビルドと実行
• アプリケーションのデプロイモード
• Spark Application Web UI
• アプリケーションのプロパティの設定
Spark の分散処理
• レビュー: クラスタ上での Apache
Spark
• RDD のパーティション
• 例: クエリのパーティショニング
• ステージとタスク
• ジョブの実行計画
• 例: Catalyst の実行計画
• 例: RDD の実行計画
分散されたデータの永続化
• DataFrame と Dataset の永続化
• 永続化のストレージレベル
• 永続化された RDD の表示
Spark のデータ処理における一般的なパタ
ーン
• 一般的な Spark のユースケース
• Apache Spark での繰り返しアルゴリズ
ム
• 機械学習
• 例: k-means
Structured Streaming の紹介
• Apache Spark Streaming の概要
• Streaming DataFrame の作成
• DataFrame の変換
• ストリーミングクエリの実行
Apache Kafka と Structured Streaming
• 概要
• Kafka メッセージの受信
• Kafka メッセージの送信
Streaming DataFrame の集約と結合
• ストリーミングの集約
• Streaming DataFrame の結合
まとめ
付録: Apache Kafka によるメッセージ処理
• Apache Kafka とは何か?
• Apache Kafka の概要
• Apache Kafka のスケール
• Apache Kafka クラスタのアーキテクチ
ャー
• Apache Kafka コマンドラインツール