Ponz Dev Log

ソース派のシステムエンジニアの開発日記

IBM CloudでAnalytics Engineを触る

Hadoopの勉強がてらHORTONWORKS DATA PLATFORM(HDP)に触って感動したけど、SandboxをVMで動かすためのHW要件が中々ハードル高い...(メモリ最低8GBはMS Surfaceくんにはん荷が重すぎ)。 そんなときはCloud使っちまえと代替できるものとしてIBM CloudのAnalytics Engineがあったので気付いたことのまとめです。

Analytics Engineって??

HadoopとSparkのクラスターを立ててくれるサービス(下図カタログの左上のサービス) 。 ライト・アカウントでもLiteプランのインスタンスは作れるのでお手軽。この記事を書いている2017/11/24時点でHortonworks Data Platform 2.6.2をベースにクラスターを構成しているようなので、HDPの代替としては申し分なさそう。

f:id:accelerk:20171125004300p:plain

できること Good Point

大雑把に

ドキュメントを読む限り、HadoopとSparkのだいたいのことはできる(HDPがベースだから当然と言えば当然か...)。

  • HDFSにデータをUL
  • MapReduceジョブを実行
  • Hiveでクエリを投げる
  • HBaseを操作する
  • Sparkのジョブを実行

Analytics Engineのドキュメント ⇒ IBM Cloud Docs

細かいところでは...

ドキュメントだと、大体の操作はSSH接続でやるかCLIでやれってあるけど、やっぱりWeb コンソール使えたら楽(これはIBM Cloud全般に言えることだけど)。触れば分かりますが、Ambariコンソールが使える!
必ず最初に資格情報(Credential)を作成してから、資格情報内の ambari_console のURLにアクセス。同じく資格情報にあるユーザーとパスワードを入れればAmbariコンソールが開けます!すごい!

気を付けること

稼働時間の制約

特にLiteプランはサービスあげっぱなしだと、50H/monthの制限は3日で使い果たします。残り時間やべえよってメール来ますが、気付かないとその月はそのインスタンスがつかえなくなる罠があります。使えなくなった場合や使い切りそうになったら、おとなしく1か月待つこと。ライト・アカウントの場合、サービスを消して新しくインスタンスたてても1か月経過しないと作り直せないようです。(PAYGのアカウントの場合は未検証です)

Packageを間違えると使えないSW

Packageは2種類ある。AE 1.0 Spark と、AE 1.0 Hadoop and Spark の2つ。 (Liteプランでつくった場合)図のように使えるSWの数が違う! HiveやHBase、OozieといったSWは AE 1.0 Hadoop and Spark packにしか含まれない ので使う予定があるのなら後者を選んでおくこと。

f:id:accelerk:20171125010545p:plain

f:id:accelerk:20171125010621p:plain

軽く触ってみた程度ですが、Hadoopの学習にはすごくよさそうですな。