Hadoopの勉強がてらHORTONWORKS DATA PLATFORM(HDP)に触って感動したけど、SandboxをVMで動かすためのHW要件が中々ハードル高い...(メモリ最低8GBはMS Surfaceくんにはん荷が重すぎ)。 そんなときはCloud使っちまえと代替できるものとしてIBM CloudのAnalytics Engineがあったので気付いたことのまとめです。
Analytics Engineって??
HadoopとSparkのクラスターを立ててくれるサービス(下図カタログの左上のサービス) 。 ライト・アカウントでもLiteプランのインスタンスは作れるのでお手軽。この記事を書いている2017/11/24時点でHortonworks Data Platform 2.6.2をベースにクラスターを構成しているようなので、HDPの代替としては申し分なさそう。
できること Good Point
大雑把に
ドキュメントを読む限り、HadoopとSparkのだいたいのことはできる(HDPがベースだから当然と言えば当然か...)。
Analytics Engineのドキュメント ⇒ IBM Cloud Docs
細かいところでは...
ドキュメントだと、大体の操作はSSH接続でやるかCLIでやれってあるけど、やっぱりWeb コンソール使えたら楽(これはIBM Cloud全般に言えることだけど)。触れば分かりますが、Ambariコンソールが使える!
必ず最初に資格情報(Credential)を作成してから、資格情報内の ambari_console
のURLにアクセス。同じく資格情報にあるユーザーとパスワードを入れればAmbariコンソールが開けます!すごい!
気を付けること
稼働時間の制約
特にLiteプランはサービスあげっぱなしだと、50H/monthの制限は3日で使い果たします。残り時間やべえよってメール来ますが、気付かないとその月はそのインスタンスがつかえなくなる罠があります。使えなくなった場合や使い切りそうになったら、おとなしく1か月待つこと。ライト・アカウントの場合、サービスを消して新しくインスタンスたてても1か月経過しないと作り直せないようです。(PAYGのアカウントの場合は未検証です)
Packageを間違えると使えないSW
Packageは2種類ある。AE 1.0 Spark
と、AE 1.0 Hadoop and Spark
の2つ。 (Liteプランでつくった場合)図のように使えるSWの数が違う!
HiveやHBase、OozieといったSWは AE 1.0 Hadoop and Spark pack
にしか含まれない ので使う予定があるのなら後者を選んでおくこと。
軽く触ってみた程度ですが、Hadoopの学習にはすごくよさそうですな。