Azure HDInsight Tools para Visual Studio Code

Posted on outubro 18, 2017

0


Nesse blog post irei mostrar como podemos utilizar o Visual Studio Code para visualizar seu cluster de Hadoop no Microsoft Azure [HDInsight] assim como execução de PySpark e Jobs em Batch Mode do Hive.

Apache Hadoop

Resultado de imagem para hadoop transparent icon

Hadoop é a plataforma de software de computação distribuída em máquinas [clusters] para processamento de TB a PB de dados, é do projeto Apache e foi desenvolvido para trazer escalabilidade e controle de erros de [commodity servers] hardware, possibilitando a computação distribuída para diversos nós [slave/datanode], presente em projetos aonde e necessário o processamento massivo de informações, presente no mundo de Big Data.

O Framework do apache Hadoop é segregado da seguinte forma:

– Hadoop Common = Modulo do Hadoop

– Hadoop Distributed File System [HDFS] =  Sistema de Armazenamento Distribuído e Resiliente

– Hadoop YARN = Framework para Agendamento de Jobs e Gerenciamento de Recursos, Versão 2.0 do Hadoop

– Hadoop MapReduce = Baseado no Modelo YARN para Processamento Paralelo de Grandes Data Sets

HDInsight [Microsoft Azure]

  

Resultado de imagem para hdinsight transparent icon

Implementação do Hadoop Framework no Microsoft Azure, modelo de computação na nuvem [Hadoop-as-a-Services], sendo o gerenciamento e administração das máquinas virtuais [cluster] realizadas pela Microsoft.

Breve histórico do Hadoop – https://azure.microsoft.com/pt-br/solutions/hadoop/ 

Criado em 2005 por Mike Cafarella e Doug Cutting (que o batizou em homenagem ao elefante de brinquedo de seu filho), o Hadoop foi originalmente projetado para dados de pesquisa relacionados à Web. Hoje, é um projeto livre criado pela comunidade da Apache Software Foundation que é usado em todos os tipos de organizações e setores. A Microsoft é uma colaboradora ativa do esforço de desenvolvimento da comunidade.

Microsoft 

A Microsoft já registrou mais de 6 mil horas de engenharia no último ano, fornecendo códigos e impulsionando a inovação em parceria com a comunidade de código aberto em uma ampla gama de projetos do Hadoop. Além disso, temos pessoas dedicadas ao Hadoop, sendo o funcionário da Microsoft Chris Douglas o Líder do Grupo de Trabalho Apache para o Hadoop.

–David Campbell, Microsoft Fellow e CTO

Visual Studio Code

Resultado de imagem para visual studio code transparent icon

O Visual Studio Code é o editor de código da Microsoft multi-plataforma sendo, leve, ágil e poderoso, com ele podemos adicionar extensões para se trabalhar com qualquer tipo de código e recurso – https://code.visualstudio.com/docs além de ser open source, é possível a utilização de Intellisense, Debugging, Git e as extensões integradas com o editor, umas de suas extensões é o HDInsight Tools.

HDInsight Tools para Visual Studio Code

Resultado de imagem para hdinsight tools transparent image

O HDInsight Tools traz a possibilidade de visualizar os clusters de Hadoop assim como execução interativa ou por batch de Jobs em Hive e PySpark.

Pré-Requisitos para Instalação

– HDInsight Cluster no Microsoft Azure = https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-hadoop-provision-linux-clusters 

– Instalação do Visual Studio Code = https://code.visualstudio.com

– Mono para Linux a e MacOS = http://www.mono-project.com/docs/getting-started/install/ 

image

1 – Instalando o Azure HDInsight Tools

image

2 – Conectando com Microsoft Azure

image

3 – Acessando o Site com Código de Autorização

image

image

4 – Acessando Recursos no Visual Studio Code

image

image

5 – Execução de um Comando em Hive Modo Interativo

image