Como instalar o Hadoop com configuração passo a passo no Linux Ubuntu

Neste tutorial, iremos guiá-lo através do processo passo a passo para instalar o Apache Hadoop em uma caixa Linux (Ubuntu). Este é um processo de 2 partes

Há 2 Pré-requisitos

Parte 1) Baixe e instale o Hadoop

Passo 1) Adicione um usuário do sistema Hadoop usando o comando abaixo

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Digite sua senha, nome e outros detalhes.

NOTA: Existe a possibilidade do erro mencionado abaixo neste processo de configuração e instalação.

'hduser não está no arquivo sudoers. Este incidente será relatado.'

Este erro pode ser resolvido fazendo login como usuário root

Execute o comando

sudo adduser hduser_ sudo

Re-login as hduser_

Passo 2) Configurar SSH

Para gerenciar nós em um cluster, o Hadoop requer acesso SSH

Primeiro, troque de usuário e insira o seguinte comando

su - hduser_

Este comando criará uma nova chave.

ssh-keygen -t rsa -P ''

Habilite o acesso SSH à máquina local usando esta chave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Agora teste a configuração do SSH conectando-se ao host local como usuário 'hduser'.

ssh localhost

Observação: Observe, se você vir o erro abaixo em resposta a 'ssh localhost', então existe a possibilidade de que o SSH não esteja disponível neste sistema-

Para resolver isso -

Limpe o SSH usando,

sudo apt-get purge openssh-server

É uma boa prática limpar antes do início da instalação

Instale o SSH usando o comando-

sudo apt-get install openssh-server

Etapa 3) O próximo passo é Baixe o Hadoop

Selecione Estável

Selecione o arquivo tar.gz (não o arquivo com src)

Assim que o download for concluído, navegue até o diretório que contém o arquivo tar

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Agora, renomeie hadoop-2.2.0 como hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Parte 2) Configure o Hadoop

Passo 1) Modificar ~ / .bashrc Arquivo

Adicione as seguintes linhas ao final do arquivo ~ / .bashrc

#Set HADOOP_HOME export HADOOP_HOME= #Set JAVA_HOME export JAVA_HOME= # Add bin/ directory of Hadoop to PATH export PATH=$PATH:$HADOOP_HOME/bin

Agora, forneça esta configuração de ambiente usando o comando abaixo

. ~/.bashrc

Passo 2) Configurações relacionadas ao HDFS

Definir JAVA_HOME arquivo interno $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Com

Existem dois parâmetros em $ HADOOP_HOME / etc / hadoop / core-site.xml que precisa ser definido-

1 'hadoop.tmp.dir' - Usado para especificar um diretório que será usado pelo Hadoop para armazenar seus arquivos de dados.

2. 'fs.default.name' - Isso especifica o sistema de arquivos padrão.

Para definir esses parâmetros, abra core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copie a linha abaixo entre as tags

 hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system. 

Navegue até o diretório $ HADOOP_HOME / etc / Hadoop

Agora, crie o diretório mencionado em core-site.xml

sudo mkdir -p 

Conceda permissões ao diretório

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Etapa 3) Configuração de redução de mapa

Antes de começar com essas configurações, vamos definir o caminho HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

E digite

export HADOOP_HOME=/home/on2vhf/Downloads/Hadoop

Em seguida, insira

sudo chmod +x /etc/profile.d/hadoop.sh

Saia do Terminal e reinicie novamente

Digite echo $ HADOOP_HOME. Para verificar o caminho

Agora copie os arquivos

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Abra o mapred-site.xml arquivo

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Adicione as linhas de configuração abaixo entre as tags e

 mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port. 

Abrir $ HADOOP_HOME / etc / hadoop / hdfs-site.xml como abaixo,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Adicione abaixo as linhas de configuração entre as tags e

 dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs 

Crie um diretório especificado na configuração acima-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Passo 4) Antes de iniciarmos o Hadoop pela primeira vez, formate o HDFS usando o comando abaixo

$HADOOP_HOME/bin/hdfs namenode -format

Etapa 5) Inicie o cluster de nó único Hadoop usando o comando abaixo

$HADOOP_HOME/sbin/start-dfs.sh

Uma saída do comando acima

$HADOOP_HOME/sbin/start-yarn.sh

Usando 'jps' ferramenta / comando, verifique se todos os processos relacionados ao Hadoop estão em execução ou não.

Se o Hadoop foi iniciado com sucesso, uma saída de jps deve mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Etapa 6) Parando o Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh