O que é a linguagem de programação R? Introdução e noções básicas de R

O que é R Software?

R é uma linguagem de programação e software livre desenvolvida por Ross Ihaka e Robert Gentleman em 1993. R possui um extenso catálogo de métodos gráficos e estatísticos. Inclui algoritmos de aprendizado de máquina, regressão linear, série temporal, inferência estatística, para citar alguns. A maioria das bibliotecas R é escrita em R, mas para tarefas computacionais pesadas, os códigos C, C ++ e Fortran são preferidos.

R não é confiado apenas por acadêmicos, mas muitas grandes empresas também usam a linguagem de programação R, incluindo Uber, Google, Airbnb, Facebook e assim por diante.

A análise de dados com R é feita em uma série de etapas; programar, transformar, descobrir, modelar e comunicar os resultados

  • Programa : R é uma ferramenta de programação clara e acessível
  • Transformar : R é composto por uma coleção de bibliotecas projetadas especificamente para ciência de dados
  • Descobrir : Investigue os dados, refine sua hipótese e analise-os
  • Modelo : R fornece uma ampla gama de ferramentas para capturar o modelo certo para seus dados
  • Comunicar : Integre códigos, gráficos e resultados a um relatório com R Markdown ou crie aplicativos Shiny para compartilhar com o mundo

Neste tutorial de introdução, você aprenderá R

Para que é usado o R?

  • Inferência estatística
  • Análise de dados
  • Algoritmo de aprendizado de máquina

R por Indústria

Se dividirmos o uso de R pela indústria, veremos que os acadêmicos vêm em primeiro lugar. R é uma linguagem para fazer estatísticas. R é a primeira escolha no setor de saúde, seguido por governo e consultoria.

Pacote R

Os principais usos do R são e sempre serão estatística, visualização e aprendizado de máquina. A imagem abaixo mostra qual pacote R obteve mais perguntas no Stack Overflow. Entre os dez primeiros, a maioria deles está relacionada ao fluxo de trabalho de um cientista de dados: preparar os dados e comunicar os resultados.

Todas as bibliotecas do R, quase 12k, são armazenadas no CRAN. CRAN é um código aberto e gratuito. Você pode baixar e usar as inúmeras bibliotecas para executar o aprendizado de máquina ou análise de série temporal.

Comunique-se com R

R tem várias maneiras de apresentar e compartilhar o trabalho, seja por meio de um documento markdown ou de um aplicativo brilhante. Tudo pode ser hospedado no Rpub, GitHub ou no site da empresa.

Abaixo está um exemplo de uma apresentação hospedada em Rpub

Rstudio aceita markdown para escrever um documento. Você pode exportar os documentos em diferentes formatos:

  • Documento:
    • HTML
    • PDF / Latex
    • Palavra
  • Apresentação
    • HTML
    • Projetor de PDF

Rstudio tem uma ótima ferramenta para criar um aplicativo facilmente. Abaixo está um exemplo de aplicativo com os dados do Banco Mundial.

Por que usar R?

A ciência de dados está moldando a maneira como as empresas administram seus negócios. Sem dúvida, ficar longe da Inteligência Artificial e da Máquina levará a empresa ao fracasso. A grande questão é qual ferramenta / linguagem você deve usar?

São inúmeras as ferramentas disponíveis no mercado para realizar análises de dados. Aprender um novo idioma requer algum investimento de tempo. A imagem abaixo mostra a curva de aprendizado em comparação com a capacidade de negócios que um idioma oferece. A relação negativa implica que não há almoço grátis. Se você deseja fornecer o melhor insight a partir dos dados, precisa passar algum tempo aprendendo a ferramenta apropriada, que é R.

No canto superior esquerdo do gráfico, você pode ver o Excel e o PowerBI. Essas duas ferramentas são simples de aprender, mas não oferecem excelente capacidade de negócios, especialmente em termos de modelagem. No meio, você pode ver Python e SAS. SAS é uma ferramenta dedicada para executar uma análise estatística para negócios, mas não é gratuita. SAS é um software click and run. Python, no entanto, é uma linguagem com uma curva de aprendizado monótona. Python é uma ferramenta fantástica para implantar aprendizado de máquina e IA, mas carece de recursos de comunicação. Com uma curva de aprendizado idêntica, R é uma boa escolha entre implementação e análise de dados.

Quando se trata de visualização de dados (DataViz), você provavelmente já ouviu falar do Tableau. O Tableau é, sem dúvida, uma ótima ferramenta para descobrir padrões por meio de gráficos e tabelas. Além disso, aprender o Tableau não é demorado. Um grande problema com a visualização de dados é que você pode acabar nunca encontrando um padrão ou simplesmente criar muitos gráficos inúteis. O Tableau é uma boa ferramenta para visualização rápida dos dados ou Business Intelligence. Quando se trata de estatística e ferramenta de tomada de decisão, R é mais apropriado.

Stack Overflow é uma grande comunidade de linguagens de programação. Se você tiver um problema de codificação ou precisar entender um modelo, o Stack Overflow está aqui para ajudar. Ao longo do ano, a porcentagem de visualizações de perguntas aumentou acentuadamente para R em comparação com os outros idiomas. É claro que essa tendência está altamente correlacionada com a era de expansão da ciência de dados, mas reflete a demanda da linguagem R para a ciência de dados.

Na ciência de dados, existem duas ferramentas competindo entre si. R e Python são provavelmente a linguagem de programação que define a ciência de dados.

Você deve escolher R?

O cientista de dados pode usar duas ferramentas excelentes: R e Python. Você pode não ter tempo para aprender os dois, especialmente se você começar a aprender ciência de dados. Aprendizagem de modelagem estatística e algoritmo é muito mais importante do que aprender uma linguagem de programação. Uma linguagem de programação é uma ferramenta para calcular e comunicar sua descoberta. A tarefa mais importante em ciência de dados é a maneira como você lida com os dados: importar, limpar, preparar, engenharia de recursos, seleção de recursos. Este deve ser seu foco principal. Se você está tentando aprender R e Python ao mesmo tempo, sem um conhecimento sólido em estatística, é simplesmente estúpido. Cientistas de dados não são programadores. Seu trabalho é entender os dados, manipulá-los e expor a melhor abordagem. Se você está pensando em qual idioma aprender, vamos ver qual idioma é o mais adequado para você.

O principal público da ciência de dados é o profissional de negócios. Nos negócios, uma grande implicação é a comunicação. Existem muitas maneiras de se comunicar: relatório, aplicativo da web, painel. Você precisa de uma ferramenta que faça tudo isso em conjunto.

R é difícil?

Anos atrás, R era uma linguagem difícil de dominar. A linguagem era confusa e não tão estruturada quanto as outras ferramentas de programação. Para superar esse grande problema, Hadley Wickham desenvolveu uma coleção de pacotes chamada tidyverse. A regra do jogo mudou para melhor. A manipulação de dados se torna trivial e intuitiva. Criar um gráfico não era mais tão difícil.

Os melhores algoritmos para aprendizado de máquina podem ser implementados com R. Pacotes como Keras e TensorFlow permitem criar técnicas de aprendizado de máquina de ponta. R também possui um pacote para executar Xgboost, um dos melhores algoritmos para competição Kaggle.

R pode se comunicar com o outro idioma. É possível chamar Python, Java, C ++ em R. O mundo do big data também é acessível para R. Você pode conectar R com diferentes bancos de dados como Spark ou Hadoop.

Finalmente, R evoluiu e permitiu a operação de paralelização para acelerar o cálculo. Na verdade, R foi criticado por usar apenas uma CPU por vez. O pacote paralelo permite que você execute tarefas em diferentes núcleos da máquina.

Resumo

Resumindo, R é uma ótima ferramenta para explorar e investigar os dados. Análises elaboradas como clustering, correlação e redução de dados são feitas com R. Esta é a parte mais crucial, sem uma boa engenharia e modelo de recursos, a implantação do aprendizado de máquina não dará resultados significativos.