Cientistas de dados versus estatísticos


"Com a explosão da análise de dados e do Big Data, a busca por profissionais capazes de extrair, analisar e gerar insights dos dados, não para de crescer. A explosão na busca por profissionais de dados tem levado a criação de novas carreiras, bem como a reinvenção de outras".




9 de maio · 5 min de leitura

Desde que o termo “cientista de dados” surgiu no cenário tecnológico, houve um debate entre gerações, tentando definir e distinguir cientistas de dados de marca recente e estatísticos tradicionais. Eu pessoalmente adotei o título de cientista de dados por volta de 2012, e lembro-me de uma definição bastante concisa em toda a Twittersfera:

"Um cientista de dados é alguém que é melhor em estatística do que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.

Sob uma luz mais séria, a ciência de dados é frequentemente definida como a confluência de três áreas: ciência da computação, matemática / estatística e conhecimento específico do domínio. Implícito nessa definição está o foco na resolução de problemas específicos, em contraste com o tipo de compreensão profunda que é típico nas estatísticas acadêmicas.

Neste artigo, daremos mais uma olhada no cientista de dados / confusão de estatísticos para ver se podemos encontrar algum ponto em comum e talvez até mesmo um endpoint comum.

Ciência de dados ou estatísticas?

Parece que a designação “cientista de dados” tomou o mundo pela tempestade. É um título que evoca habilidades quase místicas de uma pessoa que coleta informações de grandes lagos de dados com facilidade. Vem da crença de que um cientista de dados pode acenar com a mão como um Houdini do século XXI e extrair insights dos dados sem esforço.

O que é intrigante no campo da ciência de dados é sua ameaça percebida a outras disciplinas, especificamente estatísticas. Eu não vejo essa ameaça como real, no entanto, como os dois campos são bastante distintos e complementares. Na última década, está claro que, embora os dois campos possam existir separadamente, cada um deles é fraco sem o outro. Os estatísticos precisam entender a modelagem e a estrutura dos dados, enquanto os cientistas de dados precisam entender as estatísticas aplicadas.

Não é de admirar que os estatísticos se sintam ameaçados pelos cientistas de dados até certo ponto. Os estatísticos lidam com conceitos nebulosos como estimativas pontuais, margens de erro, intervalos de confiança, erros padrão, valores de p, testes de hipóteses e o proverbial argumento entre os “frequentistas” e os “bayesianos”. Os estatísticos podem ser vistos como confusos para o público em geral e muitas vezes os estatísticos não conseguem nem concordar com o que é correto.

Os cientistas de dados, por outro lado, seguem de perto o “processo da ciência de dados”, que é mais acessível; ingest de dados, transformao de dados, anise de dados exploratios, seleco de modelos, avaliao de modelos e contadores de dados de dados. Claro, muitas dessas etapas seguem métodos estatísticos por trás do cenário, mas são seladas em um invólucro mais envolvente e compreensível. Muito mais pessoas podem adotar a ciência de dados.

Para ter certeza, sempre haverá a necessidade de uma base sólida nas estatísticas. Há muitos casos em que um cientista de dados não teria a menor idéia do que fazer com certos conjuntos de dados sem a ajuda de alguém com histórico em estatística. Ao mesmo tempo, se um estatístico recebesse um conjunto de dados de alta dimensionalidade com 5 bilhões de linhas e 10.000 variáveis, eles teriam dificuldade em configurar os dados para análise sem consultar um cientista de dados.

Em última análise, as duas disciplinas precisam encontrar algum ponto em comum. Ele deve fazer parte do currículo de um programa do departamento de estatística para ensinar os alunos a trabalhar com dados do mundo real. E aqueles que trabalham em ciência de dados precisam ter o treinamento apropriado em estatística.

[Artigo relacionado: Como será a próxima geração de cientistas de dados?]

Comparação e Contraste Adicionais

Embora os cientistas de dados e os estatísticos tendam a coletar informações para propósitos semelhantes, seus meios de coleta de dados são bem diferentes. Por um lado, a quantidade de dados para os cientistas de dados é muitas vezes massiva, consequentemente, eles gastam muito tempo com tarefas como ingestão de dados em larga escala, limpeza de dados e transformação. Por outro lado, os estatísticos ainda contam com métodos de coleta de dados mais tradicionais e de menor escala, como pesquisas, enquetes e experimentos.

Tipicamente, os problemas da ciência de dados são formulados usando um processo de modelagem que se concentra na precisão da previsão do modelo. Os cientistas de dados fazem isso comparando a precisão preditiva de diferentes algoritmos de aprendizado de máquina e selecionando o modelo com a melhor precisão. Os estatísticos adotam uma abordagem diferente para construir e testar seus modelos. O ponto de partida na estatística é geralmente um modelo simples, como a regressão linear, em que os dados são verificados para determinar se são consistentes com as suposições do modelo. O modelo é aprimorado ao abordar suposições no modelo que são violadas. O processo de modelagem é considerado completo quando todas as premissas do modelo são verificadas e nenhuma suposição é violada.

Enquanto os cientistas de dados se concentram em comparar vários métodos diferentes para criar o melhor modelo de aprendizado de máquina, os estatísticos preferem trabalhar em um modelo simples e simples que melhor se adapte aos dados.

Os estatísticos tendem a se concentrar mais na quantificação da incerteza do que os cientistas de dados. Como parte do processo de construção de modelo estatístico, é comum quantificar a conexão entre o resultado previsto e cada preditor. Qualquer incerteza sobre essa conexão também é quantificada. Esse processo não é tão comum com as ferramentas usadas pelos cientistas de dados, ou seja, aprendizado de máquina.

Os dois campos também usam uma nomenclatura um pouco diferente para descrever os mesmos princípios. Os cientistas de dados falam de coisas como: "exemplo", enquanto os estatísticos usam "observação", "recurso" versus "preditor" ou "variável independente", "rótulo" versus "resposta" ou "variável dependente".



Conclusão

Em termos atuais, os campos da ciência de dados e estatística diferem de várias maneiras. Os campos diferem nos processos de modelagem, no tamanho dos dados consumidos, nos tipos de problemas estudados, no histórico acadêmico das pessoas no campo e na terminologia utilizada. Ao mesmo tempo, os campos estão intimamente relacionados no sentido de que tanto a ciência quanto a estatística de dados buscam extrair conhecimento dos dados.

Com o tempo, os campos da ciência de dados e estatística provavelmente convergirão para um ponto final comum. Os estatísticos passaram a coletar dados e a executar técnicas de análise, como regressões lineares por vários séculos. Eventualmente, à medida que mais estatísticos obtêm habilidades como a implementação de algoritmos que aprendem com dados e fornecem previsões e ações e mais cientistas de dados analisam a ciência estatística (amostragem, projeto experimental, intervalos de confiança, p-valores etc.) cientistas de dados e estatísticos acabarão se desfazendo.

Comentários

Postagens mais visitadas deste blog

SE MARAVILHAR COM AS COISAS DA VIDA

Dilemas econômicos: Teorema de Arrow

SQL em escala com o Apache Spark SQL e DataFrames - conceitos, arquitetura e exemplos