06.10.16

Opinião do Expert

Cientista de Dados, uma profissão de elite em processo de democratização

    Por Bouzid Ait Amir, Gerente no Centro de Análises e Nicolas Marivin, Gerente de Operações do departamento de Big Data & Analytics da Keyrus.

    Há 5 anos, os Cientistas de Dados têm liderado o topo da lista de perfis de empregados mais procurados e, devido à sua escassez, também a dos mais difíceis de recrutar.  Esta situação pode mudar em curto prazo: a chegada de ferramentas de habilitação vai acelerar um tipo de democratização do campo de Ciência de Dados e irá forçar aquela que é vista como a atual elite das profissões relacionadas com dados a se ramificar para novos domínios de competência.

     

    Há um consenso geral de que a Ciência de Dados está na encruzilhada de várias disciplinas: matemática aplicada, estatística, machine learning, Informática, inteligência de negócios, visualização de dados…  Diante desta lista, não é surpresa que a expressão "Canivete Suíço" é frequentemente usada para descrever o Cientista de Dados!  E isso fica ainda mais justificado quando se leva em consideração que, assim como essas inúmeras habilidades, que já são por si só amplamente multidisciplinares, pode-se adicionar a elas um sólido conhecimento de questões comerciais, juntamente com um talento para comunicação, que é essencial para estabelecer diálogo com as diversas funções de negócios da empresa.  Este é o perfil do "verdadeiro" Cientista de Dados – aquele por quem todas as maiores empresas do mundo estão procurando para cumprir uma missão que envolve apostas estratégicas bastante altas para detectar, em dados, independentemente de sua natureza, novas alavancas para gerar valor para sua empresa.

     

    Impossível de achar ou insubstituível?

    Se nos prendermos a esta definição elitista do Cientista de Dados, teremos de aceitar o óbvio: a população elegível para preencher essa função é muito pequena e insuficiente para atender à demanda.  Não apenas os Cientistas de Dados são raros, mas também os melhores se voltam para o GAFA [1] que, além de lhes oferecer volumes substanciais de salário, ainda os presenteia com propostas frequentes de desenvolvimento de carreira.

    Para entender esta escassez, é importante considerar o quê, de acordo com muitos artigos que apareceram nos últimos anos, distingue os Cientistas de Dados de outras profissões que lidam com dados.  Costuma-se dizer que os Cientistas de Dados são mais "relevantes" que os Analistas de Dados porque vão mais profundamente na análise de dados e aplicam métodos mais sofisticados para a finalidade não de resolver um problema, mas de descobrir novas linhas de raciocínio.  Eles também se distinguem dos puramente estatísticos, se esta citação, que apareceu ao longo de toda a Web, for algo em que realmente se possa pautar: "Cientista de Dados – Pessoa que é melhor em estatística do que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico[2].  Os especialistas em Pesquisa de Dados, uma disciplina frequentemente considerada como o primeiro passo da Ciência de Dados, são, por sua vez, menos proeminentes em Informática do que os Cientistas de Dados.  Finalmente, enquanto os matemáticos têm um melhor conhecimento teórico de modelos, eles frequentemente carecem da cultura de dados que caracteriza os Cientistas de Dados.

     

    Uma elite que é puramente produto das atuais circunstâncias econômicas?

    A profissão do Cientista de Dados nasceu de uma dupla "enxurrada": por um lado, a enxurrada de dados, frequentemente descrita por seus três "Vs", de volume, velocidade, e variedade; por outro lado, a enxurrada de soluções em TI, que foi muito bem demonstrada pelo desenvolvimento do “Cenário de Grandes Volumes de Dados” entre 2014 e 2016.  Neste cenário que muda rapidamente, os Cientistas de Dados são uma bênção dos céus para a era dos Big Data: conhecer as ferramentas e dominar os métodos como o fazem, eles, mais que quaisquer outros, são capazes de "fazer os dados falarem" – seja para encontrar dentro deles avenidas de crescimento inesperadas ou para revelar fenômenos destruidores de valores.

     

    Em relação à enxurrada de dados, o volume em si não constitui um problema real: soluções, tanto para armazenamento quanto para processamento analítico, gerenciam integralmente este aspecto.  A velocidade, e acima de tudo toda a variedade, permanecem, entretanto, como verdadeiras questões.  De fato, a criação de valor é proveniente da análise combinada de três categorias de dados: dados internos, armazenados e estruturados em Armazenagem de Dados SQL; dados semiestruturados tais como registros de Web, de máquina ou de XML; e os chamados dados textuais desestruturados, de imagem e vídeo, etc.  A habilidade técnica do Cientista de Dados reside em conciliar todas essas informações usando a ferramenta correta ou as ferramentas corretas, independentemente da linguagem ou ambiente tecnológico.  O Cientista de Dados faz com que os insights emerjam a partir dos dados brutos, criando ou escolhendo as características mais relevantes [3] e aplicando o método correto de machine learning ou, cada vez mais, misturas de modelos baseados em uma camada secundária feita de um grande número de modelos preexistentes.

    No atual estado das coisas, pode-se dizer que a demanda por Cientistas de Dados de alto nível está diretamente ligada à complexidade e à variedade de fontes de dados.  Está justificada, acima de tudo, pela necessidade de dominar as ferramentas e linguagens de programação específicas para o ecossistema de Big Data.  Entretanto, devido às próprias mudanças nesse ecossistema em curto prazo, essas habilidades técnicas serão cada vez menos essenciais.

     

    Surgimento rápido de novas ferramentas de habilitação

    Há poucos anos, o processamento de dados semiestruturados ou desestruturados exigiam competência técnica especializada real em gerenciamento de dados e desenvolvimento. O uso de software para data minning e, de maneira mais ampla, o processamento automático de linguagem, não eram nem muito relevantes, nem suficientemente eficazes.  Hoje, é possível encontrar soluções no mercado, oferecidas através da compra de licença ou como software livre, que possibilitam processar esses dados desestruturados de maneira muito mais automatizada.  Enquanto você definitivamente ainda precisa ter várias habilidades analíticas, uma parte muito grande do pré-processamento já está integrada e muito fácil de usar.  Para dados semiestruturados, as alterações são ainda mais radicais.  Agora você pode estruturar este tipo de dados acessando apenas uma linha de código, através do Python, por exemplo.  Você pode até encontrar no mercado soluções que lhe permitem fazer uma Mistura de Dados [4], independentemente do formato dos dados (estruturados/desestruturados) ou do formato de armazenamento (base de dados SQL e NoSQL).

    Tudo indica que a variedade de gerenciamento de dados logo deixará de ser um problema.  A necessidade de dominar uma variedade imensa de linguagens de programação para tratar da diversidade de problemas negociais também diminuirá.  Há não muito tempo, você realmente tinha de ser um especialista em TI para escrever um código usando Hadoop ou Spark.  Hoje, o Hadoop é usado principalmente como solução de armazenamento de dados.  O Spark, por outro lado, está fazendo sua marca ao oferecer uma estrutura de gerenciamento de dados e funcionalidades que estão se tornando cada vez mais simples de implementar com cada nova versão.  Enquanto ainda não há uma solução analítica que torne possível realizar qualquer tipo de processamento, dentro de um ambiente que seja, ou não, distribuído, e em uma linguagem de programação que é estável e dominada pelo maior número de pessoas, a tendência desta solução surgir é muito real.

     

    Uma democratização inevitável e desejável

    A Ciência de Dados está em processo de se equipar com ferramentas que a tornarão mais amplamente acessível.  Isto é motivo o suficiente para que fiquemos esperançosos por empresas que, devido à falta de meios e habilidades técnicas, ficaram encalhadas nos bastidores da economia de dados.  Essa democratização através de ferramentas amplia a reserva de recursos humanos dos quais essas empresas serão capazes de extrair e possibilita que elas empoderem seus funcionários com perfis que, enquanto relacionados, são menos técnicos e polivalentes do que os do Cientista de Dados, conforme definidos atualmente.  Este é o caso do profissional de data minning, que será capaz de se apoiar nos modelos de machine learning que já são integrados e configurados, e em soluções de aplicativos clássicos com interfaces que podem ser usadas por não especialistas e uma linguagem de programação acessível a todos.

    Mas o que se passa com os Cientistas de Dados neste cenário?  A integração de parte de suas habilidades técnicas em ferramentas lhes dá a oportunidade de desenvolver dois aspectos essenciais de sua atividade: a habilidade de informar sobre os resultados obtidos, o que envolve particularmente dominar ferramentas de Visualização de Dados, e trabalhar mais proximamente de funções negociais, o que é essencial para dar efeito prático às contribuições da Ciência de Dados e incorporar a cultura de dados no próprio cerne da atividade.  Para aqueles que têm um verdadeiro apetite por essas duas opções de carreira, não há razões para a profissão de Cientista de Dados não continuar a ser "o emprego mais sexy do século 21" [5] por mais alguns anos.

     

    1 - GAFA é o acrônimo composto pelas mais conhecidas gigantes da web (Google, Apple, Facebook, Amazon)

    2 - Isto foi visto pela primeira vez em maio de 2012, em um tweet pelo Cientista de Dados Josh Will. Sem qualquer escassez de querelas mesquinhas, cruza-se com esta definição mais áspera: "Cientista de Dados – Estatístico que vive no Vale do Silicone"…

    3 - Primeiro nível de transformação aplicado aos dados brutos para estruturá-los e/ou agregá-los, para fornecer processamento de dados que é mais resumido e pode ser mais facilmente explorado.

    4 - Noção criada por um software editor que reflete a conciliação de diferentes tipos e formatos de dados em modo ágil

    5 - Referência ao famoso artigo por Thomas H. Davenport e D.J. Patil, "Data Scientist: The Sexiest Job of the 21st Century", Harvard Business Review, outubro de 2012.

     

    SOBRE OS AUTORES

    Nicolas Marivin

    Gerente de Operações no Big Data & Analytics department, Nicolas Marivin tem mais de 15 anos' de experiência no setor de valorização de dados.  Além de suas atividades de gerenciamento de Análise de Negócios, Ciência de Dados, e ofertas de Big Data, ele está envolvido na inovação de sistemas de informações e atribuições de modernização.

    Bouzid Ait Amir

    Graduado em Econometria pela Toulouse School of Economics [“Escola de Economia de Toulouse”] e em Informática pela Télécom Bretagne, Bouzid AÏT AMIR tem 15 anos de competência técnica especializada no setor de Ciência de Dados, que o habilitou a dar assistência ás maiores empresas da França com sua transformação e a implementação de soluções analíticas inovadoras.

    Download PDF (em inglês)