A Hierarquia das necessidades em Data Science e seus grandes papéis

fonte: @mrogati

Essa pirâmide ilustrada originalmente por Monica Rogati representa a estrutura hierárquica das necessidades fundamentais em Data Science. Embora tenha sido desenhada em 2017, seu significado permanece cada vez mais relevante nos dias atuais.

Esta visão contempla 6 camadas de aplicações classificadas em 5 categorias como Coleta de dados > gestão e armazenamento > exploração e transformação/modelagem > agregação e categorização > aprendizado e otimização.

É crucial também entender de que maneira se encaixam os grandes papéis de profissionais em relação à essa organização.

Examinando a pirâmide, começando de sua base, podemos identificar elementos essenciais que compõem o alicerce sólido da disciplina. Encontramos os pilares como log de sensores, dados externos e a contribuição valiosa dos usuários na geração de conteúdo. Isso reforça a premissa fundamental de que a geração de valor em Data Science começa com a aquisição de matéria-prima de qualidade.

À medida que ascendemos, vemos manipulação de dados confiáveis, a construção de infraestruturas robustas, a implementação de pipelines eficientes e a capacidade de armazenar e gerenciar dados estruturados e não estruturados.

Em seguida encontramos tarefas essenciais, como limpeza e detecção de anomalias, processamento e preparação dos dados que ecoam as práticas de refinamento em uma linha de produção convencional.

Ao avançarmos mais, entramos na esfera da análise e métricas. A exploração de dados, segmentações e agregações desempenham um papel crucial na construção de entendimentos de negócio. Esses preparativos são então canalizados para experimentos de teste A/B e algoritmos de Machine Learning, realçando a aplicação prática das análises no contexto de tomada de decisões informadas.

No topo dessa pirâmide de conhecimento, encontramos a Inteligência Artificial e a exploração de padrões complexos. Isso culmina no que pode ser chamado de a “fronteira de inovação”, onde os dados são moldados em insights estratégicos e aplicações de ponta.

O caráter glamoroso dos níveis finais não deve obscurecer a base essencial sobre a qual a pirâmide se ergue. A analogia de uma indústria têxtil revela a a semelhante jornada da matéria-prima ao produto finalizado, assim como os dados passam por um processo meticuloso de engenharia antes de serem transformados em aplicações de alto nível.

A ponta da pirâmide só consegue existir em detrimento de sua base.

A analogia ressalta a crítica importância da engenharia de dados na ciência dos dados, que frequentemente e reconhecer essa base sólida é vital à medida que mais empresas adotam uma cultura orientada por dados.

Tópicos que serão abordados nesse artigo:

Os grandes papéis da área de Data Science

“Ciência de Dados” é um campo amplo que abrange diferentes disciplinas e diversas funções.

À medida que as empresas continuam a acumular dados provenientes de diversas fontes, uma variedade de funções profissionais no campo de dados emergiu para atender à crescente necessidade por competências tecnicamente avançadas.

Embora muitos desses papéis possuam formações e conjuntos de habilidades semelhantes, a verdadeira diferenciação reside nos objetivos que perseguem e na maneira como abordam os dados para atingir esses objetivos.

Cada um desses papéis, apesar das semelhanças superficiais, possui suas próprias áreas de foco e responsabilidades exclusivas, contribuindo de maneiras distintas para o sucesso e crescimento da organização. É a abordagem específica de cada papel em relação aos dados que define suas funções.

fonte: data captains

Neste cenário, compreender a sutileza dessas distinções se torna crucial para aproveitar plenamente o potencial dos profissionais de dados e otimizar sua contribuição para os objetivos organizacionais.

1. Engenheiros de Machine Learning

As atribuições de Engenheiros de Machine Learning são intrinsecamente vinculadas aos projetos em que estão engajados. Entretanto, uma exploração das listagens de vagas de emprego destaca que, em sua maioria, esses profissionais assumem a responsabilidade de conceber modelos e assegurar a manutenção de soluções escaláveis de aprendizado de máquina em cenários de produção.

As exigências típicas dessa função abrangem:

  1. Desenvolvimento de Modelos de Aprendizado de Máquina: Está no cerne do trabalho desses engenheiros a criação de modelos robustos de aprendizado de máquina. Isso envolve a compreensão profunda dos algoritmos, estratégias de treinamento e técnicas de otimização.
  2. Colaboração com Engenheiros de Dados: A parceria com Engenheiros de Dados é fundamental para a construção e modelagem de pipelines de dados. Isso implica na habilidade de trabalhar em conjunto para garantir a disponibilidade de dados pertinentes e de qualidade.
  3. Aplicação de Técnicas Avançadas: O domínio de técnicas de aprendizado de máquina e ciência de dados é um requisito básico. A concepção de sistemas distribuídos que suportam essas técnicas para operação eficiente é um diferencial.
  4. Desenvolvimento de Código de Produção: A capacidade de escrever código que não apenas funcione em ambiente de testes, mas também seja apto para a produção, é crucial para a entrega efetiva de soluções.
  5. Implantação de Modelos: Levar modelos do estágio de desenvolvimento para a produção é uma etapa crítica. Garantir que eles funcionem de maneira eficiente e escalável é de responsabilidade dos Engenheiros de Machine Learning.
  6. Aprimoramento de Modelos Existentes: A manutenção e otimização dos modelos existentes é um aspecto vital do trabalho. Isso envolve a adaptação dos modelos conforme novos dados e cenários surgem.
  7. Ciclo de Vida Completo: Os engenheiros têm um papel integral em todas as fases do ciclo de vida de um projeto, desde a pesquisa e projeto até o desenvolvimento, implementação, monitoramento e manutenção contínua.
  8. Apresentação e Comunicação: A habilidade de comunicar processos complexos de aprendizado de máquina e ciência de dados de maneira acessível para líderes de negócios é essencial para a tomada de decisões informadas.
  9. Análise de Dados Complexos: A capacidade de explorar grandes conjuntos de dados complexos e extrair informações significativas é uma aptidão fundamental para o engenheiro de Machine Learning.
  10. Pesquisa e Implementação de Melhores Práticas: A contínua pesquisa e aplicação das melhores práticas é um elemento-chave para otimizar a infraestrutura de aprendizado de máquina existente e garantir resultados cada vez melhores.

Nesse cenário em constante evolução, os Engenheiros de Machine Learning são fundamentais para traduzir as complexidades do aprendizado de máquina em soluções práticas que impulsionem os negócios.

Seu papel é multidisciplinar, abrangendo desde a ciência de dados e engenharia até a comunicação eficaz com partes interessadas, garantindo que as organizações possam alavancar efetivamente o poder das tecnologias de aprendizado de máquina.

2. Cientistas de Dados

Em comparação a um estatístico, um Cientista de Dados possui profundos conhecimentos em programação. No entanto, em contraste com um Engenheiro de Software, suas habilidades em estatística superam aquelas em programação.

O Cientista de Dados está adequadamente preparado para efetuar a limpeza e o armazenamento de vastos volumes de dados, investigar minuciosamente conjuntos de dados para identificar discernimentos valiosos, construir modelos preditivos complexos e executar projetos de ciência de dados que abrangem todas as etapas do processo.

Frequentemente, muitos Cientistas de Dados acumularam experiência prévia como analistas de dados ou profissionais de Business Intelligence (BI).

As expectativas para essa função normalmente incluem:

  1. Pesquisa e Desenvolvimento de Modelos Estatísticos para Análise: A base do trabalho do Cientista de Dados reside na construção e refinamento de modelos estatísticos, que servem como ferramentas cruciais para a análise dos dados.
  2. Compreensão Profunda das Necessidades Empresariais: O Cientista de Dados é hábil em capturar as necessidades da empresa e conceber soluções viáveis, muitas vezes colaborando com equipes de engenharia e gestão de produtos.
  3. Comunicação de Resultados Complexos: A capacidade de comunicar resultados e conceitos estatísticos de maneira clara e impactante aos principais tomadores de decisões empresariais é uma característica vital.
  4. Utilização de Bancos de Dados e Projetos Adequados: A escolha cuidadosa de bancos de dados e a seleção de projetos apropriados são cruciais para otimizar a colaboração entre diferentes áreas de desenvolvimento.
  5. Desenvolvimento de Modelos e Algoritmos Personalizados: A construção de modelos e algoritmos adaptados às necessidades específicas é uma competência-chave.
  6. Estabelecimento de Processos e Ferramentas de Monitoramento: O desenvolvimento de processos e ferramentas para monitorar e avaliar a performance e precisão dos dados é fundamental para aprimorar o trabalho.
  7. Aplicação de Modelagem Preditiva: O uso estratégico de modelagem preditiva é uma habilidade valiosa, aplicada para otimizar experiências de cliente, receita, segmentação de anúncios e mais.
  8. Estruturação de Testes A/B e Avaliação de Modelos: A construção e implementação de estruturas de testes A/B são práticas comuns para avaliar a qualidade dos modelos e sua eficácia.

A posição de Cientista de Dados representa a sinergia entre a estatística, a programação e a compreensão profunda dos negócios. Esses profissionais são capazes de traduzir informações complexas em insights acionáveis que orientam as estratégias empresariais.

Seu papel abrange desde a análise profunda de dados até a concepção de modelos inovadores, destacando o poder transformador da ciência de dados no cenário corporativo moderno.

3. Analistas de dados

É mais provável que os Analistas de Dados estejam diretamente envolvidos com questões de “Business Intelligence” (BI), o que significa que eles são responsáveis por gerar relatórios de BI para a organização.

Embora frequentemente empreguem ferramentas relacionadas à Engenharia de Dados e possam ter familiaridade na configuração de Data Warehouses, os Analistas de Dados na estrutura organizacional, geralmente, são encarregados de construir relatórios analíticos específicos por área de negócio.

Eles frequentemente trabalham em estreita colaboração com equipes de Analistas de Negócios ou em funções individuais dentro da organização, como, por exemplo, equipes de marketing. Em algumas circunstâncias, eles podem se reportar diretamente à alta gerência executiva, destacando a importância crítica desses insights para as decisões estratégicas da empresa.

Os Analistas de Dados desempenham um papel fundamental ao traduzir dados brutos em informações acionáveis, proporcionando uma base sólida para a compreensão das tendências e desempenho da organização.

Os Analistas de Dados são os responsáveis pelo trabalho de limpeza, organização e processamento dos dados para construir relatórios, gráficos, dashboards e processos de análise.

Analistas de Dados precisam dominar a arte de criar visualizações profissionais e que transmitam o resultado da análise. Ferramentas como Power BI, Tableau ou Google Data Studio são as mais comuns, além de visualizações criadas com Linguagem Python ou R. Conhecimento sobre bancos de dados relacionais e não relacionais é fundamental pois fará parte do dia a dia do profissional manipular dados e armazenar os resultados da manipulação.

O Analista de Dados também pode trabalhar com ferramentas em nuvem para extração, manipulação e armazenamento de dados. Ferramentas como Snowflake, Amazon Redshift e Google BigQuery são exemplos de ferramentas para esse tipo de atividade.

Extrair e analisar dados de Data Warehouses ou Data Lakes é outro tipo de atividade comum no dia a dia do Analista de Dados. Estatística Descritiva e Storytelling também são habilidades importantes para esse perfil.

4. Engenheiro de Dados

Precisamente, o engenheiro de dados assume a responsabilidade de conceber, construir e assegurar a manutenção da infraestrutura de dados de uma organização. Sua proficiência se estende ao domínio de tecnologias que abarcam o armazenamento, processamento e integração de dados.

A essência de sua atuação reside na construção de fluxos de dados eficazes, na aprimoração das consultas e na salvaguarda inabalável da integridade dos dados.

Ao criar pipelines de dados, eles estabelecem um fluxo contínuo que extrai, transforma e carrega informações provenientes de diversas fontes. Essa habilidade de orquestrar o fluxo de dados é fundamental para assegurar que as informações fluam de maneira ágil e consistente por toda a organização.

Em adição, a otimização das consultas é um aspecto-chave do trabalho do engenheiro de dados. Isso envolve a estruturação das consultas de modo a garantir que os dados sejam recuperados de forma rápida e eficiente, capacitando a análise sem perdas de tempo desnecessárias.

A integridade dos dados é uma preocupação primordial. Os engenheiros de dados implementam procedimentos para garantir que os dados se mantenham precisos, coerentes e confiáveis em todo o ciclo de vida.

O objetivo final é habilitar a disponibilidade dos dados, sua consistência e sua acessibilidade eficiente. Isso cria uma base sólida para análises e tomadas de decisões embasadas em informações confiáveis.

Suas principais atribuições normalmente são:

  1. Coleta de Dados: Extrair dados de diversas fontes, como bancos de dados, APIs, arquivos CSV, para centralizar as informações.
  2. Transformação de Dados: Limpar, padronizar e preparar os dados para análise, aplicando transformações como filtragem, agregação e enriquecimento.
  3. Armazenamento: Projetar e manter sistemas de armazenamento, como bancos de dados, data warehouses e data lakes, para garantir a integridade e acessibilidade dos dados.
  4. Processamento de Dados: Desenvolver pipelines de dados para processar, transformar e migrar grandes volumes de informações de forma eficiente.
  5. Monitoramento e Manutenção: Monitorar o desempenho dos sistemas de dados, identificar gargalos e garantir a disponibilidade e escalabilidade dos recursos.
  6. Segurança e Privacidade: Implementar medidas de segurança para proteger os dados contra acessos não autorizados e garantir a conformidade com regulamentos.
  7. Colaboração: Trabalhar em conjunto com cientistas de dados, analistas e outros profissionais para fornecer os dados necessários para análises e projetos.

Em essência, o engenheiro de dados é o responsável por trás da infraestrutura de dados, capacitando organizações a navegar no mar de informações de maneira coesa e eficaz, possibilitando a extração do máximo valor de seus recursos de dados.

5. Arquiteto de Dados

O papel do Arquiteto de Dados é central no desenho e na construção da fundação de dados de uma organização. Eles têm a responsabilidade de desenvolver a visão global que irá moldar a estrutura abrangente dos dados da organização. Isso envolve várias etapas cruciais para a gestão eficaz dos dados e o sucesso geral da organização.

  • Definição de Modelos de Dados: Um dos pilares do trabalho do Arquiteto de Dados é a definição dos modelos de dados. Isso implica criar esquemas que delineiam como os dados serão organizados, estruturados e inter-relacionados. Essa etapa é fundamental para garantir que os dados sejam consistentes e uniformes, independentemente de onde sejam utilizados.
  • Identificação de Necessidades de Armazenamento: Os Arquitetos de Dados são responsáveis por identificar as necessidades de armazenamento dos dados. Isso envolve determinar as tecnologias de armazenamento mais adequadas, considerando aspectos como escalabilidade, segurança e eficiência.
  • Definição de Estratégias de Governança de Dados: A governança de dados é um componente crítico para garantir a qualidade, a segurança e o cumprimento regulatório dos dados. Os Arquitetos de Dados desenvolvem estratégias de governança que estabelecem políticas, procedimentos e responsabilidades para o gerenciamento dos dados de maneira ética e eficaz.
  • Visão Ampla dos Requisitos de Dados: Os Arquitetos de Dados têm uma perspectiva global dos requisitos de dados da organização. Isso envolve compreender as necessidades específicas de cada setor e função, garantindo que a arquitetura de dados possa atender de maneira holística às metas e aos objetivos do negócio.
  • Colaboração Multissetorial: A colaboração é um pilar do trabalho do Arquiteto de Dados. Eles trabalham em estreita colaboração com diversos setores da organização, garantindo que a estrutura de dados esteja alinhada com as necessidades de cada área.

A ênfase na Governança de Dados é especialmente relevante em setores altamente regulados, como o público, saúde e educação. Nessas áreas, a conformidade com leis e regulamentos é fundamental, tornando os profissionais com forte foco em governança altamente valorizados.

O conhecimento profundo das leis, como GDPR, LGPD, Marco Civil da Internet e outras regulamentações relevantes, é essencial para garantir que os dados sejam coletados, armazenados e usados de maneira legal e ética. Além disso, a compreensão das normas ISO e outras práticas de governança é necessária para construir uma estrutura sólida de gestão de dados.

Por outro lado, os Arquitetos de Dados com ênfase técnica têm um papel crucial em setores que abraçam a inovação e a transformação digital. Isso inclui áreas como logística, finanças, marketing, TI e outros em que a tecnologia está profundamente entrelaçada nos negócios.

No cenário atual, a colaboração entre Arquitetos de Dados com focos distintos, mas complementares, como Governança e Técnico, é essencial para criar um ambiente de dados saudável e eficaz. Enquanto um fornece a estrutura legal e ética, o outro impulsiona a eficiência e inovação tecnológica. Juntos, eles formam a base para o sucesso do gerenciamento de dados em diferentes setores e cenários de negócios.

Em resumo, o Arquiteto de Dados desempenha um papel fundamental na criação da base sólida para a gestão de dados.

Referências

Compartilhe nas redes sociais:
Alexandre Polselli
Alexandre Polselli

Escrevo artigos e desenvolvo projetos nas minhas áreas de maior interesse: Data Science, Data Analytics, Estatística e Probabilidade, Inteligência Artificial e Machine Learning.

Artigos: 26

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *