16.11.16

Opinião do Expert

Novas fronteiras e desafios de governança de dados

  • #Data Intelligence

Por Cyril Cohen-Solal – Diretor da Keyrus Innovation Factory e Xavier Dehan – Diretor de Big Data & Analytics Business Development, Keyrus

As aplicações Cloud e SaaS estão sendo cada vez mais adotadas, pois a análise incorporada está se tornando amplamente disseminada e as abordagens de big data estão sendo cada vez mais democratizadas… Em um contexto em que os fluxos de dados são cada vez mais intensos e as atividades de funções empresariais estão cada vez mais neles pautados, a qualidade e a consistência dos dados disseminados estão se tornando essenciais.  Portanto, a quem realmente compete cuidar desse assunto?  Existem novas ferramentas que, reestruturando os papeis das funções empresariais e TI, tornam possível obter sobretudo a governança sustentável de dados.1

De acordo com estudos recentes2, as empresas estimam que, em média, um terço de seus dados são imprecisos.  Na opinião de 91% delas, esses dados incorretos conduzem à decisões inadequadas, afetando negativamente seu desempenho econômico. Finalmente, 79% das organizações pelo mundo todo consideram que até 2020 a maioria das decisões comerciais serão tomadas com base em dados sobre consumidores.  Enquanto não há nada de novo sobre esta avaliação, a questão da responsabilidade pela qualidade de dados permanece inteiramente relevante.  Além disso, esta questão está se tornando ainda mais complexa, uma vez que os dados que precisam ser gerenciados são cada vez mais encontrados do lado de fora da empresa.

O desafio, neste caso, é crucial. Em última instância, trata-se de construir, enriquecer, preservar, e compartilhar uma base de dados de alta qualidade: um ativo essencial para valorizar a empresa, assegurando seu desenvolvimento, e garantindo seu futuro em longo prazo. Já no início dos anos 90, muitas organizações começaram a adotar estratégias de confirmação e validação, de maneira a assegurar que seus aplicativos estavam "bem desenvolvidos", que funcionam, e que as empresas tinham feito "o produto certo", correspondendo às exigências dos usuários.  As funções empresariais e a TI funcionam juntas para organizar essas atividades, notavelmente implantando métodos, maneiras de organizar e ferramentas de orientação.

Hoje, é sábio adotar a mesma abordagem estratégica, não mais para garantir a qualidade dos aplicativos desenvolvidos (de seu código e especificações), mas sim para controlar a qualidade dos dados. Esses dois fatores de risco (a introdução de anomalias de software e/ou de dados incorretos) contribuem para a baixa qualidade em geral dos sistemas de informação da empresa. Eles podem também trazer custos adicionais e quedas no desempenho (resultante de um ciclo de análises e decisões inapropriadas).

Três desenvolvimentos que estão mudando o escopo de governança de dados

  • O sucesso dos aplicativos empresariais no modo SaaS. A crescente gama oferecida por editores e as reduções de custos relacionadas com soluções SaaS tiraram proveito da relutância inicial das empresas em relação à nuvem. Por exemplo, em uma área como a CRM, que é sensível por envolver dados sobre clientes, desde 2014 a maioria dos novos desenvolvimentos foi em modo SaaS e, de maneira geral, assumidos por iniciativa dos departamentos comerciais e/ou de marketing. O fato de os dados em aplicativos de SaaS serem geridos de acordo com regras não controladas pela empresa inevitavelmente provoca problemas aos departamentos de TI em termos de integração e consistência com os dados de sistemas internos.
  • Desenvolvimento de análise incorporada e em memória. A maioria dos aplicativos empresariais agora incorporam ferramentas avançadas de análise, visualização e emissão de relatórios que têm precedência sobre os sistemas de inteligência comercial centralizados anteriores a eles. Estes também encaram a concorrência de ferramentas de análise em memória, que são menos complexas de implementar e usar. Enquanto a adoção desses sistemas tem a vantagem de tornar as equipes empresariais muito mais autônomas, ela também resulta em uma proliferação de repositórios que ninguém consegue manter coerentes.
  • O boom em big data. Após anos de retórica sobre a big data, as empresas finalmente começaram a usar não apenas seus crescentes volumes de dados operacionais, mas também gigantescas fontes de dados multiestruturados que são as redes sociais e, de maneira mais ampla, a web social. Dominar as regras de compilar e transformar esses dados provou ser crucial à relevância dos processos algorítmicos (visualizações em 360°, análises preditivas, exigências em tempo real…) que são, portanto, aplicadas a eles e que ditam o valor dos resultados obtidos. A partir de agora, as empresas que estenderam sua política de qualidade de dados para cobrir esses novos fluxos e processos são poucas e dispersas.

A governança unificada de dados é para Chief Data Officers o que a Teoria de Tudo é para os físicos, tal é a extensão à qual esses dois Data Worlds às vezes parecem dissociados!

As principais causas desta dissociação residem na própria essência da revolução Big Data, com sua dimensão altamente experimental que afeta especificamente a governança de dados.

Os Cientistas de Dados trabalham em um "espaço livre". Isso permitir que eles constantemente testem seus algoritmos (modelos analíticos e regras de gerenciamento, arquiteturas, ecossistemas de dados) incorporando novas fontes de dados (internos, externos, semiestruturados) rapidamente. Naturalmente, essa atividade é desempenhada com rastreabilidade limitada.  Os Cientistas de Dados estão mais focados nos pontos de desempenho extras ganhos em seus casos de uso comercial ou tecnológico (redução de churn [evasão de clientes], melhoramentos na taxa de previsão, desempenho em tempo real…), do que em enquadrar-se com os cânones da qualidade de dados (exatidão, integridade, originalidade, conformidade, e integralidade), melhores práticas de gestão de dados, ou a exigência imperativa por industrialização.  As empresas fornecem uma resposta parcial a este problema central aplicando estratégias mínimas de governança de dados para "conter" os riscos com qualidade e gerenciamento de dados, e organizando infraestruturas que compreendem espaços dedicados, compartamentalizados para inovar, experimentar, firmando-se sobre PoCs, e empreendendo pré-industrialização (Sandbox Lab…).

Portanto, as empresas devem atender ao grande desafio dos próximos anos, de organizar a governança unificada de seus dados.  Isto cobre dados de referência, que precisam ser originais, confiáveis, válidos e completos (nome e endereço dos clientes, produtos, ativos…), dados para tomada de decisões produzidos a partir de dados transacionais (receitas e margens por unidades de negócios…), e também todos os dados maciços originários de big data, nuvem, e infraestruturas digitais, que intrinsecamente envolvem certo grau de incerteza.  Isto é o que as empresas têm de fazer para gerar lucro sobre seu capital de dados.  Hoje, esse capital é um ativo estratégico para as empresas em termos de criar uma vantagem competitiva, assegurando observância das exigências regulatórias, e reduzindo os riscos operacionais ao longo de todas as funções empresariais das empresas.  O corolário desta abordagem é a convergência em longo prazo da gestão de dados master e soluções em big data.

Nessa conclusão, o estudo conduzido com 100 organizações pela PAC para a Syntec Numérique3 identifica quatro grandes áreas em que o trabalho precisa ser feito para ajudar as empresas na revolução de big data.  Essas áreas incluem a necessidade de desenvolver uma estratégia de Governança de Dados envolvendo o Departamento de SI, as funções empresariais, o Diretor de Dados… e definir regras para acesso e segurança de dados.

Uma necessidade subestimada: a gestão de repositórios complementares

Estes desenvolvimentos removem de uma vez por todas as fronteiras entre dados internos e externos. Entretanto, além deles há outro problema cada vez mais agudo, porém, subestimado: o da falta de consistência e integralidade de dados de funções empresariais e de dados de referência que os acompanha (o problema de gerenciar a qualidade de dados e repositórios complementares).  Com grande parte dos processos de produção de dados sendo automatizados, pode-se ser perdoado por se pensar que a maioria esmagadora dos dados sendo usados dentro das empresas é regida por padrões de qualidade e sujeita a verificações nesse sentido.

Mesmo assim, em muitas empresas, pode-se ver que entre 2% e 5% dos dados são geridos e compilados manualmente5, fora de qualquer aplicativo de TI, para atender às exigências do negócio.  Essas exigências podem ser ad hoc, transicionais, temporárias, ou, lamentavelmente, duradouras por natureza.  Arquivos em excel são frequentemente usados para carregar esses dados.  Para medir a escala deste problema, esta observação precisa ser considerada juntamente com o fato de que 56% das empresas do mundo declaram que erros de dados derivam principalmente de erros humanos2.

Três exemplos:

  • Uma empresa acaba de comprar outra. Cada uma delas possui seus próprios repositórios e, enquanto aguardam que os sistemas convirjam, os departamentos de finanças criam um arquivo de excel que define o mapeamento entre os repositórios das duas entidades.  Esse arquivo gerenciado manualmente é um repositório complementar.
  • Os repositório de "produtos" ainda não está integrado no sistema operacional do departamento de marketing.  Consequentemente, esse departamento não pode fazer o elo entre uma campanha e os produtos a que diz respeito.  Para cada campanha, o departamento discrimina os produtos em questão em um arquivo de excel e incorpora esse arquivo complementar em seu sistema.
  • Na ausência de um processo automatizado para coletar o fluxo de caixa ou outros dados de suas subsidiárias, cada semana a matriz envia um template em excel em que cada entidade lança manualmente seus dados.  Esta prática pode ser encontrada nas maiores empresas!

Esses dados e repositórios complementares geridos fora do aplicativo de TIs fogem de qualquer processo de controle rigoroso em relação a:

1/ inserção de dados, portanto, erros que, em se espalhando, levam a inconsistências em aplicações a jusante;

2/ a rastreabilidade da própria compilação de dados, uma vez que com o excel não é possível monitorar com qualquer certeza critérios tais como as dados em que os dados são efetivamente atualizados, ou saber se todos os indivíduos em questão receberam devidamente o formulário de compilação;

3/ quão bem os arquivos estão integrados com os sistemas operacionais, uma vez que as referências cruzadas podem ser quebradas pela adição/remoção de um elemento, ou simplesmente porque um nome não está grafado da mesma maneira.

Possibilitar que funções empresariais e o departamento de TI sejam operadores de governança de dados

Os desenvolvimentos e práticas que acabaram de ser descritos forçam as empresas a abandonar políticas de qualidade de dados que estejam em silos, ou limitados apenas ao sistema de informações de inteligência do negócio.  Eles militam em favor da governança de dados em geral, possibilitando que tanto as funções empresariais quanto os departamentos de TI contribuam para a qualidade de dados em geral das empresas.  A Keyrus sabe que a ausência de uma simples ferramenta para esta finalidade provou ser um grande obstáculo para tal política durar a longo prazo.  A Keyrus, portanto, propõe uma abordagem respaldada por uma plataforma de governança de dados compartilhada pelas Equipes de TI e as várias equipes de funções da empresa.  Esta abordagem reafirma e reestrutura os respectivos papeis dessas equipes:

  • O TI, que assegura a consistência geral do sistema de informações estendido das empresas, deverá estar no controle de questões problemáticas relacionadas com a qualidade técnica dos dados.  De maneira geral, compete à TI implementar testes adequados para assegurar a correspondência exata dos dados entre um sistema interno uma aplicação em nuvem, a ausência de duplicação, a integridade das fontes, a continuidade dos fluxos de dados, etc.
  • As equipes de funções da empresa, na qualidade de usuários de dados, devem estar no controle da qualidade funcional dos dados.  É verdade que elas estão mais bem posicionadas do que as equipes de TI para detectar inconsistências nos indicadores que usam diariamente, ou em relação a um determinado histórico de dados, bem como para definir controles tais como de limiares de relevância e regras de checagem.

Plataformas de Governança de Dados tais como quilliup5 possibilitam que estas duas categorias de usuários chequem e monitorem tanto a qualidade quanto a consistência dos dados, independentemente da natureza de suas fontes (base de dados, aplicativo, arquivo, cubos, etc.), contanto que estes tenham sido declarados na plataforma e as autorizações de acesso alocadas.

Eliminando pontos fracos na governança

A qualidade de dados nunca é uma certeza. A coleta de dados complementares e a criação de novos repositórios são inevitáveis na vida de uma organização.  Devido à ausência de checagens, esses são também todos pontos fracos em uma estrutura de governança de dados na empresa inteira.  Incluindo na plataforma de governança de dados, compartilhada pelo TI e as funções empresariais, uma ferramenta especificamente dedicada a gerenciar dados complementares e repositórios, é possível eliminar o problema na fonte.  Em vez de usar o excel para coletar dados necessários para alimentar um sistema, usuários corporativos podem fazê-lo de maneira rigorosa e estruturada, usando formulários que automaticamente se beneficiam da inserção de dados e checagens de consistência.  Isto equivale a eliminar o uso do arquivo de excel e os erros que eles possam disseminar em cadeias operacionais e de tomadas de decisão.  Proporcionar esta possibilidade às equipes de funções da empresa é reduzir os 2 a 5% de dados que atualmente escapam a quaisquer checagens de qualidade e consistência, e fazê-lo sem ter de envolver as equipes de TI. É também uma maneira de limitar os riscos de inconsistência e perda de rastreabilidade durante períodos de transição em que é necessário criar uma ponte entre dois sistemas (fusão, migração, etc.) e manter tabelas de referência cruzada e repositórios temporários.

Ao final de tudo isso: ganho de eficiência e confiança renovada em dados

As empresas que optaram por esta abordagem, e que se baseiam na plataforma quilliup para sua governança de dados, estimam que economizaram 30% em custos de manutenção para o departamento de TI, e que tiveram uma economia de tempo de 80% para usuários corporativos, que não precisam mais fazer checagens manuais e nem recorrer ao TI. Enfatiza-se que, enquanto o objetivo é, na verdade, cobrir todos os dados da empresa, a implementação de tal governança deve ser empreendida gradualmente, tipicamente começando com um departamento piloto de função empresarial.

A condição essencial para o sucesso é obviamente envolver as duas categorias de empresas no projeto.  No lado do departamento de TI, as possíveis objeções à governança compartilhada desaparecem, uma vez que eles tenham certeza de reter o controle sobre a qualidade técnica dos dados e os direitos de acesso aos vários sistemas.  Os usuários corporativos, ao contrário do que imaginamos, estão longe de ser reticentes sobre a ideia de se envolver na gestão da qualidade de seus dados.  Eles rapidamente veem o que têm a ganhar nisso em termos de autonomia, eficiência, e, acima de tudo, confiança nos dados que usam diariamente para finalidades operacionais ou para tomada decisões.

Em um ambiente em que os dados cada vez mais derivarão de fontes de terceiros não relacionados com a empresa (web, redes sociais, objetos conectados, etc.), este último ponto é essencial: a confiança dos operadores na qualidade de dados determina diretamente o valor que serão capazes de criar a partir daqueles dados. Além dos benefícios imediatos dos ganhos em eficiência e reduções de custos, é este aspecto que, sem dúvida, é a real questão em jogo com a governança de dados em geral.

Sobre os autores

Tendo um diploma em Gestão de Informática (Paris Dauphine), Cyril Cohen-Solal tem um conhecimento técnico de 15 anos na área de Inteligência de Dados, o que lhe possibilitou dar assistência a empresas líderes de mercado na França e internacionalmente com o design e implementação de suas Estratégia de Inteligência em Negócios. Dentro do Grupo Keyrus, Cyril é também responsável por nossa aceleradora "Keyrus Innovation Factory" [“Fábrica de Inovações Keyrus”], que é uma ponte entre start-ups inovadoras e grandes empresas europeias. Paralelamente a essas atividades, ele lecionou por 10 anos na Paris Dauphine no âmbito do curso de Mestrado em Business Intelligence Computing [“Computação de inteligência Empresarial”].

Xavier Dehan é Diretor da Big Data & Analytics Business Development dentro do Grupo Keyrus. Possui ampla experiência no campo de Integração de projetos de TI e de Qualidade de Software, adquirida junto a grandes Empresas de Prestação de Serviços e no âmbito da criação de empresas de Garantia de Qualidade e Testing Pure Player [pure-players: organizações especializadas em segurança de gestão que realizam suas atividades exclusivamente online”].  Por mais de 10 anos ele aconselhou grandes organizações em suas estratégias de [Grandes] Dados para empreender projetos experimentais e industriais ao longo da cadeia de valorização de dados.

 

Fonte:

[1] Definições de Governança de Dados:

• Pelo Data Governance Institute [“Instituto de Governança de Dados”] (DGI): “Governança de Dados é um sistema de direitos de decisão e responsabilidades por processos relacionados com informações, executados em conformidade com modelos acordados que descrevem quem tem autoridade para tomar quais ações com quais informações, e quando, sob quais circunstâncias e usando quais métodos.” http://www.dadosgovernance.com/adg_dados_governance_definition/

• Pelo Cigref: "Gerenciamento de Dados consiste em implementar todas as configurações relacionadas com as informações usadas dentro de nossas organizações de maneira a otimizar seu uso…  Governança de Dados a parte dessas configurações que descreve as responsabilidades, estabelece regras, e verifica se estão sendo aplicadas.  Esta abordagem de governança é conduzida por um corpo dedicado que o orienta com regras, guias, repositórios, indicadores, gráficos, uma política (relacionada com o gerenciamento de dados pessoais, classificação, armazenamento, retenção, patentes, propriedade intelectual,…)."

" How can the enterprise's data be managed to create value” [“Como os dados da empresa podem ser geridos de maneira a criar valor?"] Relatório Cigref – Os Desafios Empresariais de Dados http://www.cigref.fr/wp/wp-content/uploads/2014/10/CIGREF-Enjeux-business-donnees-2014.pdf

[2] "New Experian Qualidade de dados research…" http://www.experian.com/blogs/news/2015/01/29/dados-qualidade-research-study/

"Relatório de referência de 2015 sobre qualidade de dados" "Qualidade de dados e Gerenciamento – Market Trends [“Tendências de Mercado”] em 2016"

[3] PAC para Syntec Numérique http://www.syntec-numerique.fr/publication/dados-au-big-dados-attentes-utilisateurs-metiers-france

[4] Estudo interno da Keyrus e análises de projetos de clientes

[5] quilliup: uma Plataforma de Governança de Dados de alto desempenho desenvolvida para ajudar as empresas a melhorar a qualidade de seus dados e tornar seu processo de tomadas de decisão mais confiável.  A plataforma foi desenvolvida pela Keyrus através de seu Centro de Desenvolvimento e Pesquisas sediado em Israel.  Para informações adicionais, acesse: http://quilliup.com/

Livros-chave: " Data quality and governance promoting enterprises' performance” [“Qualidade de dados e governança promovendo o desempenho de empresas'"], por Laure Berti-Equille – éditions Hermès - Lavoisier

“Data Governance: How to Design, Deploy and Sustain an Effective Data Governance Program” [“Governança de Dados: Como Desenvolver, Implementar e Manter um Programa de Governança de Dados Eficaz”, por John Ladley – éditions Morgan Kaufmann