Data Lake
Data Lake
Construção de um repositório centralizado de dados, visando a facilitação da distribuição, propagação e utilização dos mesmos, conhecido como Data Lake¹ que contemple todos os dados gerenciados pela SETIC.
Com base no objetivo de construir um repositório centralizado de dados, o Data Lake, para facilitar a distribuição, propagação e utilização dos dados gerenciados pela SETIC o projeto justifica-se por:
1. Melhoria da eficiência operacional: Ao centralizar os dados em um único local, a SETIC poderá eliminar a necessidade de acessar várias fontes de dados dispersas. Isso reduzirá o tempo e o esforço necessários para localizar e acessar os dados, resultando em uma maior eficiência operacional.
2. Facilitação da colaboração e compartilhamento de dados: Com o Data Lake, os diferentes departamentos e equipes da SETIC poderão acessar os mesmos conjuntos de dados de forma centralizada. Isso promoverá a colaboração entre as equipes, permitindo que elas compartilhem informações e insights de maneira mais eficiente.
3. Melhoria da qualidade e consistência dos dados: Ao centralizar os dados no Data Lake, a SETIC poderá implementar controles e processos de qualidade de dados mais rigorosos. Isso ajudará a garantir a consistência, a integridade e a precisão dos dados, resultando em uma base de dados confiável e de alta qualidade.
4. Facilitação da análise de dados e tomada de decisões: Com todos os dados centralizados em um único local, a SETIC poderá realizar análises mais abrangentes e avançadas. Isso permitirá a identificação de padrões, tendências e insights valiosos que podem apoiar a tomada de decisões estratégicas e operacionais mais informadas.
5. Fortalecimento da segurança e conformidade dos dados: Ao centralizar os dados no Data Lake, a SETIC poderá implementar medidas de segurança e privacidade mais robustas. Isso inclui a aplicação de controles de acesso, criptografia de dados e monitoramento de atividades suspeitas. Além disso, o Data Lake pode ajudar a garantir a conformidade com regulamentações de proteção de dados, como a LGPD.
6. Redução de custos de armazenamento e gerenciamento de dados: Com o Data Lake, a SETIC poderá otimizar o armazenamento e o gerenciamento dos dados. Isso pode resultar em uma redução de custos, pois elimina a necessidade de manter várias infraestruturas de armazenamento e simplifica os processos de gerenciamento de dados.
Por fim, o projeto de construção do Data Lake justifica-se pela melhoria da eficiência operacional, facilitação da colaboração, melhoria da qualidade dos dados, facilitação da análise de dados, fortalecimento da segurança e conformidade dos dados, além da redução de custos de armazenamento e gerenciamento de dados. Esses benefícios contribuirão para o sucesso e aprimoramento das operações da SETIC.
- A SETIC possui diversos dados, distribuídos em diversas fontes, como JSON, CSV e alguns tipos de SGBD. O Data Lake deverá consumir das diversas fontes que a SETIC possui, como também de fontes externas (caso se faça necessário)
- Melhorar a eficiência da área de dados da SETIC como um todo. Para o time de engenharia de dados, agiliza a produção de DW. Para o time de ciência de dados, acelera o desenvolvimento de IA. Para o time de análise de dados, facilita o processo de exploração. Para o time de business intelligence, facilita a criação de painéis.
- Deverá seguir a LGPD e os conceitos ACID (Atomicidade, Consistência, Isolamento, Durabilidade) para realização de uma transação em um sistema de banco de dados;
- O Data Lake deve ser composto por ferramentas capazes de escalar tanto horizontalmente quanto verticalmente;
- Os dados do Data Lake devem ser extremamente disponíveis. Deve existir um plano de recuperação de desastre;
- Os dados devem estar seguros, privados, precisos, disponíveis e utilizáveis;
- O Data Lake deve poder ser consultado pelas ferramentas utilizadas na Coordenadoria de Análise e Gestão de Dados (CAGD);
- A princípio, somente funcionários da CAGD terão acesso ao Data Lake;
- As ferramentas que compõe o Data Lake deverão possuir monitorabilidade e gerar informações analíticas.
- Risco de segurança: Existe o risco de violações de segurança e acesso não autorizado aos dados armazenados no Data Lake. Medidas de segurança adequadas devem ser implementadas para mitigar esse risco.
- Risco de integridade dos dados: Há o risco de corrupção ou perda de dados durante o processo de ingestão ou armazenamento no Data Lake. É importante implementar mecanismos de verificação e validação para garantir a integridade dos dados.
- Risco de escalabilidade: À medida que o volume de dados aumenta, pode haver riscos relacionados à escalabilidade do sistema. É necessário garantir que a infraestrutura do Data Lake seja dimensionada adequadamente para lidar com o crescimento dos dados.
- Risco de falta de expertise técnica: A falta de conhecimento técnico especializado na equipe pode representar um risco para o projeto. É importante garantir que a equipe tenha as habilidades necessárias para projetar, implementar e manter o Data Lake.
- Definição clara do objetivo do projeto;
- Cooperação das partes interessadas;
- Disponibilidade de recursos de TI;
- Suporte do Gabinete da SETIC que fornecerá o suporte necessário para o projeto, incluindo a alocação de recursos e a tomada de decisões estratégicas.
- Aderência às políticas e regulamento interno;
- Disponibilidade de dados.
- Regras de negócios;
- Cronograma;
- Infraestrutura de TI;
- Interoperabilidade;
- LGPD.
- SETIC - Superintendência Estadual de Tecnologia da Informação e Comunicação
- CAGD - Coordenadoria de Análise e Gestão de Dados
- GPROJ - Gerência de Projetos
- Órgãos da Administração Pública
- Gerente de Projeto: Charles Xavier
- Liderança Técnica: João T. S. Telles
- Desenvolvedores: Time Auto
- Coordenador CAGD
- Coordenador COGE
- Gabinete SETIC
A ser definido na documentação do projeto.