Governança de Dados em Streaming: Schema Registry e Lineage

Em arquiteturas batch tradicionais, a governança acontece "post-mortem": validamos os dados depois que eles pousam no Lake. Em Streaming, isso é tarde demais. Dados ruins em tempo real causam decisões ruins em tempo real. A governança precisa se mover para a esquerda (Shift Left).

Schema Registry como Guardião

O componente mais crítico da governança em Kafka é o Schema Registry. Ele atua como um contrato rigoroso entre produtores e consumidores. Ao impor schemas (Avro, Protobuf ou JSON Schema), garantimos que nenhuma mensagem "quebrada" entre no pipeline.

Na Intelium, configuramos o Schema Registry com compatibilidade FULL_TRANSITIVE por padrão. Isso obriga que qualquer evolução de schema (adicionar campos, remover campos opcionais) seja compatível tanto com dados antigos quanto novos, evitando que consumidores quebrem em produção.

Data Lineage (Linhagem de Dados)

Saber de onde o dado veio e para onde ele vai é essencial para conformidade (LGPD/GDPR). Ferramentas como Confluent Stream Lineage ou OpenLineage permitem visualizar o fluxo de dados em tempo real.

Isso responde perguntas críticas: "Se eu alterar este tópico de 'Pedidos', quais dashboards e modelos de IA serão impactados?" Sem linhagem automatizada, essa análise de impacto é um jogo de adivinhação perigoso.

Qualidade de Dados como Código

Implementamos "Data Contracts" usando Great Expectations ou Soda integrados aos pipelines de CI/CD dos produtores. Antes de um novo microserviço ser deployado, ele deve passar nos testes de contrato de dados. Se ele promete enviar um campo 'cpf' não nulo, o teste deve garantir isso antes do deploy.

Dica Prática

Comece simples: imponha a presença de 'owner' e 'description' nos metadados de todos os tópicos Kafka. Se um tópico não tem dono claro, ele é lixo técnico potencial.

Conclusão

Governança em streaming não é sobre burocracia, é sobre confiança. Quando os consumidores confiam que o stream de dados é estável, documentado e validado, a inovação acelera. Sem isso, você não tem um Data Lake, tem um Data Swamp em tempo real.

Governança de Dados em Streaming: O Caos Controlado

Schema Registry como Guardião

Data Lineage (Linhagem de Dados)

Qualidade de Dados como Código

Dica Prática

Conclusão