A centralização de dados em Data Lakes monolíticos provou ser um gargalo para organizações que buscam agilidade. O paradigma de Data Mesh propõe uma mudança fundamental: tratar dados como produtos e descentralizar a propriedade. Neste artigo, exploramos como combinar Apache Kafka e Trino para criar uma malha de dados resiliente e federada.
O Problema do Monólito de Dados
Durante a última década, a estratégia padrão foi ingerir tudo em um único Data Lake (Hadoop ou S3). Embora barato para armazenar, tornou-se caro para gerenciar. Equipes centrais de engenharia de dados tornaram-se o gargalo, desconectadas do contexto de negócio dos domínios produtores.
A Abordagem Data Mesh
Data Mesh não é uma tecnologia, é uma mudança sociotécnica baseada em quatro princípios:
- Propriedade orientada ao domínio: Quem gera o dado é responsável por ele.
- Dados como Produto: O dado deve ser descobrível, endereçável e confiável.
- Infraestrutura de autoatendimento: Plataforma que abstrai a complexidade técnica.
- Governança federada: Padrões globais, execução local.
Kafka como Sistema Nervoso Central
Para que o Data Mesh funcione em tempo real, o Apache Kafka atua como a camada de transporte e persistência de eventos. Cada domínio publica seus "Data Products" em tópicos bem definidos, com schemas governados (Avro/Protobuf). Isso garante que qualquer consumidor possa se inscrever e reagir aos dados instantaneamente.
Trino: A Camada de Consulta Federada
Enquanto o Kafka move os dados, o Trino (antigo PrestoSQL) permite consultá-los onde quer que estejam. Com o Trino, podemos fazer joins SQL entre um tópico Kafka (tempo real) e uma tabela no Snowflake ou S3 (histórico), sem precisar mover os dados fisicamente. Isso materializa a visão de virtualização de dados do Data Mesh.
Arquitetura de Referência
Na Intelium, implementamos conectores Trino para Kafka que permitem queries analíticas ad-hoc diretamente nos streams, reduzindo a necessidade de pipelines ETL complexos para casos de uso exploratórios.
Conclusão
A combinação de Kafka para transporte confiável de eventos e Trino para federação de consultas oferece o melhor dos dois mundos: a velocidade do streaming e a flexibilidade do SQL. Para empresas que buscam escalar sua maturidade analítica, esta arquitetura remove o gargalo central e empodera os times de domínio.

