CASES

A iCarros é uma empresa do Grupo Itaú Unibanco, com atuação no setor da tecnologia especializado no segmento automotivo. Oferece uma plataforma digital abrangente para compra e venda de automóveis por meio da internet.

Através de uma plataforma intuitiva, a empresa oferece uma experiência completa para consumidores e revendedores, conectando compradores e vendedores por meio de serviços de anúncios de carros.

A plataforma também apresenta outros tipos de serviços como seguros automotivos, financiamentos, notícias automobilísticas e avaliações de automóveis.

O Desafio

A parceria entre iCarros e Darede não é novidade. O desafio atual é reduzir os custos com os processamentos de ETL da equipe de engenharia de dados da iCarros e modernizar a estrutura do DataLake de acordo com as boas práticas de mercado e estado da arte em termos de tecnologias, frameworks e arquiteturas mais atuais.

Contexto

Antes de abordar a solução, é fundamental contextualizar o cenário atual da Engenharia de Dados. Há aproximadamente uma década, o mundo testemunhava o lançamento da primeira versão estável do Spark:

O Spark surgiu com o propósito de substituir e aprimorar o desenvolvimento de pipelines e jobs em comparação com tecnologias como o Hadoop, por exemplo. Além disso, naquela época, a AWS ainda não havia introduzido serviços essenciais, como Lambda, ECS, EKS, ECR, Glue, entre outros, que se tornaram fundamentais no contexto da Engenharia de Dados.

Outro ponto relevante a destacar é que raramente há um caso de uso que exige a manipulação de terabytes ou petabytes de dados. Mesmo que um Data Lake ou Data Warehouse contenha terabytes de dados, o dia a dia geralmente envolve o consumo de uma fração desses dados [Fonte: https://motherduck.com/blog/big-data-is-dead/], que frequentemente é inferior a 100 GB. Isso, combinado com o fato de que em muitas tecnologias na nuvem, o poder de processamento (compute) e armazenamento (storage) crescem de forma independente, representa uma verdadeira revolução no campo da Engenharia de Dados.

Portanto, existe um cenário ideal para mudanças, no qual é plenamente plausível alterar o paradigma das arquiteturas de Pipeline de Dados.

A Solução

A abordagem inicial foi a utilização da plataforma Darede Insights, desenvolvida pela Darede, para identificar os principais custos no ambiente e gerar insights relacionados a melhorias. Essas melhorias englobaram tanto a otimização de custos quanto a implementação de melhores práticas e modernização do ambiente de dados. O relatório gerado revelou que havia quatro tipos de pipelines executados no AWS Glue que eram responsáveis por mais de 60% dos custos do Data Lake e que poderiam ser modernizados:

  • Consumo de APIs
  • Consumo de tabelas de banco de dados
  • Transformação de dados
  • Carregamento de dados

O trabalho inicial foi refatorar os códigos utilizados para a extração de dados por meio de APIs, bem como dos códigos usados para o carregamento e transformação dos dados. A refatoração focou nas melhores práticas de engenharia de software. Para ajudar no DevExp, duas ferramentas desenvolvidas pela AWS foram utilizadas: AWS Powertools for lambda (Python) e AWS SDK for pandas.

A equipe tomou a precaução de testar diferentes tecnologias em vez de usar o Spark em todos os cenários. Foi descoberto que em alguns jobs era mais vantajoso manter o uso do Pandas, enquanto em outros, o DuckDB se mostrou mais eficiente. Em todos esses cenários, observou-se reduções significativas (>90%) nos tempos de execução e nos custos, como será detalhado na seção de resultados.

Além disso, em termos de infraestrutura, testes foram realizados gradualmente e alguns scripts passaram a ser executados em Lambdas, enquanto outros foram migrados para o ECS com Fargate Spot. Essa abordagem ajudou ainda mais a reduzir os custos operacionais. Em resumo, o sucesso da refatoração das pipelines se deveu tanto à troca de tecnologia quanto à adaptação da infraestrutura de execução. 

A orquestração das pipelines foi realizada por meio do MWAA (Managed Workflows for Apache Airflow), o que proporcionou maior clareza nas dependências e nos fluxos de execução dos jobs. Além disso, facilitou a reexecução em caso de falhas, sem a necessidade de alterar o script original. Essa entrega incluiu também um sistema de monitoramento por e-mail para tarefas e DAGs que pudessem apresentar problemas.

Por fim, foi implementada uma esteira de CI/CD para capacitar os engenheiros de dados da iCarros possam realizar alterações em diferentes ambientes de forma mais resiliente e segura.

Resultados

Houve ganhos expressivos na diminuição de tempo de execução, bem como na redução de custos. Para este momento do projeto, onde apenas uma parte do workload foi migrada, o custo saiu de $4k mensais para $44 dólares, ou seja, uma redução de mais de 99%.

Ainda vale destacar as seguintes melhorias:

  1. Maior visibilidade dos workflows e dependências
  2. Códigos que não precisam ser alterados em caso de reprocessamento 
  3. Maior segurança e confiabilidade
  4. Criação do DataOps com implementação do CI/CD

Futuro

E o trabalho está longe de ser concluído. A parceria e a jornada de dados continuarão com novas iniciativas de melhoria, sendo as principais:

  1. Migração de outros workloads para a nova arquitetura: Transferir outros processos e cargas de trabalho para a arquitetura modernizada.
  2. Estabelecimento de uma camada de segurança e governança com o AWS Lake Formation e DataHub: Fortalecer a segurança dos dados e implementar governança por meio do uso do AWS Lake Formation e a criação de um portal de dados.
  3. Implementação de uma camada de Data Quality (Qualidade de Dados): Desenvolver uma camada dedicada à garantia da qualidade dos dados, assegurando que os dados utilizados sejam precisos e confiáveis.
  4. Inclusão de etapas de testes no processo de CI/CD: Adicionar procedimentos de testes ao fluxo de Integração Contínua e Entrega Contínua (CI/CD) para verificar a estabilidade e a funcionalidade antes da implantação em produção.

Essas iniciativas representam um compromisso contínuo com a excelência e o aprimoramento constante do ambiente de Engenharia de Dados da iCarros.


CONHEÇA OUTROS CASES

Veja a atuação da Darede ma construtora Tenda!

A Uncenografia buscou a Darede com o desafio de migrar suas cargas de trabalho para um ambiente em cloud. Veja como foi a atuação da Darede!

Confira a atuação da Darede na Zabit, e como foi possível aumentar o desempenho e a escalabilidade do ambiente da empresa.

A Darede atuou na Escola Infantil Pingo de Gente para hospedar o site institucional da escola na nuvem AWS. Confira como foi esse trabalho!

Confira a atuação da Darede na 4Asset, um ISV, ao ajudar a empresa a comercializar seus aplicativos no AWS marketplace.

Grupo Bild e Vitta desenvolve aplicativo em nuvem AWS para dar mais eficiência ao trabalho dos corretores imobiliários

Da área financeira de atuação comum, o Grupo GCB passou a buscar escalabilidade e inovação, através do uso intensivo de tecnologia e fortalecendo a parceria da AWS. Hoje, conta com um motor de originação e distribuição de crédito 100% digital que opera 24 horas por dia, 7 dias por semana.

Acompanhe a ação da Darede na FutebolCard em sua jornada para a AWS!

Desde a sua fundação, em 1984, o Grupo Master tem assumido uma posição de pioneirismo no lançamento de produtos e antecipação de tendências, mantendo-se na vanguarda do

Confira a atuação da Darede na Comerc Energia na jornada de transformação de dados. Veja os benefícios adquiridos pela empresa no projeto.

Entenda de forma prática e simplificada, como a Darede atuou na jornada da iCarros para cloud

Sobre a Tenda A Tenda é uma construtora com mais de 50 anos, focada na construção civil para famílias de baixa renda. Está listada na

Nós usamos cookies para garantir e oferecer a melhor experiência de navegação em nosso site! Mais informações