Open Source Extract-Transform-Load Overview (ETL)
O ETL (Extract-Transform-Load) é um dos processos mais críticos de BI e de aplicativos de data warehouse.
O que é ETL?
O processo ETL consiste de três sub-processos (Extract, Transform e Load) que são usados para transferir dados de sistemas de produção para o armazenamento no local onde eles serão “consumidos” por aplicações de BI.
Os três processos são:
- Extract – Extração dos dados das bases de dados das aplicações de produção.
- Transform - Transformar os dados para reconciliá-los através de sistemas de origem, incluindo a limpeza necessária de dados. Esses dados também são transformados para atender às exigências dos sistemas de destino (esquema em estrela, dimensões de mudança lenta, etc.
- Load - O carregamento dos dados transformados para o Data Warehouse, Data Marts e outras aplicações de BI.
Recentemente, tem havido uma ascensão de software Open Source ETL. Os dois líderes neste campo são QlikView, Pentaho Data Integration e Talend Open Studio.
Talend Open Studio está disponível para Windows, Linux e Mac. É uma ferramenta gráfica que funciona integrada com a plataforma Eclipse.
Talend Open Source Integration Suite contém as principais características que se espera das ferramentas proprietárias, praticamente sem custos de suporte e sem custos de licenciamento iniciais.
Os principais recursos do Talend Open Source Integration Suite incluem:
Modell Bussines - oferece uma abordagem top-down com GUI para o desenho dos processos de integração de ETL a partir de uma perspectiva do negócio.
Designer Job - Um designer gráfico e funcional dos processos reais de ETL usando uma paleta gráfica de componentes e conectores.
Metadata Manager - fornece um repositório de metadados que centraliza todos os aspectos da concepção e execução.
Data Cleaning Profiling capabilities (oferecido como parte do perfil de dados Talend e Limpeza).
Job Conductor - coordenadas e horários da execução de todos os trabalhos, inclusive com base em eventos de programação para integração em tempo real.
Grid Conductor - distribui o trabalho em toda uma rede de servidores de execução e realiza balanceamento de carga automático e failover.
Execution Monitoring performed - Monitoramento da execução realizada por meio de:
- Activity Monitor atividades que monitora eventos de trabalho de execução (sucessos, fracassos, etc), tempos de execução e volumes de dados.
- Activity Monitoring Dashboard - Painel de Monitoramento das atividades que oferece uma visão de negócios orientada para o Console Activity Monitoring através de uma interface web e em tempo real usando medidores e indicadores de status. Os gerentes de negócios serão capaz de ver o status atual e histórico de dados associados com qualquer trabalho.
Características gerais de Talend Open Studio
"O programa possui uma ferramenta para modelagem que auxilia os profissionais do mundo dos negócios a relacionarem as atividades de design com todas as etapas de um processo específico. A opção que realiza isto é a “Business Modeler”, e por meio de uma caixa de ferramentas muito intuitiva, o usuário pode organizar todos os processos, garantindo que estas informações sejam recuperadas no futuro.
Talend Open Studio oferece o “Component Library”, que é uma biblioteca com mais de 80 componentes e conectores para você desenvolver seus mapas e funções de integração. Se quiser, pode estender as opções de componentes criando padrões nas linguagens de Perl, Java ou SQL.
Solução para integração de dados
Todos os metadados trabalhados com o Talend Open Studio ficam armazenados em um repositório de metadados (Metadata Repository). Assim, todas as informações de projetos ficam salvas por módulos e podem rapidamente ter seus processo integrados.
O programa ainda conta com um depurador poderoso e outras soluções para que você possa integrar todos os dados de seus projetos com rapidez e segurança. A arquitetura e interface em geral permitem que o manuseio com o programa seja feito de maneira simples e em muitos casos intuitiva."
Nenhum comentário:
Postar um comentário