Procurar no blog

13 de julho de 2012

Talend Open Studio - Ferramenta ETL


Open Source Extract-Transform-Load Overview (ETL) 


O ETL (Extract-Transform-Load) é um dos processos mais críticos de BI e de aplicativos de data warehouse.

O que é ETL?
O processo ETL consiste de três sub-processos (Extract, Transform e Load) que são usados ​​para transferir dados de sistemas de produção para o armazenamento no local onde eles serão “consumidos” por aplicações de BI.

Os três processos são:
  1. Extract – Extração dos dados das bases de dados das aplicações de produção.
  2. Transform - Transformar os dados para reconciliá-los através de sistemas de origem, incluindo a limpeza necessária de dados. Esses dados também são transformados para atender às exigências dos sistemas de destino (esquema em estrela, dimensões de mudança lenta, etc.
  3. Load - O carregamento dos dados transformados para o Data Warehouse, Data Marts e outras aplicações de BI.
A maioria das aplicações proprietárias de integração de dados e ETL foram projetados para uso em grandes projetos, como data warehouse ou gerenciamento "mestre" de dados. Estas aplicações tinham ou têm licenças caras e necessidades de equipes de especialistas para implementar os trabalhos de consultoria.

Recentemente, tem havido uma ascensão de software Open Source ETL. Os dois líderes neste campo são QlikView, Pentaho Data Integration e Talend Open Studio.


Talend Open Studio está disponível para Windows, Linux e Mac. É uma ferramenta gráfica que funciona integrada com a plataforma Eclipse.

Talend Open Source Integration Suite contém as principais características que se espera das ferramentas proprietárias, praticamente sem custos de suporte e sem custos de licenciamento iniciais.

Os principais recursos do Talend Open Source Integration Suite incluem:

Modell Bussines - oferece uma abordagem top-down com GUI para o desenho dos processos de integração de ETL a partir de uma perspectiva do negócio.

Designer Job - Um designer gráfico e funcional dos processos reais de ETL usando uma paleta gráfica de componentes e conectores.
Metadata Manager - fornece um repositório de metadados que centraliza todos os aspectos da concepção e execução.
Data Cleaning Profiling capabilities (oferecido como parte do perfil de dados Talend e Limpeza).
Job Conductor - coordenadas e horários da execução de todos os trabalhos, inclusive com base em eventos de programação para integração em tempo real.
Grid Conductor - distribui o trabalho em toda uma rede de servidores de execução e realiza balanceamento de carga automático e failover.
Execution Monitoring performed - Monitoramento da execução realizada por meio de:

  1. Activity Monitor atividades que monitora eventos de trabalho de execução (sucessos, fracassos, etc), tempos de execução e volumes de dados. 
  2. Activity Monitoring Dashboard - Painel de Monitoramento das atividades que oferece uma visão de negócios orientada para o Console Activity Monitoring através de uma interface web e em tempo real usando medidores e indicadores de status. Os gerentes de negócios serão capaz de ver o status atual e histórico de dados associados com qualquer trabalho.
Características gerais de Talend Open Studio


"O programa possui uma ferramenta para modelagem que auxilia os profissionais do mundo dos negócios a relacionarem as atividades de design com todas as etapas de um processo específico. A opção que realiza isto é a “Business Modeler”, e por meio de uma caixa de ferramentas muito intuitiva, o usuário pode organizar todos os processos, garantindo que estas informações sejam recuperadas no futuro.

Talend Open Studio oferece o “Component Library”, que é uma biblioteca com mais de 80 componentes e conectores para você desenvolver seus mapas e funções de integração. Se quiser, pode estender as opções de componentes criando padrões nas linguagens de Perl, Java ou SQL.

Solução para integração de dados

Todos os metadados trabalhados com o Talend Open Studio ficam armazenados em um repositório de metadados (Metadata Repository). Assim, todas as informações de projetos ficam salvas por módulos e podem rapidamente ter seus processo integrados.

O programa ainda conta com um depurador poderoso e outras soluções para que você possa integrar todos os dados de seus projetos com rapidez e segurança. A arquitetura e interface em geral permitem que o manuseio com o programa seja feito de maneira simples e em muitos casos intuitiva."