Procurar no blog

13 de julho de 2012

Talend Open Studio - Ferramenta ETL


Open Source Extract-Transform-Load Overview (ETL) 


O ETL (Extract-Transform-Load) é um dos processos mais críticos de BI e de aplicativos de data warehouse.

O que é ETL?
O processo ETL consiste de três sub-processos (Extract, Transform e Load) que são usados ​​para transferir dados de sistemas de produção para o armazenamento no local onde eles serão “consumidos” por aplicações de BI.

Os três processos são:
  1. Extract – Extração dos dados das bases de dados das aplicações de produção.
  2. Transform - Transformar os dados para reconciliá-los através de sistemas de origem, incluindo a limpeza necessária de dados. Esses dados também são transformados para atender às exigências dos sistemas de destino (esquema em estrela, dimensões de mudança lenta, etc.
  3. Load - O carregamento dos dados transformados para o Data Warehouse, Data Marts e outras aplicações de BI.
A maioria das aplicações proprietárias de integração de dados e ETL foram projetados para uso em grandes projetos, como data warehouse ou gerenciamento "mestre" de dados. Estas aplicações tinham ou têm licenças caras e necessidades de equipes de especialistas para implementar os trabalhos de consultoria.

Recentemente, tem havido uma ascensão de software Open Source ETL. Os dois líderes neste campo são QlikView, Pentaho Data Integration e Talend Open Studio.


Talend Open Studio está disponível para Windows, Linux e Mac. É uma ferramenta gráfica que funciona integrada com a plataforma Eclipse.

Talend Open Source Integration Suite contém as principais características que se espera das ferramentas proprietárias, praticamente sem custos de suporte e sem custos de licenciamento iniciais.

Os principais recursos do Talend Open Source Integration Suite incluem:

Modell Bussines - oferece uma abordagem top-down com GUI para o desenho dos processos de integração de ETL a partir de uma perspectiva do negócio.

Designer Job - Um designer gráfico e funcional dos processos reais de ETL usando uma paleta gráfica de componentes e conectores.
Metadata Manager - fornece um repositório de metadados que centraliza todos os aspectos da concepção e execução.
Data Cleaning Profiling capabilities (oferecido como parte do perfil de dados Talend e Limpeza).
Job Conductor - coordenadas e horários da execução de todos os trabalhos, inclusive com base em eventos de programação para integração em tempo real.
Grid Conductor - distribui o trabalho em toda uma rede de servidores de execução e realiza balanceamento de carga automático e failover.
Execution Monitoring performed - Monitoramento da execução realizada por meio de:

  1. Activity Monitor atividades que monitora eventos de trabalho de execução (sucessos, fracassos, etc), tempos de execução e volumes de dados. 
  2. Activity Monitoring Dashboard - Painel de Monitoramento das atividades que oferece uma visão de negócios orientada para o Console Activity Monitoring através de uma interface web e em tempo real usando medidores e indicadores de status. Os gerentes de negócios serão capaz de ver o status atual e histórico de dados associados com qualquer trabalho.
Características gerais de Talend Open Studio


"O programa possui uma ferramenta para modelagem que auxilia os profissionais do mundo dos negócios a relacionarem as atividades de design com todas as etapas de um processo específico. A opção que realiza isto é a “Business Modeler”, e por meio de uma caixa de ferramentas muito intuitiva, o usuário pode organizar todos os processos, garantindo que estas informações sejam recuperadas no futuro.

Talend Open Studio oferece o “Component Library”, que é uma biblioteca com mais de 80 componentes e conectores para você desenvolver seus mapas e funções de integração. Se quiser, pode estender as opções de componentes criando padrões nas linguagens de Perl, Java ou SQL.

Solução para integração de dados

Todos os metadados trabalhados com o Talend Open Studio ficam armazenados em um repositório de metadados (Metadata Repository). Assim, todas as informações de projetos ficam salvas por módulos e podem rapidamente ter seus processo integrados.

O programa ainda conta com um depurador poderoso e outras soluções para que você possa integrar todos os dados de seus projetos com rapidez e segurança. A arquitetura e interface em geral permitem que o manuseio com o programa seja feito de maneira simples e em muitos casos intuitiva."

29 de junho de 2012

QlikView Personal Edition - BI


QlikView é uma solução de acesso a dados que permite analisar e usar informações de diferentes fontes de dados.
Com o QlikView, é fácil obter uma visão geral da situação e identificar as conexões, mesmo ao trabalhar com grandes e complexos conjuntos de dados.
É possível integrar informações de fontes diferentes e as informações podem ser rapidamente disponibilizadas pela rede.
As informações corretas chegam à pessoa correta.
A tecnologia associativa permite criar uma interface única para apresentação interativa e análise de qualquer tipo de informação.
A forma como o QlikView gerencia as informações é parecida com o funcionamento do cérebro humano.
Assim como o cérebro humano, ele faz gradualmente conexões associativas com as informações que estão sendo processadas.
Você - não a base de dados - decide quais perguntas devem ser feitas. Basta clicar no item sobre o qual deseja obter mais informações.
Os sistemas convencionais de pesquisa de informações normalmente requerem uma abordagem top-down, enquanto o QlikView permite iniciar com quaisquer dados, independentemente de sua localização na estrutura de dados.
A recuperação de dados ems istemas convencionais geralmente é uma tarefa complexa que requer conhecimento abrangente da estrutura das bases de dados e da sintaxe da linguagem de consulta.
Normalmente, o usuário está limitado a rotinas de pesquisa predefinidas.
O QlikView revoluciona esse quadro, possibilitando selecionar livremente a partir dos dados mostrados na tela com um clique do mouse.


Como QlikView, é possível:

- criar uma interface flexível com o usuário final para um armazém de informações,
- obter instantâneos das relações de dados,
- criar apresentações com base nos dados,
- criar tabelas e gráficos dinâmicos,
- executar uma análise estatística,
- vincular descrições e multimídia aos dados,
- construir seus próprios sistemas especializados,
- criar novas tabelas, mesclando informações de diversas fontes e
- construir seu próprio sistema de inteligência de negócios.


Alguns exemplos de aplicações do QlikView utilizadas atualmente são sistemas financeiros, administração de recursos humanos, análise de mercado, suporte ao cliente, administração de projetos, controle de produção, inventários de estoque e compras.
Você pode até mesclar os diferentes aplicativos para obter visões gerais informativas totalmente novas.

Observe a licença de uso dessa versão (QlikView Personal Edition) que tem algumas restrinções quanto a distribuição ou uso dos arquivos gerados por ela.

28 de junho de 2012

Nexus Tablet 7" Google

Não costumo postar sobre equipamentos, mas essa novidade muito me agradou. 

.
O Nexus 7 é fabricado pela Asus, tem processador Tegra 3 quad core, com um processador gráfico e 1 GB de RAM, uma falha é que não tem conectividade 3G nem 4G, apenas uma ligação Wi-Fi e Bluetooth. Tem tela de 7 polegadas é muito mais fino e leve que os tablests desse tamanho da concorrência, pesa apenas 340 gramas, e tem autonomia de 9 horas sem recarregar a bateria.
.
O que mais me agradou foi o preço, atá parece preço de xing ling, o que pode ser um dos seus grandes atrativos, começando em cerca de 200 dólares, contanto que o iPad na versão mais básica pode ser comprado por cerca de 400 dólares.

A versão de 8 GB custa 199 dólares, mas tem previsão de versão com 16 GB que custará cerca de 249 dólares.

O preço aqui no Brasil ? 

Não sei ainda, mas como aqui tudo é imposto deve ser uma pancada para alimentar a gangue.

6 de junho de 2012

WinDirStat


WinDirStat é um utilitário que fornece estatísticas e visualização do espaço utilizado no disco.

Ao iniciar, ele lê a árvore inteira de diretórios e apresenta em três pontos de vista úteis:


A lista de diretórios, que é semelhante a exibição de árvore do Windows Explorer, mas é classificado pelo tamanho das unidades.
O TreeMap, que mostra todo o conteúdo da árvore de diretórios do disco selecionado.
A lista de extensão, que serve como uma amostra estatística dos tipos de arquivo.


O treemap representa cada arquivo como um rectângulo colorido, a área desse retângulo é proporcional ao tamanho do arquivo. Os retângulos são dispostos de tal forma, que os todos os diretórios tornam-se retângulos, que contêm todos os seus arquivos e subpastas. Assim, a sua área é proporcional ao tamanho das subárvores. A cor de um rectângulo indica o tipo de processo, tal como mostrado na lista de extensão. O sombreamento almofada traz, adicionalmente, a estrutura de diretório. 


Mais uma ferramenta bacana que pode ser utilizada em muitas situações.