WarehousePG: Greenplum de código aberto

Raphael Max Brettas Vieira

EnterpriseDB

A EDB anunciou recentemente o novo do Greenplum Database, WarehousePG. Falaremos sobre as funcionalidades do WarehousePG.

Esta palestra oferece um detalhamento técnico na história do Greenplum e de seu novo fork licenciado pelo Apache, o WarehousePG, que forma a base da solução de modernização de data warehouse da EDB. Exploraremos a arquitetura técnica do Greenplum e do WarehousePG, incluindo conceitos como massively parallel processing (MPP) e compatibilidade com o Postgres. Além disso, ilustraremos por que a ferramenta é o caminho de código aberto que as organizações com investimentos em risco no Greenplum têm procurado.

A arquitetura WarehousePG utiliza a filosofia "Shared Nothing", onde cada segment node funciona independentemente, sem compartilhar memória ou recursos com os outros. Isso permite que o WarehousePG escale horizontalmente, adicionando mais nós para aumentar a capacidade de processamento e armazenamento.

Falaremos sobre os comandos gpstart, gpinitsystem, gprecoversegment e muitos outros.

O WarehousePG é uma estrutura típica de master-segmentos. Um cluster WarehousePG geralmente é composto por um master node, um standby master node e vários segment nodes, e os nós são interconectados por meio de uma rede de alta velocidade. O master node é a entrada de todo o banco de dados. Os usuários finais se conectam ao master para realizar consultas. O standby master fornecerá suporte de alta disponibilidade para o master. O segmento node é um nó de trabalho, e os dados existem no segmento. O segmento espelho fornecerá suporte de alta disponibilidade para o segmento.

No WarehousePG, a distribuição de dados é feita através de um conceito chamado "distribuição de tabelas", que define como os dados de uma tabela são armazenados nos diferentes segmentos do cluster. Existem dois tipos principais de distribuição: "Key" (chave) e "All". A distribuição "Key" divide a tabela em partes, com cada parte sendo armazenada em um segmento diferente, baseando-se em um valor de chave específico. A distribuição "All" replica toda a tabela em cada segmento, o que é útil para tabelas pequenas ou com consultas que precisam acessar dados de várias colunas.

O WarehousePG oferece suporte a tabelas heap e append optimized, tabelas colunares e diferentes tipos de compressão. Abordaremos todas essas funcionalidades.

Também falaremos sobre o GPorca, o otimizador de queries do WarehousePG e sobre o pgbackup, mostrando como funcionam.

Em resumo:
- Falaremos sobre a história do Greenplum e os desafios após ter seu código fechado.
- Arquitetura e features chave.
- Alta disponibilidade.
- Utilidades.
- Master e standby servers.
- Segment servers.
- Mirror segments.
- Como os dados são distribuídos.
- Tabelas heap e append optimized.
- Tabelas colunares.
- Compressão.
- GPorca.
- Backup.
- Compatibilidade com Postgres.
- Como será a transição do Greenplum para WarehousePG.