road traffic beach sand
SQL Big Data Clusters

#01-[Série] SQL Server Big Data Clusters – Start Here

#BigDataClusters #StartHere #Study

Fallaa Turma,

Nos últimos dias a Microsoft anunciou o preview do SQL Server 2019, com muitas atualizações na engine em performance, segurança, alta disponibilidade entre outros. Algumas novidades também foram apresentadas e pelo menos para mim, que já venho estudando desde março (via Early Adoption Program) o BIG DATA CLUSTERS está animal, na primeira versão já demonstra uma robustez incrível e com certeza ainda teremos muitas atualizações nessa engine.

O Big Data Clusters (ou BDC, para os mais íntimos) nasceu para facilitar o gerenciamento de um ambiente de Big Data, fornecendo elementos de um Data Lake como ferramentas de sistemas de armazenamento distribuído (HDFS) e processamento em Apache Spark integrado totalmente com a engine do SQL Server, tudo isso sob uma infraestrutura escalável em execução no Docker com Kubernetes. Além da virtualização dos dados, na mesma engine conseguimos treinar e operacionalizar modelos de Machine Learning (ML), isso no ponto de vista de Pipeline é muito bom, pois, toda a preparação de dados envolve muitas fontes e tipos de dados diferentes com tempestividades distintas, o BDC tem o objetivo de resolver isso, facilitando a vida do Ciêntistas de Dados e fornecendo ferramentas para o Engenheiro de dados pavimentar todo esse caminho, com muita robustez escalabilidade em processamento e armazenamento.

O BDC através da engine Polybase permite a virtualização dos dados (Data virtualization and Data Federation) habilitando consultas em fontes de dados externas, como MongoDB, Oracle, Teradata, CosmosDB, Hadoop (HDFS), Azure Blob Storage entre outros, podendo atráves da virtualização de dados executar consultas entre o mundo SQL (Transacional) e NOSQL, já pensou fazer um INNER JOIN entre uma tabela SQL com um(ou milhares) arquivos no HDFS ?

Para aguçar a curiosidade de vocês, da uma olhada na Arquitetura do BDC… Mas fique tranquilo, nos próximos posts vamos descer o nível nessas camadas, entendendo os conceitos e também na prática.

Arquitetura marcro BDC

Observe que a arquitetura é dividida basicamente em três camadas (Control Plane, Compute Plane, Data Plane) tudo sendo orquestrado pelo cluster Kubernetes. Cada camada tem seu objetivo (respectivamente pelo nome) e detém os serviços responsáveis para isso. Por exemplo, a camada Compute Plane é responsável pelo processamento dos dados, ou seja, quando vamos acessar o HDFS para consultar determinados dados consumimos essa camada, atráves da engine do Polybase. E sabe o que é bacana?, essa camada assim como as outras estão orientadas em pods, ou seja, podemos escalar caso seja necessário… isso é incrível.

A imagem abaixo, representa a arquitetura com demais componentes já incluíndo fontes externas, gateway de acessos, controller, etc.

Achou complicado? Calma… vou criar uma série de posts dividindo em “episódios” detalhando cada um desses conceitos, seguindo uma linha lógica como:

Além desses “episódios” vou publicar vários sobre Ingestão, consumo, processamento com Spark, manipulação de dados no HDFS etc… Assine o blog para receber uma notificação quando algum post for publicado.

Tudo isso com muito Hands-on, muito SQL, muito Azure e muito conceito novo. Para quem veio do mundo de DBA (assim como eu), entender o BDC é sair da caixinha, olhar para o SQL Server como uma Plataforma de Dados escalável e não somente como uma engine (muito foda por sinal) de banco de dados realcional (RDBMS). Além desses tópicos que listei acima, tem diversos assuntos que também vamos tocar, como Data Lake, Azure Kubernetes Services (AKS), Data Virtualization, Data Federation, Pipelines, entre outros… esses eu também vou tentar criar posts ou passar referências de documentação para servir como apoio nos estudos. A ídeia é gerar o máximo de conteúdo sobre BDC e também dos itens relacionados, para ajudar na compreenção do todo.

Espero que essa sequência de posts ajude você a compreender o BDC e também o mundo Big Data em si, afinal, tecnologia é o meio e não o fim.

See you…
Luiz Henrique Garetti
www.dataisbig.com.br

11 comentários em “#01-[Série] SQL Server Big Data Clusters – Start Here

  1. Pingback: SQL Saturday SP + SQL Maniacs – DATA IS BIG | GARETTI

  2. Pingback: Hello World SQL Server 2019 – DATA IS BIG | GARETTI

  3. Alfredo

    Cara, como faço pra estudar isso de forma autodidata, desde a origem?
    achei interessante, e conhecimento nunca é demais!

  4. Pingback: SQL Saturday RJ e Meetup Tivit – DATA IS BIG | GARETTI

  5. Pingback: #02 – [Série] Big Data Clusters (SQL 2019) – Arquitetura – DATA IS BIG | GARETTI

  6. Pingback: #03-[Série] SQL Server Big Data Clusters – Instalação – DATA IS BIG | GARETTI

  7. Pingback: Eventos de Big Data pelo Mundo – DATA IS BIG | GARETTI

  8. Pingback: #02-[Série] SQL Server Big Data Clusters – Arquitetura – DATA IS BIG | GARETTI

  9. Gilmar Oliveira de Assis

    Olá Alfredo, tudo bem?
    Você sabe como fica o licenciamento?
    Supondo que tenho várias instâncias de SQL Server para minhas aplicações relacionais. Será que ao adquirir um licenciamento SA e licenciando estas minhas instâncias par o SQL Server 2019 Enterprise, com o Software Assurance(SA) o licenciamento do Big data cluster também seria coberto?

Comente sobre isso:

%d blogueiros gostam disto: