BIG DATA EL NUEVO MUNDO DE LA INFORMACIÓN Parallel Data Warehouse

21
BIG DATA EL NUEVO MUNDO DE LA INFORMACIÓN Parallel Data Warehouse

Transcript of BIG DATA EL NUEVO MUNDO DE LA INFORMACIÓN Parallel Data Warehouse

BIG DATA EL NUEVO MUNDO DE LA INFORMACIÓN

Parallel Data Warehouse

2

3

NUEVAS PREGUNTAS DEL NEGOCIO

¿QuQuQuQué debo hacer para debo hacer para debo hacer para debo hacer para optimizar mi flota segoptimizar mi flota segoptimizar mi flota segoptimizar mi flota según n n n los patrones del clima y el los patrones del clima y el los patrones del clima y el los patrones del clima y el trtrtrtráfico? fico? fico? fico?

¿De quDe quDe quDe qué manera manera manera manera puedo prever mejor los puedo prever mejor los puedo prever mejor los puedo prever mejor los resultados futuros?resultados futuros?resultados futuros?resultados futuros?

¿CuCuCuCuál es la opinil es la opinil es la opinil es la opinión social n social n social n social sobre mi marca o mis sobre mi marca o mis sobre mi marca o mis sobre mi marca o mis productos?productos?productos?productos?

Plataforma Microsoft End-To-EndM

AR

KETP

LAC

E

Exte

rnal D

ata

an

d S

ervice

s

NON-RELATIONAL

10011

1

DATA MANAGEMENT

RELATIONAL MULTIDIMENSIONAL STREAMING

SHAREAND GOVERN

DISCOVERAND RECOMMEND

TRANSFORMAND CLEAN

DATA ENRICHMENT

INSIGHTS

OPERATIONAL

SELF-SERVICE MOBILE

PREDICTIVE

REAL-TIME

COLLABORATIVE

SQL Server 2012 Parallel Data Warehouse

HW Pre-Construido + SW Appliance

• Mejores prácitcas listas “built in”

• Co-engineered con HP y Dell

• HW Pre-Contruido y SW Pre-Instalado

Alineado con Big Data y EDW

• Misma Consulta para ambos ambientes Hadoop y EDW

• Sintaxis SQL Familiar

• Transferencia de Datos desde/hacia EDW y Hadooprápido y fácil.

Entry-Level a Massive Scale

• Procesamiento Masivamente Paralelo en SQL Server

• Múltiples Servidores SQL Server trabajando juntos para responder a las consultas.

• Comienzo con pocos TB hasta escalar al rango de PB

PDW Arquitectura Logica

“Compute” nodeSQL

Balanced storage

“Compute” node Balanced storageSQL

“Compute” node Balanced storageSQL

“Compute” node Balanced storageSQL

DMS

DMS

DMS

DMS

Compute Node – la “abeja obrera” del PDW• Se ejecuta SQL Server 2012 en PDW• Contiene una parte de cada base de datos

Control Node – el “cerebro” de PDW• También ejecuta SQL Server 2012• Posee un“shell copy” por cada Base de Datos

• Metadato, Estadisticas, etc• La parte pública del Appliance

Data Movement Services (DMS)• Parte del secreto de PDW• Los datos se mueven alrededor según sea

necesario• Permite operaciones paralelas entre los nodos de

cómputo(consultas, cargas, etc.)

“Control” nodeSQL

DMS

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

FactSales

A

FactSales

B

FactSales

C

FactSales

D

FactSales

E

FactSales

F

FactSales

G

FactSales

H

PDW PDW PDW PDW ArquitecturaArquitecturaArquitecturaArquitectura LogicaLogicaLogicaLogicaCreate Create Create Create tabletabletabletable

CREATE TABLE FactSales(ProductKey INT NOT NULL ,OrderDateKey INT NOT NULL ,DueDateKey INT NOT NULL ,ShipDateKey INT NOT NULL ,ResellerKey INT NOT NULL ,SalesOrderNumber VARCHAR(20) NOT NULL,…) WITH (DISTRIBUTION = HASH(ProductKey),CLUSTERED INDEX(OrderDateKey) ,PARTITION

(OrderDateKey RANGE RIGHT FOR VALUES

( 20010601,20010901,…

) ) );

Control Node

…Compute Node 1 Compute Node 2 Compute Node X

Send Create Table SQL to each compute nodeCreate Table FactSales_ACreate Table FactSales_BCreate Table FactSales_C……Create Table FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

FactSales_A

FactSales_B

FactSales_C

FactSales_D

FactSales_E

FactSales_F

FactSales_G

FactSales_H

Create table metadata on Control Node

Create table metadata on Control Node

OS y Virtualización• Todos los Host y Maquinas Virtuales tienen Windows Server

2012 Standard• Todos los hosts están en cluster Hyper-V en caso de

failover.• PDW “rack” contiene un nodo de Failover

• Los hosts ya sean de Control o cómputo pueden hacerfailover en ese host

Servidores• Todos los hosts son 2x8 1U con 256GB RAM• Dell PowerEdge R620/HP ProLiant Gen8 DL360

Almacenamiento• Conexión Directa a los discos SAS JBOD

• Cualquiera de los dos enclosures o dos unidadesinternas para HA

• Windows Storage Spaces de Server 2012 administra el storage.

PDW Arquitectura Fisica

Move HDFS into Warehouse prior to Analysis

SQL

Learn MapReduce

Avance fundamental en el procesamiento de datos

Una sola Consulta estructurada y no estructurada

• Consultas y joins entre Hadoop y Tablas Relacionales

• Usando Lenguaje SQL estandár• Select, From Where

Existing SQLExisting SQLExisting SQLExisting SQLSkillsetSkillsetSkillsetSkillset

No ITNo ITNo ITNo ITInterventionInterventionInterventionIntervention

Save TimeSave TimeSave TimeSave Timeand Costsand Costsand Costsand CostsDatabase HDFS

(Hadoop)

SQL Server 2012 PDW Powered by PolyBase

SQL

Analyze AllAnalyze AllAnalyze AllAnalyze AllData TypesData TypesData TypesData Types

HadoopData

Structured Data

Herramientas Familiares para analisis BIG DATA

• Integración Nativa de BI con PDW

• Datos estructurados y no estructurados en la mismahoja de calculo

No ITIntervention

Analyze AllData Types

High AdoptionOf Excel

Herramientas Familiares para analizar DatosEstructurados y No Estructurados

14

Existing Tables (Partitions)

Rowstore

Diminishing Scale As Requirements Grow

Non-optimal performance for many DW queries

Scale UP

LIMITACIONESLIMITACIONESLIMITACIONESLIMITACIONES ACTUALESACTUALESACTUALESACTUALES:RENDIMIENTO Y ESCALABILIDAD

15

XVELOCITY OTORGA NUEVA GENERACIÓN EN RENDIMIENTO

Columnstore prove alto Rendimiento

• Stores data in columnar format

• Memoria optimizada

• Preparada para cargas masivas o por dato

Up Up Up Up totototo50X 50X 50X 50X FasterFasterFasterFaster

Up to 15x Up to 15x Up to 15x Up to 15x compressioncompressioncompressioncompression

Save TimeSave TimeSave TimeSave Timeand Costsand Costsand Costsand Costs

RealRealRealReal----TimeTimeTimeTimeDWDWDWDW

** Space Used = Table space + Index space

0.0

5.0

10.0

15.0

20.0

Tab

le w

ith

cu

sto

mary

ind

exi

ng

Tab

le w

ith

cu

sto

mary

ind

exi

ng

(p

ag

e…

Tab

le w

ith

no

in

dexi

ng

Tab

le w

ith

no

in

dexi

ng

(pag

e c

om

pre

ssio

n)

Tab

le w

ith

co

lum

nst

ore

ind

ex

Clu

stere

d c

olu

mn

sto

re

Space Used in GB (101 million

row table)

91% savings

16

Massively Parallel Processing (MPP)

MPP Provee Escalabilidad Lineal

• Massively Parallel Processing (MPP) Architecture

• Scale Out: Incrementos agregando HW para escalabilidadlineal

• Shared Nothing

10X10X10X10XFaster Than SMP DW

ComputeHeavy Tasks

Near LinearScale

Easy to Scale (No forklift)

ESCALABILIDAD LINEAL

Pequeño (0TB) hasta el más grandeDW (5PB)

• Comienzo con un pequeño DW hasta un EDW

• Agregar capacidad de hasta 5 Petabytes

Largest Largest Largest Largest WarehouseWarehouseWarehouseWarehouse

PB

Start Start Start Start Small Small Small Small And And And And GrowGrowGrowGrow

No DowntimeNo DowntimeNo DowntimeNo Downtime

0TB

AddCapacity

AddCapacity

5 PB

La Fácilidad del ApplianceHARDWARE Y SOFTWARE DISEÑADOS EN CONJUNTO

HW Pre-Construido + Software Appliance

• Co-diseñado con HP

• HW Pre-construido

• SW Pre-instalado

Plug and PlayPlug and PlayPlug and PlayPlug and Play BuiltBuiltBuiltBuilt----in Best in Best in Best in Best PracticesPracticesPracticesPractices

Save TimeSave TimeSave TimeSave Time

19

BENEFICIOS CON PDW

• Simplicidad analítica.

• Ejecución de procesos estadísticos en minutos o segundos

• Experimentar con nuevos modelos que contribuyan a reducir riesgo, costo, incrementar ingresos y tomar decisiones basado en hechos

• Reducción de tiempo para generación de reportes de negocio

� Generación de consultas Ad-Hoc sin restricciones y con total detalle

� Plataforma de bajo TCO

� Reducción en dependencia de IT – Self Service Users

� Menor latencia de datos y mayor asertividad

� Mejora de cumplimiento regulatorio

Benefits

“…basic queries that previously took 20 minutes only took seconds using the SQL Server 2008 R2 Parallel Data Warehouse.”

-Tom Settle, Assistant VP, Data Warehousing, Hy-Vee

ACTUALIZANDOACTUALIZANDOACTUALIZANDOACTUALIZANDO SQLSQLSQLSQL SERVER A SERVER A SERVER A SERVER A PDWPDWPDWPDW GANARONGANARONGANARONGANARON 100X DE 100X DE 100X DE 100X DE MEJORASMEJORASMEJORASMEJORAS EN EN EN EN RENDIMIENTORENDIMIENTORENDIMIENTORENDIMIENTO

BIG DATA EL NUEVO MUNDO DE LA INFORMACIÓN

Parallel Data Warehouse