O que é o Spark ?
Para realizar análises de grandes quantidades de dados, localizados em clusters com diversos nós, precisamos de recursos tradicionais de SQL e Datawarehouse ( Star schemas, drill down, etc ), assim como precisamos ter algorítimos e estruturas de dados para otimizar as consultas em caso de falhas em qualquer um dos nós envolvidos. Outro ponto que observamos mais recentemente nestas análises massivas de dados é o uso de algorítimos chamados de “machine learning” (Page-Ranking, Clustering, Regression, etc), que fazem um reuso de dados muito frequente. O framework MapReduce da plataforma Hadoop simplificou e automatizou bastante a análise de quantidades massivas de dados em clusters, mas a medida que as análises passam a exigir um reuso de dados, a leitura e gravação para disco podem se tornar um problema. Precisamos ressaltar que o Hadoop MapReduce não é um framework orientado para transações e análises que precisem de baixo tempo de resposta. ...