Andrea Leo su Beefly, Alfresco, Liferay, NoSQL e Open Source: Apache Hadoop

Hadoop [hadoop] è un framework Java open source per la realizzazione di applicazioni distribuite che lavorano su una grande quantità di dati. Il progetto è stato ispirato dagli articoli scritti da Google relativamente al MapReduce [mapred] e al Google File System (GFS) [gfs].
Hadoop è stato creato da Doug Cutting e successivamente è stato ceduto ad Apache che ne cura lo sviluppo. Tra i suoi maggiori contributori si può citare Yahoo che lo usa come framework per il suo motore di ricerca.
In dettaglio, Hadoop è un insieme di sotto-progetti che forniscono un'infrastruttura per il calcolo distribuito e sono di seguito:

1. Core. Un' insieme di componenti e interfacce per i filesystem distribuiti e per la gestione dell' I/O (serializzazione, Java RPC).

2. MapReduce. Un modello e un ambiente per il calcolo di dati in ambiente distribuito su cluster di grandi dimensioni con macchine commodity.

3. Hbase. Un database distribuito column-oriented che usa HDFS per archiviare le informazioni e che supporta anche le interrogazioni batch-style usando MapReduce.

4. HDFS. Un filesystem distribuito che viene eseguito su cluster di grandi dimensioni con macchine commodity.

5. Pig. Un tool per l'esplorazione di grandi dataset su cluster HDFS o MapReduce.

6. Avro. Un sistema per la serializzazione efficiente di dati.

7. ZooKeeper. Un servizio di coordinamento nodi distribuito.

8. Hive. Un data werehouse distribuito che archivia i dati in HDFS e supporta SQL come linguaggio di query.

9. Chukwa. Un sistema per l'analisi dei dati che usa HDFS per l'archiviazione dei dati e
MapReduce per la generazione dei report.

Andrea Leo su Beefly, Alfresco, Liferay, NoSQL e Open Source

lunedì 13 dicembre 2010

Apache Hadoop

Nessun commento:

Posta un commento