Scaling Out with Hadoop and NoSqlIedereen die wel eens op een groot project heeft gewerkt waarin veel data wordt geschreven en gelezen, naar het file systeem of naar een relationele database, loopt uiteindelijk tegen bepaalde performance limieten op. Als een enkele machine het werk niet meer aankan is de volgende stap meestal clustering van applicatie servers en clustering van de RDBMS. Maar ook daar loop je al snel tegen harde limieten aan.
Geïnspireerd door grote jongens als Google, Amazon, Facebook, en LinkedIn, die veel ervaring hebben met het oplossen van dit soort problemen, is er nu een nieuwe generatie tools in opkomst. Deze tools zijn specifiek ontworpen om te schalen over grote aantallen machines.
Tools zoals het Apache Hadoop MapReduce framework waarmee grote batch jobs efficiënt over duizenden machines verdeeld kunnen worden. En tools zoals de nieuwe generatie key-value stores, ook wel bekend als NoSql stores, waarmee data vele malen sneller geschreven en gelezen kan worden dan met een RDBMS. Voorbeelden hiervan zijn HBase, Cassandra, MongoDb, en Project Voldemort.
Het tijdperk van “scaling out” is begonnen. Deze sessie geeft een korte samenvatting van de huidige limieten op het gebied van scalability en kijkt dan in meer detail naar de hierboven genoemde tools. Aan het eind kijken we naar onze ervaringen met een business case waarin 200 miljard records verwerkt moeten worden die daarna beschikbaar moeten zijn voor super snelle online queries.
Niveau Beginner / Intermediate
Track New & Cool of Enterprise
Voorkennis Geen. Ervaring met het schalen/clusteren van Java (batch) processing en databases is handig als vergelijkingsmateriaal.
Opbouw • De limieten zijn bereikt • Multi-core en de Cloud • Wat is Scalability • Batch processing met Hadoop • Key-value stores • HBase • Cassandra • MongoDb • Project Voldemort • Ervaringen in een multi-TB project
Download de presentatie
|