Tekilleştirme

Büyük veri bloklarının "Chunk" adı verebileceğimiz küçük parçalara bölünerek  bu parçalar ve parmakizlerinin veritabanında tutulması ve her yeni eklenen ya da değişen data parçalarına ait parmakizleri ile karşılaştırılarak sadece veritabanında bulunmayan yeni parçaların alınarak diğer parçaların atılması yöntemi ile veri boyutunu azaltma yöntemidir.

Metaforik bir örnek ile açıklarsak bu işlemi, datamızı 1 lt su (H2O) olarak düşünelim 1 litre suyu taşımak yerine ihtiyacımız sadece 1 molekül Hidrojen, 1 molekül Oksijen ve Formülü (H2O) kullanarak istediğimizde tekrar 1 lt suyu oluşturmaya benzetebiliriz.

Bu yöntemde ne kadar çok veriyi tekilleştirme ortamımıza taşırsak ortak parça sayısının artmasıyla tekilleştirme oranımız da artacaktır. Dokuman türü dosyalarda %90 ları aşan tekilleştirme oranları yakalanabilmektedir.