Datenbanken können sehr schnell gleiche Datensätze ermitteln. Man erstellt dazu Indices, das sind baumartige Datenstrukturen, die mit wenigen Zugriffen einen bestimmten Satz auch in sehr großen Datenbeständen finden können. Dadurch stellt die Suche nach scharfen Dubletten, also völlig identischen Datensätzen, überhaupt kein Problem dar. Das Herausfinden von ähnlichen Sätzen, also z.B. von Adressen mit kleinen Schreibfehlern, Verdrehern, ausgelassenen Buchstaben, usw., ist dagegen eine sehr schwierige Aufgabe für Computer. Während ein Mensch auf den ersten Blick erkennt, dass zwei Datensätze ähnlich sind, lässt sich dieser Begriff ähnlich nur sehr schwer in Rechenvorschriften (Algorithmen) ausdrücken. Andererseits ist es für einen Menschen unmöglich, schon in einigen hundert Datensätzen doppelte Sätze zu erkennen. Dabei besitzt jede Datenbank, auch wenn sie noch so gut gepflegt ist, typischerweise mindestens 1 bis 3 % Dubletten. Diese doppelten Sätze verursachen erhebliche Kosten z.B. beim Versenden von Katalogen und führen zu großen Problemen in Bereichen wie der Buchhaltung, im Support oder im Controlling. Ganz wichtig wird eine unscharfe Dublettensuche, wenn man Daten zusammenführen möchte, z.B. nach Zukauf neuer Adressen. Genau diese unscharfen Dubletten kann diese Software in einer Datenbank ermitteln.