Home Produkty DataQualityStudio
img_99.jpg

Czy naprawdę znasz biznes, którym zarządzasz? Gdzie są prawdziwe źródła dochodu?

DataQualityStudio PDF  | Print |  E-mail

DQS - Czyszczenie i deduplikacja danych

Oprogramowanie do czyszczenia i deduplikacji danych DataQualityStudio [DQS] jest zestawem komponentów współpracujących z ETL Pentaho Data Integration [PDI].

W architekturze rozwiązania DQS oprogramowane ETL Pentaho Data Integration zapewnia mechanizmy administracji procesami przepływu danych. Przy pomocy PDI możliwe jest dostosowanie źródła danych do formatu umożliwiającego czyszczenie przy użyciu standardowych metod.

Rozwiązanie DataQualityStudio obejmuje pakiet transformacji realizujących zadania:

  • walidator danych,
  • parser,
  • wyszukiwanie heurystyczne,
  • łączenie heurystyczne,
  • scalanie danych,
  • gromadzenie i raportowanie statystyk czyszczenia.

Oprogramowanie DQS jest oprogramowaniem zrealizowanym przy użyciu Java i wysoko niezależnym od środowiska, sprzętu, czy systemu operacyjnego. Procesy czyszczenia i walidacji danych mogą być uruchamiane przez użytkownika lub wyzwalane automatycznie w wyniku wystąpienia określonego zdarzenia.

Szczególnym obszarem zastosowania DQS jest czyszczenie i deduplikacja danych adresowych. Komponenty czyszczenia danych adresowych, parsowania i standaryzacji nazw wymagają stosowania danych referencyjnych. Wraz z oprogramowaniem DQS dostarczane są słowniki referencyjne w zakresie:

  • nazw miejscowości w różnej formie zapisu,
  • gmin, powiatów,
  • kodów pocztowych,
  • ulic w pisowni standardowej oraz innej powszechnie stosowanej,
  • słownik nazw i skrótów stosowanych w zapisie nazw firm i instytucji.

DataQualitySystem znakomicie też spełnia swoje funkcje w obszarach walidacji/deduplikacji/czyszczenia:

  • numerów rachunków bankowych w standardzie IBAN,
  • numerów kart kredytowych,
  • numerów NIP, PESEL, PESEL,
  • nazw produktów.
 
 

Skróty

Santrio
Sage ERP X3. Rozwiązania dla średnich przedsiębiorstw.
Pentaho
Pentaho Business Analytics już w Polsce.
DataQualityStudio
DQS - czyszczenia i standaryzacja danych.