Schemat gwiazdy i śnieżynka

Anonim

Hurtownia danych to system przeznaczony do przechowywania i organizowania danych w centralnych repozytoriach, w tym danych z innych źródeł. Jest to podstawowa koncepcja analizy biznesowej w relacyjnych modelach baz danych, która wykorzystuje techniki analityczne do integracji danych biznesowych w centralnej bazie danych.

Istnieją dwa popularne modele architektoniczne używane w hurtowni danych:

  • Star Scheme
  • Schemat śnieżynkowy

Oba są powszechnymi wielowymiarowymi modelami baz danych wykorzystywanymi do zaspokojenia potrzeb dużych baz danych do celów analitycznych w rzeczywistych hurtowniach danych.

Prezentujemy obiektywne porównanie między tymi dwoma, aby lepiej zrozumieć, który z nich jest lepszy od drugiego.

Czym jest Star Schema?

Jest to najczęściej stosowany i powszechnie akceptowany model architektoniczny wykorzystywany do tworzenia hurtowni danych i baz danych, w których dane są uporządkowane według faktów i wymiarów. Jest to najprostszy model architektoniczny, w którym jedna tabela faktów jest używana do odwoływania się do tabel z wieloma wymiarami, naśladując wzór gwiazdy.

Jak sama nazwa wskazuje, schemat przypomina gwiazdę z tabelą faktów w środku i tablice wielowymiarowe promieniujące od niej, tworząc gwiazdopodobny wzór.

Znany jest również jako Schemat łączenia gwiazd i przechowuje wszystkie atrybuty wymiaru w jednej denormalizowanej tabeli faktów, aby szybko poruszać się po dużych wielowymiarowych zestawach danych, co zapewnia szybkie czasy odpowiedzi na zapytania.

Co to jest Schemat płatka śniegu?

Jest to rozszerzenie schematu gwiaździstego z dodatkowymi funkcjami. W przeciwieństwie do schematu gwiazdowego tabele wymiarów w schemacie płatkowym są znormalizowane w wiele powiązanych tabel.

Model architektoniczny reprezentuje logiczne rozmieszczenie tabel w hierarchii relacji wielu do jednego, gdzie tabele wielowymiarowe są znormalizowane na tabele pod wymiarowe, przypominające wzór płatka śniegu, stąd nazwa.

Jest to bardziej złożona wersja schematu gwiaździstego z większą liczbą złącz między tabelami wymiarów, co zapewnia powolny czas przetwarzania w celu pobrania danych, co oznacza długi czas odpowiedzi zapytania. Minimalizuje redundancję danych, co z kolei poprawia wydajność zapytań.

Różnica między schematem gwiazdy i płatka śniegu

Architektura schematu gwiazda i śnieżynka

W relacyjnych bazach danych schemat gwiaździsty jest najprostszym modelem architektonicznym wykorzystywanym do tworzenia hurtowni danych i wielowymiarowych baz danych. Jak sama nazwa wskazuje, model przypomina gwiazdę z punktami promieniującymi od środka, co oznacza, że ​​tabela faktów jest środkiem, a punkty są tabelami wymiarów. Podobnie jak inne modele wymiarowe, składa się z danych w postaci faktów i wymiarów. Z kolei schemat Snowflake jest bardziej złożonym modelem architektonicznym, który odwołuje się do wielowymiarowej bazy danych z logicznym układem tabel w postaci płatka śniegu.

Tabela wymiarów

Schemat płatka śniegu jest bardzo podobny do schematu gwiazdowego, z tym że może zawierać więcej niż jedną tabelę wymiarów, które są następnie normalizowane w wiele powiązanych tabel zwanych tabelami pod wymiarami. Reprezentuje wiele poziomów relacji, które rozgałęziają się na wzór płatka śniegu. Schemat gwiazdowy przechowuje jednak wszystkie powiązane atrybuty wymiaru w jednej denormowanej tabeli wymiarów, co ułatwia zrozumienie i obsługę prostszych zapytań.

Model biznesowy Schemat gwiazda i śnieżynka

Tabela wymiarów nie może zawierać zduplikowanych wierszy w modelach relacyjnej bazy danych z prostego faktu, że może powodować niejasności w pobieraniu. Każda tabela powinna mieć kolumnę lub kombinację kolumn nazywaną kluczem podstawowym, która jednoznacznie identyfikuje wszystkie rekordy tabel. Klucz obcy to kolumna lub grupa kolumn, która zapewnia połączenie między dwiema tabelami. W schemacie gwiaździstym każda tabela wymiarów ma klucz podstawowy powiązany z kluczem obcym w tabeli faktów. Hierarchia biznesowa w schemacie typu płatek śniegu jest reprezentowana przez relację klucz podstawowy / klucz obcy między tabelami wymiarów.

Integralność danych w schemacie gwiazda i płatek śniegu

Kluczową różnicą między dwoma relacyjnymi modelami baz danych jest normalizacja. Tabele wymiarów w schemacie gwiaździstym nie są znormalizowane, co oznacza, że ​​model biznesowy będzie wykorzystywał względnie więcej miejsca do przechowywania tabel wymiarów, a więcej miejsca oznacza więcej zbędnych rekordów, co w ostateczności spowoduje niespójność. Z drugiej strony schemat Snowflake minimalizuje redundancję danych, ponieważ tabele wymiarów są znormalizowane, co stanowi znacznie mniejszą liczbę nadmiarowych rekordów. Hierarchia biznesowa i jej wymiary są zachowane dzięki integralności referencyjnej, co oznacza, że ​​relacje mogą być niezależnie aktualizowane w hurtowniach danych.

Wydajność zapytania

Schemat gwiaździsty ma mniej powiązań między tabelą wymiarów i faktów w porównaniu do schematu płatka śniegu, który ma wiele złączeń, co powoduje mniej złożoności zapytań. Ponieważ wymiary w schemacie gwiaździstym są połączone za pomocą centralnej tabeli faktów, ma ona czyste ścieżki łączenia, co oznacza, że ​​krótkie czasy odpowiedzi na zapytania i krótki czas odpowiedzi oznaczają lepszą wydajność. Schemat płatka śniegu ma większą liczbę połączeń, co powoduje wydłużenie czasu odpowiedzi na zapytania, co skutkuje bardziej złożonymi zapytaniami, które ostatecznie obniżają wydajność.

Schemat gwiazda kontra wykres płatka śniegu: tabela porównawcza

Podsumowanie wersety Star Schemat śnieżynka

Oba są najczęściej stosowanymi i powszechnie przyjętymi modelami architektonicznymi używanymi do tworzenia baz danych i baz danych. Jednak każdy model biznesowy ma swój sprawiedliwy udział w zaletach i wadach.Podczas gdy schemat gwiazdowy jest najprostszym wielowymiarowym modelem służącym do porządkowania danych w faktach i wymiarach, idealnie nadaje się do tworzenia zbiorów danych, które zawierają mniej złożone relacje. Schemat płatka śniegu jest logiczną reprezentacją tabel w wielowymiarowej bazie danych, w której wymiary są przechowywane w tabelach pod wymiarowych. Główna różnica między nimi to normalizacja. Tabele wymiarów w schemacie płatka śniegu są całkowicie znormalizowane w wielu tabelach wyszukiwania, podczas gdy w schemacie gwiaździstym tabele wymiarów są denormalizowane w jedną centralną tabelę faktów.