Viele Unternehmen verfügen über mehr als Tausende von Datenbeständen. Stellen Sie sich vor, Sie sind ein Projektleiter in einem solchen Unternehmen und möchten die Datenbestände aus verschiedenen Ressourcen finden, die mit einem Projekt in Verbindung stehen. Es ist langsam und ineffizient, alle Ressourcen zu durchsuchen und eine nach der anderen zu finden. Der Datenkatalog in Purview kann Ihnen helfen, dieses Problem zu lösen. Sie können den Glossarbegriff für das Projekt einrichten und die benötigten Daten in einer Minute finden! Der Datenkatalog wird für die Suche nach Daten und die Verwaltung von Glossaren verwendet. Er zeigt alle Metadaten von Ressourcen und die Abstammung zwischen verschiedenen Daten an. Der Purview-Datenkatalog besteht aus drei Teilen: Durchsuchen des Datenbestands, Abstammung und Geschäftsglossar.  

Durchsuchen und Suchen von Assets

Wenn die Hauptbenutzer eine Gruppe von Zieltabellen haben und die Struktur des gesamten Datenmodells nicht kennen, können sie die Daten mit Hilfe von Asset durchsuchen finden. Die Benutzer können die Assets nach Sammlungen oder Datensätzen durchsuchen. Es können alle Ressourcen und die Hierarchie der Sammlung aufgelistet werden. When searching for a certain table by collection, you can filter the assets by classification, glossary, label, and so on. When the collection has a massive amount of assets, this filter can be a fast and simple way. The result is sorted by relevance. After finding the table, you can click on the table to see more detailed information such as schema classification, lineage, and schema. Bei der Suche nach einer bestimmten Tabelle nach Sammlung können Sie die Assets nach Klassifizierung, Glossar, Bezeichnung usw. filtern. Wenn die Sammlung eine große Menge an Assets enthält, kann dieser Filter eine schnelle und einfache Möglichkeit sein. Das Ergebnis wird nach Relevanz sortiert. Nachdem Sie die Tabelle gefunden haben, können Sie auf die Tabelle klicken, um detailliertere Informationen wie Schemaklassifizierung, Abstammung und Schema anzuzeigen.
Wenn wir wissen, aus welcher Art von Quelle die Tabelle stammt, können wir sie auch nach Quellentyp suchen. Auf diese Weise werden alle Ressourcen in einer hierarchischen Struktur aufgelistet. Nachdem wir auf einen Ressourcentyp geklickt haben, sehen wir die Liste aller Datenbanken dieses Ressourcentyps. Wenn wir zum Beispiel ein Speicherkonto auswählen, werden alle Container auf der linken Seite angezeigt, und die untergeordneten Assets eines Containers können auf der rechten Seite angezeigt werden.
Um den Prozess der Suche nach einer bestimmten Tabelle zu beschleunigen, können wir auch direkt die Suchleiste im Datenkatalog verwenden. Purview kann die relevanten Ergebnisse auf der Grundlage der vom Benutzer eingegebenen Schlüsselwörter anzeigen. Das Schlüsselwort kann die Klassifizierung, der Glossarbegriff oder der Datentyp der Aussage sein.  

Herkunft

Lineage ist eine der wichtigsten Funktionen, die purview bietet. Sie kann den Prozess zwischen zwei Datenbeständen aufzeigen. Die Quellen wie Data Factory und Power BI können diese Prozesse für Assets erfassen und die visualisierte Spur für Daten bereitstellen. Nachdem wir Power BI gescannt haben oder die Pipeline in der Datenfabrik ausgelöst wurde, kann diese Linie für die relevanten Daten- und Prozess-Assets gefunden werden.
Innerhalb des Stammbaums eines Assets wird auf der linken Seite auch das Schema für das Asset angezeigt. Wir können auf den Spaltennamen klicken, um herauszufinden, wie diese Spalte aufgerufen und aus den vorherigen Schritten erzeugt wurde. Mit anderen Worten: Lineage kann die Daten nicht nur auf Tabellenebene, sondern auch auf Spaltenebene verfolgen. In der Abbildung unten sehen Sie zum Beispiel, dass es in der Datei customer_master.csv 4 Spalten gibt, die nach der Datenflussaktivität in der Datenfabrik die Spalte “costumer_id” erzeugen. Wenn Sie die anderen Kühlstellen in dieser Linie überprüfen möchten, klicken Sie einfach auf diese Kühlstelle und wechseln Sie zu einer anderen Spalte, um detaillierte Informationen zu erhalten.

Business Glossar

Mit Azure Purview können Benutzer Geschäftsglossare erstellen, um ihre Daten zu erweitern. Ein Glossar kann verschiedene Geschäftsbegriffe kategorisieren und wichtigen Benutzern helfen, mehr darüber zu verstehen, was diese Begriffe in verschiedenen Situationen und Kontexten bedeuten. Diese Begriffe können verschiedenen Ressourcen, Tabellen und Spalten zugeordnet werden. Die Begriffe können im Hierarchieformat erstellt werden, was bedeutet, dass das Datengut ein besser strukturiertes Geschäftsglossar haben kann.
Wenn wir einen neuen Begriff in das Glossar aufnehmen, können wir die Standardvorlage des Systems verwenden oder eine neue Vorlage erstellen. Die Standardvorlage enthält zwingend den Namen, die Definition, die Datenverwalter, die Daten, die Experten, die übergeordneten Begriffe, die Akronyme, die Synonyme, die verwandten Begriffe und die Ressourcen als optionale Begriffe. In der benutzerdefinierten Begriffsvorlage können wir je nach Bedarf Attribute für ein Datum, einen Text, eine einzelne oder mehrere Auswahlmöglichkeiten hinzufügen. Das Attribut kann auch als erforderlich gekennzeichnet werden. Nachdem ein Begriff erstellt wurde, kann der zuständige Mitarbeiter den Inhalt prüfen und den Glossarbegriff genehmigen.
Alle Begriffe des Glossars können in einer Hierarchieansicht dargestellt werden. Dadurch erhalten die wichtigsten Benutzer einen guten Überblick über die Struktur des Glossars. Innerhalb des Begriffs finden Sie Informationen wie den übergeordneten Begriff, die Definition, den Kontakt und die Attributinformationen. Wenn Sie auf “Assets anzeigen” klicken, können Sie alle Assets finden, die zu diesem Begriff gehören.
In einer Organisation können mehrere Begriffe dasselbe Objekt aus verschiedenen Blickwinkeln darstellen, sie können Beziehungen zueinander haben. Ein und derselbe Begriff kann auch für mehr als ein Objekt stehen. Wir können Synonyme verwenden, um andere Begriffe zu verbinden, die eine ähnliche Definition haben, und verwandte Begriffe verwenden, um die Begriffe mit einer anderen Definition zu verbinden, z. B. Gruppen aus verschiedenen Abteilungen.

Schlussfolgerung

Der Purview-Datenkatalog bietet Informationen über den gesamten Datenbestand und ermöglicht es den Hauptnutzern, die wertvollen Datensätze zu erkunden. Die Benutzer können die Funktionen “Browse Asset”, “Lineage View” und “Business Glossary” nutzen, um ein tiefes Verständnis des Datenmodells zu erlangen und mit den anderen Abteilungen in Kontakt zu treten, die ebenfalls auf einen Teil des Datenmodells reagieren. Starten Sie jetzt die Purview-Reise, um Ihren Datenbestand einfach und schnell kennenzulernen!
Linus Trips HUBSTER.S

Qianyu Chen

Qianyu Chen ist Solution Architect für Data Analytics und Machine Learning.