Die Datenkarte in Azure Purview ist eine einheitliche Karte für alle Ihre Assets und deren Beziehungen. Diese intelligente Grafik beschreibt alle Daten in Ihrem Datenbestand und kann Daten aus On-Prime-, Hybrid- und Multi-Cloud-Umgebungen erfassen. Mit dieser Funktion können Sie Ihre Ressourcen verwalten und sicherstellen, dass Ihr Unternehmen die Data-Governance-Verfahren einhält. Die Datenkarte umfasst die folgenden Teile: Sammlungen und Quellen, Scans und Klassifizierungen.  

Sammlungen und Quellen

Betrachten wir ein Szenario mit mehr als 1000 Ressourcen. Ohne eine angemessene Gruppierungspraxis wäre es unmöglich, alle Ressourcen durchzugehen. Außerdem wäre das Ändern der Zugriffsebenen aller 1000 Ressourcen, die zur gleichen Kategorie gehören, eine unproduktive Aufgabe, die Stunden dauern könnte. Um dies in den Griff zu bekommen, sind Sammlungen und Quellen sehr nützlich. Sammlungen und Ressourcen können Benutzern helfen, ihre Datenressourcen effektiv zu verwalten. Wir können uns das wie eine hierarchische Struktur vorstellen, jede Sammlung kann mehrere zusammenhängende Quellen enthalten, wir können verschiedene Rollen für Sammlungen festlegen, so dass die wichtigsten Benutzer und Gruppen auf die Ressourcen in der Sammlung zugreifen und darauf reagieren können. Alle Quellen in den Sammlungen sind durch die Anmeldeinformationen gesichert. Data Map speichert die Metadaten von allen Ressourcen mit einer elastischen Autoskalierung. Sie kann mit der niedrigsten Kapazität von einer Einheit beginnen und sich mit der Größe der Last erhöhen.  

Registrieren und Scannen

In Purview können wir Datenressourcen in der Sammlung registrieren und sie scannen, um die Metadateninformationen zu erhalten. Purview bietet viele Arten von Datenquellen zur Registrierung, nicht nur die Dienste von Azure, sondern auch von anderen Plattformen. Dazu gehören strukturierte und unstrukturierte Back-End-Datenbanken wie Hive und SQL-Server sowie das Front-End-Datenvisualisierungstool Power BI. Am Ende können die Nutzer den Weg von den Rohdaten zur Visualisierung nachvollziehen. Wenn in der Visualisierung etwas schief läuft, können die Hauptnutzer die Rohdatenquellen der Werte in den Berichten leicht identifizieren und erhalten darüber hinaus Informationen über die Dateneigentümer und Datenverwalter. Der gesamte Prozess der Identifizierung der Ursache und der verantwortlichen Person wird erheblich verkürzt.
Purview Scanning kann die technischen Informationen über die Datenquellen wie den technischen Namen, den Datentyp und die Größe ermitteln. Es kann das Schema von Datenressourcen für strukturierte Daten extrahieren. Die Geschäftsinformationen wie Klassifizierung, Glossar, Beschreibungen können beim Scannen automatisch gefunden oder manuell zu jedem Asset hinzugefügt werden.

Ausweis

Jeder Scan benötigt die Zugangsdaten der entsprechenden Ressourcen. Diese Autorisierungsmethode bietet Sicherheit für die Daten der Kunden, da purview kein Passwort oder Zugangsschlüssel direkt speichert. Stattdessen können Benutzer die Key Vault-Verbindung in Purview herstellen und Geheimnisse als Anmeldeinformationen hinzufügen. Die vier möglichen Wege zur Authentifizierung des Purview-Kontos sind Managed Identity, Service Principal, SQL Authentication und Account Key oder Basic Authentication. Wenn Benutzer die Geheimnisse als Anmeldeinformationen hinzufügen, sollten sie auch die passende Authentifizierungsmethode auswählen. Die Berechtigungsverwaltung bietet eine Schnittstelle zur Verwaltung der Schlüsseltresore und Geheimnisse.

Scan Regeln

Nachdem die Ressourcenverbindung getestet wurde, können die Assets in dieser Ressource gescannt werden. Die Benutzer können den Scan für den gesamten Bereich oder nur für bestimmte Ordner oder Tabellen einstellen. Die Optionen basieren auf der Art der Quelle, die der Benutzer scannen möchte. Der Scan kann festgelegt oder regelmäßig geplant werden, z. B. wöchentlich oder monatlich. Bei regelmäßigen Scans gilt die Einstellung für den erstmaligen Scan auch für jeden weiteren Scan. Jede Prüfung folgt einer Prüfregel. Diese Regel definiert, nach welchen Informationen der Scan suchen soll, welche Klassifizierungsregel für Spalten verwendet werden soll und so weiter. Es gibt bereits einige Standard-Scanregeln für viele Arten von Ressourcen wie Azure Data Lake und SQL-Datenbanken. Benutzer können benutzerdefinierte Scanregeln mit speziellen Klassifizierungsregeln und Musterregeln je nach Bedarf festlegen. So können die Klassifizierung und die Musterzuordnung nach dem Scan automatisch generiert werden.
Innerhalb der Scan-Regeln gibt es Typen wie Musterregeln und Klassifizierungsregeln, die dabei helfen, Ihre Datenbestände oder Ordner zu kategorisieren.

Musterregeln

Musterregeln werden für Azure File, Data Lake, Blob Storage und Amazon S3 verwendet. Nach der Auswahl des Speicherkontos für die Musterregel gilt die Regel ab dem nächsten Scan für dieses bestimmte Konto oder diesen Container. Benutzer können Statistiken und dynamische Ersetzer verwenden, um den qualifizierten Namen von Assets abzugleichen. So kann die Regel für eine Gruppe von Daten zugeordnet werden und den Anzeigenamen verwenden, den die Benutzer in der Regel hinzufügen. Wenn die Dateien nicht gruppiert werden sollen, können Benutzer die Option “Nicht als Ressourcengruppe gruppieren” aktivieren.

Klassifizierung

Die Zielklassifizierung hilft dem Benutzer, spezielle Daten oder einen bestimmten Datentyp im Datenbestand zu finden. Es gibt viele Standard-Klassifizierungsregeln, die für den Scan-Regelsatz verwendet werden können. Kunden können auch benutzerdefinierte Klassifizierungsregeln erstellen, um den Datentyp für ihre eigenen Datensätze zu erkennen, wie z. B. Primärschlüssel oder Produktions-ID. Das Wörterbuch listet alle möglichen Objekte auf, die die Spalte enthalten kann. Es gibt auch einen Schwellenwert für die Mindestübereinstimmung, der anzeigt, wie viel Prozent des Spalteninhalts mindestens mit dem Ausdruck oder dem Wörterbuch übereinstimmen müssen.

Schlussfolgerung

Data Map bietet ein elastisches Pay-as-you-go-Modell, so dass sich der Kunde keine Gedanken über die Skalierung und die Größenbeschränkung für die Funktionen machen muss. Sie ist die Grundlage von Purview für Data Discovery und Data Governance. Mit der Registrierungs- und Scan-Funktion für alle Datenquellen können Sie Ihre Data-Governance-Reise mit dem geringsten Aufwand beginnen.
Linus Trips HUBSTER.S

Qianyu Chen

Qianyu Chen ist Solution Architect für Data Analytics und Machine Learning.