Das Wichtigste in Kürze

  • KI macht Datenmodellierung nicht überflüssig, sondern verstärkt ihre Bedeutung.
  • LLMs sind vollständig auf explizit modellierten technischen und semantischen Kontext angewiesen.
  • Uneindeutige Werte, unklare Granularität oder fehlende Beziehungen führen zu fehlerhaften Analysen.
  • Metadaten, Dokumentation und Klassifikationen erweitern das Modell um maschinenlesbaren Kontext.
  • Datenmodellierung 2.0 bedeutet, Struktur, Bedeutung und Metadaten gemeinsam zu gestalten.

Mit dem Aufkommen leistungsfähiger KI Systeme taucht ein vertrautes Argument erneut auf. Wenn Maschinen natürliche Sprache verstehen und eigenständig Abfragen generieren können, braucht es dann überhaupt noch strukturierte Datenmodelle. Reicht es nicht aus, große Datenmengen bereitzustellen und die Interpretation einem LLM zu überlassen.

Diese Vorstellung ist nicht neu. In regelmäßigen Abständen wird Datenmodellierung für überholt erklärt. Neue Werkzeuge versprechen Flexibilität, Automatisierung oder semantische Intelligenz. Die zugrunde liegende Annahme bleibt stets dieselbe: Wenn die Technik leistungsfähig genug ist, wird Struktur zweitrangig.

Im Kontext von KI lautet das Argument häufig so: Ein LLM könne sich Beziehungen selbst erschließen. Tabellen müssten nicht mehr sorgfältig modelliert werden, weil das Modell semantische Muster erkennt. Implizite Zusammenhänge würden durch statistische Verfahren sichtbar.

Diese Annahme verkennt, worauf ein LLM tatsächlich angewiesen ist. Ein Sprachmodell verfügt über kein implizites Organisationswissen, keine Kenntnis interner Definitionen und keine Intuition für fachliche Besonderheiten eines Unternehmens. Es interpretiert das, was explizit vorliegt. Je unklarer Struktur und Benennung sind, desto größer wird der Interpretationsspielraum.

Nutzen Sie das volle Potenzial Ihrer Daten!

DATA MART Consulting GmbH begleitet Sie von der Datenstrategie bis zur modernen Analytics-Lösung.

Lassen Sie uns in einem kostenlosen, unverbindlichen Erstgespräch klären, wie wir Sie unterstützen können.

Wir freuen uns auf Ihre Anfrage!

  • > 300 zufriedene Kunden
  • > 2.000 Projekte
  • > 400 Projektpersonenjahre

Wenn Struktur fehlt, rät das Modell

Ein LLM arbeitet auf Basis von Mustern. Sind Tabellen eindeutig benannt, Schlüssel sauber definiert und Beziehungen klar modelliert, lassen sich aus der Struktur sinnvolle Abfragen ableiten. Fehlt diese Klarheit, entstehen Annahmen.

Uneindeutige Werte in Dimensionen verdeutlichen dieses Problem. Wenn derselbe Sachverhalt mehrfach in unterschiedlicher Schreibweise existiert, entsteht kein konsistenter Bedeutungsrahmen. Für menschliche Nutzer ist das bereits fehleranfällig. Für ein LLM erhöht sich die Wahrscheinlichkeit widersprüchlicher Ergebnisse.

Auch Granularität spielt eine zentrale Rolle. Ist nicht klar definiert, auf welcher Ebene Fakten gespeichert sind, kann ein Modell Aggregationen falsch interpretieren. Ohne explizite Beziehung zwischen Fakten und Dimensionen bleibt unklar, in welchem strukturellen Rahmen eine Auswertung stattfinden darf.

Datenmodellierung 2.0: Kontext über das Modell hinaus

Im Zeitalter von KI endet Datenmodellierung nicht mehr bei Tabellen, Schlüsseln und Hierarchien. Wenn Maschinen auf Daten zugreifen, muss auch der Kontext des Modells selbst explizit gemacht werden.

Technische Metadaten sind dabei der erste Schritt. Datentypen, Primär und Fremdschlüssel, Beziehungen zwischen Tabellen und definierte Kennzahlen bilden die strukturelle Beschreibung des Datenraums. Ein Semantic Model in einem Reporting Tool kann als solche Metadatenschicht verstanden werden. Relationen, Aggregationslogiken und Datentypen werden dort formal gepflegt. Ein LLM greift damit nicht auf rohe Tabellen zu, sondern auf eine kuratierte, modellierte Sicht.

Darüber hinaus gewinnt inhaltliche Dokumentation an Bedeutung. Ein Data Catalog kann semantische Beschreibungen von Tabellen und Spalten bereitstellen. Beispielhafte Datenstrukturen helfen, komplexe Sachverhalte einzuordnen. Statistiken zu Wertbereichen oder Verteilungen ermöglichen eine Plausibilisierung von Ergebnissen. Wird ein solcher Katalog über Retrieval Mechanismen angebunden, kann ein LLM gezielt auf diesen zusätzlichen Kontext zugreifen.

Ein weiterer Aspekt ist die Klassifikation von Daten. Security und Sensitivity Informationen müssen Teil des Modells sein. Maschinen können keine impliziten Compliance Annahmen treffen. Sie benötigen explizite Regeln, welche Daten genutzt oder kombiniert werden dürfen.

Data Agent

Ein einfaches Beispiel

Wird ein Data Agent in einer Plattform wie Microsoft Fabric mit einem klar definierten Semantic Model verbunden, zeigt sich die Wirkung strukturierter Modellierung unmittelbar. Eine Anfrage nach den zehn günstigsten Tankstellen für Diesel im Jahr 2024 lässt sich aus einem sauberen dimensionalen Modell direkt ableiten. Fakten sind mit Zeit und Standort verknüpft, Preise sind eindeutig definiert, Filterkriterien sind klar benannt.

Das LLM muss keine impliziten Beziehungen erraten. Es bewegt sich innerhalb eines explizit gestalteten Rahmens.

Fazit: Modellierung wird zur Voraussetzung für KI

DATA MART

Die wiederkehrende Behauptung, neue Technologien machten Datenmodellierung überflüssig, verkennt ihren eigentlichen Zweck. Modellierung ist kein Selbstzweck und kein Relikt aus Zeiten begrenzter Rechenleistung. Sie ist die bewusste Gestaltung von Struktur und Bedeutung.

Im Zeitalter von KI verschiebt sich die Perspektive. Daten werden nicht nur von Menschen interpretiert, sondern von Maschinen, die vollständig auf explizite Information angewiesen sind. Technischer und semantischer Kontext, ergänzt um dokumentierte Metadaten, werden zur Grundlage maschineller Analyse.

Inhaltsverzeichnis
Scrollfortschritt
Über den Autor
Lukas

Lukas unterstützt Kunden dabei, ihre analytischen Fragestellungen selbst zu beantworten. Technologie und Architektur sind für ihn Werkzeuge, keine Selbstzwecke.