Sind Sie bereit für die Explosion unstrukturierter Daten?

Es wird erwartet, dass unstrukturierte Daten bis 2023 um das Zehnfache ansteigen werden. Viele Unternehmen haben bereits jetzt Schwierigkeiten, diesen Datenberg im Rechenzentrum zu verwalten, geschweige denn, einen Nutzen daraus zu ziehen. Wie können sie sich auf die Explosion unstrukturierter Daten vorbereiten (und dabei bleiben)? Unstrukturierte Daten haben sich explosionsartig vermehrt – und das Tempo […]


image_pdfimage_print

Es wird erwartet, dass unstrukturierte Daten bis 2023 um das Zehnfache ansteigen werden. Viele Unternehmen haben bereits jetzt Schwierigkeiten, diesen Datenberg im Rechenzentrum zu verwalten, geschweige denn, einen Nutzen daraus zu ziehen. Wie können sie sich auf die Explosion unstrukturierter Daten vorbereiten (und dabei bleiben)?

Unstrukturierte Daten haben sich explosionsartig vermehrt – und das Tempo bleibt unvermindert hoch. Das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten wird bis 2024 jedes Jahr 149 Zettabyte¹ überschreiten. Ein Großteil davon wird unstrukturiert sein, was bekanntermaßen einen enormen Wert, aber auch Herausforderungen und Komplexität mit sich bringt.

Jedes Unternehmen kann von den Anwendungsfällen für unstrukturierte Daten profitieren, doch zunächst müssen sie einen Weg finden, diese in den Griff zu bekommen und den Datenberg im Rechenzentrum in den Griff zu bekommen: die rotierende Festplattenhardware, auf der diese großen Datenbestände oft gespeichert sind. Wenn es um moderne unstrukturierte Daten geht, sind viele der traditionellen Speicherarchitekturen, Technologien, Best Practices und Prinzipien für strukturierte Daten nicht anwendbar.

Aber es gibt eine Sache, die Sie tun können, um darauf vorbereitet zu sein.

Was sind unstrukturierte Daten?

Im Gegensatz zu strukturierten Daten, wie z. B. Excel-Dateien oder SQL-Datenbanken, handelt es sich bei unstrukturierten Daten um Daten, die nicht sauber in formatierte Tabellen passen. Sie liegen im Allgemeinen in Form von Daten und Objekten vor. Dazu gehören:

  • Daten aus dem Internet der Dinge (IoT), wie Sensordaten, Ticker-Informationen und mehr
  • Geräte- und Netzwerkdaten, wie z. B. Telemetrie- und Standortdaten
  • Text und Dokumente, die zur Verarbeitung und Extraktion von Daten einen Kontext benötigen, z. B. Notizen eines Kundendienstmitarbeiters in einem Callcenter
  • Visuelle Daten, z. B. Bilder und Videos
  • Audiodaten
  • Umfangreiche Daten, wie Wetterdaten und Daten zur Raumanalyse
  • Daten, die durch Aktivitäten in sozialen Medien generiert werden, einschließlich Benutzeraktivitäten, Stimmungsanalysen von Kommentaren, Anzeigenklicks und demografische Daten

Lesen Sie unseren Artikel „Strukturierte Daten vs. Unstrukturierte Daten“ >>

Warum unstrukturierte Daten explodieren

Menschen und Maschinen erzeugen jede Minute Daten. Milliarden von Menschen auf der ganzen Welt interagieren jeden Tag mit verschiedenen digitalen Geräten. Jedes Gerät – und jede Aktivität, die auf diesem Gerät ausgeführt wird – erzeugt große Datenmengen. Jede Berührung, jeder Tastenanschlag und jeder Klick ist ein Datenpunkt. Diese Ansammlung von Daten über Milliarden von Menschen auf der ganzen Welt summiert sich jedes Jahr auf Zettabytes (1021 Bytes) an Informationen.

Dies sind die modernen Daten, und es wird prognostiziert, dass sie bis 2025 mindestens 80 % aller Daten ausmachen werden – einschließlich der Unternehmensdaten.

Wenn Sie sich nicht schon jetzt um die Verwaltung des wachsenden Volumens unstrukturierter Daten kümmern – z. B. durch die Erstellung einer Taxonomie für jeden Typ und jedes Format -, wird der schiere Umfang dieser Daten zunehmend zu einem unüberwindbaren Engpass.

Herausforderungen bei der Analyse von unstrukturierten Daten

Doch auch wenn unstrukturierte Daten wichtige Erkenntnisse mit einem enormen Transformationspotenzial liefern können, gilt für den Zugriff auf sie und ihre Nutzung das Sprichwort „Ohne Fleiß kein Preis“.

Es liegt in der Natur von unstrukturierten Daten, dass es schwierig ist, zu erkennen, was relevant ist. Zu den häufigen Herausforderungen gehören das Erkennen der Relevanz von Daten, das Unterscheiden der Qualität von der Quantität und das Erkennen kausaler Beziehungen zwischen unstrukturierten Daten. Das Sammeln und Speichern riesiger Datenmengen ohne Ermessensspielraum bedeutet, dass sich viele irrelevante Informationen in dem Mix verfangen und eliminiert werden müssen.

Moderne Techniken des maschinellen Lernens sind viel effektiver bei der Gewinnung von Erkenntnissen aus unstrukturierten Daten, aber diese Modelle sind immer noch nicht in der Lage, kausale Zusammenhänge zu erkennen. Dies wirkt sich nicht nur auf die Ergebnisse der Analyse unstrukturierter Daten aus, sondern kann auch dazu führen, dass Geschäftsentscheidungen auf der Grundlage unbewiesener Trends oder fehlerhafter Erkenntnisse getroffen werden.

Herausforderungen bei der Speicherung unstrukturierter Daten

Ein letzter Teil der Diskussion über strukturierte und unstrukturierte Daten ist die Frage der Speicherung. Im Allgemeinen werden Sie mit den oben erwähnten Herausforderungen in Bezug auf das Datenvolumen konfrontiert, was eine Scale-Out-Architektur erfordert, die nahtlos mit dem Wachstum Ihrer Daten mitwächst. In den meisten Fällen war plattenbasierter Speicher die einzige erschwingliche Option für diesen Datenbestand, der Herausforderungen in Bezug auf Geschwindigkeit, Effizienz, Langlebigkeit und Zuverlässigkeit mit sich bringt.

Hinzu kommt noch die Herausforderung der Vielfalt. Unstrukturierte Daten werden hauptsächlich in Datei- und Objektspeichern gespeichert:

  • File Storage. In diesem Fall werden die Daten in Dateien gespeichert, die sich in Ordnern und Unterordnern befinden. Die Computer finden die Daten über bestimmte Pfade zu den Dateien. Dies ist zwar eine schnelle Option zum Lesen und Abrufen von Daten, aber Sie können Ihren Speicher nicht skalieren, ohne weitere Systeme hinzuzufügen. Eine Erhöhung der Kapazität allein reicht nicht aus.
  • Object Storage. Bei der Objektspeicherung schließlich werden die Daten ebenfalls in kleine Stücke aufgeteilt und auf der Hardware verteilt. Der Unterschied besteht hier jedoch darin, dass es keine Hierarchie (wie beim File Storage) oder Verbindungen (wie beim Block Storage) gibt. Jedes Datenpaket fungiert als eigenständige Einheit. Daher kann es mit einfachen APIs implementiert und leicht skaliert werden. Der Nachteil ist, dass Objekte nicht geändert werden können, sobald sie einmal geschrieben wurden.

Vertiefen Sie Ihre Kenntnisse mit dem Beitrag „An Exploration of Files and Objects for Data Storage“.

Das Potenzial für unstrukturierte Daten mit der richtigen Speichertechnologie

Unstrukturierte Daten sind der Schlüssel zum Verständnis und zur Gestaltung der Customer Journey. Das Nutzungsverhalten kann untersucht werden, um bessere Produkte zu entwickeln, die Nutzer besser zu verstehen, ihre Interessen besser zu erkennen und Produkte mit größerer Genauigkeit zu empfehlen. Sie benötigen jedoch moderne Lösungen, die Ihre Bemühungen unterstützen.

Aus Kostengründen und in Ermangelung praktikabler, erschwinglicher Alternativen war die plattenbasierte Speicherung bisher der Standard. Dies schränkt die Möglichkeiten ein, mit unstrukturierten Daten umzugehen, während sie wachsen, und überlastet Ihr Rechenzentrum, denn:

  • Festplattenbasierte Speicher benötigen 10 Mal mehr Platz im Rechenzentrum als Flash-Speicher.
  • Sie ist nicht energieeffizient, da sie im Vergleich zu Flash das 10-fache an Energie verbraucht.
  • Sie ist kostspielig, nicht nur in Bezug auf die steigenden Energiekosten, sondern auch in Bezug auf die Ressourcen – Abfall, Vollzeitmitarbeiter für die Verwaltung, zusätzliche Racks und mehr.

Jetzt ist es endlich möglich, unstrukturierte Daten zu konsolidieren und zu speichern, unabhängig von der Arbeitslast, mit Unified Fast File and Object (UFFO) Storage von Pure Storage®:

  • FlashBlade//S® bietet die Geschwindigkeit von Flash mit der Fähigkeit, jede Architektur flexibel zu skalieren. Es ist ideal für kritische Workloads, die höchste Geschwindigkeit und Leistung erfordern.
  • FlashBlade//E™ ist ideal für große Bestände an unstrukturierten Daten und alltägliche Workloads. Es ist die erste erschwingliche, effiziente Flash-Alternative zu Festplatten mit besserer TCO und Energieeffizienz.

¹https://www.statista.com/statistics/871513/worldwide-data-created/

Written By: