Wat zijn hoogdimensionale gegevens? (definitie & voorbeelden)


Hoogdimensionale gegevens verwijzen naar een gegevensset waarin het aantal kenmerken p groter is dan het aantal waarnemingen N , vaak geschreven als p >> N.

Een dataset met p = 6 kenmerken en slechts N = 3 waarnemingen zou bijvoorbeeld als hoogdimensionale gegevens worden beschouwd omdat het aantal kenmerken groter is dan het aantal waarnemingen.

Hoogdimensionale gegevens

Een veelgemaakte fout die mensen maken, is te veronderstellen dat ‘hoogdimensionale gegevens’ eenvoudigweg een dataset met veel functies betekenen. Dit is echter onjuist. Een dataset kan 10.000 kenmerken bevatten, maar als deze 100.000 waarnemingen bevat, is deze niet hoogdimensionaal.

Opmerking: Zie hoofdstuk 18 van Elementen van statistisch leren voor een diepgaande discussie over de wiskunde achter hoogdimensionale gegevens.

Waarom zijn hoogdimensionale gegevens een probleem?

Wanneer het aantal kenmerken in een dataset het aantal waarnemingen overschrijdt, zullen we nooit een deterministisch antwoord hebben.

Met andere woorden: het wordt onmogelijk om een model te vinden dat de relatie tussen de voorspellende variabelen en deresponsvariabele kan beschrijven, omdat we niet genoeg observaties hebben waarop we het model kunnen trainen.

Voorbeelden van hoogdimensionale gegevens

De volgende voorbeelden illustreren hoogdimensionale datasets in verschillende domeinen.

Voorbeeld 1: Gezondheidsgegevens

Hoogdimensionale gegevens zijn gebruikelijk in datasets in de gezondheidszorg, waarbij het aantal kenmerken voor een bepaald individu enorm kan zijn (dwz bloeddruk, hartslag in rust, status van het immuunsysteem, chirurgische geschiedenis, lengte, gewicht, bestaande aandoeningen, enz.).

In deze datasets is het gebruikelijk dat het aantal kenmerken groter is dan het aantal waarnemingen.

Voorbeeld van hoogdimensionale gegevens

Voorbeeld 2: financiële gegevens

Hoogdimensionale gegevens komen ook vaak voor in financiële datasets waar het aantal kenmerken voor een bepaald aandeel behoorlijk groot kan zijn (dat wil zeggen koers-winstverhouding, marktkapitalisatie, handelsvolume, dividendpercentage, enz.)

Bij dit soort datasets is het gebruikelijk dat het aantal entiteiten veel groter is dan het aantal individuele acties.

Voorbeeld 3: Genomica

Hoogdimensionale gegevens zijn ook gebruikelijk op het gebied van de genomica, waar het aantal genetische kenmerken van een bepaald individu enorm kan zijn.

Hoe om te gaan met grote data

Er zijn twee veelgebruikte manieren om hoogdimensionale gegevens te verwerken:

1. Kies ervoor om minder functies op te nemen.

De meest voor de hand liggende manier om te voorkomen dat u met hoogdimensionale gegevens te maken krijgt, is door simpelweg minder kenmerken in de gegevensset op te nemen.

Er zijn verschillende manieren om te beslissen welke functies u uit een gegevensset wilt verwijderen, waaronder:

  • Functies met veel ontbrekende waarden verwijderen: Als een bepaalde kolom in een gegevensset veel ontbrekende waarden bevat, kunt u deze mogelijk volledig verwijderen zonder veel informatie te verliezen.
  • Kenmerken met lage variantie verwijderen: Als een bepaalde kolom in een dataset waarden heeft die weinig veranderen, kunt u deze mogelijk verwijderen omdat het onwaarschijnlijk is dat deze zoveel nuttige informatie over een responsvariabele biedt als andere kenmerken.
  • Verwijder functies met een lage correlatie met de responsvariabele: Als een bepaald kenmerk niet sterk gecorreleerd is met de responsvariabele waarin u geïnteresseerd bent, kunt u het waarschijnlijk uit de dataset verwijderen, omdat het onwaarschijnlijk is dat dit een nuttig kenmerk in een model is.

2. Gebruik een regularisatiemethode.

Een andere manier om hoogdimensionale gegevens te verwerken zonder kenmerken uit de dataset te verwijderen, is door een regularisatietechniek te gebruiken, zoals:

Elk van deze technieken kan worden gebruikt om hoogdimensionale gegevens efficiënt te verwerken.


Op deze pagina vindt u een volledige lijst van alle tutorials over statistische machine learning.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert