"Irreführend"

Daten aus sozialen Medien für Studien oft wertlos

Web
27.11.2014 11:20
Über Suchanfragen und soziale Medien werden gigantische Datenmengen generiert, die zunehmend zum Studium menschlichen Verhaltens sowie zur Vorhersage von Entwicklungen genutzt werden. Doch solche Daten haben viele Eigenheiten, die irreführen können, erklärt der aus Österreich stammende Netzwerkanalyst Jürgen Pfeffer von der Carnegie Mellon University im US-amerikanischen Pittsburgh gegenüber dem Fachjournal "Science".

Ein gutes Beispiel für falsche Schlüsse aus solchen Datenanalysen sei der "Google Grippe Trend", so Pfeffer. Anhand der Suchanfragen nach Grippesymptomen sagten die Google-Leute dabei vorher, wie viele Menschen sich in den folgenden Tagen krank melden würden. "Alles lief großartig, aber plötzlich funktionierte das Ding nicht mehr, und viele Probleme kamen zum Vorschein", erklärte Pfeffer.

Es habe sich herausgestellt, dass die Google-Analyse den Winter anstatt der Grippe vorausgesagt hat. Unter den verwendeten 50 Millionen Variablen einer Grippe-Datenreihe würde man immer etwas finden, das korreliert, aber nicht zusammenhängt, meint er - so wie auch die Geburtenraten und die Zahl der Störche in ländlichen Gebieten. "Wenn die Grippe aber einmal kommt, wenn es wärmer wird, funktioniert das Modell nicht mehr", so Pfeffer.

Suchdaten verzerrt
Bei vielen solchen Studien sei es problematisch, dass Daten und Berechnungsverfahren geheim gehalten werden. "Google hat sich bis heute geweigert, das dahinter liegende Modell zu veröffentlichen, damit es von anderen Wissenschaftlern überprüft werden kann", erklärte er. Auch die verwendete Suchanfrage-Datenbank sei nur sehr eingeschränkt zugänglich. Die Suchdaten wären außerdem verzerrt. "Es stellte sich raus, dass Google in der Datenbank nicht speichert, was die Benutzer tippen, sondern das, was nach der Autovervollständigung eingegeben wird", so Pfeffer. Dadurch ginge ein Teil des "menschlichen Verhaltens" verloren.

Nutzer nicht repräsentativ
Trotz der großen Menge seien auch die Benutzer von sozialen Medien nicht unbedingt repräsentativ, betonen Pfeffer und sein Kollege Derek Ruths, der an der McGill University im kanadischen Montreal forscht. Das soziale Netzwerk Pinterest, in dem Bilder und Videos geteilt, geliked und kommentiert werden, würde etwa von Mittelschicht-Frauen zwischen 25 und 34 dominiert, und sein Pendant Instagram von afro- und lateinamerikanischen Stadtbewohnern zwischen 18 und 29. Solche Verfälschungen wären in den seltensten Fällen erwähnt, geschweige denn berücksichtigt.

Viele "Personen" in sozialen Medien seien auch gar keine authentischen Menschen. So würden PR-Agenturen für Prominente oder Firmen schreiben, es gebe Phantomkonten und Computerprogramme, die posten. Die Betreiber würden gefälschten Benutzerkonten zwar suchen und entfernen, für unabhängige Forscher seien sie aber in einem Datensatz kaum zu erkennen, meinen Pfeffer und Ruths. Sie plädieren deshalb an ihre Kollegen, bei Studien mit Daten aus dem Internet höhere Qualitäts- und Berechnungsstandards zu verwenden, als aktuell verbreitet.

Loading...
00:00 / 00:00
play_arrow
close
expand_more
Loading...
replay_10
skip_previous
play_arrow
skip_next
forward_10
00:00
00:00
1.0x Geschwindigkeit
explore
Neue "Stories" entdecken
Beta
Loading
Kommentare

Da dieser Artikel älter als 18 Monate ist, ist zum jetzigen Zeitpunkt kein Kommentieren mehr möglich.

Wir laden Sie ein, bei einer aktuelleren themenrelevanten Story mitzudiskutieren: Themenübersicht.

Bei Fragen können Sie sich gern an das Community-Team per Mail an forum@krone.at wenden.



Kostenlose Spiele