Reversed engineering - data mining @ Spiegel online

Toller Vortrag von David Kriesel in Hamburg beim 33C3

Super erklärt auch für Nicht-Techies!
Ein absolutes Muss, sollte in jeder Oberstufe und Berufsschule Pflichtthema sein!

youtu.be/dkFN_e9lfis

Krass. Vielen Dank für’s Teilen! Sehr sehenswert. Die Stunde verging wie im Flug.

Er hat ja „lediglich“ 700.000+ Spiegel-Online-Artikel gespeichert und diese ausgewertet. Und es war schon erstaunlich, was allein aus den Meta-Daten herausgelesen werden konnte. Unvorstellbar, auf welchem Datenschatz Google, Amazon, Facebook usw. sitzen müssen. Google indexiert ja quasi das ganze Internet. Wahnsinn. Gar nicht auszudenken, was mit den ganzen personenbezogenen Facebook-Daten alles möglich ist.

Klasse Vortrag zum Thema Vorratsdatenspeicherung, bzw. die Möglichkeiten der Wissensbildung nur anhand von Rohdaten.
Selbst mit dem Zeitpunkt der Veröffentlichung eins Artikels und dem Autoren kann man schon tief in die Privatsphäre von Autoren eindringen.

Das macht deutlich, wie wenig man von sich preisgeben sollte, oder wenn man meint nichts zu verbergen zu haben, welch dickes mentales Abwehrfeld man sich in Zukunft bzgl. gezielter Manipulation (Wahlen, Konsumverhalten, etc.) anlegen muss.

Der Vortrag ist überraschend unterhaltsam!

Danke für den Link.

Vielen Dank!

LG
W

Ich kann auch ganz viele andere Vorträge vom 33c3 empfehlen!

Hier etwas leichtes:

youtube.com/watch?v=x1wQHMiuAsw

:smiley:

Sehr interessantes Video, vielen Dank.
Es bestätigt mich in grossen Teilen meines Handelns.

Hammer, hochinteressant.

,+1
Habe mir danach noch das Xerox Video angesehen.
Unfassbar :open_mouth: :astonished:

Sehr spannend - vielen Dank für den Tipp. Ich hatte mir vor zwei Jahren schon mit großem Interesse sein Xerox-Video angesehen. Aber diesmal geht es ja wirklich um Datenanalyse.

Es zeigt aber auch, wie gefährlich solche Daten sein können. Denn bei ihm im Vortrag zerfließen auf einmal ganz schnell die Grenzen zwischen Auswertung und Interpretation (gibt er ja auch selbst zu). Genau da beginnt aber der Punkt, an dem solche Analysemöglichkeiten wirklich gefährlich sein können - weil man schnell eine Kausalität hineininterpretiert, wo es eigentlich nur Korrelation ist.

Am Ende heißt das: Hier kann sich eigentlich jeder seine Argumente herausziehen - je nach Blickwinkel auf die Daten.

Ciao,
Gerhard

Ja, das mit Xerox war auch krass.
Dieses Jahr gab es wirklich hochinteressante Vorträge.
Hier alle direkt zum streamen: media.ccc.de/c/33c3
Meine Faves dieses Jahr neben den bereits genannten: „Talking behind your back“ (Wie wir demnächst mit Ultraschall-„Beacons“ getracked werden können), „Warum in die Ferne schweifen…“ (Ein Mann vom DE-CIX erklärt wie/wieso der BND Traffic mitsniffed), „Intercoms Hacking“ (Wie man ein fremdes Handy dazu zwingt, sich auf seiner eigenen evil Basisstation einzubuchen…), „A world without blockchain“ (Wie Banküberweisungen funktionieren…), „The global assassination grid“ (US Airforce-Whistleblower, der das Dronensystem mitentwickelt hat, erzählt…), „Nicht öffentlich“ (Wenn man einen kleinen Eindruck bekommen will, wie der BND tickt…), „Where in the world is Carmen Sandiego“ (OMG, an alle Leute die regelmässig fliegen… gute Nacht…), „Shut up and take my money“ (So viele Fails in einer einzigen App…), „Reverse engineering Outernet“ (Für die Amateurfunkfreaks…) und „The 12 Networking Truths“ (Künstlerprojekt, einfach faszinierend & lustig zugleich…).

Ich fand den Vortrag bzgl. SPIEGEL jetzt nicht sooo überraschend.

Dass ich anhand von Artikel-Veröffentlichungszeitpunkten die Urlaubszeiten ermitteln kann, nun gut.
Dass ich daraus spekulieren kann, „wer vielleicht mit wem verbandelt ist“, ok da geht es ins Intime. Bleibt aber auch nur Spekulation.

Und sonst?
Die bunte Themen-Map, die Artikel-Schlagworte auf eine bunte Landschaft von Themengebieten abbildet … äh … wow … oder?
Simple Analyse, optisch hübsch aufbereitet - mit Standard-Software, die in vielen Bereichen benutzt wird.
Aber was ist an dem erstellten Graphen so „mächtig“, wie er es nennt?
Themengebiete einer Zeitschrift anhand der Verschlagwortung hübsch optisch aufbereitet. Wo ist da die Sensation?
Sofern die Verschlagwortung beim SPIEGEL nicht völlig falsch läuft, muss sich ein solches oder sehr ähnliches Bild ergeben. Was soll sich sonst ergeben? Eine Landschaft, bei der das Schlagwort „Merkel“ mitten im Themengebiet „It-Girls“ verankert ist?

Und bzgl. Kommentarfunktion: Dass die Kommentarfunktionen bei allen Online-Zeitungen immer weiter eingeschränkt werden, weil zunehmend Scheiße gepostet wird und einfach der Moderationsaufwand irgendwann nicht mehr vertretbar ist, ist ja wohl auch nichts Besonderes mehr. Das weiß jeder, der Online-Zeitungen liest, aus Erfahrung.
Dass es da bei bestimmten Themengebieten besonders schlimm ist mit den unsachlichen Hass-Posts, ist jetzt auch keine bahnbrechende Entdeckung. Das hätte ich Dir auch ohne die aufwändige Datenanaylse sagen können.

Der Kriesel ist ein begabter Dozent, er macht das sehr unterhaltsam und eloquent. Er ist auch ein sehr sympathischer Typ.
Aber ich sehe jetzt schlicht nicht den besonders bemerkenswerten Inhalt seines Vortrags.

Den Vortrag fand ich klasse! Danke für den Link. Er hat das deutlich und grafisch sehr gut dargestellt, was ich als Bauchgefühl hatte.

Der Vortrag zeigt ja nur einen Anfang auf, er ist bisher noch gar nicht auf eigentliche Inhalte der Artikel eingegangen. Eine Möglichkeit: Welche Artikel beinhalten Tesla, wer schreibt die Artikel, sind die Artikel pro oder contra Tesla geschrieben? Für wen schreibt der Autor noch, wie schreibt er dort? Manuell haben wir das schon gemacht, da wir ja bestimmte Journalisten schon im Forum kennen, so könnte man das automatisiert analysieren.

@Elektroniker

Du scheinst dich offensichtlich mit dem Thema schon befasst zu haben.

Für diejenigen, wie mich, die bisher BigData, DatenMining, etc. nur angeschnitten haben, ist es gut und verständlich aufbereitet.

Der Aha-Moment ist auch weniger, was er da mit dem Spiegel treibt, sondern was man daraus folgern kann:

Wenn man mit einfachen Daten, wie Autorenkürzel, Rubrik und Zeitstempel, solche Verknüpfungen über die Jahre aufstellen kann, dann kann man sich auch gut vorstellen, was man mit all den Daten, die Menschen öffentlich preisgeben, anstellen kann.

IP-Addresse, Zeitstempel, Browserart, Suchworte (was noch?) geben so ziemlich alle freiwillig ab. Google hat sie.

Von den Facebook und WhatsApp-Nutzern reden lieber erst garnicht.[emoji6]

Ein wenig mehr Vorsicht scheint angebracht und zum Thema Datenschutz und Vorratsdatenspeicherung hat man nun auch einen anderen Blickwinkel, außer „ich hab ja nichts zu verbergen.“

@Earlian:
Da hast jetzt Du wieder Recht. :wink:
Es ist inzwischen sicher kein Witz mehr, wenn man sagt: „Google weiß mehr über Dich als Du selbst.“

Und genau dieser Punkt ist das entscheidende Bei diesem Betrag. Herr Kriesel hätte als DM-Profi sicherlich 45 Minuten IT-Geschwurbel absondern können. Effekt bei Normalos: Null. Aus meiner Sicht: Ein äußerst zielgruppengerechter Beitrag! Elektroniker kann beim 34C3 gerne zeigen, dass es noch besser geht :smiley:

Bye Thomas

Als beruflich viel mit Statistiken befasster Mensch hätten mich die von ihm verwendeten Verfahren und Vorgehensweisen auch noch mehr interessiert. Aber das war sicherlich der falsche Rahmen dafür.

Er hat mich aber für eigene Datenanalysen auf ein paar nette Ideen gebracht - schon daher hat sich das ganze gelohnt.

Ciao,
Gerhard

Ganz einfach:
Etwas aus den Daten herausziehen, was überraschend ist und den Datenschutz wirklich tangiert. Das wäre dann ein wirkungsvoller Effekt gewesen.
Datenanalyse an sich ist doch heutzutage auch für einen „Normalo“ noch keine Schrecksekunde wert.
Einzig die Sache mit den deckungsgleichen Urlauben und der zugehörigen Schlussfolgerung von möglichen Liebschaften ging ein bisschen in diese Richtung.

Er hat dann auch zum Schluss die Leute aufgefordert, ihm Ideen zu senden, was er aus den Daten noch rausziehen soll.
Interessant wäre, ob einige Zuseher da Ideen liefern werden, die dann „illegale“ oder sonstwie problematische Analyseergebnisse hervorbringen.
Ihm selbst ist da offensichtlich nichts eingefallen.
Ich vermute aber, die Sammlung von 100.000 SPIEGEL-Artikeln gibt da nichts her in dieser Richtung.

Es ist ja ein Hacker-Kongress, daher erscheint mir ein Vortrag über ganz legale Datenanalyse eher uninteressant - auch für eine Zielgruppe von „Normalos“.
Wie gesagt, das mit den vermutlich gemeinsamen Urlauben der Redakteure war das einzige etwas Brisante. Der Rest war schlicht normal business.

Wahrscheinlich war der SPIEGEL das falsche Demonstrationsobjekt, wenn man die Leute für Datenmissbrauch wirklich sensibilisieren will.

Ganz im Gegenteil: Er wollte zeigen, dass mit solch simplen und darüberhinaus sogar noch öffentlichen und online archivierten Daten erschreckend akkurate Rückschlüsse auf eigentlich private Informationen möglich sind. Genau das ist das Verblüffende.

Dass man aus Pornoseiten-Leak-Daten und Clinton-E-Mails sensible Informationen extrahieren kann, ist da weit weniger spannend, da naheliegend.

Hi !

Ich arbeite in einer Fa., die die Maschinen / Computer herstellt und herstellen kann, die so etwas rechnen und rechnen können werden bzw. es schon seit vielen Jahren tun. Die Brisanz des Vortrages liegt gerade in der gewählten Datenquelle. Das ist alles völlig belangloser Kram - eine Nachrichtenonlineseite ! Mit den angewandten Techniken ist man von aussen ohne Kenntnis des handenlden Unternehmens in der Lage, ggf. recht gut treffende Informationen zu extrahieren. Z.B. die Teamstrukturen. Was glaubt Ihr, wie lange aktuelle Systeme rechnen mussen, um diese Information bereitzustellen ? Er sprach von einem Datensatz im Bereich von 60 GB HTML Rohdaten - da musste ich sehr schmunzeln. In meiner Welt geht es ab TB los. Wir reden nicht selten über Exa- und Petabyte !!! Es geht bereits um Echtzeitanalysen. Wir kommen in diesen Themenbereichen sehr schnell in ethisch und moralische Regionen, die noch gar nicht so richtig diskutiert worden, aber unser aller Leben sehr stark bestimmen können. Ich habe keinen smart TV und werde mir ums Verrecken keinen digitalen Assistenten von Amazon oder Google in die Hütte stellen, der alles mitbekommt.

Zu aufwendig ? Wer soll das alles rechnen ? Wo soll man das alles speichern ? Was soll man denn mit all diesen Daten ? Pustekuchen ! Das sind alles bereits gelöste Probleme und BigData ist seit vielen Jahren bereits Realität. Früher fehlten nur die richtig coolen Datenquellen - aber jetzt gibt es FaceBook und WhatsApp. An alle, die das immer noch herunterspielen. Ihr glaubt gar nicht, wer alles was mit Euren Daten anstellt !!! Mir dreht sich jeden Tag dreimal der Magen herum, wenn ich sehe, wie bereitwillig Menschen persönliche Informationen preisgeben. Das wird ein grosses gesellschaftliches Problem werden. Anhand von so einer lapidaren Datenquelle einen solchen Vortrag zu machen, war genau richtig ! In der Transferleistung kann man sich vorstellen, was man dann so alles mit relevanten Daten anstellen kann ! David Kriesel ist ein netter und kompetenter Kollege. Aber auch in der IT existiert die dunkle Seite der Macht ! In der Fa. haben wir sehr heisse Diskussionen darüber, was hier richtig sein kann und was nicht. Bei BigData kommt jetzt der kommerzielle Aspekt zum tragen - nicht kommerzielle Institutionen betreiben das schon länger und David hat gezeigt, was möglich ist, wenn man so ein Ding allein duchzieht ! Stellt Euch Institutionen vor, wo 20 oder 30 Davids arbeiten - anders motiviert mit sehr, sehr viel hardware…jedenfalls ist das für mich der Kern dieses sehr liebenswürdig gestalteten Vortrags. Für mich ein unterhaltsamer Fachvortrag - traurigerweise sehr wenig überraschend !

Na dann werd doch mal konkreter. Msn hört immer nur, dass die Daten missbraucht werden. Nie von wem oder exakt wozu (außer vielleicht für Zielgruppenanalyse).

Also Butter bei die Fische: wer, was, womit, warum?