Hvordan dine venner på Twitter kan give dig din anonymitet væk

Når du surfer på internettet, sporer online-annoncører næsten hvert websted, du besøger, samler et væld af oplysninger om dine vaner og præferencer. Når du besøger et nyhedswebsted, kan de muligvis se, at du er fan af basketball-, opera- og mysterieromaner og derfor vælger annoncer, der er skræddersyet til din smag.

Annoncører bruger disse oplysninger til at skabe meget personlige oplevelser, men de ved typisk ikke præcis, hvem du er. De observerer kun dit digitale spor, ikke din identitet i sig selv, og så føler du måske, at du har bevaret en vis grad af anonymitet.

Men i et papir var jeg medforfatter med Ansh Shukla, Sharad Goel og Arvind Narayanan, vi viser, at disse anonyme webbrowsing-poster faktisk ofte kan knyttes til virkelige identiteter.

For at teste vores tilgang byggede vi en hjemmeside hvor folk kunne donere deres browserhistorik med henblik på denne undersøgelse. Vi forsøgte derefter at se, om vi kunne linke deres historier tilbage til deres Twitter-profiler ved kun at bruge offentligt tilgængelige data. Tooghalvfjerds procent af de mennesker, som vi forsøgte at deanonymisere, blev korrekt identificeret som den øverste kandidat i søgeresultaterne, og 81 procent var blandt de 15 bedste kandidater.

privatliv2 2 8Screenshots af webstedet for deanonymisering.

Dette er, så vidt vi ved, den hidtil største demonstration af deanonymisering, da det vælger den rigtige bruger ud af hundreder af millioner af mulige Twitter-brugere. Derudover kræver vores metode kun, at en person klikker på linkene, der vises i deres sociale mediefeeds, ikke at de sender noget indhold - så selv folk, der er forsigtige med, hvad de deler på internettet, er stadig sårbare over for dette angreb.


indre selv abonnere grafik


Sådan fungerer det

På et højt niveau er vores tilgang baseret på en simpel observation. Hver person har et meget særpræg socialt netværk, der består af familie og venner fra skole, arbejde og forskellige stadier i deres liv. Som en konsekvens er sæt af links i dine Facebook- og Twitter-feeds meget særpræg. Ved at klikke på disse links efterlades et fortællingsmærke i din browserhistorik.

Ved at se på det sæt websider, som en person har besøgt, var vi i stand til at vælge lignende sociale mediefeeds, hvilket gav en liste over kandidater, der sandsynligvis genererede den browsinghistorik. På denne måde kan vi knytte en persons identitet i den virkelige verden til det næsten komplette sæt af links, de har besøgt, inklusive links, der aldrig blev lagt ud på noget socialt medieside.

Gennemførelsen af ​​denne strategi indebærer to nøgleudfordringer. Den første er teoretisk: Hvordan kvantificerer du, hvor ens et specifikt feed på sociale medier ligner en given webbrowserhistorik? En enkel måde er at måle den brøkdel af links i browserhistorikken, der også vises i feedet. Dette fungerer rimeligt godt i praksis, men det overvurderer ligheden for store feeds, da de simpelthen indeholder flere links. Vi tager i stedet en alternativ tilgang. Vi stiller en stiliseret, probabilistisk model for webbrowseadfærd og beregner derefter sandsynligheden for, at en bruger med det sociale mediefeed genererede den observerede browserhistorik. Derefter vælger vi det sociale mediefeed, der er mest sandsynligt.

Den anden udfordring indebærer at identificere de mest lignende feeds i realtid. Her vender vi os til Twitter, da Twitter-feeds (i modsætning til Facebook) stort set er offentlige. Men selvom feeds er offentlige, kan vi ikke bare oprette en lokal kopi af Twitter, som vi kan køre vores forespørgsler mod. I stedet anvender vi en række teknikker til dramatisk at reducere søgerummet. Vi kombinerer derefter cacheteknikker med on-demand netværkscrawl for at konstruere feeds fra de mest lovende kandidater. På dette reducerede kandidatsæt anvender vi vores lighedsmål for at producere de endelige resultater. I betragtning af en browserhistorik kan vi typisk udføre hele denne proces på under 60 sekunder.

Vores metode er mere nøjagtig for folk, der gennemser Twitter mere aktivt. Halvfems procent af deltagerne, der havde klikket på 100 eller flere links på Twitter, kunne matches med deres identitet.

Mange virksomheder har sporingsressourcerne til at udføre et angreb som dette, selv uden deltagerens samtykke. Vi forsøgte at deanonymisere hver af vores eksperimentdeltagere ved kun at bruge de dele af deres browserhistorik, der var synlige for specifikke sporingsfirmaer (fordi virksomhederne har trackere på disse sider). Vi fandt ud af, at flere virksomheder havde ressourcerne til nøjagtigt at identificere deltagerne.

privatlivets fred 2 8Andre undersøgelser af deanonymisering

Flere andre undersøgelser har brugt offentligt tilgængelige fodspor til deanonymisering af følsomme data.

Måske blev den mest berømte undersøgelse i denne retning udført af Latanya sweeney på Harvard University i 2002. Hun opdagede det 87 procent af amerikanerne var entydigt identificerbare baseret på en kombination af deres postnummer, køn og fødselsdato. Disse tre attributter var tilgængelige i både offentlige vælgerregistreringsdata (som hun købte for US $ 20) og anonyme medicinske data (som var bredt distribueret, fordi folk troede, at dataene var anonyme). Ved at forbinde disse datakilder fandt hun medicinske journaler fra guvernøren i Massachusetts.

I 2006, blev Netflix kørte en konkurrence for at forbedre kvaliteten af ​​filmanbefalingerne. De udgav et anonymiseret datasæt med folks filmbedømmelser og tilbød $ 1 million til holdet, der kunne forbedre deres anbefalingsalgoritme med 10 procent. Computerforskere Arvind Narayanan , Vitaly Shmatikov bemærkede, at de film, folk så, var meget særprægede, og de fleste mennesker i datasættet kunne identificeres entydigt baseret på en lille delmængde af deres film. Med andre ord, baseret på Netflix-filmvalg og IMDB-anmeldelser, var forskerne i stand til at bestemme, hvem disse Netflix-brugere faktisk var.

Med stigningen af ​​sociale medier deler flere og flere mennesker oplysninger, der virker uskadelige, men afslører faktisk en masse personlige oplysninger. En undersøgelse ledet af Michal Kosinski ved University of Cambridge brugte Facebook gerne forudsige folks seksuel orientering, politiske synspunkter og personlighedstræk.

Et andet hold, ledet af Gilbert Wondracek ved Vienna University of Technology, byggede en "deanonymiseringsmaskine", der fandt ud af, hvilke grupper folk var en del af på det sociale netværk Xing, og brugte det til at finde ud af, hvem de var - da de grupper, du er en del af, ofte er nok til entydigt at identificere du.

Hvad du kan gøre

De fleste af disse angreb er vanskelige at forsvare mod, medmindre du holder op med at bruge internettet eller deltage i det offentlige liv.

Selv hvis du holder op med at bruge internettet, kan virksomheder stadig indsamle data om dig. Hvis flere af dine venner uploader deres telefonkontakter til Facebook, og dit nummer er på alle deres kontaktlister, kan Facebook forudsige dig, selvom du ikke bruger deres tjeneste.

Den bedste måde at forsvare sig mod deanonymiserende algoritmer som vores er at begrænse antallet af mennesker, der har adgang til dine anonyme browserdata. Browserudvidelser som Ghostery blokere tredjeparts trackere. Det betyder, at selvom det firma, hvis websted du besøger, ved, at du besøger dem, vil de reklamevirksomheder, der viser annoncer på deres side, ikke være i stand til at indsamle dine browserdata og samle dem på tværs af flere websteder.

Hvis du er webmaster, kan du hjælpe med at beskytte dine brugere ved at lade dem gennemse dit websted ved hjælp af HTTPS. Browsing ved hjælp af HTTP giver angribere mulighed for at få din browserhistorik ved at snuse netværkstrafik, som lader dem udføre dette angreb. Mange websteder har allerede skiftet til HTTPS; da vi gentog vores deanonymiseringseksperiment fra perspektivet af en netværketrafik sniffer, kunne kun 31 procent af deltagerne deanonymiseres.

Der er dog meget lidt, du kan gøre for at beskytte dig mod deanonymiseringsangreb generelt, og måske er den bedste fremgangsmåde at justere ens forventninger. Intet er privat i denne digitale tidsalder.

Om forfatteren

Jessica Su, Ph.D. Studerende ved Stanford, Stanford University

Denne artikel blev oprindeligt offentliggjort den The Conversation. Læs oprindelige artikel.

Relaterede bøger

at InnerSelf Market og Amazon