Hvordan Twitter giver forskere et vindue i menneskelig lykke og sundhed

Siden sin offentlige lancering for 10 år siden er Twitter blevet brugt som en social netværksplatform blandt venner, en instant messaging-tjeneste til smartphone-brugere og et salgsfremmende værktøj til virksomheder og politikere.

Men det har også været en uvurderlig kilde til data for forskere og forskere - som mig selv - der ønsker at undersøge, hvordan mennesker føler og fungerer inden for komplekse sociale systemer.

Ved at analysere tweets har vi været i stand til at observere og indsamle data om de sociale interaktioner mellem millioner af mennesker "i naturen" uden for kontrollerede laboratorieeksperimenter.

Det har gjort det muligt for os at udvikle værktøjer til overvågning af kollektive følelser fra store befolkninger, Find lykkeligste steder i USA og meget mere.

Så hvordan blev Twitter nøjagtigt en så unik ressource for beregningsmæssige samfundsvidenskabere? Og hvad har det tilladt os at opdage?


indre selv abonnere grafik


Twitters største gave til forskere

Den 15. juli 2006 Twittr (som det da blev kendt) offentligt lanceret som en "mobiltjeneste, der hjælper vennegrupper med at sprænge tilfældige tanker rundt med SMS." Evnen til at sende gratis 140-tegn gruppetekster kørte mange tidlige adoptere (inklusive mig selv) til at bruge platformen.

Med tiden antallet af brugere eksploderede: fra 20 millioner i 2009 til 200 millioner i 2012 og 310 millioner i dag. I stedet for at kommunikere direkte med venner, ville brugerne simpelthen fortælle deres tilhængere, hvordan de følte, svare positivt eller negativt på nyheder eller knække vittigheder.

For forskere har Twitters største gave været levering af store mængder åbne data. Twitter var et af de første store sociale netværk, der leverede dataprøver gennem noget, der kaldes API'er (Application Programming Interfaces), som gør det muligt for forskere at forespørge på Twitter efter specifikke typer tweets (f.eks. Tweets, der indeholder bestemte ord) samt oplysninger om brugere .

Dette førte til en eksplosion af forskningsprojekter, der udnyttede disse data. I dag producerer en Google Scholar-søgning efter "Twitter" seks millioner hits sammenlignet med fem millioner efter "Facebook". Forskellen er især slående, da Facebook har nogenlunde fem gange så mange brugere som Twitter (og er to år ældre).

Twitters generøse datapolitik førte utvivlsomt til nogle fremragende gratis omtale for virksomheden, da interessante videnskabelige undersøgelser blev hentet af de almindelige medier.

Studerer lykke og sundhed

Med traditionelle folketællingsdata langsomme og dyre at indsamle, har åbne datafeeds som Twitter potentialet til at give et realtidsvindue for at se ændringer i store befolkninger.

University of Vermont's Computational Story Lab blev grundlagt i 2006 og studerer problemer på tværs af anvendt matematik, sociologi og fysik. Siden 2008 har Story Lab indsamlet milliarder af tweets gennem Twitters "Gardenhose" -feed, en API, der streamer en tilfældig prøve på 10 procent af alle offentlige tweets i realtid.

Jeg tilbragte tre år på Computational Story Lab og var heldig at være en del af mange interessante undersøgelser, der bruger disse data. For eksempel udviklede vi en hedonometer der måler Twittersphere's lykke i realtid. Ved at fokusere på geolokaliserede tweets sendt fra smartphones kunne vi kort de lykkeligste steder i USA. Måske overraskende fandt vi det Hawaii for at være den lykkeligste stat og vinafgrødende Napa for den lykkeligste by for 2013. 

Et kort over 13 millioner geolokaliserede amerikanske tweets fra 2013, farvet af lykke, med rødt, der angiver lykke og blå indikerer tristhed. PLOS ONE, forudsat forfatterEt kort over 13 millioner geolokaliserede amerikanske tweets fra 2013, farvet af lykke, med rødt, der angiver lykke og blå indikerer tristhed. PLoS ONE, Forfatter forudsat.Disse undersøgelser havde dybere anvendelser: Korrelering af brugen af ​​Twitter-ord med demografi hjalp os med at forstå underliggende socioøkonomiske mønstre i byer. For eksempel kunne vi forbinde ordbrug med sundhedsfaktorer som fedme, så vi byggede en leksikokalorimeter at måle det ”kalorieindhold” i indlæg på sociale medier. Tweets fra en bestemt region, der nævnte mad med højt kalorieindhold, øgede "kalorieindholdet" i denne region, mens tweets, der nævnte træningsaktiviteter, mindskede vores måling. Vi fandt ud af, at denne enkle foranstaltning korrelerer med andre sundheds- og trivselsmålinger. Med andre ord var tweets i stand til at give os et øjebliksbillede på et bestemt tidspunkt i tiden af ​​den generelle sundhed i en by eller en region.

Brug af rigdom af Twitter-data har vi også været i stand til se folks daglige bevægelsesmønstre i hidtil uset detaljer. At forstå menneskelige mobilitetsmønstre har til gengæld kapacitet til at transformere sygdomsmodellering og åbne det nye felt for digital epidemiologi.

For andre undersøgelser undersøgte vi, om rejsende udtrykker større lykke på Twitter end dem, der bliver hjemme (svar: de gør det) og hvis glade individer har tendens til at holde sammen i et socialt netværk (igen, det gør de). Ja, positivitet ser ud til at være bagt ind i selve sprogeti den forstand, at vi har flere positive ord end negative ord. Dette var ikke tilfældet bare på Twitter, men på tværs af en række forskellige medier (f.eks. Bøger, film og aviser) og sprog.

Disse undersøgelser - og tusinder af andre som dem fra hele verden - var kun mulige takket være Twitter.

De næste 10 år

Så hvad kan vi forvente at lære af Twitter i løbet af de næste 10 år?

Nogle af de mest spændende arbejder involverer i øjeblikket at forbinde sociale mediedata med matematiske modeller for at forudsige fænomener på befolkningsniveau såsom sygdomsudbrud. Forskere har allerede haft en vis succes med at udvide sygdomsmodeller med Twitter-data for at forudsige influenza, især FluOutlook platform udviklet af Northeastern University og Institute for Scientific Interchange.

Der er stadig en række udfordringer. Sociale mediedata lider under et meget lavt "signal-støj-forhold". Med andre ord druknes tweets, der er relevante for en bestemt undersøgelse, ofte af irrelevant "støj".

Derfor skal vi hele tiden være opmærksomme på, hvad der er blevet kaldt “big data -hybris”Når du udvikler nye metoder og ikke er overbevisende om vores resultater. Forbundet med dette skal målet være at producere fortolkelige "glass-box" forudsigelser fra disse data (i modsætning til "black-box" forudsigelser, hvor algoritmen er skjult eller ikke klar).

Data fra sociale medier kritiseres ofte (ret) for at være små, ikke-repræsentativ prøve af den bredere befolkning. En af de største udfordringer for forskere er at finde ud af, hvordan man tager højde for sådanne skæve data i statistiske modeller. Mens flere mennesker bruger sociale medier hvert år, skal vi fortsætte med at forsøge at forstå biasene i disse data. For eksempel har dataene stadig en tendens til at overrepræsentere yngre individer på bekostning af ældre befolkninger.

Først efter at have udviklet bedre biaskorrektionsmetoder, vil forskere være i stand til at forudsige fuldt ud forudsigelser fra tweets.

Om forfatteren

Lewis Mitchell, lektor i anvendt matematik, University of Adelaide

Denne artikel blev oprindeligt offentliggjort den The Conversation. Læs oprindelige artikel.

Relaterede bøger

at InnerSelf Market og Amazon