Hvordan computere hjælper biologer med at knække livets hemmeligheder

Når det tre milliarder bogstaver lange humane genom var sekventeret, skyndte vi os ind i et nyt ”omics”Æra med biologisk forskning. Forskere kører nu for at sekvensere genomerne (alle generne) eller proteomerne (alle proteinerne) fra forskellige organismer - og samler i processen enorme mængder data.

For eksempel kan en videnskabsmand bruge “omics” -værktøjer såsom DNA-sekventering til at drille ud, hvilke humane gener der er påvirket af en viral influenzainfektion. Men fordi det humane genom har mindst 25,000 gener i alt, kan antallet af gener, der er ændret selv under et så simpelt scenario, potentielt være i tusinder.

Selvom sekventering og identifikation af gener og proteiner giver dem et navn og et sted, fortæller det os ikke, hvad de gør. Vi er nødt til at forstå, hvordan disse gener, proteiner og alle de ting derimellem interagere i forskellige biologiske processer.

I dag giver selv grundlæggende eksperimenter store data, og en af ​​de største udfordringer er at fjerne de relevante resultater fra baggrundsstøj. Computere hjælper os med at overvinde dette databerg; men de kan endda gå et skridt videre end det og hjælpe os med at komme med videnskabelige hypoteser og forklare nye biologiske processer. Datavidenskab muliggør i det væsentlige banebrydende biologisk forskning.

Computere til undsætning

Computere er unikt kvalificerede til at håndtere massive datasæt, da de samtidig kan holde styr på alle de vigtige betingelser, der er nødvendige for analysen.


indre selv abonnere grafik


Selvom de kunne afspejle menneskelige fejl de er programmeret med, computere kan håndtere store mængder data effektivt, og de er ikke partisk mod det velkendte, som menneskelige efterforskere måske er.

Computere kan også læres at kigge efter specifikke mønstre i eksperimentelle datasæt - et koncept kaldet maskinindlæring, først foreslået i 1950'erne, især af matematiker Alan Turing. En algoritme, der har lært mønstrene fra datasæt, kan derefter blive bedt om at forudsige baseret på nye data, som den aldrig har været stødt på før.

Maskinindlæring har revolutioneret biologisk forskning, da vi nu kan bruge store datasæt og bede computere om at hjælpe med at forstå den underliggende biologi.

Træning af computere til at tænke ved at simulere hjerneprocesser

Vi har brugt en interessant type maskinindlæring, kaldet et kunstigt neuralt netværk (ANN), i vores eget laboratorium. Hjerner er stærkt sammenkoblede netværk af neuroner, som kommunikerer ved at sende elektriske impulser gennem neurale ledninger. Tilsvarende simulerer et ANN i computeren et netværk af neuroner, når de tændes og slukkes som reaktion på andre neurons signaler.

Ved at anvende algoritmer, der efterligner processerne for ægte neuroner, kan vi få netværket til at lære at løse mange typer problemer. Google bruger en stærk ANN til sin nu berømte Deep Dream-projekt hvor computere kan klassificere og endda oprette billeder.

Vores gruppe studerer immunsystemet med det mål at finde ud af nye behandlinger for kræft. Vi har brugt ANN-beregningsmodeller til at studere korte overfladeproteinkoder, som vores immunceller bruger til at afgøre, om noget er fremmed for vores krop og derfor skal angribes. Hvis vi forstår mere om, hvordan vores immunceller (såsom T-celler) skelner mellem normale / selvstændige og unormale / fremmede celler, kan vi designe bedre vacciner og terapier.

Vi gennemsøgte offentligt tilgængelige kataloger over tusinder af proteinkoder, der er identificeret af forskere gennem årene. Vi delte dette store datasæt i to: normale selvproteinkoder, der stammer fra sunde humane celler, og unormale proteinkoder, der stammer fra vira, tumorer og bakterier. Så vendte vi os til et kunstigt neuralt netværk udviklet i vores laboratorium.

Når vi først fødte proteinkoderne ind i ANN, var algoritmen i stand til at identificere grundlæggende forskelle mellem normale og unormale proteinkoder. Det ville være svært for folk at holde styr på denne slags biologiske fænomener - der er bogstaveligt talt tusinder af disse proteinkoder at analysere i det store datasæt. Det tager en maskine at kæmpe for disse komplekse problemer og definere ny biologi.

Forudsigelser via maskinlæring

Den vigtigste anvendelse af maskinlæring i biologi er dens anvendelighed til forudsigelse baseret på big data. Computerbaserede forudsigelser kan give mening om big data, teste hypoteser og spare dyrebar tid og ressourcer.

For eksempel inden for vores felt af T-cellebiologi er det afgørende at vide, hvilke virale proteinkoder der skal målrettes, når det gælder udvikling af vacciner og behandlinger. Men der er så mange individuelle proteinkoder fra en given virus, at det er meget dyrt og svært at eksperimentelt teste hver enkelt.

I stedet uddannede vi det kunstige neurale netværk til at hjælpe maskinen med at lære alle de vigtige biokemiske egenskaber ved de to typer proteinkoder - normalt versus unormalt. Derefter bad vi modellen om at ”forudsige”, hvilke nye virale proteinkoder der ligner den ”unormale” kategori og kunne ses af T-celler og dermed immunsystemet. Vi testede ANN-modellen på forskellige virusproteiner, der aldrig er blevet undersøgt før.

Sikker nok, som et flittigt studerende, der er ivrig efter at behage læreren, var det neurale netværk i stand til nøjagtigt at identificere størstedelen af ​​sådanne T-celle-aktiverende proteinkoder inden for denne virus. Vi testede også eksperimentelt de proteinkoder, den markerede for at validere nøjagtigheden af ​​ANNs forudsigelser. Ved hjælp af denne neurale netværksmodel kan en videnskabsmand således forudsige hurtigt alle de vigtige korte proteinkoder fra en skadelig virus og test dem for at udvikle en behandling eller en vaccine i stedet for at gætte og teste dem individuelt.

Implementering af maskinlæring klogt

Takket være konstant raffinering bliver big data science og machine learning i stigende grad uundværlige for enhver form for videnskabelig forskning. Mulighederne for at bruge computere til at træne og forudsige i biologi er næsten uendelige. Fra at finde ud af, hvilken kombination af biomarkører, der er bedst til at opdage en sygdom, til kun at forstå hvorfor nogle patienter drager fordel af en bestemt kræftbehandling, minedrift af store datasæt ved hjælp af computere er blevet en værdifuld forskningsvej.

Selvfølgelig er der begrænsninger. Det største problem med big data science er selve dataene. Hvis data opnået ved -omics-studier er defekte til at begynde med eller er baseret på sjuskede videnskaber, bliver maskinerne trænet i dårlige data - hvilket fører til dårlige forudsigelser. Den studerende er kun så god som læreren.

Fordi computere ikke er følsomme (endnu), kan de i deres søgen efter mønstre komme op med dem, selv når der ikke findes nogen, der igen giver anledning til dårlige data og ikke-reproducerbar videnskab.

Og nogle forskere har rejst bekymring over, at computere bliver sorte kasser med data for forskere, der ikke klart forstår de manipulationer og manipulationer, de udfører på deres vegne.

På trods af disse problemer vil fordelene ved big data og maskiner fortsat gøre dem til værdifulde partnere inden for videnskabelig forskning. Med forbehold for øje er vi entydigt klar til at forstå biologi gennem en maskines øjne.

Om forfatterenThe Conversation

Sri Krishna, ph.d.-kandidat, biologisk design, School of Biological and Health Systems Engineering, Arizona State University og Diego Chowell, ph.d.-studerende i anvendt matematik, Arizona State University

Denne artikel blev oprindeligt offentliggjort den The Conversation. Læs oprindelige artikel.


Relateret bog:

at InnerSelf Market og Amazon