Talk To Me Computer: Stemmestyring starter

Hvis uventede pakker begynder at dukke op ved din dør, vil du måske have et ord med en af ​​dine smarte enheder.

Tidligere på måneden spurgte en seks-årig i Dallas sin families Amazon Echo smart højttaler til et dukkehus. Og Alexa, Amazons Siri-lignende kunstige assistent, straks beordrede en til deres hus.

Et tv-nyhedsprogram fra San Diego hentede historien og gentog den utilsigtet, da et af nyhedsankerne kommenterede: "Jeg elsker den lille pige og siger 'Alexa bestil mig et dukkehus'." Overhørende dette, flere andre Amazon-enheder i hjem i hele San Diego forsøgte at købe flere dukkehuse.

CW6 San Diego-nyhedsrapport om Alexa's utilsigtede dukkehuskøb.

{youtube}oI2KLIULjXc{/youtube}

Historien lyder måske bedrøvet kendt for alle, der har forsøgt at føre en samtale med Apples Siri eller Microsofts Cortana. Vores enheder er blevet ganske gode til at lytte til os, men det betyder ikke altid, at de forstår.

Forskere hos Microsoft pegede for nylig på dette som et potentielt problem med nutidens talende grænseflader: de markedsføres som “intelligente” assistenter med kloge vittigheder og verdslig viden, men de frustrerer os ofte med deres mangel på sund fornuft.


indre selv abonnere grafik


I en lille undersøgelse, fandt forskerne, at de mennesker, der fortsatte med at tale med deres digitale assistenter over tid, var dem, der var startet med de laveste forventninger.

Hvad gør en stemmegrænseflade faktisk?

Når du taler til en stemmegrænseflade, skal den:

  • "Hør" lyden af ​​din stemme og skel den fra baggrundsstøj
  • finde ud af, hvor hvert ord begynder og slutter, idet du ignorerer dine "umms" og "ahhs"
  • matche lyden af ​​hvert ord til et ord i ordbogen, og vælg det rigtige fra konteksten, hvis der er homofoner
  • fortolke betydningen af ​​hele sætningen korrekt
  • generere et meningsfuldt og nyttigt svar, der matcher din anmodning.

Hver af disse er en kompleks teknisk udfordring, og forskellige teknologivirksomheder har gjort fremskridt inden for forskellige områder.

Google Now er god til at give relevante svar på en bred vifte af anmodninger, fordi det drager fordel af Googles informationskort om internettet og dine personlige aktiviteter, hvis du bruger Google-tjenester.

Amazon Echo er især god til at høre dine anmodninger fra hele et støjende rum takket være et støjreducerende mikrofonarray til fjerntliggende områder. Selvfølgelig er det også godt til at foretage køb gennem Amazon.

I løbet af de sidste par år er stemmegrænseflader blevet meget bedre til at forstå hverdagens eller "naturlige" tale snarere end kun stilede og omhyggeligt formulerede kommandoer. De er stadig bedre til at håndtere enkle forespørgsler, som "hvem spiller i Australian Open?", Og har tendens til at kæmpe med mere komplicerede anmodninger, som "hvem spiller i Australian Open for første gang i år?", Og opfølgning spørgsmål, som "vil det regne under finalen?".

Situationen er endnu mere blandet for andre sprog end engelsk: mens Siri understøtter mere end 40 sprog og dialekter, er Alexa indtil videre kun tilgængelig på engelsk og tysk. Men alle disse funktioner forbedres støt.

Hvor stemmegrænseflader stammer

Så vil stemmegrænseflader snart overtage al vores teknologi, som forudsagt i filmen Hendes? Gartner, et teknologiforskningsfirma, har forudsagt at inden næste år vil 30% af vores interaktion med teknologi være samtaler med stemmeaktiverede grænseflader.

Men stemmegrænseflader har begrænsninger, og ikke alle kan løses ved bedre teknologi.

Stemme er et centralt middel til grænseflade med teknologi i Spike Jonzes film Her.

{youtube}ne6p6MfLBxc{/youtube}

Støjforurening er en stor forhindring. Kan din enhed skelne mellem hvad du siger fra baggrundsstøjen omkring dig? Teknologi kan hjælpe med det, herunder støjreduktion, personlig stemmegenkendelse og læselæsning.

Men hvad med den baggrundsstøj, du opretter for andre ved at tale med din smartenhed? Forestil dig en person, der sidder ved siden af ​​dig på kontoret - eller i et fly - chatter med Siri, mens du prøver at læse, og du kan se, hvorfor stemmegrænseflader måske ikke altid er socialt acceptable.

Et andet sæt spørgsmål kommer fra de mentale krav til stemmegrænseflader. At lære at bruge et stemmebaseret system kan være svært, især hvis der ikke er nogen skærm, som med Amazon Echo.

Hvis du nogensinde har ringet til en bank eller et telefonselskab, kender du den elendige kombination af koncentration og kedsomhed, der kommer fra at lytte til en syntetiseret stemmeliste med alle dine muligheder, mens du venter på den, du har brug for, og prøv ikke at blande dem op. Traditionelle grafiske grænseflader undgår dette problem ved at vise dig de tilgængelige muligheder og lade dig hurtigt trykke på dit valg.

Når du har lært stemmekommandoer, kan det være distraherende at bruge dem. Forskere har fundet ud af, at stemmekommandoer afspore dit tankegang mere end en mus og et tastatur.

Dette er især farligt for stemmegrænseflader i bilen: et par undersøgelser fra University of Utah fandt ud af, at chauffører var det distraheret i op til 27 sekunder efter brug af stemmekommandoer.

University of Utah / AAA Foundation for Traffic Safety research om førerens distraktion.

{vimeo}108281698{/vimeo}

Finder dens stemme?

Så stemmegrænseflader vil sandsynligvis ikke overtage helt, men de finder nyttige nicher i vores liv. De er allerede almindelige i biler, hvor de forhåbentlig bliver mindre distraherende, når teknologien forbedres.

I køkkenet kan du bede Alexa om at tale dig gennem en opskrift eller opdatere din indkøbsliste, mens dine hænder har travlt med at lave mad. I virtual og augmented reality kan stemmegrænseflader lade dig styre systemet, når du slet ikke kan se dine hænder.

I sprogindlæring kan de bruges til at øve udtale. Vigtigst er det, at stemmegrænseflader hjælper brugere med motorisk handicap, RSI eller dysleksi med at overvinde deres handicap.

Stemmegrænseflader er en længe ventet teknologi, og der er gode grunde til at tro, at deres tid endelig er kommet. Husk bare, at de måske endnu ikke er så kloge, som de lyder. Og du vil muligvis lægge en PIN-kode på stemmekøb, hvis børn er i nærheden.

The Conversation

Om forfatteren

Fraser Allison, ph.d.-kandidat i interaktion mellem menneske og computer, University of Melbourne

Denne artikel blev oprindeligt offentliggjort den The Conversation. Læs oprindelige artikel.

Relaterede emner

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market og Amazon