Spraakherkenningversus spreker-herkenning

Spraakherkenning moet je niet verwarren met spreker herkenning of stemherkenning. Bij spraakherkenning wordt de spraak omgezet in tekst. Bij spreker herkenning of stemherkenning wordt de persoon herkend aan zijn of haar stem.

Vóór het digitale tijdperk werd stemherkenning toegepast als een vorm van forensisch onderzoek. Analisten vergeleken dan spectrogrammen, de visuele afdruk van stemfrequenties. Tijdens de Tweede Wereldoorlog werd de techniek bijvoorbeeld gebruikt om geruchten te ontzenuwen als zou Adolf Hitler zijn vermoord, en vervangen door een dubbelganger.

Spraak kan je altijd verstaan, ongeacht wie de spreker is. Dat is best knap, want geen twee sprekers gebruiken dezelfde klanken. Er is altijd wel een klein verschil in bijvoorbeeld stembandsluiting of plaatsen van de tong in de mond. Toch weten we precies wat wordt gezegd en tegelijkertijd herkennen we de spreker. Je weet direct of je een vriendin of een vreemde aan de telefoon hebt.

Ik sta steeds weer versteld hoe een blinde of slechtziende persoon na één woord, bijvoorbeeld 'hoi', de persoon meteen herkent. Terwijl ik nog op de naam moet komen en graven in mijn geheugen, wordt direct een groet inclusief naam teruggeroepen. Het optimale van stemherkenning en sprekerherkenning.

Is de techniek al zover of is ze zelfs al beter dan een mens?

Stemherkenning kent twee toepassingsgebieden

het herkennen van een persoon zonder dat deze tevoren bekend is
het bevestigen van een identiteit

In het eerste geval zal het stempatroon moeten worden vergeleken met een serie stemmen in een database of geheugen, in het tweede geval met een enkel stempatroon waarvan vaststaat dat het bij de persoon hoort.

Stemherkennen in de maatschappij

In de banksector wordt stemherkenning gebruikt als verificatiemiddel bij telefonisch bankieren. Zo moeten klanten van ABN AMRO het rekeningnummer inspreken. Dit is dus een combinatie van stem- en spraakherkenning.

Verzekeringen en financiën, en in de gezondheidszorg, passen stemherkenning toe om personen foutloos te identificeren, en zo fraude onmogelijk te maken. Naast stemherkenning gebruiken de verzekeraars ook emotie herkenning. Ervan uitgaande dat de fraudeur met een lichte trilling in zijn stem de (zogenaamde) schade doorgeeft.

Wat is het verschil tussen een mannenstem en een vrouwenstem. Of kinderstemmen.

Wat zeggen de wetenschappers?

Wetenschappers van de Universiteit Maastricht onderzochten welk gedeelte van de hersenen betrokken is bij spraakherkenning en welk bij sprekerherkenning. Hierbij gebruikten ze hersenscans (fMRI) van luisteraars.

Op deze hersenscans was activiteit zichtbaar terwijl er werd geluisterd naar 3 klinkers (a, i en o) uitgesproken door drie verschillende sprekers.

Hieronder de afbeelding:

Rood: klinkerherkenning
Blauw: sprekerherkenning

Tijdens de fMRI werd zichtbaar dat er gebieden in de hersenen zijn die de spraak herkennen en andere gebieden die de spreker herkennen. In het ene gebied, die de spraak herkent, maakt het niets uit wie het zegt. In andere gebieden maakt het niets uit wat er wordt gezegd.

Beide gebieden lijken in de primaire auditieve gebieden te liggen en niet in ‘hogere level’-gebieden, wat de onderzoekers hadden verwacht.

Er zijn mensen die de sprekers nooit herkennen maar wel de taal begrijpen en het gesprek kunnen volgen. Zij moeten het hebben van visuele ondersteuning of luisteren naar de verhalen om de persoon erbij te vinden. Misschien herkenbaar wanneer iemand belt en je aan de telefoon amicaal aanspreekt. Je hebt geen idee wie die persoon is en door slimme vragen te stellen scan je je hersenen af naar wie die 'Jan' of 'Piet' toch kan zijn.

Wie zegt wat?

De onderzoekers verwachtten dat de spraak- en/of sprekerherkenning stap-voor-stap zou plaatsvinden, dit lijkt niet zo te zijn, om meer duidelijkheid hierover te krijgen is meer onderzoek nodig. Wellicht werkt het zoals Deep Learning waarin alle connecties tegelijk worden gebruikt.

Dragon Cloud oplossingen van Nuance, de nieuwste versies, gebruiken Deep Learning principe en kunnen daardoor vele malen sneller de taal naar tekst omzetten dan de oudere versie. Ook is de herkenbaarheid hoger.

Meer over deze werkmethode vind je in de blog:

Hoe wordt deep learning ingezet voor de nieuwste methode van spraakherkenning?

Geldt dit ook voor andere talen?

De gedeelten van de hersenen welke worden gebruikt voor de herkenning zijn bij de verschillende talen anders. Bij Chinees lezen en schrijven worden andere gedeelten van de hersenen gebruikt dan bij Engels lezen en schrijven. Of dit ook geldt voor het herkennen van spraak en spreker is niet onderzocht.

Informatie over gebruik hersenen vind je hier.