Deep learning techniek bij de nieuwste versie Dragon heeft als voordeel dat er vooraf meer kennis in het netwerk wordt geplaatst. De beginherkenning is vele malen hoger door jarenlange ervaring van auteurs, gebruikers en programmeurs. Duizenden uren van woorden inspreken en trainen met diverse testers uit meerdere dialectgebieden verschaffen veel data.
Deze nieuwe architectuur geeft een aantal variaties die uit de gegevens kunnen worden geleerd en ondersteunt varianten in menselijke spraak, accenten en dialecten. Het resultaat is een meer deskundige en nauwkeurigere spraakengine.
In de wereld van de spraakherkenning "hoort" en herkent Dragon (Medisch of Professional) kleine stukjes geluid; bouwt het voort op geluiden om fonemen te herkennen. Tenslotte bouwt het voort op fonemen om woorden te identificeren.
▶ test vrijblijvend de Medische of Professionele spraakherkenning uit ◀
Het oude model daarentegen doet het volgende
De bestaande spraakherkenningsaanpak kan werken totdat de engine een nieuw dialect of een nieuw accent tegenkomt, of soms eigenaardigheden in de manier waarop iemand spreekt. Op dat moment kan Dragon niet verder omdat hij niet weet hoe hij het nieuwe foneem in een woord moet omzetten; het oude model heeft een nieuw akoestisch model nodig.
Het speech engines end-to-end neural netwerk van de nieuwe spraakengine lost het probleem op. Door te leren van de verschillende variaties in spraak en de trainingsgegevens te gebruiken. Door te leren hoe verschillende uitspraken automatisch aan hetzelfde woord kunnen worden gekoppeld.
Hoe meer voorbeelden, hoe nauwkeuriger de herkenning. Bovendien kan de engine een onbeperkt aantal dialecten en accenten - allemaal in één uitgebreid model - plaatsen. Hij kan ervoor zorgen dat woorden correct in zinnen worden gezet.
Het end-to-end neural netwerk wordt gevuld met een grote hoeveelheid ruwe gegevens en overeenkomstige antwoorden en evalueert de uitvoer die vergeleken wordt met het antwoord.
Dit proces kan duizenden keren worden herhaald. Zodra het model de nauwkeurigheidscontroles doorstaat, is het klaar om de database te voeden voor de verwachte transcriptie.
Deze architectuur kan het gebruik van een afzonderlijk akoestisch lexicon vermijden omdat er geen behoefte is aan een "source of truth". De waarheid wordt geleerd uit de trainingsgegevens.
Vele waarheden kunnen naast elkaar bestaan door vele inputs (audiobits) te laten mappen naar een output (tekst).
Het is overbodig om in te grijpen bij het proces. In wezen vervangt Dragon het gebruik van taalkundige bronnen door een gegevens gestuurde leermethode.
Het state-of-the-art deep-learning systeem bereikt met een end-to-end ontwerp aanzienlijk betere resultaten; resultaten die nog beter worden met extra training, zowel wat betreft nauwkeurigheid als snelheid.
Op zoek naar spraakervaringen van de volgende generatie?
Probeer zelf deze nieuwe Dragon versies uit: Professional of Medisch
Lees verder:
Automatische spraakherkenningsmodellen trainen met geanonimiseerde gegevens
Ondanks het anoniem maken van de gesproken namen door Dragon Medisch, behoudt Dragon een goede leercurve met handhaving van security. Hoe doet Nuance dat?
Privacy is enorm belangrijk vooral in de medische wereld. Voor optimalisatie van de herkenning voor spraak-naar-tekst worden alle woorden, zinsdelen en zinnen opgeslagen met daarbij de audio per auteur.