Gelukkige 25e verjaardag, Dragon!
In 1997 maakte Dragon NaturallySpeaking zijn debuut tijdens een groots opgezet evenement in het World Trade Centre in New York.
Vijfentwintig jaar later kijken we terug op de technologie van toen, hoe de oorspronkelijke visie om computers "menselijker" te maken en ze op een natuurlijke manier te gebruiken, zelfs naast het meedogenloze tempo van de technologische innovatie, en hoe deze vroege inzichten zich ontvouwden op een schaal die we ons toen nooit hadden kunnen voorstellen.
Tegelijkertijd brengen we hulde aan de menselijke vindingrijkheid om technologische innovatie te benutten en enkele van de grootste problemen van ons huidige tijdperk te helpen oplossen.
“Is het perfect, is het de computer in Star Trek?… nee…. maar over het algemeen doet het echt goed werk. En dat maakt het een grote stap voorwaarts.”
Michael Miller, hoofdredacteur, PC Magazine, 1997
Dat zei de hoofdredacteur van PC Magazine, Michael Miller, in 1997, toen Dragon Systems (nu Nuance) Dragon NaturallySpeaking uitbracht in het World Trade Centre in New York City. Het technologielandschap zag er in 1997 heel anders uit. Steve Jobs trad opnieuw toe tot Apple als CEO en Windows 95 - de eerste "moderne" Windows - won marktaandeel.
De IEEE lanceerde de "802.11" standaard - nu bekend als "Wi-Fi" - om computers draadloos te verbinden met het nog jonge World Wide Web.
Productiviteitsbewuste professionals maakten zich de handschriftherkenning "Graffiti" van de Palm Pilot eigen toen de Personal Digital Assistants vijf jaar voor de eerste Blackberry-smartphone hun intrede deden. De "dansende baby GIF" was de eerste sensatie van het internet.
Mark Zuckerberg zat nog niet op Harvard, en twee Stanford drop-outs - Larry Page en Sergey Brin - gaven hun "BackRub" zoekmachine een nieuwe naam door de domeinnaam google.com te registreren!
Het was tegen deze achtergrond dat Dragon Systems zijn eigen stempel drukte door het eerste spraakherkenningsprogramma op de markt te brengen dat natuurlijke, menselijke spraak begreep en omzette in tekst.
Het programma heette natuurlijk "Dragon NaturallySpeaking" en gaf de aanzet tot een revolutie in de manier waarop mensen, en uiteindelijk hele bedrijfstakken, met computers omgaan en hun productiviteit met documentatie verhogen.
Het concept van computers die menselijke spraak begrijpen was niet nieuw ("de computer" in Star Trek blijft een populair cultureel kenmerk). Vroege spraakherkenningssystemen hadden aanzienlijke beperkingen - ze werkten met een beperkte, vooraf gedefinieerde woordenschat, en gebruikers moesten woorden afzonderlijk uitspreken op een haperende, staccato-achtige manier.
De nauwkeurigheid van de herkenning was vaak middelmatig, en de transcriptiesnelheid was vaak niet veel sneller dan het traditionele typen. Dragon NaturallySpeaking was op dat moment weliswaar "niet perfect", maar betekende een enorme verandering in de aanpak van eerdere tekortkomingen.
Het was de eerste software die spraakherkenning praktisch maakte voor zakelijke dienstverleners, studenten, auteurs, bloggers, mensen met fysieke of cognitieve beperkingen en drukke ouders die tijd wilden terugwinnen in hun hectische leven.
Tegenwoordig vinden we het vanzelfsprekend dat we met computers kunnen praten en dat ze onze bedoelingen begrijpen of onze stem - het meest natuurlijke invoermechanisme dat er bestaat - kunnen omzetten in nauwkeurige tekst.
Maar hoe zijn we gekomen van de eerste spraakherkenningssystemen en de "grote stap voorwaarts maar niet perfect" Dragon NaturallySpeaking uit 1997, tot de spraakherkenningssystemen van vandaag, zoals Nuance Dragon Professional Anywhere en Nuance Dragon Medical One, die snel en tot 99% nauwkeurig zijn en beschikbaar zijn voor verschillende sectoren, zoals de gezondheidszorg, wetshandhaving en de juridische sector?
Hoe kwam het magische vermogen om onze stem in tekst om te zetten beschikbaar op de smartphones die we tegenwoordig overal bij ons hebben?
Hoe kon spraakherkenning effectief omgaan met mensen met accenten en beschikbaar worden in wereldtalen als Duits, Spaans, Frans, Zweeds, Nederlands en Italiaans? Het antwoord is misschien het best te vangen in twee woorden: technologische convergentie.
Moderne spraakherkenning is in wezen een statistisch spel met getallen, versterkt door technologische convergentie. Wanneer de stem van een persoon digitaal wordt vastgelegd, koppelt software die geluiden aan woordreeksen. Een akoestisch model vergelijkt de stem met enorme digitale bibliotheken van fonemen (de kleinste eenheden van medeklinkers en klinkers in een gesproken woord), terwijl een taalmodel voor context zorgt (door onderscheid te maken tussen woorden die hetzelfde klinken, zoals "of" en "weer").
Het resultaat is spraak die wordt omgezet in tekst. In de afgelopen tien jaar zijn de belangrijkste technologieën die dit praktisch en economisch haalbaar maken voor de industrie volwassen geworden.
Enorme rekenkracht (vaak geleverd via cloud-hosting platforms zoals Microsoft Azure), enorme akoestische bibliotheken, zeer geavanceerde algoritmen (aangedreven door de vooruitgang in machinaal leren en AI), snellere, steeds krachtigere hardware (de nieuwste smartphone) en de alomtegenwoordige beschikbaarheid van snelle, mobiele connectiviteit (de huidige uitrol van 5G-netwerken), hebben gezamenlijk gezorgd voor het wonder van betaalbare spraakherkenning zoals we dat nu kennen.
Hoewel de term "kunstmatige intelligentie" tegenwoordig overal lijkt te zijn, was het in feite de spraakherkenning - een technologie die zijn oorsprong vindt in de jaren zeventig van de vorige eeuw - die als een van de eerste en misschien wel als grootste profiteert van de diepgaande vooruitgang.
De afgelopen 25 jaar heeft Nuance vastgehouden aan de visie om computers menselijker en natuurlijker te maken. Deze nalatenschap is vandaag de dag zichtbaar in de miljoenen artsen die Nuance Dragon Medical One gebruiken om het verhaal van de patiënt nauwkeurig en met empathie vast te leggen, terwijl burn-out bij de arts wordt tegengegaan.
Het is zichtbaar in de duizenden ordehandhavers die Nuance Dragon Overheid gebruiken om veilig, "heads up" en situatiebewust politierapporten vast te leggen die drie keer zo snel zijn als het typen in hun patrouillevoertuigen.
Het is zichtbaar in zorgberoepen zoals maatschappelijk werkers die snel aantekeningen en inzichten van cliënten vastleggen in hun mobiele werkomgeving die hun "kantoor" vormt. Het verandert het leven van mensen met een fysieke of cognitieve handicap, omdat Nuance haar steentje bijdraagt aan de doelstellingen van de gehandicaptenbeweging. Tot slot krijgt de visie vandaag vorm nu Nuance - nu een Microsoft-bedrijf - Ambient computing bevordert als de volgende grens in intelligente AI om "klinische documentatie te genereren die zichzelf schrijft" in de gezondheidszorgsector.
Dus, gefeliciteerd met je 25e verjaardag, Dragon!
We kunnen niet wachten om te zien wat je de komende vijfentwintig jaar gaat doen!
Lees verder: