MIKROCONTROLLER
Spracherkennung
mit VoiceDirect
Experimentierkit für Embedded -Anwendungen
Das VoiceDirect Speech Recognition Kit der US- Erst vor gut fünf Jahren stellte ein Indu-
strieunternehmen den Prototypen eines
amerikanischen Firma Sensory stellt ein leicht
Systems vor, der einzelne (diskrete) Wörter
verstehen konnte. Die Gründe für die
anzuwendendes Werkzeug dar, um beliebige Applikationen
Schwierigkeiten sind auch eher linguisti-
scher denn elektronischer Natur.
mit einer Spracherkennungsfunktion auszustatten.
Sprache als typisch menschliche und
gesellschaftliche Erscheinung ist ein
System von Zeichen und Kombinations-
regeln. Der Akt der Kommunikation, die
physikalische Dareichungsform der
Sprache kann vielgestaltig, kann
geschriebener oder gesprochener Text
sein, kann aus Grafiken, aus Handbewe-
gungen und Gesten bestehen. Alle, die
mit einem bestimmten Sprachsystem ver-
traut sind, können über das Mittel Spra-
che miteinander kommunizieren. Die Auf-
gabe einer computergestützten Spracher-
kennung (eigentlich Sprech-Erkennung)
ist es, eine physikalische Form der Spra-
che in eine andere zu verwandeln, näm-
lich von Sprechen nach Schreiben, ähn-
lich wie ein OCR-System von grafischen
Symbolen (Schriftzeichen) nach Schreiben
oder eine Sprachsynthese von Schreiben
nach Sprechen konvertiert.
Bevor wir einer Maschine das Verstehen
beibringen, soll erst einmal geklärt wer-
PC-Bereich als auch (und besonders) in den, was es mit dem Sprechen auf sich
Features
embedded Applikationen Möglichkeiten, hat (Bild 1). Basis des Sprechens ist die
- Sprecherabhängige Spracherkennung
die wir uns heute noch gar nicht träumen Fähigkeit des Menschen, mit Stimmbän-
- Minimale Anzahl externer Komponenten
lassen. Nicht ohne Grund sehen Experten dern, Mund, Zunge und Lippen Töne
- Erkennt bis zu 15 Wörter oder Phrasen
diese junge Technologie als Schrittmacher (Allophone) zu formen. Dies ist zunächst
- Erkenngenauigkeit über 99%
einer elektronischen Revolution aller ein rein physikalischer Vorgang. Die pysi-
- Phrasenlänge bis 3,2 s
Bereiche des privaten und öffentlichen kalischen Gegebenheiten (Länge der
- Benutzerfreundliche Eingabe
Lebens, die uns in den nächsten Jahr- Stimmbänder, Resonanzraum ...) sind der
- Kurze Setup-Zeit
zehnten erwartet. Grund dafür, warum zwei Menschen ein
Allophon nur in unterschiedlicher Ton-
Ein jahrhundertealter Traum der Menschheit scheint höhe und Klangfarbe, im Format der
Klassifizierung
seiner Erfüllung entgegenzugehen. Durch schnelle Stimme erzeugen können. Oder physika-
Computerchips, billige und große Speichermedien In einer Zeit, in der technisch fast nichts lisch ausgedrückt: Die Höhe des Grund-
und eine mittlerweile ausgefeilte Programmiertechnik unmöglich erscheint, hat sich die For- tons und das Gemisch der Oberwellen
ist eine die menschliche Sprache verstehende schung mit der computergestützten Spra- variieren in gewisser Weise, weisen aber
Maschine keine Utopie mehr. Dies eröffnet sowohl im cherkennung erstaunlich schwer getan. auch bestimmte Gemeinsamkeiten auf.
52 Elektor 4/2000
MIKROCONTROLLER
Obwohl die computergestützte Spracher-
Sa t z
kennung auf dieser noch vorsprachlichen
Verbalphrase
Ebene basiert, reicht die Information zur
erfolgreichen Erkennung eines Wortes
Morphemklassen Nominalphrase Verb Nominalphrase
oder eines Satzes noch nicht aus.
Endung Endung
3. Plural
Die unterste Sprachebene gebraucht
Artikel Nomen Plural Verb Präsens Nomen
Allophone, um Phonemen zu erzeugen,
kleinste bedeutungsunterscheidende
die Tier e sauf en Sud
Morpheme
sprachliche Einheiten. Ein Beispiel: Die
Wörter rein und fein unterscheiden sich
Morphemische
durch die Phoneme /f/ und /r/, Maus und
Segmente
di: ti:r e zauf en zu:D
Haus durch /m/ und /h/. Ein Phonem (Allomorphe)
kann ein einzelner Ton sein, aber auch
di: ti:re zaufen zu:t
Phoneme
aus mehreren, nicht trennbar verknüpf-
ten Lauten bestehen. Bekannt dürften
Phonetische
Phoneme durch ihre geschriebene Reprä-
di: thi:R zaufenzu:t
Segmente
sentation, der Lautschrift, sein.
(Allophone)
Jede Sprache verfügt über ein Inventar
Di e Ti er e sauf en Sud
an Phonemen, die deutsche etwa über 21 Äußerung
vokalische und 25 konsonantische.
005065-13
Andere Sprachen besitzen mehr oder
Bild 1. Sprechen und Sprache: eine Hierarchie
weniger unterschiedliche Phoneme. Dies
ist übrigens der Grund dafür, dass wir
manche fremdartigen Laute partout
nicht aussprechen können, da wir nicht es handelt sich um eine öffentliche gleich klingenden Worten (Moor, Mohr) oder bei
von einer Sprache genutzte Phoneme im Anwendung, die von vielen Personen Homonymen (ein Wort, mehrere Bedeutungen). Die
frühkindlichen Stadium verlernen (!). benutzt werden soll (zum Beispiel eine Lösung der Probleme könnte die Grammatik sein -
Eine Spracherkennung verfügt über eine Telefonauskunft, ein Fahrkartenauto- wenn sie nicht so viele Ausnahmen hätte. Nach
Liste von Phonemen in Form einer Tabelle mat, ein elektronischer Kiosk ) dem heutigen Stand endet computergestützte
mit relativen Formatangaben. Die Anga- die Aufgabe der Spracherkennung ist Spracherkennung spätestens an der Ebene der
ben dieser Liste ignorieren die unter- so einfach, dass ein unabhängiges morphologischen Segmente. Stattdessen kommt
schiedlichen Klangfarben und Tonhöhen System völlig ausreicht (zum Beispiel ein statistisches Modell zum Einsatz, eine etwas
von Sprechern derselben Sprache. Mit die- die Unterscheidung zwischen JA und brachiale, aber wirkungsvolle Methode.
sen Informationen ist eine Spracherken- NEIN) Wieder muss die Spracherkennung lernen, diesmal
nung durchaus funktionsfähig - und wird das Spracherkennungssystem stellt aber ohne bewusstes Zutun des Sprechers. Die
in dieser sprecherunabhängigen Form (mit einen erheblichen Kostenfaktor des Software analysiert alles, was ihr jemals zugeführt
geringem Wortschatz) auch eingesetzt. Endprodukts (zum Beispiel in Spiel- wurde, und bildet daraus einen Wahrscheinlich-
Eine leistungsfähigere Spracherkennung, zeug, Lichtschaltern, Küchengeräten) keits-Baum aller Kombinationen von Phonemen
die einen großen Wortschatz erkennen dar. Sprecherabhängige Systeme und daraus resultierenden Wörtern. Beginnt man
soll, muss allerdings individuell in oft benötigen nämlich einen teuren, vom nun mit der Spracheingabe, analysiert die Soft-
mühevollen Trainingssitzungen an den Anwender editierbaren Speicher wie ware jedes Phomem und versucht, es mit höchster
oder die Sprecher angepasst werden. Dies RAM oder Festplatte, in dem gelernte Wahrscheinlichkeit einem Wort zuzuordnen. Pho-
ist zum Beispiel für PC-Software zur Text- Wortmuster aufbewahrt werden. Natür- nem für Phonem, Wort für Wort rutscht man den
eingabe unverzichtbar. Trotz intensiven lich muss die unabhängige Spracher- Wahrscheinlichkeits-Baum hinunter, wobei man
Trainings läuft heutzutage erhältliche kennung eines Produkts so gestaltet auch auf einen schon übersprungenen Zweig
Software bei weitem nicht fehlerfrei. sein, dass die Wörter mit einer akzepta- wechseln kann, sollte sich dort eine höhere Wahr-
Einfacher hat es da eine sprecherabhän- blen Wahrscheinlichkeit korrekt erkannt scheinlichkeit ergeben. Die endgültige Entschei-
gige Anwendung wie die hier vorge- werden und eine Fehlerkennung keine dung, welcher Weg durch den Wahrscheinlich-
stellte, die nicht den natürlichen Sprach- negativen Folgen hat. kiets-Baum der richtige ist, fällt erst am Ende eines
fluss, sondern nur diskrete Wörter erken- Satzes. Und dann kann die Textausgabe auf dem
nen muss. Hier fällt das Training Monitor erfolgen.
Bedeutende Worte
wesentlich einfacher aus und ist in ein Wegen dieses statistischen Verfahrens benötigt
paar Minuten erledigt. Bisher ist die Spracherkennung in der Spracherkennungssoftware Unmengen an Arbeits-
Lage, Phoneme mit hoher Sicherheit zu speicher. Alle Knoten des Baums müssen bis zum
erkennen. Nun ist ein Phonem aber kein Satzende gespeichert bleiben, damit ein nachträg-
Abhängig
Wort und erst recht kein Satz. Die PC- liches Wechseln des Zweiges möglich bleibt.
oder unabhängig?
Software muss entscheiden, welche Pho-
Ein sprecherabhängiges System erzielt neme des natürlichen Sprachflusses (der
VoiceDirect: IC und Kit
immer bessere Resultate als ein sprecher- ja zwischen den Worten nicht immer eine
unabhängiges. Deshalb sollte man sich Pause einhält) zusammen und welche Nach diesem kleinen Exkurs in die Linguistik und
immer für eine sprecherabhängige nicht zusammen gehören. Noch kompli- die Arbeitsweise können wir uns ganz dem Voice-
Spracherkennung entscheiden, es sei denn zierter wird es bei sehr ähnlich oder Direct-Spracherkennungskit widmen. Herz des
4/2000 Elektor 53
MIKROCONTROLLER
Kits ist das VoiceDirect SpeechRecognition IC mit Oscillator
der Bezeichnung RSC-16402, dessen Innenleben
in Bild 2 dargestellt ist. Der hochintegrierte Chip
Microphone
enthält neben der CPU, dem neuralen Netzwerk
A/D Converter
External and DTMF
eingangsseitig einen Analog/Digitalwandler (samt
Audio signal
Preamp Generator
Processor
digitalem Signalprozessor) für den Anschluss
Control AMP
Processor
eines externen Mikrofonverstärkers. Dessen Ver-
Speech
Speaker
Synthesizer
stärkung wird von einem AGC-Schaltkreis
AGC
DAC
bestimmt. Ausgangsseitig sehen wir einen DTMF-
(Telefonton-) Generator und parallel einen Sprach-
synthesizer, deren Ausgangssignale sowohl auf
Voice DirectTM
I2C Digital
Interface I/O
einen Digital/Analog-Wandler als auch auf einen
External
ROM
005065 - 12
Interface
PWM-Leistungsverstärker geführt sind. Damit ist
das Ausgangssignal hochohmig (für einen exter-
nen Verstärker) als auch leistungsverstärkt ver-
Bild 2. Das schematisierte Innenleben des VoiceDirect Speech Recognition IC.
fügbar, so dass ein Lautsprecher direkt ange-
schlossen werden kann.
Die CPU stellt drei Ports zu Verfügung, an denen
externe ROM-und EEPROM-Bausteine, eine seriel- stärker, ROM und EEPROM und den ab. JA ist leicht von NEIN zu unterschei-
les I2C-Schnittstelle sowie insgesamt 11 digitale Oszillator (Bild 3). Auch im Stand-alone- den, da die Zahl der Wahlmöglichkeiten
I/O-Leitungen angeschlossen werden können. Modus ist eine vollständige Steuerung gering ist und die beiden Wörter unter-
Über das serielle 3-Draht-Interface ist eine Steue- des ICs gegeben, allerdings kann es nur schiedlich klingen. Erfolglos dürfte eine
rung des ICs durch einen externen Host möglich. ein Set á 15 Wörter verwalten. Spracherkennung dagegen bleiben, wenn
Nur in diesem Modus erreicht das VoiceDirect-IC sie zum Beispiel zwischen ZWEI, DREI
seine volle Leistung. Es erkennt bis zu 60 Wörter, und BREI oder zwischen SUPPE und
Wortwahl
die in bis zu acht Sets unterteilt sind (dazu spä- PUPPE unterscheiden soll. Die Schlüssel-
ter mehr). Das Experimentierkit arbeitet allerdings Der Erfolg einer Spracherkennung hängt wörter sind so festzulegen, dass sich Klang
im Stand-alone-Modus. Es stellt alle notwendigen vor allem von der Anzahl der Schlüssel- und Zahl der Phoneme unterscheiden,
externen Komponenten zur Verfügung: Mikro-Ver- wörter und der ähnlich klingenden Wörter also etwa ZWO, DREI und SUPPE oder im
MIC
5V
LS
Recognize
Train
Reset
005065 - 11
Bild 3. Vorbereitet zum Stand-alone-Betrieb: Das Experimentierkit von Sensory.
54 Elektor 4/2000
510
&!
510
&!
510
&!
MIKROCONTROLLER
anderen Fall BREI und PUPPE. genannte Set zur gegebenen Zeit wech- stem in einer Art Ruhe-Modus zu betreiben. Durch
Auch wenn das System eine große Zahl selt und so die Zahl der möglichen Wör- ein möglichst einzigartiges Triggerwort wird das
auch ähnlich klingender Schlüsselwörter ter zu jedem Zeitpunkt gering hält.
System aktiviert und erst danach mit dem Schlüs-
identifizieren soll, lassen sich die Wahl-
selwort die Aktion gestartet. Die Kombination
möglichkeiten reduzieren, allerdings nur
Ruhepausen
WANDUHR...ZEIT dürfte weitaus weniger Fehler
dann, wenn der Spracherkennungschip
produzieren.
von einem Host-Prozessor gesteuert wird. Bei der Wahl der Schlüsselwörter oder
Erstaunlicherweise beeinflusst auch eine solch tri-
So stellt der Sprachsynthesizer eine Phrasen, auf die ein Spracherkennungs-
viale Eigenschaft wie der Stromverbrauch die
Frage, das System erwartet entweder ein system reagiert, spielt die Umgebung
Arbeitsweise des Spracherkennungssystems. Ein
JA oder ein NEIN, bei der nächsten Frage eine wesentliche Rolle. Eine Wanduhr
kontinuierlich aktives System würde bei einem
muss es nur zwischen BREI und PUPPE zum Beispiel gibt auf das Schlüsselwort
Stromverbrauch von nur 10 mA eine Batterie in nur
unterscheiden, während eine weitere DATUM das Datum und auf ZEIT die
kurzer Zeit erschöpfen und müsste über ein Netz-
Frage entweder mit ZWO, DREI oder Uhrzeit aus. In einer geräuschvollen
teil versorgt werden. Soll das System mobil, bei-
SUPPE beantwortet wird. Obwohl das Umgebung (einem Büro oder einem Kon-
spielsweise in einer Spielzeugpuppe eingesetzt
System dann insgesamt sieben zu Teil ferenzsaal) würde die Uhr häufig und
werden, muss es in einem stromsparenden Sleep-
sehr ähnlich klingende Wörter unter- zufällig die Uhrzeit ansagen, da das
Modus betrieben und nur kurzzeitig, etwa für
scheiden muss, kann es zu Verwechslun- Schlüsselwort ZEIT oft in anderem
einige Sekunden nach einer Frage einer Sprach-
gen kaum kommen, da die Software des Zusammenhang gebraucht wird.
Hosts das aktive Vokabular, das so Sinnvoll ist es, das Spracherkennungssy- ausgabe, aktiv sein.
Pinout VoiceDirect-Modul
Name Modul-Pin Beschreibung Anschluss I/O
JP1 - 1...17
JP2 - 9 Nicht verwendet Nicht angeschlossen
JP3 - 1...9
PREAMP IN JP2 - 1 Mikro-Eingang Mikro nach Masse I
MIC BIAS JP2 - 2 Mikro-Versorgung Elektret-Mikro I
Analoge Masse, am IC mit digitaler
AGND JP2 - 3,5 Masse
Masse verbinden
+5 V JP2 - 4 +5-V-Versorgungsspannung VCC
Pulsbreitenmodulator Ausgang 1
PWM1 JP2 - 6 An Lautsprecher 8...32 &!, liefert 0,15 W an 32 &! O
(gemultiplext)
Pulsbreitenmodulator Ausgang 2
PWM0 JP2 - 7 An Lautsprecher 8...32 &!, liefert 0,15 W an 32 &! O
(gemultiplext)
Hochimpedanter Audio-Ausgang (22 k&!), muss
leistungsverstärkt werden, um einen Lautsprecher
DACOUT JP2 - 8 Analoger Ausgang, ungepuffert O
zu treiben. 20-kHz-Tiefpassfilter ratsam. Bessere
Sprachqualität als PWM-Ausgänge.
Offen: einfache Erkennung
Auswahl Erkennungssitzung
100 k&! nach Masse: intensive Erkennung
-RECOG JP2 - 10 Start der Erkennung I
100 ms nach Masse: Start der Erkennung
Löschen trainierter Wörter
1 s nach Masse: Löschen
Offen: einfaches Training
Auswahl Trainingsintensität,
100 k&! nach Masse: intensives Training
-TRAIN JP2 - 11 Start der Trainingssitzung I
100 ms nach Masse: Trainingsstart
Löschen trainierter Wörter
1 s nach Masse: Löschen
Stand-alone-Modus-Ausgang Port
OUT1...OUT7 JP2 - 12...18 Zur Applikation O
1...7
Stand-alone-Modus-Ausgang high
HIGH/OUT8 JP2 - 19 Zur Applikation O
oder Ausgang Port 8
ERROR JP3 - 10 Stand-alone-Fehler-Signal Zur Applikation O
GND JP3 - 11,12 Digitale Masse (CPU-Kern und I/O) Masse
MODE JP3 - 13 Wahl Stand-alone- oder Slave-Betrieb 100 k&! nach Masse I
-RESET JP3 - 14 Reset VCC
4/2000 Elektor 55
MIKROCONTROLLER
Der Anwender nennt das Wort oder den Außer nach WORD NOT RECOGNIZED
Signal und Rauschen
Ausdruck, der kürzer als 3,2 s sein muss erfolgt bei nicht ordnungsgemäßer Ein-
Das Sprachsignal erreicht das Spracherkennungs- und darf keine Pause über 0,5 s enthalten gabe eine Voice-Message wie beim Trai-
system in der Regel nicht mit konstanter Laut- darf. VoiceDirect fordert wiederholt mit ning (SPOKE TOO SOON, PLEASE
stärke. Deshalb verfügt die Hardware über einen REPEAT auf, das Wort abermals zu nen- TALK LOUDER, ...). Gleichzeitig geht
rauscharmen Mikrofonverstärker mit automatischer nen. Ist das Wort erfolgreich trainiert, die ERROR-Leitung für 1 s auf Eins
Verstärkungseinstellung (AGC), um einen mög- folgt ein ACCEPTED, ansonsten eine (LED blinkt).
lichst weiten Dynamikbereich abzudecken. Natür- Fehlermeldung wie SPOKE TOO SOON VoiceDirect überwacht das Hintergrund-
lich entbindet AGC den Anwender nicht von der oder PLEASE TALK LOUDER. Gleichzei- geräusch und warnt, wenn der Rausch-
Pflicht, beim Training wie auch beim Erkennen tig geht die ERROR-Leitung für 1 s auf pegel zu hoch für einen korrekten Betrieb
eine einigermaßen konstante Entfernung zum Eins (LED blinkt). ist. Das System arbeitet zwar bei lauten
Mikrofon einzuhalten. Innerhalb des Training-Modus kommt der stetigen Hintergrundgeräuschen (über 80
Genau wie der Mensch hat auch die Maschine Beschaltung des -TRAIN-Pins eine beson- dB) wie dem eines Ventilators zufrieden
Schwierigkeiten, Sprache in geräuschvollen Umge- dere Bedeutung zu. Ist er offen, findet ein stellend, bei stark wechselnden Störpe-
bungen zu verstehen. Soll das System in einer sol- einfaches Training statt, das leicht durch- geln (zum Beispiel eines TVs oder eines
chen Umgebung (Großraumbüro, Fahrzeug) betrie- zuführen ist und mehr ähnlich klingende lautstarken Computerspiels) sinkt die
ben werden, muss im geringen Abstand zum Mikro Wörter akzeptiert (wenige Zurückwei- Erfolgsquote rapide. Das beste Ergebnis
gesprochen werden (Headset). Bei Anwendungen sungen). Liegt -TRAIN über 100 k&! nach erzielt man natürlich in einer ruhigen
im Fahrzeug (und größeren Abständen zwischen Masse, ist das Training intensiver (und Umgebung.
Sprecher und Mikro) erreicht die spezielle Sensory- umständlicher), bringt aber bessere (005065)rg
Software Car Command eine Genauigkeit von Resultate, da es auch ähnlich klingende
mehr als 95 %. Wörter zurückweist.
In den meisten Applikationen wie auch zum Expe- Das Training endet, wenn auf eine Auf- Literatur und Adressen:
rimentierkit sollte ein preiswertes ungerichtetes forderung hin kein Wort gesprochen, der Heeschen, Claus
Mikro verwendet werden. Richtmikros sind nur in Taster ein zweites mal gedrückt wird, drei Grundfragen der Linguistik
geräuschvollen Umgebungen sinnvoll und sollten Fehler während des Trainings erkannt Verlag W. Kohlhammer
schon wegen ihres nichtlinearen Verhaltens ver- wurden oder alle 15 Wörter trainiert sind.
mieden werden. Es ist nicht möglich, ein einzelnes trai- Lewandowski, Theodor
niertes Wort zu löschen, sondern nur der Linguistisches Wörterbücher 1 - 3
gesamten Satz. Dazu sind die beiden Uni-Taschenbücher
Quasselstrippe
Anschlüsse -TRAIN und -RECOG für
Wozu besitzt der VoiceDirect-Chip eigentlich eine mehr als 1 s auf Masse zu legen. Die Hersteller:
Audio-Ausgabemöglichkeit? Nun, das Experimen- ERROR-Leitung geht für 1 s auf High, Sensory Inc
tierkit ist durchaus kein stummer Zeitgenosse, son- danach wird der Löschmodus wieder ver- 521 E. Weddell Dr.
dern hilft dem Anwender mit mehr als 100 eng- lassen. Sunnyvale, CA 94089-2164
lischsprachigen Hinweisen (Prompts) durch die www.sonsoryinc.com
Funktionsvielfalt des Systems. Im Host-Modus sales@sensoryinc.com
Recognized !
besteht die Möglichkeit, die Standard-Liste der Tel.: 001 / 408 744-9000
Prompts durch eine anwenderspezifische in einem Legt man den -RECOG-Pin kurzzeitig FAX: 001 / 408 744-1299
externen ROM zu ersetzen. (gleich oder etwas mehr als 100 ms) auf
Beim Training wie beim Erkennen von Wörtern Masse, startet der Erkennungs-Modus. Distributor:
oder Phrasen kann die Sensory-Software die VoiceDirect fordert auf: SAY A WORD. Unitronic
Erfolgsaussichten selbst einschätzen. Sie fordert Nennt man kein Wort oder das falsche, Mündelheimer Weg 9
den Anwender auf, ein Wort deutlicher auszuspre- quittiert das System dies mit einem 40472 Düsseldorf
chen oder zu wiederholen. Zum Beispiel: Ein WORD NOT RECOGNIZED und verlässt www.unitronic.de
sprachgesteuertes Telefon wartet auf den Befehl den Erkennungs-Modus. Wird dagegen Tel: 02 11 / 95 11 - 0
VERBINDUNG. Erkennt das System dieses Schlüs- ein Wort aus der Liste der trainierten FAX: 02 11 / 95 11 - 1 11
selwort mit einer Fehlerwahrscheinlichkeit von Wörter erkannt, geht der entsprechende
weniger als 5%, akzeptiert es ihn. Liegt die Fehler- Ausgang für 1 s auf High. PC Professional
wahrscheinlichkeit zwischen 5% und 20%, so fragt Beilage Heft 12/98
es MÖCHTEN SIE EINE VERBINDUNG ?, ermittelt (auch im Internet zu finden)
Wort 1 Ausgang 1
das System eine Fehlerwahrscheinlichkeit größer Mit mehreren Aufsätzen zur Geschichte, Sinn
Wort 2 Ausgang 2
als 20%, so folgt der Prompt WAS HABEN SIE und Zweck, Arbeitsweise und Zukunft der
& &
GESAGT ?. natürlichen und diskreten Spracherkennung
Wort 8 Ausgang 8
Wort 9 Ausgang 8 und Ausgang 1
Diskussionsgruppe zu praktischen
Training
& &
Anwendungen
Wort15 Ausgang 8 und Ausgang 7
Wird der -TRAIN-Anschluss kurzzeitig (etwas mehr (vor allem PC-Spracherkennung)
als 100 ms) zum Beispiel durch einen Impulstaster http://www.diktatstarten.de/wwwboard/
auf Masse gelegt, so schaltet VoiceDirect in den wwwboard.html
Trainingsmodus und fordert auf mit SAY WORD x Wegen der Doppelbelegung müssen die
auf, das erste zu lernende Wort zu nennen. Ausgänge extern dekodiert werden.
56 Elektor 4/2000
Wyszukiwarka
Podobne podstrony:
Wozu Beschäftigung mit SpracheSchalter ICs mit einstellbarer StrombegrenzungStromlaufplan Passat 6 Motor 1,9l 66kW AHU, 1,9l 81kW AFN mit Schaltgetriebe ab 10 199618 Mit mityzacja mitologie współczesneMIT lockpicking guideMit Meldas 320M [SAV] MY34 89 1Mit 330M Comet [SRW] PM620 17 3Mit Meldas 320M [SI] PMY34 17 4Huculskie mity i mit Huculszczyzny Ewa Klekot (1997)Legendy Mit o stworzeniuWSFiZ MIT ZałożycielskiJoint Venture Mein Leben?gann mit einem großen SiegIndirekte Rede mit ModalverbenSumeryjski mit o potopie1937 03 14 Mit brennender SorgeMit świętegowięcej podobnych podstron