Home Technologien Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR)

Die automatische Spracherkennung, auch ASR genannt – für automatic speech recognition, gehört zu den Sprachtechnologien, deren Qualität sich in den letzten Jahren exponentiell verbessert hat.

Als Experte und Pionier in Sachen Sprachtechnologie arbeitet Ubiqus seit langem an Konzepten rund um automatische Spracherkennung, um seinen Kunden einen immer effizienteren Service bieten zu können.

ASR von Ubiqus

Verwendung von LVCSR

Ubiqus nutzt einen präzisen Bereich der ASR: LVCSR (large vocabulary continuous speech recognition). Diese Technologie basiert auf der automatischen Identifizierung sehr kurzer Audiosequenzen und ermöglicht hervorragende automatische Transkriptionen – natürlich unter Voraussetzung eines sauber aufgenommenen Audiomaterials. Der Stand der ASR-Technologien hat sich in den letzten Jahren stark entwickelt und dies nicht zuletzt dank der Arbeit unseres F&E-Teams, das permanent zu ihrem Fortschritt beiträgt.
Unsere Methode ermöglicht es uns, Aufzeichnungen zu verarbeiten, die gemeinsprachliches Vokabular, aber auch spezifischere Begriffe (technisch, rechtlich, medizinisch usw.) enthalten.

Ein internes F&E-Team

Dank seiner Kenntnisse im Bereich der LVCSR und der klassischen Protokollführung konnte das F&E-Team von Ubiqus das perfekte Tool für effiziente Transkriptionen entwickeln.

Die Qualität der von Ubiqus bearbeiteten Dokumente hat Sie überzeugt und Sie würden nun gerne unsere automatischen Transkriptionen testen? Dann nichts wie los!

Der Qualitätsanspruch an eine automatische Transkription ist bei uns derselbe wie an eine klassische Transkription. Daher kann die automatische Transkription auf Wunsch durch einen Transkriptor lektoriert werden, um dasselbe Ergebnis wie bei einer klassischen Transkription zu erzielen!

In welcher Art von Meetings kann ASR zum Einsatz kommen?

Diese Technologie kann für jede Art von Meeting genutzt werden. Die einzige Bedingung ist, dass eine für die ASR geeignete Audioaufnahme vorliegt. Um dies zu erreichen und effiziente Ergebnisse zu erzielen, muss die Audioaufnahme von ausreichender Qualität sein.

Wie erhält man diese Audioqualität? Indem Sie einige einfache Regeln beachten:

  • Verwenden Sie ein hochwertiges Aufnahmegerät.
  • Positionieren Sie das Aufnahmegerät an einer geeigneten Stelle: weit weg von jeglicher Lärmbelästigung (Gebläse des Beamers, sich öffnende und schließende Türen, Teilnehmer, die auf der Computertastatur tippen usw.).
  • Achten Sie – soweit möglich – darauf, dass die Teilnehmer nacheinander, klar und deutlich sprechen.

Die ASR eignet sich besonders für Kolloquien, Pressekonferenzen, Präsentationen oder Interviews.

Wenden Sie sich in jedem Fall gerne an uns: Wir können mit unserer ASR-Technologie überprüfen, ob sich Ihre Aufnahme für eine automatische Transkription eignet.

Wie funktioniert ASR?

Der Prozess bis zum endgültigen Transkript umfasst 4 Schritte:

  • Voice activity detection
  • Diarization (auch Diarisierung)
  • Decoding
  • Rescoring

1 | Voice activity detection

Zunächst geht es darum, zu erkennen, zu welchen Zeitpunkten der Aufzeichnung jemand spricht, um die Tonspur in Segmente aufzuteilen. Die Engine wird dann jedes Segment einzeln bearbeiten.

2 | Diarization (auch Diarisierung)

Anschließend müssen in jedem Segment die verschiedenen Sprecher identifiziert werden, um die Segmente mit demselben Redner zusammenzufügen und die Wortmeldungen in der Transkription korrekt zuordnen zu können. Dazu verwendet die Engine verschiedene Motoren, die jeweils mit spezifischen Daten (Sprachen, Stimmen) gefüttert wurden. So können sprachliche Feinheiten wie beispielsweise Akzente berücksichtigt werden. Bis zu dieser Etappe erfolgt die Verarbeitung der Daten in rein „mathematischer“ Form.

3 | Decoding

Erst jetzt kommt der Begriff Transkription ins Spiel. Für jedes Audiosegment wird eine Liste möglicher Silben und Laute erstellt. Bis zu diesem Zeitpunkt ist noch kein Satz schriftlich festgehalten: Es gibt nur eine lange Liste von Möglichkeiten, von denen jede einen Punktwert hat.

4 | Rescoring

Nun wählt die Engine die besten Lösungen aus den verschiedenen Möglichkeiten aus und setzt diese zusammen. Diese Technik wird auf alle Segmente der Aufzeichnung angewendet, um schließlich die vollständige Transkription zu erhalten.

Am Ende dieses automatisierten Prozesses kann das Transkript wie ein klassisches Ubiqus-Dokument von unseren Teams korrekturgelesen werden: Neben einer Überprüfung des Textinhalts kontrolliert der Lektor auch die richtige Zuordnung und Formatierung der Aussagen.

 

Branchen, in denen
Sprachtechnologie zum Einsatz kommt

Erfahren Sie mehr über die Anwendungen von Sprachtechnologie in Ihrer Branche.

Sie möchten mit uns
über Ihr
Projekt sprechen?