Whisper Spracheingabe für Windows von Lichtbote Martin

Seit vielen Jahren nutze ich Spracherkennung. Früher gab es IBM ViaVoice, später Dragon NaturallySpeaking. Unter Windows 98 funktionierte Dragon für mich noch hervorragend. Unter modernen Windows-Versionen wurde die Nutzung jedoch immer schwieriger. Microsoft- und Google-Lösungen beenden die Aufnahme zu früh und sind dadurch für mich unbrauchbar.

Für Windows 11 gibt es aktuell viele verschiedene Programme zur Spracheingabe. Das Problem ist: Viele Programme sind komplett in englischer Sprache aufgebaut und verstehen hauptsächlich die englische Sprache.

Es gibt inzwischen auch Whisper von OpenAI. Whisper wurde im September 2022 veröffentlicht. Das System wurde dafür entwickelt, gesprochene Sprache automatisch in Text umzuwandeln. Whisper kann viele verschiedene Sprachen verstehen und übersetzen. Whisper unterstützt ungefähr 100 verschiedene Sprachen. Das System wurde mit ungefähr 680.000 Stunden Sprachmaterial aus dem Internet trainiert. Dadurch kann Whisper auch unterschiedliche Stimmen, Dialekte und Hintergrundgeräusche relativ gut erkennen.

Whisper wurde als freie Software veröffentlicht und kann grundsätzlich von jedem verwendet werden. Es gibt verschiedene Anbieter, die Whisper nutzen. Diese Programme kosten jedoch in der Regel monatlich ab etwa 10 EUR. Die Benutzeroberflächen sind häufig in englischer Sprache aufgebaut und die Bedienung ist teilweise kompliziert.

Es gibt auch Offline-Versionen, bei denen man Programme und verschiedene Modelle zur Spracherkennung selbst herunterladen kann. Diese Programme sind ebenfalls häufig in englischer Sprache aufgebaut und sehr kompliziert. Selbst mit technischem Verständnis und KI-Unterstützung habe ich es nicht geschafft, einige dieser Programme vollständig einzurichten.

Also habe ich begonnen, selbst ein solches Offline-Programm für Windows zu entwickeln. Mein Programm gibt es aktuell in zwei Versionen. Die große Version hat eine Gesamtgröße von ungefähr 1,6 GB. Zusätzlich habe ich eine kleinere Version entwickelt, die ungefähr 622 MB groß ist und deutlich schneller arbeitet. Die große Version benötigt jedoch teilweise einige Sekunden für die Spracherkennung. Die kleinere Version arbeitet deutlich schneller, erreicht aber nicht ganz die gleiche Genauigkeit bei der Erkennung.

Die Aufnahmelänge ist technisch begrenzt. Die Whisper-Modelle wurden ursprünglich mit 30-Sekunden-Abschnitten trainiert und sind deshalb hauptsächlich für kurze Aufnahmen optimiert. Diese Begrenzung kann technisch durch die Aufteilung längerer Sprachaufnahmen in mehrere Abschnitte erweitert und optimiert werden. Der Vorteil bei meinen Programmen ist die einfache Nutzung. Die Programme können direkt installiert und sofort verwendet werden. Eine komplizierte Einrichtung ist nicht notwendig.

Die Programme sind aktuell für Sprachaufnahmen von maximal ungefähr 30 Sekunden optimiert und zusätzlich abhängig von der Rechenleistung des jeweiligen Systems. Weitere Programme mit längeren Aufnahmezeiten und erweiterten Funktionen sind bereits in Planung.

Mikrofon auswählen und Sprachaufnahme mit einem Klick starten.

Sprachaufnahme läuft und kann gestoppt oder abgebrochen werden.

Gesprochene Sprache wird automatisch in Text umgewandelt.

Mine Intention

Diese App wurde von einem Menschen entwickelt, der selbst persönliche Erfahrungen mit gesundheitlichen Herausforderungen gemacht hat. Nach drei Schlaganfällen entstand aus dieser Lebenssituation der Wunsch, eine einfache, verständliche und zuverlässige Lösung zu schaffen, die nicht nur für Technikprofis, sondern für jeden Menschen leicht nutzbar ist.

Die Whisper-Spracheingabe für Android richtet sich an alle, die sich eine unkomplizierte und alltagstaugliche Unterstützung wünschen. Besonders Menschen mit motorischen Einschränkungen, den Folgen eines Schlaganfalls oder Schwierigkeiten beim Tippen profitieren von einer klaren Bedienung und einer einfachen Nutzung. Auch Senioren entdecken darin eine angenehme Möglichkeit, moderne Technik entspannter zu verwenden.

Von Anfang an stand der Gedanke im Mittelpunkt, eine App zu entwickeln, die Freude an der Nutzung vermittelt und ohne komplizierte Einrichtung funktioniert. Große Tasten, übersichtliche Anzeigen und eine intuitive Bedienung sorgen dafür, dass die Spracheingabe schnell verständlich wird und Menschen den digitalen Alltag einfacher und angenehmer erleben können.

Die positiven Erfahrungen während der Entwicklung und die guten Fortschritte bei der Programmierung haben zusätzlich den Gedanken entstehen lassen, dieses Wissen künftig auch teilberuflich anzubieten. Daher besteht die Überlegung, die Entwicklung einfacher und benutzerfreundlicher Anwendungen langfristig als selbstständige freiberufliche Tätigkeit weiterzuführen.

Darüber hinaus bestehen bereits viele weitere Ideen, die Anwendung künftig noch zu erweitern und weiter zu verfeinern. Geplant sind zusätzliche Funktionen, Verbesserungen bei der Bedienung sowie neue Möglichkeiten, um die Nutzung im Alltag noch einfacher, angenehmer und komfortabler zu gestalten.