Sprach-KI

Einstiegsfragen, Mathematik, Physik, künstliche Intelligenz, Engine Design
Antworten
Benutzeravatar
grinseengel
Establishment
Beiträge: 793
Registriert: 29.03.2011, 13:47
Echter Name: Andreas

Sprach-KI

Beitrag von grinseengel »

Hallo Community,

ich beschäftige mich schon länger mit dem Thema der Sprach-KI und deren Anwendung in meinen eigenen Spielprojekten. Es ging um die Vertonung von Dialogsequenzen. Da ich keine schöne Stimme für eine digitale Verwendung besitze, wollte ich über diesen Weg zum Erfolg kommen. Allerdings war das Ergebnis mehr als mangelhaft.

Da sich die Technik und somit auch die Sprach-KI weiterentwickelt haben, ist dieses Thema bei mir wieder aktuell. In meinem aktuellen Projekt geht es darum eine kleine Missionsbeschreibung ergänzend zum Text "vorlesen" zu lassen. Erste Versuche mit einer neuen Sprach-KI haben bereits schon recht brauchbare Ergenisse geliefert. Ich habe da die TextToSpeech.io verwendet.

Natürlich ersetzt das keinen Originalsprecher, aber es ist ein Anfang.

Hab ihr euch auch schon mit diesem Thema befasst? Wenn ja, welche Tools verwendet ihr und wie hören sich eure Ergebnisse an.

Gruß, Andreas
Benutzeravatar
Jonathan
Establishment
Beiträge: 2353
Registriert: 04.08.2004, 20:06
Kontaktdaten:

Re: Sprach-KI

Beitrag von Jonathan »

Ich habe mal für ein Python Projekt "Google Text-To_Speech" benutzt. Der Vorteil war, dass es extrem einfach zu verwenden ist (eine Zeile zum Einbinden, eine Zeile zum Sound generieren, eine Zeile um ihn als mp3 zu speichern), der Nachteil ist, dass er halt den Google-Server benutzt, daher Internet benötigt und Datenschutz ein Thema ist.

Ton-Qualität war ok, man konnte gelesenem Text schon gut folgen, hörte aber schon, dass es generiert war. Um Nachrichten vorzulesen also ok, aber um Charakteren Leben zu geben definitiv nicht.

Für ein Spiel würde ich glaube ich schon versuchen echte Sprecher zu bekommen. Vielfach hat man irgendwo schon ein brauchbares Mikrofon (und wenns ein iPhone ist), darüber hinaus braucht man ja nur noch einen halbwegs ruhigen Raum. Auch wenn ich es persönlich noch nicht probiert habe könnte ich mir vorstellen, dass ich viele Bekannte recht leicht zu einer Aufnahme-Session überreden könnte, so sollte man eigentlich an genügend Stimmen kommen können. Dafür sollten Texte natürlich irgendwie schon final sein, aber bis dahin kann man ja gut mit Provisorien leben.

Nochmal zur Qualität: Solange du irgendeinem Generator nicht auch über den Text hinausgehende Informationen zur Aussprache (Lautstärke, Emotion, Tempo, etc.) mitlieferst, kann das Ergebnis ja schon prinzipiell nur arg begrenzt gut werden. Keine Ahnung ob es sowas überhaupt gibt und wie gut sich das steuern lässt, aber ich stell es mir etwas schwierig vor.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
Benutzeravatar
grinseengel
Establishment
Beiträge: 793
Registriert: 29.03.2011, 13:47
Echter Name: Andreas

Re: Sprach-KI

Beitrag von grinseengel »

Nochmal zur Qualität: Solange du irgendeinem Generator nicht auch über den Text hinausgehende Informationen zur Aussprache (Lautstärke, Emotion, Tempo, etc.) mitlieferst, kann das Ergebnis ja schon prinzipiell nur arg begrenzt gut werden. Keine Ahnung ob es sowas überhaupt gibt und wie gut sich das steuern lässt, aber ich stell es mir etwas schwierig vor.
Bei dem von mir erwähnten Sprachgenerator hat man die Möglichkeit die Geschwindigkeit und die Klangfarbe in der Stimme (Timbre) zu verändern. Das führt dann schon zu deutlich besseren Ergebnissen. Allerdings liegt wohl die größte Schwierigkeit in der Betonung der einzelnen Satzteile bzw. Worte. So kommt es häufiger vor, dass sich dies etwas fremdlich anhört.
joeydee
Establishment
Beiträge: 1039
Registriert: 23.04.2003, 15:29
Kontaktdaten:

Re: Sprach-KI

Beitrag von joeydee »

Oh, das ist schon länger her. War damals nur experimentell, also nicht in einem konkreten Projekt. Ich glaube es war über Powerpoint oder so, jedenfalls keine Webseite, Sprecherstimme war umschaltbar, dann als wav mitgeschnitten. Also nur statischer Inhalt. Problem waren Eigennamen, ich kann mich z.B. an einen fiktiven Firmennamen erinnern der trotz versuchter Lautschrift immer falsch ausgesprochen wurde. Inzwischen hat sich einiges getan wie ich sehe.
Ohne Webinterface mit lokalen Apps die man so hat: Acrobat Reader kann vorlesen, hört sich noch an wie damals, etwa im Stil eines Navis, wirkt zusammengeflickt. Vorlesemodus von Edge ist ziemlich flüssig, jedenfalls die Neural Voices. Lokale txt-Datei als Quelle funktioniert.
Open Source, noch nicht angefasst, weiß nicht was man damit machen kann: http://espeak.sourceforge.net/
Für Missionslogs oder Anweisungen in einem Spiel runterrattern könnten manche Dienste glaube ich inzwischen schon brauchbar sein. Bischen Speed und Pitch könnte man auch nachträglich mit Software anpassen. Wirklich emotionale Färbung verpassen und Dialoge daraus zusammensetzen eher nicht.
Ich denke aber, irgendwann kommt die Zeit, wo KI auch Dialoge und Regieanweisungen, sprich Hörspiele nach Script und mit genügend Big-Data-Erfahrung, gut umsetzen kann. Dann wird's für Spiele richtig interessant.
Für ein Spiel würde ich glaube ich schon versuchen echte Sprecher zu bekommen.
Ja.
Bekannte recht leicht zu einer Aufnahme-Session überreden könnte
Weiß nicht. Sprechen für Tonaufnahmen will gelernt sein, ein Laie macht es zu 99% falsch. Man spricht zu schnell zu umgangssprachlich, verschluckt Silben und Endungen, "sch" statt "ch" usw. - Originalsprache hört sich dann leider selten authentisch, sondern eher laienhaft an. Aber es gibt auch Naturtalente, wie beim Singen, man kann Glück haben.

Manche Indie-Adventures z.B. gingen auch schon den Weg, dass sie enfach mal den ein oder anderen Profi-Sprecher um Hilfe baten. Manche sagen für kleinere Rollen zu und unterstützen die Indie-Szene gern. Problem ist aber oft (auch in kommerziellen Dialogen/Synchros schon erlebt): die einzeln eingesprochenen Textfragmente verschiedener Sprecher passen von der Betonung und Timing/Speed nicht immer gut zusammen, wenn diese das getrennt aufnehmen müssen, da man die Betonung/Reaktion des Gegenübers sich jeweils anders vorstellt als er dann tatsächlich spricht.

Für ein professionelleres eigenes Spiel würde ich vielleicht den Weg wie bei Animationsfilmen versuchen wollen (bei Originalvertonung, nicht Synchro): Statt fertige Szenen nachträglich zu vertonen, Schauspieler Szenenfragmente inkl. Regieanweisungen wie bei einer Probe als Trockenübung spielen lassen, aufnehmen (auch Video als Referenz), und danach die eigenen Animationen, Timing etc. aufbauen/anpassen.
Nie gemacht, aber davon würde ich mir die besten Ergebnisse versprechen. Mit einer ortsansässigen Laienspielgruppe z.B. könnte das auch finanziell überschaubar bleiben.
Benutzeravatar
xq
Establishment
Beiträge: 1581
Registriert: 07.10.2012, 14:56
Alter Benutzername: MasterQ32
Echter Name: Felix Queißner
Wohnort: Stuttgart & Region
Kontaktdaten:

Re: Sprach-KI

Beitrag von xq »

Falls du dich mit TTS zufrieden gibst, kannst du dir ja mal Googles WaveNet angucken. Das ist ne verdammt gut klingende TTS-Engine, welche afaik mittlerweile auch sogar Deutsch kann. Wenn du deine Texte fix hast, kannst du dir das ja recht bequem mit nem Python-Script vorrendern lassen, dann bekommst du für jeden Satz ein Audio-File, was du dann im Spiel benutzen kannst.

Dafür brauchst du aber nen Google Cloud-Entwickler Account, bekommst da aber für sehr wenig Geld TTS-Ausgabe zugespielt.

Hier wird das ganze auch kurz erklärt, ganz am Ende gibts auch ne Klang-Demo
https://www.youtube.com/watch?v=I5-P2o5yToI
War mal MasterQ32, findet den Namen aber mittlerweile ziemlich albern…

Programmiert viel in ⚡️Zig⚡️ und nervt Leute damit.
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4254
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Sprach-KI

Beitrag von Chromanoid »

Hatte halflife nicht sogar schon so eine Art tts drin? Ich glaube das ist Wörterbuch basiert, wenn ich die Google Treffer so überfliege...

Wenn das ganze eh ein computersystem ist, das im Spiel die ansagen macht, kann tts glaube ich echt cool sein. Gerade wenn es sich eben maschinell anhört.
Benutzeravatar
grinseengel
Establishment
Beiträge: 793
Registriert: 29.03.2011, 13:47
Echter Name: Andreas

Re: Sprach-KI

Beitrag von grinseengel »

Hallo,

vielen Dank für eure Rückmeldungen.

Hier mal eine kleine Demo:

1) espeak.sourceforge.net

http://www.pchobbyspieleschmiede.de/Tow ... m hier.wav

2) TextToSpeech.io

http://www.pchobbyspieleschmiede.de/Tow ... m hier.mp3

3) Googles WaveNet

Ich habe mir das Video angesehen. Selber habe ich noch nichts damit versucht. Mich hält die Registrierung mit Kreditkarte etwas ab. Der Demo Text am Ende des Videos ist aber sehr überzeugend.
Benutzeravatar
Jonathan
Establishment
Beiträge: 2353
Registriert: 04.08.2004, 20:06
Kontaktdaten:

Re: Sprach-KI

Beitrag von Jonathan »

Hm, also espeak klingt irgendwie sehr 'verblubbert' während TextToSpeech die Wörter irgendwie zufällig betont. Beides fände ich vermutlich ok um während dem Autofahren meine SMS vorzulesen, aber für ein PC Spiel taugt das höchstens als Shitty-Robot NPC, der halt übertrieben mechanisch klingen soll. Ein wenig ernüchternd wenn man bedenkt, seit wann das schon aktives Forschungsthema ist.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
Benutzeravatar
xq
Establishment
Beiträge: 1581
Registriert: 07.10.2012, 14:56
Alter Benutzername: MasterQ32
Echter Name: Felix Queißner
Wohnort: Stuttgart & Region
Kontaktdaten:

Re: Sprach-KI

Beitrag von xq »

Ich würde dir ernsthaft mal WaveNet ans Herz legen. Das mit der Kreditkarte ist doof, aber Google rechnet dir da nichts ab, hab das ganze selbst schon ausprobiert und damit rumgespielt.

Die Sprachausgabe ist Welten besser als alle andere Technologie, die zur Zeit auf dem Markt ist, ggf. noch Alexa von Amazon

Es gibt wohl Amazon Polly, was auch richtig gute Ergebnisse liefert:
https://d1.awsstatic.com/product-market ... 84fd5e.mp3

Das ganze macht im Englischen auch grandiosen Eindruck, Deutsch ist leider noch nicht als "Neural Voice" verfügbar
War mal MasterQ32, findet den Namen aber mittlerweile ziemlich albern…

Programmiert viel in ⚡️Zig⚡️ und nervt Leute damit.
NytroX
Establishment
Beiträge: 358
Registriert: 03.10.2003, 12:47

Re: Sprach-KI

Beitrag von NytroX »

Also die beste TTS Synchro, die ich bisher gehört habe, war von hier:
www.nuance.com/omni-channel-customer-en ... peech.html

Aber da funktionieren nur die xpremium-high Voices richtig.
Aber die geht mit fast jedem Englischen Text sehr gut, auch mit gescheiter Betonung usw.
Die Deutsche is auch einigermaßen ok.

Also ich denke die ist ganz gut brauchbar für kurze In-Game Ansagen. ("Units under Attack", "Construction complete", etc)
joeydee
Establishment
Beiträge: 1039
Registriert: 23.04.2003, 15:29
Kontaktdaten:

Re: Sprach-KI

Beitrag von joeydee »

Edge:
edge_speech.mp3
(91.22 KiB) 129-mal heruntergeladen
Leider nur eine dt. Natural-Stimme, engl. gibts mehrere.
edge_speech_en.mp3
(210.94 KiB) 137-mal heruntergeladen
(Text: Anfang der engl. Wikipedia zu "Video game development")

Finde ich jetzt schon ziemlich brauchbar.
Benutzeravatar
grinseengel
Establishment
Beiträge: 793
Registriert: 29.03.2011, 13:47
Echter Name: Andreas

Re: Sprach-KI

Beitrag von grinseengel »

Finde ich jetzt schon ziemlich brauchbar.
Hört sich recht gut an. Edge_speech kann man denke ich bestimmt gut für One-Liner verwenden.
Ich würde dir ernsthaft mal WaveNet ans Herz legen. Das mit der Kreditkarte ist doof, aber Google rechnet dir da nichts ab, hab das ganze selbst schon ausprobiert und damit rumgespielt.
Das habe ich gerade gemacht und ein Asset im Unity-Shop gefunden was es etwas eleganter lösen soll sich mit dem Cloud-Server in Verbindung zu setzen. Mal sehen wie die Ergebnisse sich anhören.
DerAlbi
Establishment
Beiträge: 269
Registriert: 20.05.2011, 05:37

Re: Sprach-KI

Beitrag von DerAlbi »

Holy Shit:
https://www.youtube.com/watch?v=B_r2__fVBt4

Das ist eine synthetische Stimme...
Ich habe das gesamte Video nicht gemerkt, bis ich in die Kommentare scrollte.
Benutzeravatar
Chromanoid
Moderator
Beiträge: 4254
Registriert: 16.10.2002, 19:39
Echter Name: Christian Kulenkampff
Wohnort: Lüneburg

Re: Sprach-KI

Beitrag von Chromanoid »

Cool! Was ich mich frage ist, wie sehr wurde der Text annotiert, damit das ganze so natürlich vorgelesen wird.

edit: Ah scheinbar alles in einem neuronalen Netz verwurstelt und nicht anpassbar :) dafür aber sehr gute Ergebnisse finde ich.
The AI controls the overall persona of the voice, and each voice brings in their own sincere personality and emotion. While you can’t ask our voices to read one sentence in a happy tone and the next one sad, you can use "quotation marks around important phrases" to create a livelier reading.
https://wellsaidlabs.com/support

Ah, hier noch mehr zum Finetuning:
Antworten