DeepFake TTS-Anwendung

Einstiegsfragen, Mathematik, Physik, künstliche Intelligenz, Engine Design
Antworten
Benutzeravatar
grinseengel
Establishment
Beiträge: 537
Registriert: 29.03.2011, 13:47
Echter Name: Andreas

DeepFake TTS-Anwendung

Beitrag von grinseengel »

Hallo,

mich interessiert schon lange eine solche Anwendung. Jetzt frage ich mich nur, wie sieht es mit dem Uhrheberrecht aus. Unterliegt ein Stimmmuster eines Sprechers bereits dem Uhrheberrecht? Ich meine, der Sprecher wird ja nie selber aktiv. Es gibt ja auch z.B. viele Youtube Videos in denen Wortteile eine ganz neue Bedeutung erfahren. Ich selber habe da jetzt nichts passendes gefunden. Wie seht ihr das?
NytroX
Establishment
Beiträge: 265
Registriert: 03.10.2003, 12:47

Re: DeepFake TTS-Anwendung

Beitrag von NytroX »

Deine Frage ist relativ waage -"DeepFakes", "Stimmmuster" und Tonaufnahmen sind 3 verschiedene Bereiche.
Generell am besten bei sowas immer einen Anwalt fragen.

Was ich so denke (ohne Gewähr):
Mit DeepFakes meint man normalerweise KI-Animierte Szenen (obwohl auch reine Tonaufnahmen darunter fallen können).
Bei Bildern/Videos ist das denke ich relativ eindeutig: § 22 KunstUrhG: "Bildnisse dürfen nur mit Einwilligung des Abgebildeten verbreitet oder öffentlich zur Schau gestellt werden." Das gilt auch für Videos/Clips/Deepfakes.
Außerdem könnte es unter "Verarbeitung personenbezogener Daten" nach der DSGVO fallen, wenn eine Person durch das Bildnis oder den Ton erkennbar ist - dann braucht man natürlich das zweckbezogene Einverständnis der entsprechenden Person.
Wenn es generell um "Fakes" geht, d.h. du willst jemand was sagen lassen, was er nie gesagt hat, dann könnten natürlich ggf. auch sowas wie Schadensersatzansprüche geltend gemacht werden.
Mit TTS denke ich mal, dass du Text-To-Speech meinst. Wie liegen denn die "Stimmmuster" vor? Vortrainierte Neuronale Netze oder KI-Datenbanken fallen ja generell schon unter das Urheberrecht, würde ich mal stark annehmen.
Benutzeravatar
Jonathan
Establishment
Beiträge: 1964
Registriert: 04.08.2004, 20:06
Kontaktdaten:

Re: DeepFake TTS-Anwendung

Beitrag von Jonathan »

grinseengel hat geschrieben: 07.05.2022, 16:20 Hallo,

mich interessiert schon lange eine solche Anwendung. Jetzt frage ich mich nur, wie sieht es mit dem Uhrheberrecht aus. Unterliegt ein Stimmmuster eines Sprechers bereits dem Uhrheberrecht? Ich meine, der Sprecher wird ja nie selber aktiv. Es gibt ja auch z.B. viele Youtube Videos in denen Wortteile eine ganz neue Bedeutung erfahren. Ich selber habe da jetzt nichts passendes gefunden. Wie seht ihr das?
Ich hab keine Ahnung, ob es dazu schon Gerichtsurteile gibt, aber ansonsten würde ich mich sehr stark darauf verlassen, dass unsere Rechtssprechung nicht schnell genug ist und es dafür einfach noch keine konkreten Gesetze gibt. Ich meine, die scheinen ja nichtmal beim Urheberrecht für von Menschen erstellten Inhalten im 21 Jahrhundert angekommen zu sein...
Letztendlich dürfte es darauf hinauslaufen, dass Richter Gesetze die für andere Dinge gemacht wurden irgendwie sinnvoll interpretieren / übertragen müssen - mit unvorhersehbaren Ergebnissen.

Ein paar Probleme die ich hier sehe: Das Urheberrecht ist für Künstler, d.h. Menschen gedacht. Wenn ein neuronales Netzwerk einen Noise-Vektor futtert und hinten ein Bild raus kommt, dann war daran kein Mensch beteiligt, also gibt es erstmal kein Urheberrecht. Das Problem ist vermutlich, dass man bei vielen Ansätzen ja mehr als Rauschen reingibt, z.B. wenn man ein einzelnes Sprachsampel nimmt um daraus die Stimme zu extrahieren und die Stimme dann einen anderen Satz sprechen lässt. Aber da kopiert und editiert man ja nicht wirklich die Eingabe - sondern extrahiert statistische Eigenschaften und baut daraus etwas neues. Kniffelig dürfte sein, dass das ein sehr gradueller Übergang ist, man könnte ja z.B. ganz ohne Deep Learning einfach ganz viele Aufnahmen nehmen und daraus die Worte zusammenstückeln und damit dann jeden beliebigen Text sprechen lassen - das dürfte dann eine Urheberrechtsverletzung sein, weil man die ursprünglichen Aufnahmen einfach neu zusammen setzt.

Ich würde denken, dass nur einzelne Werke Schutz genießen können, und nicht die generelle Art oder der generelle Stil eines Künstlers - und das ist es ja, was Netzwerke extrahieren können (wenn man jetzt mal an die ganzen Style-Transfer-GANs denkt). Man müsste ja den Klang seiner Stimme schützen lassen, aber was ist, wenn ein anderer Mensch eine ganz ganz ähnliche Stimme hat? Für so Dinge gibt es dann ja eher Konzepte wie Markenschutz oder Patente, die keine Werke sondern 'Konzepte' schützen aber halt entsprechend beantragt und genehmigt werden müssen.

Letztendlich ist für mich das Problem, dass das, was bei Deep-Fakes passiert ziemlich kompliziert ist und es philosophisch nicht klar ist, was da überhaupt passiert und wie die konkreten Regeln dafür sein sollten. Und der nächste Algorithmus könnte ja wieder subtil anders funktionieren, man kann also keine Gesetze machen, die zu konkret sind. Ich meine, es gibt ja auch so dumme Dinge wie Urheberrechtsabgaben für USB-Sticks weil man damit ja Musik kopieren kann - das hat man halt vor 10 Jahren gemacht, das macht heute kein Mensch mehr.

Zur DSGVO und personenbezogenen Sachen: Es dürfte sehr darauf ankommen, ob man behauptet, ein Text wäre von einer bestimmten Person, oder ob man einfach nur einen Text generiert der wie diese Person klingt. Also z.B. wenn man einen Schauspieler als Voice-Actor in seinem Spiel benutzen will, dann sollte man halt vielleicht nicht auf die Packung schreiben "mit der Stimme vom Bruce Willis". Das ist ja auch in anderen Bereichen längst gängige Praxis, wenn man Markenrechte umgehen will, dann hat man halt einen Charakter der ganz ähnlich aussieht aber einen leicht anderen Namen hat.
Lieber dumm fragen, als dumm bleiben!
Benutzeravatar
gombolo
Beiträge: 86
Registriert: 26.01.2011, 20:33

Re: DeepFake TTS-Anwendung

Beitrag von gombolo »

Was ist eine Leistung die Schützenswert ist? Michael Jackson hatte eine tolle Stimme, aber was währe diese Stimme ohne sein künstlerisches Können? Es ist dann nur eine zufällige einander Reihung von biochemischen Ereignissen die dazu geführt haben das er sich so anhört. ist es dann Schützenswert? Ist doch keine Leistung. Es ist die Leistung seiner Gene oder Gott oder was auch immer, aber es wurde nicht bewusst herbeigeführt.

Was ist wenn ich eine sehr ähnliche Stimme habe wie der deutsche Sprecher von Bruce Willes. Darf ich dann keine Filme synchronisieren? Wen will man dafür zur Rechenschaft ziehen? Meine Gene, Gott oder die Natur?

Uhhhh ein schwieriges Thema weil viel Geld im Spiel ist. Keiner will vom Kuchen was abgeben. Interessant wird es nur wenn ich z.B. älter bin als der Synchronsprecher von der Stimmer von Bruce Willes und so gesehen als erster auf der Welt war....darf ich dann den Synchronsprecher von der Stimmer von Bruce Willes verbieten zu synchronisieren :D
Mein aktuelles Projekt -> FirstStrike | Alte Projekte mit Quellcode -> stacker | snake² | detriz | giDX² - DirecX7 based 2D Engine
Benutzeravatar
Jonathan
Establishment
Beiträge: 1964
Registriert: 04.08.2004, 20:06
Kontaktdaten:

Re: DeepFake TTS-Anwendung

Beitrag von Jonathan »

gombolo hat geschrieben: 08.05.2022, 13:13 Was ist eine Leistung die Schützenswert ist? Michael Jackson hatte eine tolle Stimme, aber was währe diese Stimme ohne sein künstlerisches Können? Es ist dann nur eine zufällige einander Reihung von biochemischen Ereignissen die dazu geführt haben das er sich so anhört. ist es dann Schützenswert? Ist doch keine Leistung. Es ist die Leistung seiner Gene oder Gott oder was auch immer, aber es wurde nicht bewusst herbeigeführt.
Naja, Leistung ist vermutlich das, worauf man sich verständigt hat, das es Leistung ist. Ist ein bisschen wie das Konzept des Besitzes, das ist ja auch keine physikalisch ableitbare Größe, sondern etwas das nur existiert, weil man sich darauf verständigt hat, dass es existiert und sinnvoll ist.
Geistiges Eigentum ist dann noch abstrakter, aber es ist ja schon jedem klar, dass es wirklich Arbeit ist, ein Spiel zu entwickeln oder ein Buch zu schreiben. Und wenn man das einfach so kopieren könnte, würde ja niemand mehr Dinge erschaffen. Außer wir schaffen es, den Kapitalismus zu überwinden und Künstler auf andere Art zu bezahlen, dann bräuchte man kein Urheberrecht mehr.

Aber wenn ein Netzwerk jetzt etwas 'neues' produziert, das so klingt wie etwas das du aufgenommen hast, dann hast du dafür ja nicht im Tonstudio gestanden und am Ende kein Geld bekommen. Dir wurde keine Arbeit geklaut. Aber du hast auch keinen guten Grund mehr, morgen für ein anderes Projekt im Tonstudio zu stehen, weil du halt Geld haben willst, die Maschine aber nicht. Dein Geschäftsmodell ist also trotzdem irgendwie kaputt.

Irgendwie klingt für mich weder komplett erlauben noch komplett verbieten sinnvoll. Andererseits kann man auch kaum einen Mittelweg finden, immerhin kann man generierte Inhalte ja auch beliebig interpolieren (zumindest ist das sehr gut vorstellbar), dann klingt die Stimme eben nur noch zu 70% wie Bruce Willis. Und noch alberner als eine dieser Extreme wäre es, irgendwo eine Grenze einführen zu wollen, weil wie soll man das bitteschön sinnvoll messen?

Das wird alles noch ziemlich spannend werden, denke ich.
Lieber dumm fragen, als dumm bleiben!
Benutzeravatar
Jonathan
Establishment
Beiträge: 1964
Registriert: 04.08.2004, 20:06
Kontaktdaten:

Re: DeepFake TTS-Anwendung

Beitrag von Jonathan »

Update: Leute werden sauer, weil Coding-Tool mit OpenSource Code trainiert wurde:

https://www.golem.de/news/sfconservancy ... 66608.html

Finde ich ein wenig weit hergeholt, zumal ein Großteil der Lizenzen ja kein Copyleft oder ähnliches beinhaltet. Und der Aufruf die Plattform zu verlassen ist auch merkwürdig, github hätte für Copilot ja auch andere Quellen hernehmen können, hat es aber nur deshalb nicht gemacht, weil sie selber die größte sind (und weil es vermutlich sorum am einfachsten war).

Aber was ich halt daran interessant finde ist, dass es möglicherweise die Diskussion neu entfachen könnte und vielleicht gibt es ja auch demnächst mal ein Gerichtsurteil dazu.
Lieber dumm fragen, als dumm bleiben!
Antworten