Haupt Innovation Die neue Text-to-Speech-KI von Google ist so gut, dass Sie sie nicht von einem echten Menschen erzählen können

Die neue Text-to-Speech-KI von Google ist so gut, dass Sie sie nicht von einem echten Menschen erzählen können

Ihr Horoskop Für Morgen

Können Sie den Unterschied zwischen KI-generierter Computersprache und einem echten, lebenden Menschen erkennen? Vielleicht haben Sie immer gedacht, dass Sie es könnten. Vielleicht magst du Alexa und Siri, glaubst aber, dass du keine von beiden mit einer echten Frau verwechseln würdest.

Die Dinge werden viel interessanter. Google-Ingenieure haben hart daran gearbeitet, ein Text-to-Speech-System namens . zu entwickeln Tacotron 2 . Nach a Papier- Sie veröffentlichten diesen Monat, das System erstellt zunächst ein Spektrogramm des Textes, eine visuelle Darstellung, wie die Sprache klingen soll. Dieses Bild wird durch den bestehenden WaveNet-Algorithmus von Google geleitet, der das Bild verwendet, um eine extrem natürlich klingende menschliche Sprache zu erzeugen.

Wetterkanal Stephanie Abrams Gehalt

Mit dieser Methode berichten die Forscher: 'Unser Modell erreicht einen durchschnittlichen Meinungsscore (MOS) von 4,53, vergleichbar mit einem MOS von 4,58 für professionell aufgezeichnete Sprache.' (Ein durchschnittlicher Meinungswert ist ein Begriff aus der Telekommunikation, der misst, wie lebensecht etwas klingt.)

Wie die Audiobeispiele von Google demonstrieren, kann Tacotron 2 aus dem Kontext den Unterschied zwischen dem Substantiv „Wüste“ und dem Verb „Wüste“ sowie zwischen dem Substantiv „präsent“ und dem Verb „präsent“ erkennen und seine Aussprache entsprechend ändern. Es kann die Betonung auf großgeschriebene Wörter legen und die richtige Flexion anwenden, wenn eine Frage gestellt wird, anstatt eine Aussage zu machen.

Und es kann Text generieren, der der menschlichen Sprache so ähnlich klingt, dass es schwierig oder unmöglich ist, den Unterschied zu erkennen. Wenn Sie sehen möchten, wie schwer es ist, gehen Sie zu Google Seite mit Hörbeispielen , und scrollen Sie nach unten zum letzten Probensatz mit dem Titel 'Tacotron 2 or Human?' Dort finden Sie Tacotron 2 und eine reale Person, die jeweils Sätze sagen wie: 'Dieses Mädchen hat ein Video über Star Wars-Lippenstift gemacht.'

SPOILER-ALARM: Um sich selbst zu testen, hören Sie sich die Beispiele an und erraten Sie, welche welche sind, bevor Sie den Rest dieser Kolumne lesen.

Welche Samples sind also Text-to-Speech und welche eine echte menschliche Stimme? Die Ingenieure von Google sagen nichts, aber sie haben einen sehr großen Hinweis hinterlassen. Jedes der .wav-Dateibeispiele hat einen Dateinamen, der entweder den Begriff „gen“ oder „gt“ enthält. Basierend auf dem Papier ist es sehr wahrscheinlich, dass 'gen' die von Tacotron 2 erzeugte Sprache anzeigt und 'gt' echte menschliche Sprache ist. ('GT' steht wahrscheinlich für 'Ground Truth', ein Begriff für maschinelles Lernen, der im Grunde 'das echte Geschäft' bedeutet.)

Angenommen, dies ist richtig, hier sind die Antworten auf den Test:

tim mcgraw alter und größe

'Dieses Mädchen hat ein Video über Star Wars Lippenstift gemacht.'

Beispiel 1: Echter Mensch

Probe 2: Tacotron 2

'Sie promovierte in Soziologie an der Columbia University.'

Probe 1: Tacotron 2

Beispiel 2: Echter Mensch

'George Washington war der erste Präsident der Vereinigten Staaten.'

Probe 1: Tacotron 2

Beispiel 2: Echter Mensch

wie alt ist shiri spear

'Ich bin zu beschäftigt für Romantik.'

Beispiel 1: Echter Mensch

Probe 2: Tacotron 2

Wie viele hast du richtig gemacht? Und konnten Sie den Unterschied wirklich erkennen oder mussten Sie nur raten?