Haupt Innovation Mit Google AI können Benutzer jetzt Text mit Telefonkameras sofort in 27 Sprachen übersetzen

Mit Google AI können Benutzer jetzt Text mit Telefonkameras sofort in 27 Sprachen übersetzen

Welcher Film Zu Sehen?
 
(Gif: Google)

(Gif: Google)



Dank künstlicher Intelligenz war das Reisen ins Ausland noch nie so einfach.

Mit der Google Übersetzer-App können Benutzer Text sofort übersetzen. Richten Sie in der App einfach Ihre Kamera auf den Text, den Sie übersetzen möchten, und Sie sehen, wie er sich live in Ihre gewünschte Sprache verwandelt, direkt vor Ihren Augen – keine Internetverbindung oder Handydaten erforderlich. Diese praktische Funktion ist schon seit einiger Zeit verfügbar, war jedoch nur mit sieben Sprachen kompatibel. Jetzt , dank maschinellem Lernen hat Google die App aktualisiert, um sofort 27 Sprachen zu übersetzen.

Wenn Sie also das nächste Mal in Prag sind und keine Speisekarte lesen können, haben wir Ihren Rücken, schrieb Otavio Good, Software-Ingenieur bei Google, zu den Recherchen des Unternehmens Blog .

Google hat auch gerade KI verwendet, um seine Spracherkennungsfehler zu halbieren.

Ab heute können neben Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Russisch und Spanisch auch die folgenden 20 Sprachen in Echtzeit übersetzt werden: Bulgarisch, Katalanisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Philippinisch, Finnisch, Ungarisch, Indonesisch, Litauisch, Norwegisch, Polnisch, Rumänisch, Slowakisch, Schwedisch, Türkisch und Ukrainisch. Und wenn Sie sich dafür entscheiden, ein Bild zu machen, anstatt den Text live zu übersetzen, werden insgesamt 37 Sprachen unterstützt.

Wie konnte Google die Anzahl der verfügbaren Sprachen erhöhen? Sie erwarben zunächst Word Lens, eine frühere Augmented-Reality-Übersetzungsanwendung, und nutzten maschinelles Lernen und konvolutionelle neuronale Netze, um die Fähigkeiten der App zu verbessern. Die Fortschritte bei der Bilderkennung waren der Schlüssel.

Wenn man einem Computer vor fünf Jahren das Bild einer Katze oder eines Hundes gab, konnte er nicht erkennen, was welcher war. Dank neuronaler Faltungsnetze können Computer nicht nur Katzen und Hunde unterscheiden, sondern sogar verschiedene Hunderassen erkennen, sagte Good. Ja, sie sind für mehr als nur gut trippige Kunst – Wenn Sie ein ausländisches Menü übersetzen oder mit der neuesten Version der Übersetzer-App von Google unterschreiben, verwenden Sie jetzt ein tiefes neuronales Netz.

Schritt für Schritt

Zuerst , Translate muss Hintergrundunordnungen aussortieren und den Text lokalisieren. Wenn es Blobs von Pixeln derselben Farbe findet, stellt es fest, dass es sich um Buchstaben handelt. Und wenn diese Blobs nahe beieinander liegen, versteht es, dass es sich um eine durchgehende Linie handelt, die gelesen werden muss.

Nächster, die App muss erkennen, was jeder einzelne Buchstabe ist. Hier kommt Deep Learning ins Spiel.

Wir verwenden ein neuronales Faltungsnetzwerk und trainieren es mit Buchstaben und Nicht-Buchstaben, damit es lernen kann, wie verschiedene Buchstaben aussehen, heißt es im Blogbeitrag.

Die Forscher mussten die Software nicht nur mit sauber aussehenden, sondern auch mit schmutzigen Buchstaben trainieren. Briefe in der realen Welt sind von Reflexionen, Schmutz, Flecken und allerlei Seltsamkeiten übersät, schrieb Mr. Good. Also haben wir unseren Buchstabengenerator so gebaut, dass er alle Arten von falschem Schmutz erzeugt, um den Lärm der realen Welt überzeugend nachzuahmen – falsche Reflexionen, falsche Flecken, falsche Verrücktheit überall. Einige von den

Einige der schmutzigen Buchstaben, die für das Training verwendet wurden. (Foto: Google)








Das dritte Schritt besteht darin, die erkannten Buchstaben in einem Wörterbuch nachzuschlagen, um die Übersetzungen zu erhalten. Und für einen zusätzlichen Versuch der Genauigkeit sind Wörterbuchsuchen ungefähr, falls ein S als 5 falsch gelesen wird.

Zuletzt, der übersetzte Text wird im gleichen Stil über dem Original gerendert.

Wir können dies tun, weil wir die Buchstaben im Bild bereits gefunden und gelesen haben, sodass wir genau wissen, wo sie sich befinden. Wir können uns die Farben um die Buchstaben herum ansehen und diese verwenden, um die ursprünglichen Buchstaben zu löschen. Und dann können wir die Übersetzung mit der ursprünglichen Vordergrundfarbe darüber zeichnen, heißt es im Blog-Beitrag.

Um möglichst effizient zu sein und all diese Schritte ohne Internet- oder Datenverbindung in Echtzeit durchführen zu können, hat das Google-Team ein sehr kleines neuronales Netz mit einer oberen Grenze der Informationsdichte entwickelt. Da sie ihre eigenen Trainingsdaten generierten, war es wichtig, die richtigen Daten einzubeziehen, aber nichts zusätzliches, damit das neuronale Netz nicht zu viel seiner Informationsdichte für unwichtige Dinge verwendet. Ein Beispiel wäre, wie es einen Buchstaben mit einer leichten Drehung erkennen muss, aber nicht zu viel.

Am Ende bleiben den Benutzern 20 weitere Sprachen, aber die gleiche schnelle Geschwindigkeit.

SIEHE AUCH: Das KI-Team von Google hat uns die Fakten zu seiner Forschung zum maschinellen Lernen gegeben

Artikel, Die Sie Mögen :