Haupt Geschäft Können synthetische Daten helfen, die Trainingsdatenkrise der generativen KI zu lösen?

Können synthetische Daten helfen, die Trainingsdatenkrise der generativen KI zu lösen?

Welcher Film Zu Sehen?
 
  K.I. Daten
Synthetische Daten sind maschinengenerierte Daten, die authentische, von Menschen erstellte Daten nachahmen. Leif Christoph Gottwald/Unsplash

Die Bereitstellung hochwertiger, realer Daten, die zum Trainieren generativer KI verwendet werden. Modelle scheint zu schwinden Da digitale Verlage ihren Zugriff auf ihre öffentlichen Daten zunehmend einschränken, Nach einer aktuellen Studie . Das bedeutet die Weiterentwicklung großer Sprachmodelle wie OpenAI GPT-4 von Google und Gemini von Google könnten an ihre Grenzen stoßen, sobald die KIs alle verbleibenden Daten im Internet abgekratzt haben.



Um das Wachsen anzugehen K.I. Trainingsdatenkrise Einige Experten erwägen synthetische Daten als mögliche Alternative. Zu den von echten Menschen erstellten Daten aus der realen Welt gehören Nachrichtenartikel, YouTube-Videos und andere Formen von Text- und Bildinhalten. Synthetische Daten hingegen werden durch Modelle des maschinellen Lernens künstlich generiert, die auf Stichproben realer Daten basieren. Obwohl synthetische Daten nicht besonders neu sind, kann sie zum Trainieren von KI verwendet werden. Modelle wie GPT sind eine Technik, zu der auch große Unternehmen gehören OpenAI untersuchen – eine Praxis, die laut Experten nach hinten losgehen könnte, wenn sie falsch durchgeführt wird. 








„Es ist immer noch eine Art Wilder Westen, wenn es um generative KI geht.“ Modelle“, Kjell Carlsson , Leiter der KI-Strategie bei Domino Data Lab, einer Plattform für maschinelles Lernen für Unternehmen, sagte gegenüber Observer. 



Wie synthetische Daten genutzt werden können, um generative KI zu trainieren 

Synthetische Daten werden seit langem verwendet, um den Mangel an ausreichenden Trainingsdaten für die KI zu beheben.  Anwendungen wie autonome Fahrsysteme. Zum Beispiel mögen Unternehmen Waymo Und Tesla Verwenden Sie synthetische Daten, um ihre zu trainieren Systeme T o auf eine Vielzahl von Straßenbedingungen reagieren. Einige Experten glauben nun, dass es kreative Möglichkeiten gibt, synthetische Daten zum Training generativer KI zu nutzen. Modelle. 

Synthetische Daten, die von großen Modellen wie GPT-4 von OpenAI generiert werden, können laut Carlsson möglicherweise zur Feinabstimmung kleinerer, spezialisierterer Modelle verwendet werden. Beispielsweise können Werbetreibende von Autoherstellern ChatGPT verwenden, um Kundenprofile von Frauen mittleren Alters aus Minneapolis zu erstellen, die Autos besitzen. Diese Daten können dann verwendet werden, um ein kleineres Modell zu trainieren, das dieses Kundensegment repräsentiert, um zielgerichtete Anzeigen zu erstellen. Darüber hinaus können LLMs, die gut in der Übersetzung sind, eine Fülle von Trainingsdaten in anderen Sprachen erzeugen, um „die Leistung eines anderen LLM in diesen Sprachen zu steigern“, sagte Carlsson. 






Synthetische Daten spielen eine entscheidende Rolle bei der Verbesserung unserer großen Sprachmodelle.“ Jigyasa Grover , ein ehemaliger Ingenieur für maschinelles Lernen bei X, der jetzt A.I. leitet. bei Bordo AI, einem Hersteller von Konversationsdatenanalysesoftware, sagte gegenüber Observer. „Durch die Generierung synthetischer Datensätze können wir LLMs für eine Vielzahl von Szenarien und Grenzfällen trainieren, die in realen Daten möglicherweise nicht angemessen dargestellt werden. Dies verbessert die Generalisierungsfähigkeiten unserer Modelle und macht sie anpassungsfähiger und effektiver in verschiedenen Anwendungen.“ 



Synthetische Daten können eine Alternative zu sensiblen Daten sein 

Künstlich generierte Daten können auch verwendet werden, um Informationslücken zu schließen, wenn Unternehmen ihre sensiblen Daten nicht preisgeben möchten, insbesondere bei großen Auswirkungen Sektoren wie Gesundheitswesen, Finanzen und Strafverfolgung, sagten Neil Sahota , eine K.I. Berater der Vereinten Nationen und CEO der A.I. Forschungsunternehmen ACSILabs. Beispielsweise können Krankenhäuser synthetisch Bilder von Lungenkrebs-Röntgenstrahlen aus verschiedenen Winkeln erzeugen, um die KI zu trainieren. Modelle, die Ärzten helfen könnten, Tumore schneller und genauer zu identifizieren, sagte Sahota. Ebenso können Regierungen ihre KI trainieren. über Beispiele von Geldwäsche, die Finanzinstitute nicht veröffentlichen, um die Merkmale der Akteure hinter Unternehmenskriminalität zu identifizieren. „Synthetische Daten sind eine großartige Möglichkeit, diese Lücke zu schließen“, sagte Sahota gegenüber Observer. 

Synthetische Daten bieten auch eine Möglichkeit, Probleme des geistigen Eigentums zu umgehen, die der KI zunehmend Kopfzerbrechen bereiten. Firmen. Die Schulung von LLMs auf synthetischen Daten schützt Unternehmen wie OpenAI vor Klagen von Künstlern, Schriftstellern und Verlegern dafür, dass sie ihre kreativen Werke zum Trainieren von Chatbots nutzen.  „Synthetische Trainingsdaten könnten viele dieser Probleme beseitigen“ Stern Kashman , ein auf Rechtsstreitigkeiten im Technologiesektor spezialisierter Anwalt, sagte gegenüber Observer. „Damit wird die Hürde umgangen, dass man unbeabsichtigt die Arbeit anderer Leute verletzt.“ 

Synthetische Daten können mehr Probleme verursachen – und sind nicht immer notwendig

Trotz der potenziellen technischen und rechtlichen Vorteile der Verwendung synthetischer Daten ist das Training von K.I. Die Nutzung nichtmenschlicher Daten birgt Risiken.  Abgesehen von der Skepsis gegenüber sogenannten „gefälschten Daten“ könnten synthetische Daten Verzerrungen und Ungenauigkeiten im bereits vorhandenen Datensatz eines Modells aufrechterhalten, wenn die K.I. ist nicht richtig trainiert.

Eine Naturstudie Die im Juli veröffentlichte Studie ergab, dass K.I. Modelle erzeugten Ergebnisse von geringerer Qualität, nachdem sie mit KI-generierten Daten trainiert wurden – ein Phänomen, das in der Community des maschinellen Lernens als „ Modellzusammenbruch. „Das könnte zum Teil daran liegen, dass Techniken zur Generierung synthetischer Daten noch neu sind und es einfach nicht genügend Ingenieure mit den Fähigkeiten gibt, sie durchzuführen und zu testen, so Carlsson. Man kann die Dinge völlig vermasseln und noch schlimmer machen“, sagte er.

Im Gegenzug nutzen Unternehmen, die voreingenommene synthetische Daten verwenden, um KI zu trainieren, können haftbar gemacht werden, wenn ihre Modelle Ergebnisse erzeugen, die ein Kläger als diskriminierend, unethisch oder ungenau empfindet, so Kashman, der Anwalt. 

Schließlich gibt es möglicherweise noch viele reale Daten, die noch extrahiert werden müssen, so Mayur Pillay, Vizepräsident für Unternehmensentwicklung bei Hyperscience, einem KI-Unternehmen. Software, die Unternehmensdokumente wie Ansprüche und Rechnungen in maschinenverwertbare Daten umwandelt. Während die Synthese von Daten in manchen Fällen nützlich sein könnte, gibt es laut Pillay keinen Ersatz für die realen Daten, insbesondere für komplexe Datentypen wie Handschriften auf Formularen, die schwer zu reproduzieren sind, weil sie einen Kontext erfordern. „Es gibt tatsächlich noch so viele Daten, die zum Trainieren dieser speziellen Modelle verwendet werden können“, sagt er sagte. „Es ist einfach in den Kern des Unternehmens eingebettet.“ 

Auch wenn synthetische Daten ein Risiko darzustellen scheinen, sind sich einige Experten einig, dass synthetische Daten, wenn sie mit echten Daten gemischt werden, bei vorsichtigem Umgang dazu beitragen könnten, den Mangel an KI zu beheben. Trainingsdaten. Dennoch scheint es unwahrscheinlich, dass synthetische Daten die wichtigste Informationsquelle der KI sein werden. Unternehmen wenden sich an sie, wenn sie nach neuen Quellen für Trainingsdaten suchen – zumindest vorerst. 

„Derzeit werden Gigabyte und Petabyte an Daten verwendet, um ein großes Sprachmodell zu trainieren“, sagte Grover. Offensichtlich sind wir noch nicht an dem Punkt angelangt, an dem wir so viele unvoreingenommene und ausgewogene Datensätze generieren können.“ 

Artikel, Die Sie Mögen :