
Künstliche Daten sind ein gefährlicher Lehrer
Künstliche Daten sind ein gefährlicher Lehrer Risiken von künstlichen Daten im maschinellen Lernen Verzerrungen durch falsche Daten Der Einsatz künstlicher bzw. synthetischer Daten im maschinellen Lernen (ML) gewinnt zunehmend an Bedeutung. Doch wie viel Potenzial und Gefahr stecken tatsächlich in diesen sogenannten „künstlichen Lehrern“? Eine Studie der Universität Cambridge aus dem Jahr 2023 zeigt, dass etwa 35 % der KI-Modelle, die ausschließlich mit synthetischen Trainingsdaten trainiert wurden, deutlich schlechtere Vorhersagen treffen als Modelle, die mit echten Daten arbeiten. Fehlerquoten stiegen dabei teilweise um bis zu 20 % an. Diese Diskrepanz ist auf Verzerrungen (Bias) zurückzuführen, die in synthetischen Datensätzen schlummern und das Lernen des Modells nachhaltig beeinflussen können. Laut einer Untersuchung von IBM Research (2022) können bis zu 15 % der synthetischen Datensätze verzerrte oder fehlerhafte Muster enthalten, die von









