Ich stimme Simanowski zu, dass der Bias in den Daten, auf denen die KI trainiert wird, ein Problem ist. Ich würde aber noch ein Schritt weiter gehen, als nur auf die „jungen, weißen, männlichen, vergleichsweise wohlhabenden Softwareentwicklern aus den USA“ zu verweisen.
Nämlich werden viele Algorithmen im und am Internet trainiert, da dies die größte Datenmenge gewährleistet. Das Internet ist aber ebenfalls in keiner Weise repräsentativ für die Menschheit. Die Beiträge, die online zu finden sind - gerade auf sozialen Medien - wurden nur von einem kleinen Prozentsatz der Bevölkerung gepostet; meist die mit starken, diskriminierenden Meinungen. Der Großteil der Menschen, die online aktiv sind, lesen ohne zu diskutieren; und bleiben damit ungehört. Algorithmen, die auf diesen Daten trainiert werden, könne am Ende nur wiedergeben, was ein Großteil der Menschen nie sagen würde. Gleichzeitig gibt es keine Datenmenge, die quantitativ in Konkurrenz zum Internet treten kann.
Optimaler Weise würden Algorithmen auf Daten von Menschen trainiert werden, die jegliche Bevölkerungsschichten abdecken: alle Ethnien, Geschlechter, Sexualitäten, Meinungen, Religionen, und auch Neigungen, sich kundzutun oder eben nicht. Allerdings sehe ich Schwierigkeiten darin, so einen Datensatz zu kreieren, eben weil der Großteil der Menschen nicht jede Meinung öffentlich macht.
Da ich mich gefragt hatte, wie viele Daten tatsächlich aus Online-Foren stammen: GPT-3, der Vorgänger von dem Modell auf dem ChatGPT basiert, wurde zu 22% mit “WebText2” Daten trainiert, die aus Reddit Beiträgen bestehen und zu 60% mit “common crawl”, also mehr oder weniger beliebigen Webseitendaten, die anscheinend auch Online-Foren umfassen können (siehe: https://arxiv.org/pdf/2005.14165.pdf). Demnach scheint das von dir erwähnte Problem tatsächlich realistisch zu sein.
Abgesehen davon sind 93% der Daten auf Englisch. Demnach sind Daten aus anderen Sprachen/Kulturen unterrepräsentiert. Fremdsprachige Daten ins Englische zu übersetzen birgt Schwierigkeiten, besonders bei regionalen Sprachen. Inwiefern eine KI mit Daten auf vielen verschiedenen Sprachen trainiert werden kann weiß ich nicht.
Ein weiteres Problem ist, dass es für manche Bevölkerungsgruppen wahrscheinlich weniger Daten gibt, z.B. aus weniger industriell entwickelten Ländern.
Andererseits wird es nie möglich sein Daten komplett ohne Bias zu erhalten, da vieles subjektiv ist.
Als weitere Beispiele neben ChatGPT gehe ich davon aus, dass die Inhalte, die Google, Youtube, Facebook etc., einem vorschlagen wahrscheinlich dem gleichen Phänomen unterliegen, da diese auch KI verwenden.
Ich stimme dir zu, dass die Datenmenge im Internet nicht repräsentativ ist für die globale Menschheit ist. Sicherlich gibt es hier großen Handlungsbedarf!
Gleichzeitig weiß ich nicht, ob wir es schaffen, eine ausgeglichene Datenmenge aller Bevölkerungsgruppen zu generieren. Ich denke, wir müssen auch lernen, Antworten und Ergebnisse von KI-Algorithmen zu hinterfragen und prüfen, ob eine Diskriminierung aufgrund von Datenbias vorliegen könnte.
Um einen Artikel zu kommentieren, auf andere Nutzer einzugehen oder einen eigenen Beitrag zu verfassen, musst du eingeloggt sein. So bleibt unsere Gemeinschaft sicher und aktiv.
Einloggen oder Konto erstellen mit:
Um einen Artikel zu kommentieren, auf andere Nutzer einzugehen oder einen Beitrag zu verfassen, musst du ein Nutzerkonto haben. So bleibt unsere Gemeinschaft sicher und aktiv.
Einloggen oder Konto erstellen mit:
te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.
Up-To-Date Bleiben?
In unserem Newsletter berichten wir über aktuelle Entwicklungen und ausgewählte Inhalte rund um te.ma. Dezent, gezielt, ohne Nonsens.
Ich stimme Simanowski zu, dass der Bias in den Daten, auf denen die KI trainiert wird, ein Problem ist. Ich würde aber noch ein Schritt weiter gehen, als nur auf die „jungen, weißen, männlichen, vergleichsweise wohlhabenden Softwareentwicklern aus den USA“ zu verweisen.
Nämlich werden viele Algorithmen im und am Internet trainiert, da dies die größte Datenmenge gewährleistet. Das Internet ist aber ebenfalls in keiner Weise repräsentativ für die Menschheit. Die Beiträge, die online zu finden sind - gerade auf sozialen Medien - wurden nur von einem kleinen Prozentsatz der Bevölkerung gepostet; meist die mit starken, diskriminierenden Meinungen. Der Großteil der Menschen, die online aktiv sind, lesen ohne zu diskutieren; und bleiben damit ungehört. Algorithmen, die auf diesen Daten trainiert werden, könne am Ende nur wiedergeben, was ein Großteil der Menschen nie sagen würde. Gleichzeitig gibt es keine Datenmenge, die quantitativ in Konkurrenz zum Internet treten kann.
Optimaler Weise würden Algorithmen auf Daten von Menschen trainiert werden, die jegliche Bevölkerungsschichten abdecken: alle Ethnien, Geschlechter, Sexualitäten, Meinungen, Religionen, und auch Neigungen, sich kundzutun oder eben nicht. Allerdings sehe ich Schwierigkeiten darin, so einen Datensatz zu kreieren, eben weil der Großteil der Menschen nicht jede Meinung öffentlich macht.
Da ich mich gefragt hatte, wie viele Daten tatsächlich aus Online-Foren stammen: GPT-3, der Vorgänger von dem Modell auf dem ChatGPT basiert, wurde zu 22% mit “WebText2” Daten trainiert, die aus Reddit Beiträgen bestehen und zu 60% mit “common crawl”, also mehr oder weniger beliebigen Webseitendaten, die anscheinend auch Online-Foren umfassen können (siehe: https://arxiv.org/pdf/2005.14165.pdf). Demnach scheint das von dir erwähnte Problem tatsächlich realistisch zu sein.
Abgesehen davon sind 93% der Daten auf Englisch. Demnach sind Daten aus anderen Sprachen/Kulturen unterrepräsentiert. Fremdsprachige Daten ins Englische zu übersetzen birgt Schwierigkeiten, besonders bei regionalen Sprachen. Inwiefern eine KI mit Daten auf vielen verschiedenen Sprachen trainiert werden kann weiß ich nicht.
Ein weiteres Problem ist, dass es für manche Bevölkerungsgruppen wahrscheinlich weniger Daten gibt, z.B. aus weniger industriell entwickelten Ländern.
Andererseits wird es nie möglich sein Daten komplett ohne Bias zu erhalten, da vieles subjektiv ist.
Als weitere Beispiele neben ChatGPT gehe ich davon aus, dass die Inhalte, die Google, Youtube, Facebook etc., einem vorschlagen wahrscheinlich dem gleichen Phänomen unterliegen, da diese auch KI verwenden.
Ich stimme dir zu, dass die Datenmenge im Internet nicht repräsentativ ist für die globale Menschheit ist. Sicherlich gibt es hier großen Handlungsbedarf!
Gleichzeitig weiß ich nicht, ob wir es schaffen, eine ausgeglichene Datenmenge aller Bevölkerungsgruppen zu generieren. Ich denke, wir müssen auch lernen, Antworten und Ergebnisse von KI-Algorithmen zu hinterfragen und prüfen, ob eine Diskriminierung aufgrund von Datenbias vorliegen könnte.