Deutsche Quellen für KI

Deutsche Quellen für KI

Die Problematik der Datenquellen, mit denen KI-Modelle trainiert wurden, ist sehr vielschichtig. Zum einen inhaltlich, wo bereits diverse Forschungsprojekte gezeigt haben, wie verzerrt und einseitig die Quellengrundlage ist und wie teilweise auch einfach Fehlinformationen verarbeitet werden. Zum anderen natürlich auch rechtlich, wie das Beispiel von Meta gezeigt hat. Dort kam am Rande eines Gerichtsverfahrens heraus, dass deren Modelle mit per Torrent heruntergeladenen, illegal verbreiteten Buchsammlungen trainiert wurden.

Umso wichtiger sind Projekte wie "German Commons". Dort haben Forscher aus 35,78 Millionen deutschen Dokumenten eine Quellenbasis zusammengestellt, die speziell für das Training deutscher Sprachmodelle eine inhaltlich und rechtlich saubere Grundlage darstellen kann, offen lizenziert und über die KI-Plattform Hugging Face frei zugänglich. Damit ist auch ein wichtiger Baustein für spezielle europäische KI-Modelle geschaffen, die den Fokus auf nicht englischsprachige Inhalte haben.

Quelle: https://the-decoder.de/german-commons-forschende-veroeffentlichen-groessten-offen-lizenzierten-deutschen-textkorpus/