Wie zuverlässig ist das Wissen der KI-Modelle?

Ein interessanter Artikel über einen neuen Benchmark für KI-Modelle, der nicht nur das Wissen, sondern auch die Zuverlässigkeit bewertet. Die Ergebnisse zeigen, dass die Modelle der großen Anbieter in vier Kategorien eingeteilt werden können:

Modelle mit viel Wissen und hoher Zuverlässigkeit, z.B. Cloude 4.1 Opus
Modelle mit viel Wissen, aber niedriger Zuverlässigkeit, z.B. Claude 4.5 Haiku
Modelle mit wenig Wissen, aber hoher Zuverlässigkeit, z.B. GPT 5.1
Modelle mit wenig Wissen und niedriger Zuverlässigkeit (z.B. das kleine Open-Source-Modell von OpenAI, gtp-oss)

Die Modelle wurden mit 6000 Fragen aus den Bereichen Business, Geisteswissenschaften, Sozialwissenschaften, Gesundheit, Recht, Software Engineering sowie Naturwissenschaften und Mathematik getestet. 10% davon wurden veröffentlicht, der Rest bleibt unter Verschluss, damit die Modelle nicht gezielt auf den Benchmark trainiert werden können.

Quelle: https://the-decoder.de/neuer-benchmark-entlarvt-grosse-wissensluecken-bei-ki-modellen-nur-vier-schaffen-positive-bewertung/

Wie zuverlässig ist das Wissen der KI-Modelle?

Read next

Der falsche Ansatz für KI

Google nutzt seine Markstellung massiv für seine KI aus

Neue europäische Open-Source-KI-Modelle

Comments ()

Read next

Comments ( )

Comments ()