Vähän huijattiin tekoälymittaria


Kielimallien paremmuutta vertailevan LMArenan mittauksia on peukaloitu tai vähintään optimoitu omat kielimallit niin, että ne pärjäävät vertailussa parhaiten. Mitä tästä kaikesta pitäisi ajatella?

Pikasietotila ilmestyy joka toinen viikko ja se on vain maksavien tilaajien kuultavissa.

Linkit

https://lmarena.ai/

https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

https://stratechery.com/2025/an-interview-with-meta-ceo-mark-zuckerberg-about-ai-and-the-evolution-of-social-media

https://simonwillison.net/2025/May/1/mark-zuckerberg/

https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *