Kielimallien paremmuutta vertailevan LMArenan mittauksia on peukaloitu tai vähintään optimoitu omat kielimallit niin, että ne pärjäävät vertailussa parhaiten. Mitä tästä kaikesta pitäisi ajatella?
Pikasietotila ilmestyy joka toinen viikko ja se on vain maksavien tilaajien kuultavissa.
Linkit
https://lmarena.ai/
https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/
https://simonwillison.net/2025/May/1/mark-zuckerberg/
https://simonwillison.net/2025/Apr/30/criticism-of-the-chatbot-arena/