Tag

prompt robustness

1 articles

LLMs stumble on counterintuitive probability

LLMs stumble on counterintuitive probability

A benchmark finds LLMs are strong on standard probability problems but falter on counterintuitive ones.