An RL-Trained Retrieval Policy That Learns When NOT to Look Things Up — And Hits 73.5% on SciWorld While Retrieving Less

An RL-Trained Retrieval Policy That Learns When NOT to Look Things Up — And Hits 73.5% on SciWorld While Retrieving Less | BedrockNews