No. 224: Earning While Learning: How to Run Batched Bandit Experiments

Jahr: 2026
Typ: Working Paper

Abstract

Researchers typically collect experimental data sequentially, allowing early outcome observations and adaptive treatment assignment to reduce exposure to inferior treatments. This article reviews multi-armed-bandit adaptive experimental designs that balance exploration and exploitation. Because adaptively collected experimental data through bandit algorithms violate standard asymptotics, inference is challenging. We implement an estimator that yields valid heteroskedasticity-robust confidence intervals in batched bandit designs and compare coverage in Monte Carlo simulations. We introduce bbandits for Stata, a tool for designing experiments via simulation, running interactive bandit experiments, and implementing and analyzing adaptively collected data. bbandits includes three common assignment algorithms-ε-first, ε-greedy, and Thompson sampling-and supports estimation, inference, and visualization.

 

Beteiligte Institutionen

Die Hauptstandorte vom TRR 266 sind die Universität Paderborn (Sprecherhochschule), die HU Berlin und die Universität Mannheim. Alle drei Standorte sind seit vielen Jahren Zentren für Rechnungswesen- und Steuerforschung. Hinzu kommen Wissenschaftler der LMU München, der Frankfurt School of Finance and Management, der Goethe-Universität Frankfurt, der Universität zu Köln, der Leibniz Universität Hannover und der TU Darmstadt, die die gleiche Forschungsagenda verfolgen.

WordPress Cookie Plugin von Real Cookie Banner