Datasets sobre contratación pública

Uno de los aspectos claves para el desarrollo de modelos basados en Aprendizaje Automático e Inteligencia Artificial lo constituyen los datasets para el entrenamiento y ajuste de modelos. Desde esta página se mantiene un repositorio con fuentes que pueden ser de gran utilidad, incluyendo artículos relacionados.

Identificación del origenDescripciónEnlace
Fazekas, M., Wachs, J., Toth, B., & Abdou, A. (2025). Public procurement cartels: A large-sample testing of screens using machine learning – Dataset [Data set]. Zenodo.This release provides a comprehensive public procurement dataset for replication and prediction of cartel-detection models in the “Public procurement cartels: A large-sample testing of screens using machine learning” publication. The dataset combines around 3 million contracts from seven European countries—Bulgaria, France, Hungary, Latvia, Portugal, Spain, and Sweden—covering the period from 2004 to 2021.The data were collected from official government publication portals and open data repositories, primarily opentender.eu, and harmonized into a consistent format to enable cross-country comparisons despite differing original data structures.https://zenodo.org/records/17595875
Freddy Daniel Carrillo Bustos & Yasmany Fernández FernándezEste estudio evalúa el potencial analítico de los datos abiertos publicados por el Servicio Nacional de Contratación Pública (SERCOP) de Ecuador en el periodo comprendido entre 2015 y2025. El estudio integró los dataset proporcionados por la plataforma oficial, aplicando procesos de análisis exploratorio de datos se depuraron los datos para realizar el proceso de investigación. En base a la información obtenida se aplican técnicas de Big Data, con las cuales se obtuvo patrones mediante técnicas de agrupación no supervisada; por lo que se obtienen diversas correlaciones entre variables como: presupuestos, tiempo y valoración descriptiva.
Aunque no es un dataset como tal, contiene información importante sobre el conjunto de datos de SERCOP y aporta información relevante para crear datasets.
https://www.uticvirtual.edu.py/revista.ojs/index.php/revistas/article/view/1738/2756
Shahid Tabish, Syed Zafar. “Detecting Collusion in Traditional Contracts.” Journal of Legal Affairs and Dispute Resolution in Engineering and Construction 17.4 (2025): 04525051.Este estudio destaca cómo la colusión entre clientes, consultores, licitadores, proveedores e ingenieros puede transformar los procesos de licitación en prácticas anticompetitivas, afectando negativamente la inversión, el crecimiento y el desarrollo. El trabajo identifica indicadores relevantes a partir de la literatura académica y casos reales, y propone un método basado en la Ley de Benford, pruebas estadísticas (metodología BS3P) y tres indicadores físicos clave: participantes, patrones y precios. La metodología se valida con datos de tres casos de estudio, demostrando su utilidad para autoridades de contratación, auditores técnicos y órganos de control en la lucha contra la corrupción. Los datos se encuentran disponibles bajo petición a los autores.https://ascelibrary.org/doi/abs/10.1061/JLADAH.LADR-1311
Dataset incluidos en publicación:

RODRÍGUEZ, Manuel J. García, et al. Collusion detection in public procurement auctions with machine learning algorithms. Automation in Construction, 2022, vol. 133, p. 104047.
El artículo evalúa la eficacia de once algoritmos de aprendizaje automático en la detección de colusión, utilizando conjuntos de datos provenientes de países como Brasil, Italia, Japón, Suiza y Estados Unidos. Se aportan como material suplementario 6 datasets:
Collusive dataset from Switzerland Ticino (Construcción de carreteras).
Collusive dataset from Switzerland GR and See-Gaster (Construcción de carreteras e ingeniería civil).
Collusive dataset from Japan (Construcción e ingeniería civil).
Collusive dataset from Italy (Construcción de carreteras).
Collusive dataset from Brazil (Proyectos de infraestructuras petroleras).
Collusive dataset from USA (Distribución de lecha a escuelas).
https://www.sciencedirect.com/science/article/pii/S0926580521004982
Signor, Regis, et al. “Public infrastructure procurement: detecting collusion in capped first-priced auctions.” Journal of Infrastructure Systems 26.2 (2020): 05020002.La contratación pública de infraestructuras está especialmente expuesta a riesgos de colusión entre licitadores, con consecuencias económicas y sociales relevantes. En Brasil, para mitigar estos riesgos, se introdujeron mecanismos normativos como la Ley 8666/93, que obliga a realizar subastas de primer precio con límites máximos basados en precios de mercado registrados en bases de datos oficiales.
Este estudio analiza 187 subastas de este tipo con ocho o más ofertas y propone una metodología innovadora para la detección de colusión plena. El enfoque consiste en comparar el comportamiento agregado de los licitadores con un escenario contrafactual (“but-for”) que representa una competencia honesta, simulada mediante ofertas aleatorias. Esta comparación permite evaluar, con distintos niveles de confianza estadística, si los resultados observados en una subasta pueden considerarse consistentes con un comportamiento competitivo o si, por el contrario, existen indicios de coordinación colusoria.
La propuesta metodológica puede utilizarse de forma autónoma o como complemento a otras técnicas de detección de colusión. Su valor reside en que permite identificar posibles pactos a partir del análisis ex post de los resultados de la subasta, sin requerir información previa sobre las empresas. Se trata, por tanto, de una herramienta útil para auditores, autoridades de contratación y organismos de control que trabajan en la prevención del fraude en licitaciones públicas. Los datos se encuentran disponibles en formato Excel bajo petición a los autores.
https://ascelibrary.org/doi/full/10.1061/%28ASCE%29IS.1943-555X.0000543