Modelos matemáticos y estadísticos en la precisión de los instrumentos de evaluación en la investigación. Una revisión sistemática
DOI:
https://doi.org/10.26820/recimundo/9.(4).oct.2025.21-38Palabras clave:
Validación de instrumentos, Métodos estadísticos, Modelos matemáticos, Precisión métrica, Revisión sistemáticaResumen
La validación de instrumentos de investigación es fundamental para garantizar la precisión y fiabilidad de las mediciones en diversos campos del conocimiento. Esta revisión sistemática, basada en la metodología PRISMA, analiza la aplicación de modelos matemáticos y estadísticos en la validación de instrumentos de evaluación. A partir de 33 estudios publicados entre 2010 y 2025, se identificaron técnicas predominantes como el análisis factorial exploratorio y confirmatorio, el coeficiente alfa de Cronbach y los modelos de ecuaciones estructurales. Se observa un creciente uso de métodos avanzados, como la Teoría de Respuesta al Ítem, técnicas de remuestreo (bootstrap) y enfoques bayesianos, que permiten manejar la incertidumbre y mejorar la robustez de las validaciones. Los resultados destacan la importancia de integrar métodos cuantitativos rigurosos para evaluar propiedades psicométricas como la validez y la fiabilidad. Sin embargo, también se evidencian inconsistencias en la aplicación de estos métodos, como la falta de transparencia en los detalles metodológicos y la sobreutilización de medidas de consistencia interna en detrimento de otras formas de fiabilidad. Se concluye que, si bien existen avances hacia prácticas más estandarizadas, es necesario fortalecer la formación en técnicas estadísticas avanzadas y promover la adaptación transcultural de los instrumentos.Descargas
Citas
Ali, A., Jayaraman, R., Azar, E., & Maalouf, M. (2024). A comparative analysis of machine learning and statistical methods for evaluating building performance: A systematic review and future benchmarking framework. Building and Environment. https://doi.org/10.1016/j.buildenv.2024.111268
Almohaya, T., Batchelor, J., & Arruda, E. (2025). Effectiveness of mathematical and simulation models for Improving Quality of Care in Emergency Departments: A Systematic Literature Review.. Applied clinical informatics. https://doi.org/10.1055/a-2591-3930
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2018). Standards for educational and psychological testing. American Educational Research Association.
Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). *Estadística para administración y economía* (10a ed.). Cengage Learning.
Arjana, I. M., Parmiti, D. P., Candiasa, I. M., & Widiartini, N. K. (2025). Unlocking the predictive power of the Rasch model: A systematic literature review on educational instrument calibration and assessment accuracy. Edelweiss Applied Science and Technology, 9(6), 2003–2022. https://doi.org/10.55214/25768484.v9i6.8310
Bakar, K. A., Hassan, S. A., Hanafi, N., Hayat, B., & Badrasawi, K. J. I. (2025). Rasch Model: A Systematic Review of Islamic Instruments. Global Journal Al-Thaqafah, 15(1), 61–78. https://doi.org/10.7187/gjat072025-5
Bámbula, F., & Gómez, I. (2016). La investigación sobre el síndrome de burnout en latinoamérica entre 2000 y el 2010. **, 33, 113-131. https://doi.org/10.14482/PSDC.33.1.8065
Barney, P., Ferregut, C., Perez, L. E., Hunter, N. F., & Paez, T. L. (1997). Statistical validation of system models. Hawaii International Conference on System Sciences, 5, 501–510. https://doi.org/10.1109/HICSS.1997.663210
Biedma-Ferrer, J. (2021). Inteligencia emocional: influencia en la gestión de los recursos humanos en las organizaciones. Revista Geon (Gestión, Organizaciones y Negocios). https://doi.org/10.22579/23463910.272
Binuya, M., Engelhardt, E., Schats, W., Schmidt, M., & Steyerberg, E. (2022). Methodological guidance for the evaluation and updating of clinical prediction models: a systematic review. BMC Medical Research Methodology, 22. https://doi.org/10.1186/s12874-022-01801-8
Boamah, H., & Shaibu, Z. (2023). Comparative accuracy of screening instruments for Alzheimer’s disease: Systematic review and meta-analysis. World Journal Of Advanced Research and Reviews. https://doi.org/10.30574/wjarr.2023.20.3.2480
Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R., & Young, S. L. (2018). Best practices for developing and validating scales for health, social, and behavioral research: A primer. Frontiers in Public Health, *6*, 149. https://doi.org/10.3389/fpubh.2018.00149
Bryant, F. B. (2016). Enhancing predictive accuracy and reproducibility in clinical evaluation research: Commentary on the special section of the Journal of Evaluation in Clinical Practice. Journal of Evaluation in Clinical Practice, 22(6), 829–834. https://doi.org/10.1111/JEP.12669
Canova-Barrios, C., & Machuca-Contreras, F. (2022). Interoperability standards in Health Information Systems: systematic review. Seminars in Medical Writing and Education. https://doi.org/10.56294/mw20227
Carrazco Soto, C. I., Maldonado Radillo, S. E., & López Torres, V. G. (2014). Evaluación de la validez y confiabilidad de un instrumento de medición de la gestión de la diversidad: Industria aeroespacial [Validity and reliability of a measurement tool for the diversity management: Aerospace industry]. Revista Internacional Administración & Finanzas, 7(5), 1–10. https://ssrn.com/abstract=2330379
Castillo, S., & Campos, M. (2021). Perspectivas y retos de la NOM-035-STPS-2018 para la atención de riesgos psicosociales y la promoción de entornos organizacionales favorables en México, 48-86. https://doi.org/10.36791/TCG.V0I17.101
Collazo, Z., Lang, O., & Blanco, Y. (2017). Validación de instrumento de medición para el diagnóstico del proceso de formación de pregrado, 2, 37-42. https://doi.org/10.33936/recus.v2i3.1094
De Campos, L., Da Luz, L., Rocha, C., Nogueira, C., Roca, L., & Gorla, J. (2019). Validación de pruebas para el análisis de la potencia aeróbica en atletas tetrapléjicos. Apunts Educación Física y Deportes. https://doi.org/10.5672/apunts.2014-0983.es.(2019/1).135.05
De Cassai, A., Dost, B., Karap?nar, Y., Beldagli, M., Yalin, M., Turunç, E., Turan, E., & Sella, N. (2025). Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals. Regional Anesthesia & Pain Medicine. https://doi.org/10.1136/rapm-2024-106231
Debray, T., Damen, J., Riley, R., Snell, K., Reitsma, J., Hooft, L., Collins, G., & Moons, K. (2018). A framework for meta-analysis of prediction model studies with binary and time-to-event outcomes. Statistical Methods in Medical Research, 28, 2768 - 2786. https://doi.org/10.1177/0962280218785504
Feirman, S., Donaldson, E., Glasser, A., Pearson, J., Niaura, R., Rose, S., Abrams, D., & Villanti, A. (2016). Mathematical Modeling in Tobacco Control Research: Initial Results From a Systematic Review.. Nicotine & tobacco research : official journal of the Society for Research on Nicotine and Tobacco, 18 3, 229-42. https://doi.org/10.1093/ntr/ntv104
Feitó Madrigal, D., Portal Boza, M., & Plascencia López, I. (2023). Modelos estadísticos para la investigación científica: Aplicaciones en las áreas económico-administrativas. Ediciones Comunicación Científica. https://doi.org/10.52501/cc.131
Fernández-Morales, A. (2021). *Análisis multivariante aplicado*. Ediciones Paraninfo.
Flora, D. B., & Flake, J. K. (2017). The purpose and practice of exploratory and confirmatory factor analysis in psychological research: Decisions for scale development and validation. Canadian Journal of Behavioural Science / Revue canadienne des sciences du comportement, *49*(2), 78–88. https://doi.org/10.1037/cbs0000069
Fornell, C., & Larcker, D. F. (1981). Evaluating structural equation models with unobservable variables and measurement error. *Journal of Marketing Research, 18*(1), 39-50. https://doi.org/10.1177/002224378101800104
García, J., Sandoval, A., Vega, J., & Herrera, B. (2021). Comparación del nivel de desempeño de una competencia usando tres instrumentos, dos basados en rúbrica y otro basado en lógica difusa: A comparison of the level of competency using three instruments; two rubric based instruments and a fussy logic-based instrument., 2, 123-145. https://doi.org/10.46990/RELEP.2020.2.4.245
Garza, F., Ramírez, Y., Ramírez-Noriega, A., & Sánchez, I. (2024). Una revisión sistemática de la literatura sobre la precisión de modelos de aprendizaje automático aplicados a la tasación de bienes raíces. Revista de Investigación en Tecnologías de la Información. https://doi.org/10.36825/riti.12.28.002
Guo, E., Gupta, M., Deng, J., Park, Y., Paget, M., & Naugler, C. (2023). Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study. Journal of Medical Internet Research, 26. https://doi.org/10.2196/48996
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). *Multivariate data analysis* (8th ed.). Cengage Learning.
Hajaj, R. I., Batiha, I. M., Aljazzazi, M., Jebril, I. H., & Butush, R. I. (2024). Characteristics of integration between statistical models and mathematical models. Journal of Mechanics of Continua and Mathematical Sciences, 19(10). https://doi.org/10.26782/jmcms.2024.10.00012
Hernández, M., & Valdez, M. (2022). Investigación sobre turismo de reuniones en el período 2000?2019: una revisión de literatura. PASOS. Revista de Turismo y Patrimonio Cultural. https://doi.org/10.25145/j.pasos.2022.20.053
Herzog, S., Blaizot, S., & Hens, N. (2017). Mathematical models used to inform study design or surveillance systems in infectious diseases: a systematic review. BMC Infectious Diseases, 17. https://doi.org/10.1186/s12879-017-2874-y
Horcajo-Gil, P., Dujo-López, V., Andreu-Rodríguez, J., & Marín-Rullán, M. (2019). Valoración y Gestión del Riesgo de Reincidencia Delictiva en Menores Infractores: una Revisión de Instrumentos. Anuario de Psicología Jurídica. https://doi.org/10.5093/APJ2018A15
Huang, L., Shu, X., Ge, N., Gao, L., Xu, P., Zhang, Y., Chen, Y., Yu, J., & Wu, C. (2023). The accuracy of screening instruments for sarcopenia: a diagnostic systematic review and meta-analysis. Age and Ageing, 52(8). https://doi.org/10.1093/ageing/afad152
Inastrilla, C. (2022). Big Data in Health Information Systems. Seminars in Medical Writing and Education. https://doi.org/10.56294/mw20226
Jacob, E., Perrillat-Mercerot, A., Palgen, J., L’Hostis, A., Ceres, N., Boissel, J., Bosley, J., Monteiro, C., & Kahoul, R. (2023). Empirical methods for the validation of time-to-event mathematical models taking into account uncertainty and variability: application to EGFR+ lung adenocarcinoma. BMC Bioinformatics, *24*, 295. https://doi.org/10.1186/s12859-023-05430-w
Jiménez-López, A., Aguirre, D., Otálvaro, J., & Arcila, S. (2020). Revisión del liderazgo, sus estilos y modelos de medición en la última década. **, 8, 81-98. https://doi.org/10.22209/rhs.v8n1a06
Khraisha, Q., Put, S., Kappenberg, J., Warraitch, A., & Hadfield, K. (2023). Can large language models replace humans in systematic reviews? Evaluating GPT?4's efficacy in screening and extracting data from peer?reviewed and grey literature in multiple languages. Research Synthesis Methods, 15, 616 - 626. https://doi.org/10.1002/jrsm.1715
Kim, S., & Yoon, H. (2025). Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.. Studies in health technology and informatics, 327, 904-905. https://doi.org/10.3233/SHTI250501
Layedra, P. (2014). Propuesta de un modelo de evaluación bidimensional en Moodle., 65. https://rest-dspace.ucuenca.edu.ec/server/api/core/bitstreams/d0e8513f-356b-47f4-b4de-3a7e25d42c24/content
Lee, J., Kim, K., Choi, S., Huh, J., & Park, S. (2015). Systematic Review and Meta-Analysis of Studies Evaluating Diagnostic Test Accuracy: A Practical Review for Clinical Researchers-Part II. Statistical Methods of Meta-Analysis. Korean Journal of Radiology, 16, 1188 - 1196. https://doi.org/10.3348/kjr.2015.16.6.1188
Lizasoain Hernández, L. (2020). Criterios y modelos estadísticos de eficacia escolar. Revista de Investigación Educativa, 38(2), 311–327. https://doi.org/10.6018/rie.417881
Lo, N., Andrejko, K., Shukla, P., Baker, T., Sawin, V., Norris, S., & Lewnard, J. (2022). Contribution and quality of mathematical modeling evidence in World Health Organization guidelines: A systematic review.. Epidemics, 39, 100570. https://doi.org/10.1016/j.epidem.2022.100570
López, V., & González-Trijueque, D. (2021). Revisión de Instrumentos en Español para Medir el Acoso Laboral: Su Utilidad en la Evaluación Pericial. Anuario de Psicología Jurídica. https://doi.org/10.5093/APJ2021A16
Lopez-Perez, L., Georga, E., Conti, C., Vicente, V., García, R., Pecchia, L., Fotiadis, D., Licitra, L., Cabrera, M., Arredondo, M., & Fico, G. (2024). Statistical and machine learning methods for cancer research and clinical practice: A systematic review. Biomed. Signal Process. Control., 92, 106067. https://doi.org/10.1016/j.bspc.2024.106067
Luo, R., Sastimoglu, Z., Faisal, A., & Deen, M. (2024). Evaluating the Efficacy of Large Language Models for Systematic Review and Meta-Analysis Screening. **. https://doi.org/10.1101/2024.06.03.24308405
Malebrán B., M, Henríquez N., L, & Contreras-Ruston, F. (2021). Revisión narrativa de instrumentos de autoevaluación vocal en Chile. Revista de otorrinolaringología y cirugía de cabeza y cuello, 81(4), 615-621. https://dx.doi.org/10.4067/s0718-48162021000400615
Malhotra, N. K. (2008). *Investigación de mercados* (5a ed.). Pearson Educación.
Márquez-Lugo, I., Mosquera-Quiñónez, M., Ochoa-Granados, C., Pacavita-Sánchez, D., Palencia-Sánchez, F., & Riaño-Casallas, M. (2021). Revisión de los Instrumentos de Medición del Síndrome De Burnout- Documento de Trabajo (Instruments for Measuring Burnout Syndrome: A Review-Working Paper). Social Science Research Network. https://doi.org/10.2139/SSRN.3841093
Martínez-Comesaña, M., Rigueira-Díaz, X., Larrañaga-Janeiro, A., Martínez-Torres, J., Ocarranza-Prado, I., & Kreibel, D. (2023). Impact of artificial intelligence on assessment methods in primary and secondary education: Systematic literature review. Revista de Psicodidáctica (English ed.). https://doi.org/10.1016/j.psicoe.2023.06.002
Méndez, J., Palomino, J., Huillca, E., Alanya, F., & Curo, C. (2024). El proceso de licenciamiento institucional y la mejora de la investigación científica en la educación superior. Comuni@cción: Revista de Investigación en Comunicación y Desarrollo. https://doi.org/10.33595/2226-1478.15.3.1025
Mendoza, J y Garza, J. (2017). La medición en el proceso de investigación científica: Evaluación de validez de contenido y confiabilidad (Measurement in the scientific research process: Contentvalidity and reliability evaluation).
Mokkink, L. B., de Vet, H. C. W., Prinsen, C. A. C., Patrick, D. L., Alonso, J., Bouter, L. M., & Terwee, C. B. (2018). COSMIN Risk of Bias checklist for systematic reviews of Patient-Reported Outcome Measures. Quality of Life Research, *27*(5), 1171–1179. https://doi.org/10.1007/s11136-017-1765-4
Montoya, P., Nieto, B., & Jiménez, M. (2022). Gestión de la producción: evolución y tendencias de investigación. Revista Ingeniería, Matemáticas y Ciencias de la Información. https://doi.org/10.21017/rimci.2022.v9.n18.a118
Moriasi, D., Arnold, J., Liew, M., Bingner, R., Harmel, R., & Veith, T. (2007). Model Evaluation Guidelines for Systematic Quantification of Accuracy in Watershed Simulations. Transactions of the ASABE, 50, 885-900. https://doi.org/10.13031/2013.23153
Nauta, M., Trienes, J., Pathak, S., Nguyen, E., Peters, M., Schmitt, Y., Schlötterer, J., Keulen, M., & Seifert, C. (2022). From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI. ACM Computing Surveys, 55, 1 - 42. https://doi.org/10.1145/3583558
Nunnally, J. C. (1978). *Psychometric theory* (2nd ed.). McGraw-Hill.
Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., Shamseer, L., Tetzlaff, J. M., Akl, E. A., Brennan, S. E., Chou, R., Glanville, J., Grimshaw, J. M., Hróbjartsson, A., Lalu, M. M., Li, T., Loder, E. W., Mayo-Wilson, E., McDonald, S., … Moher, D. (2021). The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ, *372*, n71. https://doi.org/10.1136/bmj.n71
Paquette-Rufiange, A., Prudhomme, S., & Laforest, M. (2023). Optimal Design of Validation Experiments for the Prediction of Quantities of Interest. Computer Methods in Applied Mechanics and Engineering, *415*, 116182. https://doi.org/10.1016/j.cma.2023.116182
Parady, G., Ory, D., & Walker, J. (2021). The over-reliance on statistical goodness-of-fit and under-reliance on model validation in discrete choice models: A review of validation practices in the transportation academic literature. Journal of Choice Modelling, *38*, 100257. https://doi.org/10.1016/j.jocm.2020.100257
Pérez-Suasnavas, A., Cela, K., & Hasperué, W. (2020). Beneficios del uso de técnicas de minería de datos para extraer y analizar datos de twitter aplicados en la educación superior: una revisión sistemática de la literatura. Teoria De La Educacion, 32, 181-218. https://doi.org/10.14201/teri.22171
Pettersson, A., Bengtsson Boström, K., Gustavsson, P., & Ekselius, L. (2015). Which instruments to support diagnosis of depression have sufficient accuracy? A systematic review. Nordic Journal of Psychiatry, 69(7), 497–508. https://doi.org/10.3109/08039488.2015.1008568
Porgo, T. V., Porgo, T. V., Norris, S. L., Salanti, G., Johnson, L. F., Simpson, J. A., Low, N., Egger, M., Egger, M., & Althaus, C. L. (2019). The use of mathematical modeling studies for evidence synthesis and guideline development: A glossary. Research Synthesis Methods, 10(1), 125–133. https://doi.org/10.1002/JRSM.1333
Rivera-Robles, S., Salcedo-Lagos, P., Valdivia-Guzmán, J., & López-Jara, O. (2021). Estudios empíricos del modelo sobre conocimiento didáctico-tecnológico del contenido (TPACK) en matemáticas, incluidos en bases bibliográficas internacionales. Información tecnológica. https://doi.org/10.4067/s0718-07642021000400109
Rodríguez-García, A., & Arias-Gago, A. (2021). Uso metodológico docente y rendimiento lector del alumnado: análisis fundamentado en PISA lectura 2018. Revista Electrónica Interuniversitaria de Formación del Profesorado. https://doi.org/10.6018/reifop.469921
Ruíz Bolívar C. (2016). Análisis de factores y desarrollo de instrumentos. Paradigma, 21(1), 9–41. UPEL-Barquisimeto, Venezuela), https://doi.org/10.37618/PARADIGMA.1011-2251.2000.p9-41.id242
Sestelo, M. (2013). Development and computational implementation of estimation and inference methods in flexible regression models: applications in Biology, Engineering and Environment.. Universidad de Vigo. Tesis Doctoral. https://sestelo.github.io/npregfast/reference/critical.html
Sijtsma, K. (2016). Playing with data—or how to discourage questionable research practices and stimulate researchers to do things right. Psychometrika, *81*(1), 1–15. https://doi.org/10.1007/s11336-015-9446-0
Soriano Rodríguez, A. M. (2015). Diseño y validación de instrumentos de medición. Diá-logos, (14), 19–40. https://doi.org/10.5377/dialogos.v0i14.2202
Tapullima-Mor, C. (2024). Programas de intervención para mejorar la convivencia escolar: una revisión sistemática. Revista de Psicología Clínica Con Niños y Adolescentes. https://doi.org/10.21134/rpcna.2024.11.1.2
Tedeschi, L. (2006). Assessment of the adequacy of mathematical models. Agricultural Systems, 89, 225-247. https://doi.org/10.1016/J.AGSY.2005.11.004
Valadez García, J. R., & López Leyva, S. A. (2023). *Estadística aplicada a la investigación*. Editorial Trillas.
Vásquez, S., & Tarrillo, S. (2020). Énfasis en la formación de habilidades blandas en mejora de los aprendizajes, 8, 78-87. https://doi.org/10.35383/educare.v8i2.470
Villamar Vásquez, G. I., Burgos Rea, L. R., & Cherrez Ibarra, R. X. . (2025). Aplicación de métodos estadísticos y matemáticos para la validación de instrumentos de investigación. Una revisión sistemática. RECIAMUC, 9(3), 123-138. https://doi.org/10.26820/reciamuc/9.(3).julio.2025.123-138
Willmott, C. (1982). Some Comments on the Evaluation of Model Performance. Bulletin of the American Meteorological Society, 63, 1309-1313. https://doi.org/10.1175/1520-0477(1982)063<1309:SCOTEO>2.0.CO;2
Wooldridge, J. M. (2003). *Introductory econometrics: A modern approach* (2nd ed.). South-Western College Publishing.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Carolina Grace Mackliff Jaramillo, Marisela Brigitte Segura Osorio, Karen Katiuska Sabando Maldonado, Ibsen Daniel Maldonado Ríos

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.