Modelos matemáticos y estadísticos en la precisión de los instrumentos de evaluación en la investigación. Una revisión sistemática

Autores/as

DOI:

https://doi.org/10.26820/recimundo/9.(4).oct.2025.21-38

Palabras clave:

Validación de instrumentos, Métodos estadísticos, Modelos matemáticos, Precisión métrica, Revisión sistemática

Resumen

La validación de instrumentos de investigación es fundamental para garantizar la precisión y fiabilidad de las mediciones en diversos campos del conocimiento. Esta revisión sistemática, basada en la metodología PRISMA, analiza la aplicación de modelos matemáticos y estadísticos en la validación de instrumentos de evaluación. A partir de 33 estudios publicados entre 2010 y 2025, se identificaron técnicas predominantes como el análisis factorial exploratorio y confirmatorio, el coeficiente alfa de Cronbach y los modelos de ecuaciones estructurales. Se observa un creciente uso de métodos avanzados, como la Teoría de Respuesta al Ítem, técnicas de remuestreo (bootstrap) y enfoques bayesianos, que permiten manejar la incertidumbre y mejorar la robustez de las validaciones. Los resultados destacan la importancia de integrar métodos cuantitativos rigurosos para evaluar propiedades psicométricas como la validez y la fiabilidad. Sin embargo, también se evidencian inconsistencias en la aplicación de estos métodos, como la falta de transparencia en los detalles metodológicos y la sobreutilización de medidas de consistencia interna en detrimento de otras formas de fiabilidad. Se concluye que, si bien existen avances hacia prácticas más estandarizadas, es necesario fortalecer la formación en técnicas estadísticas avanzadas y promover la adaptación transcultural de los instrumentos.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Carolina Grace Mackliff Jaramillo, Universidad Técnica de Machala

Magíster en Docencia Universitaria; Bioquímica Farmacéutico; Doctora en Bioquímica y Farmacia; Universidad Técnica de Machala; Machala, Ecuador

Marisela Brigitte Segura Osorio, Universidad Técnica de Machala

Magíster en Medicina Forense; Diploma Superior en Docencia Universitaria; Bioquímica Farmacéutica; Universidad Técnica de Machala; Machala, Ecuador

Karen Katiuska Sabando Maldonado, Universidad de Guayaquil

Magíster en Docencia y Gerencia en Educación Superior; Economista; Universidad de Guayaquil; Guayaquil, Ecuador

Ibsen Daniel Maldonado Ríos, Universidad de Guayaquil

Magíster en Docencia y Gerencia en Educación Superior; Diploma Superior en Diseño Curricular por Competencias; Doctor en Educación; Licenciado en Ciencias de la Educación Mención Pedagogía Musical; Licenciado en Ciencias de la Educación Especialización Administración y Supervisión Educativa; Ingeniero Comercial; Administrador Educativo; Universidad de Guayaquil; Guayaquil, Ecuador

Citas

Ali, A., Jayaraman, R., Azar, E., & Maalouf, M. (2024). A comparative analysis of machine learning and statistical methods for evaluating building performance: A systematic review and future benchmarking framework. Building and Environment. https://doi.org/10.1016/j.buildenv.2024.111268

Almohaya, T., Batchelor, J., & Arruda, E. (2025). Effectiveness of mathematical and simulation models for Improving Quality of Care in Emergency Departments: A Systematic Literature Review.. Applied clinical informatics. https://doi.org/10.1055/a-2591-3930

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2018). Standards for educational and psychological testing. American Educational Research Association.

Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). *Estadística para administración y economía* (10a ed.). Cengage Learning.

Arjana, I. M., Parmiti, D. P., Candiasa, I. M., & Widiartini, N. K. (2025). Unlocking the predictive power of the Rasch model: A systematic literature review on educational instrument calibration and assessment accuracy. Edelweiss Applied Science and Technology, 9(6), 2003–2022. https://doi.org/10.55214/25768484.v9i6.8310

Bakar, K. A., Hassan, S. A., Hanafi, N., Hayat, B., & Badrasawi, K. J. I. (2025). Rasch Model: A Systematic Review of Islamic Instruments. Global Journal Al-Thaqafah, 15(1), 61–78. https://doi.org/10.7187/gjat072025-5

Bámbula, F., & Gómez, I. (2016). La investigación sobre el síndrome de burnout en latinoamérica entre 2000 y el 2010. **, 33, 113-131. https://doi.org/10.14482/PSDC.33.1.8065

Barney, P., Ferregut, C., Perez, L. E., Hunter, N. F., & Paez, T. L. (1997). Statistical validation of system models. Hawaii International Conference on System Sciences, 5, 501–510. https://doi.org/10.1109/HICSS.1997.663210

Biedma-Ferrer, J. (2021). Inteligencia emocional: influencia en la gestión de los recursos humanos en las organizaciones. Revista Geon (Gestión, Organizaciones y Negocios). https://doi.org/10.22579/23463910.272

Binuya, M., Engelhardt, E., Schats, W., Schmidt, M., & Steyerberg, E. (2022). Methodological guidance for the evaluation and updating of clinical prediction models: a systematic review. BMC Medical Research Methodology, 22. https://doi.org/10.1186/s12874-022-01801-8

Boamah, H., & Shaibu, Z. (2023). Comparative accuracy of screening instruments for Alzheimer’s disease: Systematic review and meta-analysis. World Journal Of Advanced Research and Reviews. https://doi.org/10.30574/wjarr.2023.20.3.2480

Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R., & Young, S. L. (2018). Best practices for developing and validating scales for health, social, and behavioral research: A primer. Frontiers in Public Health, *6*, 149. https://doi.org/10.3389/fpubh.2018.00149

Bryant, F. B. (2016). Enhancing predictive accuracy and reproducibility in clinical evaluation research: Commentary on the special section of the Journal of Evaluation in Clinical Practice. Journal of Evaluation in Clinical Practice, 22(6), 829–834. https://doi.org/10.1111/JEP.12669

Canova-Barrios, C., & Machuca-Contreras, F. (2022). Interoperability standards in Health Information Systems: systematic review. Seminars in Medical Writing and Education. https://doi.org/10.56294/mw20227

Carrazco Soto, C. I., Maldonado Radillo, S. E., & López Torres, V. G. (2014). Evaluación de la validez y confiabilidad de un instrumento de medición de la gestión de la diversidad: Industria aeroespacial [Validity and reliability of a measurement tool for the diversity management: Aerospace industry]. Revista Internacional Administración & Finanzas, 7(5), 1–10. https://ssrn.com/abstract=2330379

Castillo, S., & Campos, M. (2021). Perspectivas y retos de la NOM-035-STPS-2018 para la atención de riesgos psicosociales y la promoción de entornos organizacionales favorables en México, 48-86. https://doi.org/10.36791/TCG.V0I17.101

Collazo, Z., Lang, O., & Blanco, Y. (2017). Validación de instrumento de medición para el diagnóstico del proceso de formación de pregrado, 2, 37-42. https://doi.org/10.33936/recus.v2i3.1094

De Campos, L., Da Luz, L., Rocha, C., Nogueira, C., Roca, L., & Gorla, J. (2019). Validación de pruebas para el análisis de la potencia aeróbica en atletas tetrapléjicos. Apunts Educación Física y Deportes. https://doi.org/10.5672/apunts.2014-0983.es.(2019/1).135.05

De Cassai, A., Dost, B., Karap?nar, Y., Beldagli, M., Yalin, M., Turunç, E., Turan, E., & Sella, N. (2025). Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals. Regional Anesthesia & Pain Medicine. https://doi.org/10.1136/rapm-2024-106231

Debray, T., Damen, J., Riley, R., Snell, K., Reitsma, J., Hooft, L., Collins, G., & Moons, K. (2018). A framework for meta-analysis of prediction model studies with binary and time-to-event outcomes. Statistical Methods in Medical Research, 28, 2768 - 2786. https://doi.org/10.1177/0962280218785504

Feirman, S., Donaldson, E., Glasser, A., Pearson, J., Niaura, R., Rose, S., Abrams, D., & Villanti, A. (2016). Mathematical Modeling in Tobacco Control Research: Initial Results From a Systematic Review.. Nicotine & tobacco research : official journal of the Society for Research on Nicotine and Tobacco, 18 3, 229-42. https://doi.org/10.1093/ntr/ntv104

Feitó Madrigal, D., Portal Boza, M., & Plascencia López, I. (2023). Modelos estadísticos para la investigación científica: Aplicaciones en las áreas económico-administrativas. Ediciones Comunicación Científica. https://doi.org/10.52501/cc.131

Fernández-Morales, A. (2021). *Análisis multivariante aplicado*. Ediciones Paraninfo.

Flora, D. B., & Flake, J. K. (2017). The purpose and practice of exploratory and confirmatory factor analysis in psychological research: Decisions for scale development and validation. Canadian Journal of Behavioural Science / Revue canadienne des sciences du comportement, *49*(2), 78–88. https://doi.org/10.1037/cbs0000069

Fornell, C., & Larcker, D. F. (1981). Evaluating structural equation models with unobservable variables and measurement error. *Journal of Marketing Research, 18*(1), 39-50. https://doi.org/10.1177/002224378101800104

García, J., Sandoval, A., Vega, J., & Herrera, B. (2021). Comparación del nivel de desempeño de una competencia usando tres instrumentos, dos basados en rúbrica y otro basado en lógica difusa: A comparison of the level of competency using three instruments; two rubric based instruments and a fussy logic-based instrument., 2, 123-145. https://doi.org/10.46990/RELEP.2020.2.4.245

Garza, F., Ramírez, Y., Ramírez-Noriega, A., & Sánchez, I. (2024). Una revisión sistemática de la literatura sobre la precisión de modelos de aprendizaje automático aplicados a la tasación de bienes raíces. Revista de Investigación en Tecnologías de la Información. https://doi.org/10.36825/riti.12.28.002

Guo, E., Gupta, M., Deng, J., Park, Y., Paget, M., & Naugler, C. (2023). Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study. Journal of Medical Internet Research, 26. https://doi.org/10.2196/48996

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). *Multivariate data analysis* (8th ed.). Cengage Learning.

Hajaj, R. I., Batiha, I. M., Aljazzazi, M., Jebril, I. H., & Butush, R. I. (2024). Characteristics of integration between statistical models and mathematical models. Journal of Mechanics of Continua and Mathematical Sciences, 19(10). https://doi.org/10.26782/jmcms.2024.10.00012

Hernández, M., & Valdez, M. (2022). Investigación sobre turismo de reuniones en el período 2000?2019: una revisión de literatura. PASOS. Revista de Turismo y Patrimonio Cultural. https://doi.org/10.25145/j.pasos.2022.20.053

Herzog, S., Blaizot, S., & Hens, N. (2017). Mathematical models used to inform study design or surveillance systems in infectious diseases: a systematic review. BMC Infectious Diseases, 17. https://doi.org/10.1186/s12879-017-2874-y

Horcajo-Gil, P., Dujo-López, V., Andreu-Rodríguez, J., & Marín-Rullán, M. (2019). Valoración y Gestión del Riesgo de Reincidencia Delictiva en Menores Infractores: una Revisión de Instrumentos. Anuario de Psicología Jurídica. https://doi.org/10.5093/APJ2018A15

Huang, L., Shu, X., Ge, N., Gao, L., Xu, P., Zhang, Y., Chen, Y., Yu, J., & Wu, C. (2023). The accuracy of screening instruments for sarcopenia: a diagnostic systematic review and meta-analysis. Age and Ageing, 52(8). https://doi.org/10.1093/ageing/afad152

Inastrilla, C. (2022). Big Data in Health Information Systems. Seminars in Medical Writing and Education. https://doi.org/10.56294/mw20226

Jacob, E., Perrillat-Mercerot, A., Palgen, J., L’Hostis, A., Ceres, N., Boissel, J., Bosley, J., Monteiro, C., & Kahoul, R. (2023). Empirical methods for the validation of time-to-event mathematical models taking into account uncertainty and variability: application to EGFR+ lung adenocarcinoma. BMC Bioinformatics, *24*, 295. https://doi.org/10.1186/s12859-023-05430-w

Jiménez-López, A., Aguirre, D., Otálvaro, J., & Arcila, S. (2020). Revisión del liderazgo, sus estilos y modelos de medición en la última década. **, 8, 81-98. https://doi.org/10.22209/rhs.v8n1a06

Khraisha, Q., Put, S., Kappenberg, J., Warraitch, A., & Hadfield, K. (2023). Can large language models replace humans in systematic reviews? Evaluating GPT?4's efficacy in screening and extracting data from peer?reviewed and grey literature in multiple languages. Research Synthesis Methods, 15, 616 - 626. https://doi.org/10.1002/jrsm.1715

Kim, S., & Yoon, H. (2025). Large Language Model-Assisted Systematic Review: Validation Based on Cochrane Review Data.. Studies in health technology and informatics, 327, 904-905. https://doi.org/10.3233/SHTI250501

Layedra, P. (2014). Propuesta de un modelo de evaluación bidimensional en Moodle., 65. https://rest-dspace.ucuenca.edu.ec/server/api/core/bitstreams/d0e8513f-356b-47f4-b4de-3a7e25d42c24/content

Lee, J., Kim, K., Choi, S., Huh, J., & Park, S. (2015). Systematic Review and Meta-Analysis of Studies Evaluating Diagnostic Test Accuracy: A Practical Review for Clinical Researchers-Part II. Statistical Methods of Meta-Analysis. Korean Journal of Radiology, 16, 1188 - 1196. https://doi.org/10.3348/kjr.2015.16.6.1188

Lizasoain Hernández, L. (2020). Criterios y modelos estadísticos de eficacia escolar. Revista de Investigación Educativa, 38(2), 311–327. https://doi.org/10.6018/rie.417881

Lo, N., Andrejko, K., Shukla, P., Baker, T., Sawin, V., Norris, S., & Lewnard, J. (2022). Contribution and quality of mathematical modeling evidence in World Health Organization guidelines: A systematic review.. Epidemics, 39, 100570. https://doi.org/10.1016/j.epidem.2022.100570

López, V., & González-Trijueque, D. (2021). Revisión de Instrumentos en Español para Medir el Acoso Laboral: Su Utilidad en la Evaluación Pericial. Anuario de Psicología Jurídica. https://doi.org/10.5093/APJ2021A16

Lopez-Perez, L., Georga, E., Conti, C., Vicente, V., García, R., Pecchia, L., Fotiadis, D., Licitra, L., Cabrera, M., Arredondo, M., & Fico, G. (2024). Statistical and machine learning methods for cancer research and clinical practice: A systematic review. Biomed. Signal Process. Control., 92, 106067. https://doi.org/10.1016/j.bspc.2024.106067

Luo, R., Sastimoglu, Z., Faisal, A., & Deen, M. (2024). Evaluating the Efficacy of Large Language Models for Systematic Review and Meta-Analysis Screening. **. https://doi.org/10.1101/2024.06.03.24308405

Malebrán B., M, Henríquez N., L, & Contreras-Ruston, F. (2021). Revisión narrativa de instrumentos de autoevaluación vocal en Chile. Revista de otorrinolaringología y cirugía de cabeza y cuello, 81(4), 615-621. https://dx.doi.org/10.4067/s0718-48162021000400615

Malhotra, N. K. (2008). *Investigación de mercados* (5a ed.). Pearson Educación.

Márquez-Lugo, I., Mosquera-Quiñónez, M., Ochoa-Granados, C., Pacavita-Sánchez, D., Palencia-Sánchez, F., & Riaño-Casallas, M. (2021). Revisión de los Instrumentos de Medición del Síndrome De Burnout- Documento de Trabajo (Instruments for Measuring Burnout Syndrome: A Review-Working Paper). Social Science Research Network. https://doi.org/10.2139/SSRN.3841093

Martínez-Comesaña, M., Rigueira-Díaz, X., Larrañaga-Janeiro, A., Martínez-Torres, J., Ocarranza-Prado, I., & Kreibel, D. (2023). Impact of artificial intelligence on assessment methods in primary and secondary education: Systematic literature review. Revista de Psicodidáctica (English ed.). https://doi.org/10.1016/j.psicoe.2023.06.002

Méndez, J., Palomino, J., Huillca, E., Alanya, F., & Curo, C. (2024). El proceso de licenciamiento institucional y la mejora de la investigación científica en la educación superior. Comuni@cción: Revista de Investigación en Comunicación y Desarrollo. https://doi.org/10.33595/2226-1478.15.3.1025

Mendoza, J y Garza, J. (2017). La medición en el proceso de investigación científica: Evaluación de validez de contenido y confiabilidad (Measurement in the scientific research process: Contentvalidity and reliability evaluation).

Mokkink, L. B., de Vet, H. C. W., Prinsen, C. A. C., Patrick, D. L., Alonso, J., Bouter, L. M., & Terwee, C. B. (2018). COSMIN Risk of Bias checklist for systematic reviews of Patient-Reported Outcome Measures. Quality of Life Research, *27*(5), 1171–1179. https://doi.org/10.1007/s11136-017-1765-4

Montoya, P., Nieto, B., & Jiménez, M. (2022). Gestión de la producción: evolución y tendencias de investigación. Revista Ingeniería, Matemáticas y Ciencias de la Información. https://doi.org/10.21017/rimci.2022.v9.n18.a118

Moriasi, D., Arnold, J., Liew, M., Bingner, R., Harmel, R., & Veith, T. (2007). Model Evaluation Guidelines for Systematic Quantification of Accuracy in Watershed Simulations. Transactions of the ASABE, 50, 885-900. https://doi.org/10.13031/2013.23153

Nauta, M., Trienes, J., Pathak, S., Nguyen, E., Peters, M., Schmitt, Y., Schlötterer, J., Keulen, M., & Seifert, C. (2022). From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI. ACM Computing Surveys, 55, 1 - 42. https://doi.org/10.1145/3583558

Nunnally, J. C. (1978). *Psychometric theory* (2nd ed.). McGraw-Hill.

Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., Shamseer, L., Tetzlaff, J. M., Akl, E. A., Brennan, S. E., Chou, R., Glanville, J., Grimshaw, J. M., Hróbjartsson, A., Lalu, M. M., Li, T., Loder, E. W., Mayo-Wilson, E., McDonald, S., … Moher, D. (2021). The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ, *372*, n71. https://doi.org/10.1136/bmj.n71

Paquette-Rufiange, A., Prudhomme, S., & Laforest, M. (2023). Optimal Design of Validation Experiments for the Prediction of Quantities of Interest. Computer Methods in Applied Mechanics and Engineering, *415*, 116182. https://doi.org/10.1016/j.cma.2023.116182

Parady, G., Ory, D., & Walker, J. (2021). The over-reliance on statistical goodness-of-fit and under-reliance on model validation in discrete choice models: A review of validation practices in the transportation academic literature. Journal of Choice Modelling, *38*, 100257. https://doi.org/10.1016/j.jocm.2020.100257

Pérez-Suasnavas, A., Cela, K., & Hasperué, W. (2020). Beneficios del uso de técnicas de minería de datos para extraer y analizar datos de twitter aplicados en la educación superior: una revisión sistemática de la literatura. Teoria De La Educacion, 32, 181-218. https://doi.org/10.14201/teri.22171

Pettersson, A., Bengtsson Boström, K., Gustavsson, P., & Ekselius, L. (2015). Which instruments to support diagnosis of depression have sufficient accuracy? A systematic review. Nordic Journal of Psychiatry, 69(7), 497–508. https://doi.org/10.3109/08039488.2015.1008568

Porgo, T. V., Porgo, T. V., Norris, S. L., Salanti, G., Johnson, L. F., Simpson, J. A., Low, N., Egger, M., Egger, M., & Althaus, C. L. (2019). The use of mathematical modeling studies for evidence synthesis and guideline development: A glossary. Research Synthesis Methods, 10(1), 125–133. https://doi.org/10.1002/JRSM.1333

Rivera-Robles, S., Salcedo-Lagos, P., Valdivia-Guzmán, J., & López-Jara, O. (2021). Estudios empíricos del modelo sobre conocimiento didáctico-tecnológico del contenido (TPACK) en matemáticas, incluidos en bases bibliográficas internacionales. Información tecnológica. https://doi.org/10.4067/s0718-07642021000400109

Rodríguez-García, A., & Arias-Gago, A. (2021). Uso metodológico docente y rendimiento lector del alumnado: análisis fundamentado en PISA lectura 2018. Revista Electrónica Interuniversitaria de Formación del Profesorado. https://doi.org/10.6018/reifop.469921

Ruíz Bolívar C. (2016). Análisis de factores y desarrollo de instrumentos. Paradigma, 21(1), 9–41. UPEL-Barquisimeto, Venezuela), https://doi.org/10.37618/PARADIGMA.1011-2251.2000.p9-41.id242

Sestelo, M. (2013). Development and computational implementation of estimation and inference methods in flexible regression models: applications in Biology, Engineering and Environment.. Universidad de Vigo. Tesis Doctoral. https://sestelo.github.io/npregfast/reference/critical.html

Sijtsma, K. (2016). Playing with data—or how to discourage questionable research practices and stimulate researchers to do things right. Psychometrika, *81*(1), 1–15. https://doi.org/10.1007/s11336-015-9446-0

Soriano Rodríguez, A. M. (2015). Diseño y validación de instrumentos de medición. Diá-logos, (14), 19–40. https://doi.org/10.5377/dialogos.v0i14.2202

Tapullima-Mor, C. (2024). Programas de intervención para mejorar la convivencia escolar: una revisión sistemática. Revista de Psicología Clínica Con Niños y Adolescentes. https://doi.org/10.21134/rpcna.2024.11.1.2

Tedeschi, L. (2006). Assessment of the adequacy of mathematical models. Agricultural Systems, 89, 225-247. https://doi.org/10.1016/J.AGSY.2005.11.004

Valadez García, J. R., & López Leyva, S. A. (2023). *Estadística aplicada a la investigación*. Editorial Trillas.

Vásquez, S., & Tarrillo, S. (2020). Énfasis en la formación de habilidades blandas en mejora de los aprendizajes, 8, 78-87. https://doi.org/10.35383/educare.v8i2.470

Villamar Vásquez, G. I., Burgos Rea, L. R., & Cherrez Ibarra, R. X. . (2025). Aplicación de métodos estadísticos y matemáticos para la validación de instrumentos de investigación. Una revisión sistemática. RECIAMUC, 9(3), 123-138. https://doi.org/10.26820/reciamuc/9.(3).julio.2025.123-138

Willmott, C. (1982). Some Comments on the Evaluation of Model Performance. Bulletin of the American Meteorological Society, 63, 1309-1313. https://doi.org/10.1175/1520-0477(1982)063<1309:SCOTEO>2.0.CO;2

Wooldridge, J. M. (2003). *Introductory econometrics: A modern approach* (2nd ed.). South-Western College Publishing.

Descargas

Publicado

2025-10-13

Cómo citar

Mackliff Jaramillo, C. G., Segura Osorio, M. B., Sabando Maldonado, K. K. ., & Maldonado Ríos, I. D. (2025). Modelos matemáticos y estadísticos en la precisión de los instrumentos de evaluación en la investigación. Una revisión sistemática. RECIMUNDO, 9(4), 21–38. https://doi.org/10.26820/recimundo/9.(4).oct.2025.21-38

Número

Sección

Artículos de Investigación

Artículos más leídos del mismo autor/a