14 julio 2025
Guías y recursos, Informes, Inteligencia artificial, Noticias
3 minutos de lectura

Un nuevo estudio cuestiona la eficacia de las herramientas de codificación con IA en desarrolladores experimentados

Noticias Cloud

Investigadores detectan un incremento del 19 % en el tiempo de desarrollo al utilizar herramientas como Cursor Pro en proyectos reales de código abierto

En un giro inesperado dentro del panorama actual de la inteligencia artificial aplicada a la programación, un estudio reciente ha puesto en duda una de sus promesas más repetidas: que las herramientas de codificación con IA aumentan automáticamente la productividad de los desarrolladores. El trabajo, realizado por el grupo de investigación independiente METR (Model Evaluation & Threat Research), concluye que, en determinados entornos reales, estas herramientas pueden ralentizar el trabajo en lugar de acelerarlo.

Un ensayo con condiciones reales y desarrolladores veteranos

El estudio analizó a 16 desarrolladores de alto nivel que colaboran habitualmente en algunos de los proyectos de código abierto más populares del mundo, con una media de 5 años de contribuciones y más de 1.500 commits por participante. Cada desarrollador completó tareas reales de sus propios repositorios, con y sin el uso de herramientas de inteligencia artificial como Cursor Pro, Claude 3.5 y Claude 3.7 de Anthropic.

Antes de empezar, los desarrolladores creían que la IA les permitiría reducir el tiempo de implementación en un 24 %. Sin embargo, los datos demostraron lo contrario: los desarrolladores tardaron, de media, un 19 % más cuando usaron herramientas de IA. Este resultado contradice no solo sus propias expectativas, sino también las de expertos en inteligencia artificial y economía, que anticipaban mejoras de productividad de hasta un 39 %.

¿Cómo puede la IA ralentizar el desarrollo?

La investigación revela que los desarrolladores pasaron más tiempo interactuando con las herramientas que programando: escribiendo prompts, esperando respuestas, evaluando sugerencias y corrigiendo código generado. En muchos casos, el código proporcionado por la IA requería una revisión exhaustiva o incluso ser descartado. Según el análisis, menos del 44 % del código generado fue aceptado sin modificaciones importantes, y en torno al 9 % del tiempo total se destinó exclusivamente a limpiar resultados erróneos.

Además, los participantes comentaron que las sugerencias generadas por IA solían carecer del conocimiento implícito necesario para trabajar eficazmente en repositorios grandes y complejos. “La IA no entiende los atajos, las convenciones internas ni los compromisos históricos del proyecto”, señaló uno de los desarrolladores.

Un fenómeno ligado al contexto

Los autores identificaron varios factores que explican este resultado:

Familiaridad con el código: cuanto más experto era un desarrollador en su propio repositorio, menos útil resultaba la IA.
Complejidad del entorno: repositorios con más de un millón de líneas de código y altos estándares de calidad presentaban un desafío para los modelos de IA.
Expectativas poco realistas: incluso tras completar sus tareas, los desarrolladores seguían creyendo que la IA había reducido su tiempo de trabajo, a pesar de que los datos mostraban lo contrario.

Estos resultados, sin embargo, no invalidan el valor de la IA en otras circunstancias. El estudio reconoce que en proyectos nuevos, tareas menos definidas o en manos de desarrolladores con menos experiencia, los beneficios de estas herramientas podrían ser mucho más evidentes.

¿Y el futuro?

Los investigadores subrayan que su experimento se desarrolló entre febrero y junio de 2025, y que los avances recientes en modelos fundacionales podrían cambiar el panorama en pocos meses. Además, apuntan a que un mejor prompting, un entrenamiento más específico por dominio o el uso de agentes autónomos podrían revertir esta tendencia.

De hecho, ya se han observado progresos notables: modelos como Claude 3.7 han demostrado capacidad para resolver funcionalidades centrales de algunos repositorios incluidos en el estudio. No obstante, aún presentan fallos como incumplimientos en normas de estilo, documentación incompleta o tests insuficientes.

Conclusión: menos mitos, más evidencia

El estudio de METR deja claro que el entusiasmo por la IA no debe sustituir a una evaluación empírica rigurosa. Las herramientas de codificación con inteligencia artificial no son una solución mágica universal. Funcionan mejor en ciertos contextos que en otros, y su uso requiere madurez, criterio y un profundo entendimiento del entorno de trabajo.

Lejos de descalificar estas tecnologías, el estudio invita a reflexionar: para lograr verdaderas mejoras en productividad, será necesario no solo modelos más avanzados, sino también estrategias de integración más inteligentes y realistas. La inteligencia artificial, por sí sola, no reemplaza la experiencia. Al menos, no todavía.