El mes pasado, Mercor presentó un nuevo estándar para evaluar la capacidad de los agentes de inteligencia artificial en tareas profesionales, como el derecho y el análisis corporativo. En ese momento, los resultados fueron bajos, con los principales laboratorios obteniendo menos del 25%, lo que sugería que los abogados no debían preocuparse por ser reemplazados por la IA a corto plazo.
Progreso acelerado en modelos de IA
Evolución reciente: Esta semana, el lanzamiento de Opus 4.6 de Anthropic cambió el panorama al lograr casi un 30% en pruebas de una sola oportunidad y un promedio del 45% con intentos adicionales. Este modelo incorpora nuevas funcionalidades, como "enjambres de agentes", que parecen mejorar la resolución de problemas complejos en varios pasos.
Implicaciones para el futuro laboral
Salto significativo: Este avance representa un incremento notable respecto al estado anterior de la tecnología. Brendan Foody, CEO de Mercor, destacó que pasar del 18,4% al 29,8% en pocos meses es un progreso impresionante.
Aunque alcanzar el 30% todavía está lejos de la perfección, esta evolución indica que los profesionales del derecho deben estar atentos a los rápidos avances de la IA, ya que la confianza en la estabilidad de sus puestos podría no ser tan sólida como antes.