En junio pasado, Anthropic lanzó Claude 3.5 Sonnet, la primera versión de su familia de modelos Claude 3.5. El pasado martes, la empresa presentó las mejoras realizadas a este modelo, particularmente en términos de codificación, y su última incorporación a la familia: Claude 3.5 Haiku, un modelo que iguala el rendimiento de Claude 3 Opus, su modelo más potente. También presentó «Computer Use», una función experimental de interacción con computadoras que, según la compañía, convierte a Claude 3.5 Sonnet en “el primer modelo de IA avanzada en ofrecer un uso informático en versión beta pública”.
Esta función de uso informático, disponible en versión beta, permite a los desarrolladores pedir al modelo que interactúe con interfaces gráficas simulando acciones humanas, como mover el cursor o hacer clic en un botón. De este modo, Claude traduce instrucciones como “usar los datos de mi computadora y los datos en línea para completar este formulario” en comandos informáticos: “verificar una hoja de cálculo, mover el cursor para abrir un navegador web, navegar hacia las páginas web relevantes, completar un formulario con los datos de esas páginas…”.
Anthropic explica:
“Cuando un desarrollador le pide a Claude que use un software informático y le da el acceso necesario, Claude observa capturas de pantalla de lo que es visible para el usuario y luego cuenta la cantidad de píxeles verticales u horizontales que necesita mover el cursor para hacer clic en el lugar correcto. Era crucial enseñar a Claude a contar los píxeles con precisión. Sin esta habilidad, el modelo tiene dificultades para dar comandos al ratón, de la misma forma en que los modelos a menudo tienen problemas para responder a preguntas simples como ‘¿Cuántas A hay en la palabra “banana”?’”.
VIDEO
Empresas como Asana, Canva, Cognition, DoorDash, Replit y The Browser Company ya están utilizando esta capacidad para automatizar procesos complejos que pueden requerir decenas o incluso cientos de pasos.
En OSWorld, que evalúa la capacidad de los modelos de IA para usar computadoras de la misma forma que los humanos, Claude 3.5 Sonnet obtuvo una puntuación de 14.9% en la categoría de solo capturas de pantalla, lo cual es significativamente mejor que la puntuación de 7.8% del mejor sistema de IA. Cuando se le dieron más pasos para realizar la tarea, Claude alcanzó un 22.0%.
Los desarrolladores pueden probarlo a través de la API de Anthropic, Amazon Bedrock y la plataforma Vertex AI de Google Cloud. Sin embargo, Anthropic advierte que, en esta fase experimental, el modelo puede ser propenso a errores y recomienda no darle acceso a datos sensibles. La empresa ha decidido publicarlo para recopilar comentarios.
Claude 3.5 Sonnet: mejoras en codificación y uso de herramientas
El modelo Claude 3.5 Sonnet muestra mejoras notables respecto a sus versiones anteriores, especialmente en áreas críticas como la codificación y el uso de herramientas.
Según los benchmarks de la industria, Sonnet ha mejorado su puntuación en SWE-bench Verified, una prueba que evalúa las capacidades de codificación agentiva, pasando de un 33.4% a un 49%. Este progreso también es visible en TAU-bench, un benchmark que evalúa el uso de herramientas en situaciones reales, donde Sonnet ha mejorado su rendimiento en los sectores de ventas al por menor y aviación.
Empresas como GitLab y The Browser Company, que han probado Sonnet para tareas complejas de desarrollo de software y automatización de procesos web, han informado de una mejor capacidad para seguir instrucciones y resolver problemas sin aumentar los tiempos de ejecución.
Claude 3.5 Haiku: rapidez y rendimiento
Claude 3.5 Haiku, por su parte, se posiciona como un modelo más rápido, mientras ofrece un rendimiento similar al de Claude 3 Opus, un modelo más grande de la generación anterior.
Es particularmente eficiente para tareas que requieren una generación rápida de texto, así como para el análisis y explotación de grandes bases de datos. Haiku se destaca por su baja latencia y su costo controlado, lo que lo convierte en una opción ideal para productos interactivos o tareas especializadas a gran escala.