Opus 4.7 Benchmarks: Qué Cambia para Marketing y Negocio
Análisis de los benchmarks de Claude Opus 4.7 enfocado en negocio y marketing digital: agentes, vision, análisis financiero y automatización. Qué migra, qué no, y los números que importan.
Anthropic sacó Opus 4.7 esta semana y me puse a revisar los números. Todos hablan de SWE-bench y código. A mí eso me interesa poco para este post. Lo que me intriga es otra cosa: qué cambia para el que maneja campañas, corre un ecommerce, o está armando agentes para automatizar marketing.
Spoiler: cambia bastante. No en todo, pero donde cambia, cambia fuerte.
Los números primero
| Benchmark | Opus 4.7 | Opus 4.6 | Qué mide |
|---|---|---|---|
| MCP-Atlas | 77.3% | ~68% | Orquestación de herramientas |
| OSWorld-Verified | 78.0% | 72.7% | Computer use (manejar una PC) |
| Finance Agent v1.1 | 64.4% | ~58% | Análisis financiero autónomo |
| CharXiv | 82.1% | 69.1% | Lectura de gráficos y dashboards |
| GPQA Diamond | 94.2% | ~91% | Razonamiento experto |
| Resolución de imagen | 2.576 px | ~800 px | 3x más detalle visual |
Okay, los bajamos a la cancha.
Agentes que ya no se traban
MCP-Atlas mide qué tan bien el modelo orquesta herramientas. O sea, usar Google Ads, Search Console, un CRM, una base de datos, todo al mismo tiempo. Pasar de 68 a 77 suena chiquito en papel. En la práctica es otra cosa.
Box (la empresa de file sharing) publicó su evaluación interna y los números me volaron la cabeza: 56% menos llamadas al modelo, 50% menos uso de tools, 24% más rápido. Te lo traduzco: si tenés un agente corriendo análisis de leads o generando reports, básicamente estás pagando la mitad en tokens para el mismo resultado.
Esto mueve la línea de cuándo un agente deja de ser un juguete y pasa a ser rentable.
Ahora lee dashboards como un humano
CharXiv es el salto más grande de todo el release. 13 puntos. Trece. Lee gráficos con ejes, leyendas, anotaciones, líneas cruzadas, todo.
A ver, te lo muestro con un caso real que probé ayer. Le pasé un screenshot de Looker Studio con datos de un cliente.
Antes (4.6): “veo un gráfico de barras con tendencia ascendente”. Ah, gracias genio.
Ahora (4.7): “la sesión orgánica cayó 18% en la semana del 3 de abril, el tráfico pago sostuvo pero con CPC más alto, y la conversión quedó plana. Revisá si hubo canibalización entre canales o cambio de atribución”.
Para el que hace reporting mensual esto es gigantesco. Es la diferencia entre pasarle screenshots y esperar algo útil, versus armar el diagnóstico sin tipear un solo número.
Finanzas sin planilla de Excel
Finance Agent v1.1 es un benchmark que mide si el modelo puede razonar decisiones financieras con data desordenada. 64.4%. Arriba de GPT-5.4 Pro (61.5%). No por mucho pero lo pasa.
Caso que te interesa: le tirás 6 meses de facturación, costos de ads desglosados, CAC por canal, LTV por segmento. Te saca el análisis de rentabilidad por canal sin que le pidas fórmulas. Arma la lógica solo.
Un amigo lo está usando para cerrar los reports mensuales de un cliente de 7 cifras. Antes tardaba 2 días. Ahora tarda una tarde.
Computer use para lo que no tiene API
OSWorld mide si el modelo maneja una PC como persona: click, scroll, formularios, screenshots. 78% ya es un piso de confianza para tareas repetitivas donde la plataforma no te da API decente.
Cosas que venía intentando hace meses y recién ahora arrancan:
- Bajar reports de plataformas de ads que no exportan bien
- Cargar directorios locales (esto para Local SEO es oro, podés poblar 50 directorios sin tocar un mouse)
- Scrapear visualmente a competidores sin tener que escribir selectores
- Navegar dashboards internos de clientes sin endpoints
Horas por semana. Sin exagerar.
La plata
Sigue en 5 dólares por millón de input y 25 por millón de output. Mismo precio que 4.6.
Pero hay letra chica que nadie cuenta. La tokenización cambió y ahora podés gastar hasta 1.35x más tokens por el mismo texto, dependiendo del tipo de contenido (código, tablas, markdown denso).
Sacás la cuenta: si tu agente usa 50% menos llamadas (caso Box) pero cada llamada es 15-20% más cara en tokens, igual te queda ahorro fuerte. La matemática cierra, pero cierra menos de lo que parece en el titular.
Lo que empeoró (seamos honestos)
BrowseComp bajó 4.4 puntos. Es el benchmark que mide investigación web libre, tipo “agente que busca información en Google por su cuenta”. Si ese es tu uso principal, 4.6 te da mejores resultados. No sé bien por qué Anthropic aceptó esa regresión, pero ahí está.
También, si lo usás para chat básico (redactar copy, traducir, responder preguntas simples), la diferencia es marginal. No vale la pena el cambio solo por eso.
Si o no
Migrá ya si hacés: agentes con tool calling intensivo, reporting con dashboards, análisis financiero de performance, o computer use.
Quedate en 4.6 si hacés: chatbots de atención, texto creativo puro, browsing libre de investigación.
Para todo lo demás, probalo con tu caso y compará. Esa pregunta la tenés que responder vos con tu data.
Si querés pensar la migración para un caso puntual, me escribís.
Sigue leyendo
Goals y Loops en Claude Code: Automatizar Tareas Largas de Marketing Digital
Cómo usar /goal y /loop de Claude Code para tareas largas de SEO y marketing: auditorías técnicas completas, migraciones, monitoreo de rankings y content refresh. Diferencias con /schedule y casos reales.
Leer artículo Claude CodeClaude Code Routines: Automatización con IA que Trabaja Mientras Dormís
Claude Code Routines permite programar tareas automáticas con IA: SEO, reportes, code review y más. Cómo funcionan los triggers scheduled, API y GitHub, y casos reales de automatización para negocios.
Leer artículo SEOHerramientas de IA para SEO: Las que Realmente Uso en Mi Flujo de Trabajo [2026]
Las mejores herramientas de inteligencia artificial para SEO en 2026. No es un listicle genérico: es mi stack real como consultor, con flujo de trabajo completo y casos prácticos.
Leer artículo