El desarrollador chino de inteligencia artificial DeepSeek lanzó su último modelo “experimental”, que según la compañía es más eficiente de entrenar y superior para procesar largas secuencias de texto que las iteraciones anteriores de sus grandes modelos de lenguaje.
Contenido
Con base en la publicación de Reuters, la compañía con sede en Hangzhou presentó DeepSeek-V3.2-Exp, descrito como un “paso intermedio hacia nuestra arquitectura de próxima generación”, en una publicación en el foro de desarrolladores Hugging Face.

Avance técnico y reducción de costos
El modelo V3.2-Exp incorpora un mecanismo innovador llamado DeepSeek Sparse Attention, que según la empresa china puede reducir los costos de computación y mejorar ciertos tipos de rendimiento del modelo. En un movimiento estratégico, DeepSeek anunció el lunes a través de una publicación en X que está recortando los precios de su API en un “50%+”.
Esta nueva arquitectura representa probablemente el lanzamiento más importante de DeepSeek desde que sus modelos V3 y R1 causaron impacto en Silicon Valley y entre los inversores tecnológicos fuera de China. Aunque es poco probable que la arquitectura de próxima generación de DeepSeek cause la misma conmoción en los mercados que sus predecesores en enero, los analistas sugieren que podría ejercer una presión significativa sobre rivales nacionales como Qwen de Alibaba y sus homólogos estadounidenses como OpenAI si logra repetir el éxito de DeepSeek R1 y V3.
Para mantener su ventaja competitiva, DeepSeek necesitará demostrar que su nuevo modelo ofrece alta capacidad por una fracción de lo que los competidores cobran y gastan en entrenamiento de modelos, un factor clave que había contribuido anteriormente a su rápido ascenso en el panorama global de IA.


