
Antes de comprimir archivos con cremallera. Ahora necesitamos lo que necesitamos para comprimir el IA para que sea más pequeño y más eficiente. Esta es la idea de que los fundadores de Multivrse Computing, una startup español que se convierte en la nueva joya de la corona de nuestra industria de IA. Sus fundadores (en la imagen de izquierda a derecha, Román Orús, Enrique Lizaso Olmos y Samuel Mugel) y Alfonso Rubio tienen mucho que celebrar.
Ronda de inversiones. Computación múltiple El acaba de cerrar Una ronda de inversión de 189 millones de euros ($ 215 millones). La ronda (Serie B) estaba encabezada por Bullhound Capital, pero también HP Tech Ventures, Sett, Forgepoint Capital, CDP Venture Capital, Santander Climate VC, Quantonation, Toshiba y Euskadi Risk Capital del Grupo Euskadi -Sprie. En marzo del año pasado, la compañía recibió una inversión de 67 millones de euros del gobierno español.
La inferencia -ai por bandera. Aunque el significado actual suele ser el gran tecnológico que invierte los miles de millones de dólares en centros de datos para capacitar a grandes modelos de idiomas (LLM), hay cada vez más enfoque en la otra parte: aquellos que usamos, por ejemplo, cuando pedimos cosas en ChatGPT. Es la inferencia de IA, llamada, y la estimación es que el valor de esta industria alcanza los $ 106,000 millones en 2025. En la computación multivrse desea una buena distancia de este pastel. Para lograr esto, su gran truco es una tecnología única.
Compacto. Este es el nombre de La tecnología de compresión de los modelos de IA desarrollados por informática multivance. Esto permite que los modelos muy grandes se conviertan, mucho para la «ejecución», en modelos mucho más pequeños y eficientes que les permiten hacerlos más manejables y ahorrar muchos recursos (y tiempo) durante la inferencia.
Cómo comprimir un modelo de IA. Román Orús, director científico de la empresa, dirigió Un estudio Mayo de 2024, en el que explica el concepto de «redes de tensión» de la inspiración cuántica y permite la compresión de estos modelos. Su operación se basa en el desglose de las matrices de pesos de las redes neuronales que las «acortan» y solo mantienen los valores más grandes y relevantes. El concepto se centra esencialmente en rechazar la información menos relevante del modelo, que se quedan solo con los más relevantes.
¿Pero eso no hace que el modelo sea con menos precisión? De hecho, el grado de reducción puede controlarse para que haya un buen equilibrio y un buen equilibrio entre la compresión y la pérdida de precisión. Incluso la compresión de estos modelos en la computación multivrse asegura que el caso de los modelos sea solo del 2 al 3%.
El mismo rendimiento en un tamaño de 95% más bajo. Para aliviar este caso de precisión, este sistema contiene una fase de resentimiento rápido, que se conoce como «curación», que se puede repetir varias veces para lograr la versión original aún más cercana. Al final, confirma en la compañía que puede comprimir hasta el 95% de un modelo del servicio.
Reduce el uso de AI. Respectivamente Tus datosUn modelo, como llama 3.1 405b, tiene un costo operativo de alrededor de 390,000 dólares estadounidenses si queremos operarlo en casa (13 GPU H100, 9100 W consumidor), pero gracias a Compactifai es posible reducir estos costos a $ 60,000 ($ 2 GPU H100, §400 W).
Otro «delgado». Los modelos «delgados» de la compañía, derivados de Lama 3.3 70b o llaman 4 Scout, son versiones comprimidas que teóricamente no pierden precisión. Se pueden llevar a cabo a través de la plataforma AWS o por licencias que también nos permitan usarlas LocalEso significa en la infraestructura local/propia. Según sus métricas, estos modelos son entre 4 y 12 veces más rápidos que sus versiones no comprimidas, que es más bajo a costos de inferencia entre 50% y 80% más bajos.
Imagen | Computación múltiple
En | España es finalmente