Nueva Técnica SEMI Integra Nuevas Modalidades en LLMs con Alta Eficiencia
Investigadores presentan SEMI, un método para integrar nuevas modalidades en LLMs con una eficiencia de datos sin precedentes, abriendo la puerta a modelos multimodales más versátiles.

SEMI: Integración Eficiente de Modalidades en LLMs
Un nuevo método llamado SEMI (Sample-Efficient Modality Integration) promete revolucionar la forma en que se integran nuevas modalidades en los Modelos de Lenguaje Grandes (LLMs). SEMI utiliza una hiperred que adapta un proyector compartido entre codificadores específicos de modalidad y el LLM, permitiendo la integración con pocos ejemplos.
El Poder de la Hiperred
La hiperred de SEMI se entrena en modalidades de alta disponibilidad de datos, como texto, voz, audio y video. Durante la inferencia, se condiciona con unas pocas muestras de cualquier modalidad arbitraria, generando un adaptador adecuado. Este enfoque permite integrar modalidades como imágenes satelitales, imágenes astronómicas, mediciones inerciales y moléculas, incluso con codificadores de dimensionalidad de embedding arbitraria. Para aumentar la diversidad del entrenamiento, SEMI multiplica artificialmente el número de codificadores mediante transformaciones isométricas.
Más Allá de la Eficiencia
La eficiencia de SEMI es notable. En algunos casos, entrenar un proyector desde cero requiere 64 veces más datos que SEMI para alcanzar la misma precisión. Esta eficiencia abre la puerta a la integración de modalidades de bajos recursos, ampliando significativamente las capacidades de los LLMs y acercándonos a modelos verdaderamente multimodales.
SEMI representa un avance crucial hacia LLMs más versátiles y adaptables, capaces de procesar una gama mucho más amplia de información.