Tecnología

Cómo instalar Janus Pro: Guía completa y hardware necesario

Deepseek lo vuelve a hacer, sacude al mercado con su nuevo modelo para imágenes Janus-pro que supera a DALLE-3 y Stable Difussion, más rápido y más preciso.

Manuel González

Published

28 enero, 2025

Deepseek beats OpenAI

Leíste bien, Janus Pro es la nueva inteligencia artificial de esta ya famosa empresa China ‘Deepseek’ la cual ha publicado un modelo hace unas horas que rebasa por mucho a las empresas occidentales como OpenAI y otros de código abierto.

Según Hugging Face un sitio web que contiene los modelos de IA mas importantes del mundo, describe a Janus-Pro como un nuevo marco autorregresivo que unifica la comprensión y la generación multimodal.

¿Cómo lo hace?

Ahora supera las limitaciones que tenía en sus versiones anteriores desacoplando la codificación visual en vías separadas, pero esto sin sacrificar su sistema de arquitectura de transformador unificada para el procesamiento. Esto ha logrado que el desacoplamiento libere estrés en el codificador visual durante la comprensión y la generación, y a todo esto le suma una increíble flexibilidad.

Lo anterior le permite superar al modelo anterior y a los actuales de las empresas occidentales en rendimiento.

Según los expertos, este modelo es importante para la comunidad de código abierto ya que impacta la imposibilidad de tener LLM que occidente hacía ver con sus cada vez más herméticas soluciones.

Janus-Pro está construido sobre la base de DeepSeek-LLM-1.5b/DeepSeek-LLM-7b. Para lograr la comprensión multimodal utiliza SigLIP-L como codificador de visión, aunque por el momento esto lo limita a una entrada de imágenes de 384×384. Además también utiliza el tokenizador LlamaGen

¿Por qué supera a DALL-E 3 y Stable Difussion?

Tan simple como por su precisión general, y aquí te dejo la tabla de referencia:

dall-e3, deepseek, janus-pro, OpenAI, python, stable-difussion — Datos de rendimiento y precisión de Janus-Pro

En rendimiento tenemos los siguientes datos según GenEval:

Modelo	Parámetros	Rendimiento
Janus-Pro	7Billions	79.2
Janus	1Billion	69.4
Tokenflow-XL	13Billions	68.9

En precisión según GenEval

Modelo	Precisión
Janus-Pro-7B	80.00%
Janus	61.00%
Emu3-Gen	54.00%
StableDifussion-Medium	74.00%
DALL-E 3	67.00%
PixArt-a	48.00%

¿Cómo instalarlo?

El proyecto está disponible en Github para bajarse bajo la licencia MIT y sujeta a la licencia DeepSeek.

Proyecto Janus-Pro Github para su descarga.

Para poder instalarlo puedes seguir varios tutoriales y recomendaciones para hacerlo más optimizado para pruebas. Lo mejor es rentar tu propio hardware en la nube, así que te explicaremos donde puedes hacerlo y como probarlo.

Hardware requerido

Como todo modelo de Inteligencia Artificial el hardware para procesar (VRAM y GPUs) son vitales para poder probar estos modelos, afortunadamente ahora que son mucho más eficientes y precisos, no es necesario tener todo un centro de datos para correrlo.

Algunos usuarios han reportado haber hecho pruebas con el usando una Tarjeta de Video NVIDIA RTX 4090 con 24 GB y les habría tomando lograr un output después de 10 minutos.

Pero si no tienes un GPU de ese nivel y quiere probar, puedes rentar equipos en la nube, para ello vamos a ir al sitio web de Massed Compute y después de registrarte recomiendo usar la H100 NVL de 94GB, la cual el costo aproximado en pesos es de $50.00 MXN.

Software Requerido

Una vez que ya tengas acceso a tu consola o S.O. con el hardware requerido, es necesario que descargues los archivos del modelo desde HuggingFace, ¿cómo los descargo?

Usa la librería del mismo sitio «huggingface_hub» para poder acceder a los repos ó también desde el sitio web te dejo los links de los archivos:

Archivo	Tamaño	Descarga
.gitattributes	1.52 kB	Descarga
README.md	2.51 kB	Descarga
config.json	1.28 kB	Descarga
janus_pro_teaser1.png	98 kB	Descarga
janus_pro_teaser2.png	530 kB	Descarga
preprocessor_config.json	346 Bytes	Descarga
processor_config.json	210 Bytes	Descarga
pytorch_model-00001of00002.bin	9.99 GB	Descarga
pytorch_model-00002of00002.bin	4.85 GB	Descarga
pytorch_model.bin.index.json	89 kB	Descarga
special_tokens_map.json	4.72 MB	Descarga
tokenizer.json	285 Bytes	Descarga
tokenizer_config.json	344 Bytes	Descarga

Una vez descargado asegurate de tener instalado en la instancia o equipo local Python en la versión 3.9 o superior.

También requerirás de Pytorch y HuggingFace Transformers:

pip install torch torchvision torchaudio transformers accelerate janus Pillow numpy

Carga el modelo y pruébalo con el siguiente código:

import torch
from transformers import AutoConfig, AutoModelForCausalLM
from janus.models import VLChatProcessor
from PIL import Image
import numpy as np

# Ruta del modelo en Hugging Face
model_path = "deepseek-ai/Janus-Pro-7B"

# Cargar configuración y modelo
config = AutoConfig.from_pretrained(model_path)
language_config = config.language_config
language_config._attn_implementation = 'eager'
vl_gpt = AutoModelForCausalLM.from_pretrained(
    model_path,
    language_config=language_config,
    trust_remote_code=True
)

# Configurar el dispositivo y tipo de datos
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
vl_gpt = vl_gpt.to(device)

# Cargar el procesador
vl_chat_processor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

# Función para comprensión multimodal
@torch.inference_mode()
def multimodal_understanding(image_path, question, seed=42, top_p=0.95, temperature=0.1):
    # Establecer semilla para reproducibilidad
    torch.manual_seed(seed)
    np.random.seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed(seed)

    # Cargar imagen
    image = Image.open(image_path).convert('RGB')

    # Crear conversación
    conversation = [
        {
            "role": "<|User|>",
            "content": f"<image_placeholder>\n{question}",
            "images": [image],
        },
        {"role": "<|Assistant|>", "content": ""},
    ]

    # Preparar entradas
    prepare_inputs = vl_chat_processor(
        conversations=conversation, images=[image], force_batchify=True
    ).to(device)

    # Obtener embeddings de entrada
    inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

    # Generar salida
    outputs = vl_gpt.language_model.generate(
        inputs_embeds=inputs_embeds,
        attention_mask=prepare_inputs.attention_mask,
        pad_token_id=tokenizer.eos_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=512,
        do_sample=temperature > 0,
        use_cache=True,
        temperature=temperature,
        top_p=top_p,
    )

    # Decodificar respuesta
    answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
    return answer

# Ejemplo de uso
image_path = "ruta/a/tu/imagen.jpg"
question = "¿Qué se muestra en esta imagen?"
respuesta = multimodal_understanding(image_path, question)
print("Respuesta:", respuesta)

Importante

Es evidente que requieres de conocimientos básicos de infraestructura y programación para poder ejecutar los ejemplos anteriores.

¿Qué representa en economía y política?

La empresa DeepSeek acaba de cambiar las reglas del juego, ahora la IA está accesible y de código abierto, más eficiente y mucho más barata. Y en efecto esto ha hecho que las grandes compañías como NVIDIA hayan perdido en un sólo día su trono en la bolsa, ahora con la salida de Janus-Pro probablemente en las próximas horas también veamos un desplome similar.

In this article:dall-e3, deepseek, janus-pro, OpenAI, python, stable-difussion

Click to comment

ComentaCancelar respuesta

Ambulancia y vehículos de emergencia en escena nocturna en Culiacán

Sinaloa

Hombre Herido con Bala en Culiacán: Secuestrado y Abandonado en El Palmito

Violencia en Culiacán: Hombre hallado herido tras secuestro 🚨🔫😢 #CuliacánSeguro #AltoViolencia

Allison Rojas46 segundos ago

Cinta amarilla de 'PROHIBIDO EL PASO' en escena nocturna urbana de Culiacán tras ataque armado.

Sinaloa

Asesinato en Culiacán: Hombre Muere en Violento Ataque a Balazos en la Colonia 5 de Mayo

Asesinato en Culiacán: Violento ataque a balazos sacude la colonia 5 de Mayo 🔫🚨😢 #Culiacán #Violencia

Allison Rojas9 minutos ago

Patrulla de policía estatal en carretera de Culiacán durante operativo

Sinaloa

Cuerpo Sin Vida Encontrado en Culiacán, Sinaloa: Guardia Nacional Inicia Investigación

🚨 Cuerpo envuelto en plástico rojo hallado en Sinaloa. Fiscalía lidera la investigación 🕵️‍♂️🔍 #Sinaloa #Justicia

Allison Rojas18 minutos ago

Detención de Misael “D” en operativo antidrogas en el Condado de Kern

Internacionales

Guamuchilense detenido en Condado de Kern con 118 mil pastillas de fentanilo y cocaína

🚨 Detienen a Misael 'D' con 118K pastillas de fentanilo y cocaína 💊💰 #Seguridad #AntiDrogas

Víctor Márquez9 horas ago

Culiacán

Disparos en Culiacán: Fuertes Detonaciones Registradas en Stanza Torralba

🚨 Estallan disparos en Stanza Torralba, Culiacán: autoridades investigan sin hallar daños 🕵️‍♀️🔍 #CuliacánSeguro #SeguridadCiudades

Víctor Márquez9 horas ago

Incendio forestal en Tepozteco con llamas intensas y humo en la noche

Actualización

Incendio Forestal en Tepozteco, Morelos: Brigadistas Controlan el 40% de Más de 100 Hectáreas

🔥 Tepozteco en llamas: 215 brigadistas combaten 100+ hectáreas de bosque 🌲🚒 #ProtecciónCivil #Morelos

Víctor Márquez9 horas ago

Tendencia

Camioneta azul de la policía municipal de Guasave con inscripciones visibles en un entorno urbano.

Sinaloa

Secuestro en Guasave: Adolescente de 13 Años Liberado en Carretera México 15

🚨 Secuestran a Adolescente de 13 Años en Guasave: Familia Lucha por Justicia ✊ #SeguridadJuvenil #JusticiaYa

Allison Rojas24 horas ago

Dos figuras deportivas discuten en vivo durante la transmisión de la Nations League.

Deportes

Javier Aguirre Insulta a Faitelson en Vivo Tras Ganar la Nations League

🔥 Javier Aguirre arremete contra Faitelson tras conquistar la #NationsLeague 🏆💥 #FútbolEnVivo

Allison Rojas2 días ago

Nacionales

CJNG Reclutamiento en TikTok: Gobierno de México Desactiva 40 Cuentas de Empleo Falsas

🛑 El Gobierno desactiva 40 cuentas del CJNG en TikTok para frenar el reclutamiento ilícito 🚫 #Seguridad #NoAlCrimen

Allison Rojas2 días ago

Persona sosteniendo un gato y un ramo de flores, simbolizando momentos de felicidad y afecto.

Culiacán

Desaparecida Vivian Karely Aispuro en Culiacán: Familia Suplica su Regreso con Vida

🌟 ¡Ayuda a encontrar a Vivian Karely! Su hermana implora su regreso sano y salvo 💔 #Desaparecida #Culiacán

Benjamín Velasco1 día ago

Navolato

Niños Desaparecidos en Navolato, Sinaloa: Jimmy (10) y Kennay (9) Derks Martínez Buscan Ayuda

🚨 ¡Ayuda a encontrar a Jimmy (10) y Kennay (9)! 👦👧 Colabora y comparte para su paradero 🕵️‍♂️ #Navolato #NiñosDesaparecidos

Benjamín Velasco2 días ago

Piloto de Red Bull Racing ajustando su traje en el paddock, rodeado de equipo automovilístico.

Deportes

Liam Lawson evidencia problemas del segundo auto de Red Bull en la temporada de F1

🚨 Red Bull solo compite con Verstappen: Caos interno afecta segundo auto 🏎️🔧 #F1 #RedBull

Allison Rojas2 días ago

Paisaje rural con camino de tierra y canal de agua en Culiacán, árboles y postes eléctricos visibles.

Sinaloa

Secuestran chofer y camión de transporte de jornaleros en Culiacán

🚨 Chofer y camión de jornaleros secuestrados en Culiacán: situación crítica 🚚 #Seguridad #Culiacán

Allison Rojas2 días ago

Vista del rancho Izaguirre con construcciones de ladrillo, refugio de techo rojo, vehículos y paisaje montañoso al fondo.

Sinaloa

Rancho Izaguirre: Criminóloga Lo Califica de “Vergüenza” Superando Ayotzinapa y San Fernando

Criminóloga: Investigación de Rancho Izaguirre, una vergüenza mayor que Ayotzinapa 😡⚖️ #JusticiaYa #Izaguirre

Allison Rojas2 días ago

¿Cómo lo hace?

¿Por qué supera a DALL-E 3 y Stable Difussion?

¿Cómo instalarlo?

Hardware requerido

Software Requerido

Importante

¿Qué representa en economía y política?

Comparte esto:

ComentaCancelar respuesta

Últimas noticias

Sinaloa

Hombre Herido con Bala en Culiacán: Secuestrado y Abandonado en El Palmito

Sinaloa

Asesinato en Culiacán: Hombre Muere en Violento Ataque a Balazos en la Colonia 5 de Mayo

Sinaloa

Cuerpo Sin Vida Encontrado en Culiacán, Sinaloa: Guardia Nacional Inicia Investigación

Internacionales

Guamuchilense detenido en Condado de Kern con 118 mil pastillas de fentanilo y cocaína

Culiacán

Disparos en Culiacán: Fuertes Detonaciones Registradas en Stanza Torralba

Actualización

Incendio Forestal en Tepozteco, Morelos: Brigadistas Controlan el 40% de Más de 100 Hectáreas

Tendencia

Sinaloa

Secuestro en Guasave: Adolescente de 13 Años Liberado en Carretera México 15

Deportes

Javier Aguirre Insulta a Faitelson en Vivo Tras Ganar la Nations League

Nacionales

CJNG Reclutamiento en TikTok: Gobierno de México Desactiva 40 Cuentas de Empleo Falsas

Culiacán

Desaparecida Vivian Karely Aispuro en Culiacán: Familia Suplica su Regreso con Vida

Navolato

Niños Desaparecidos en Navolato, Sinaloa: Jimmy (10) y Kennay (9) Derks Martínez Buscan Ayuda

Deportes

Liam Lawson evidencia problemas del segundo auto de Red Bull en la temporada de F1

Sinaloa

Secuestran chofer y camión de transporte de jornaleros en Culiacán

Sinaloa

Rancho Izaguirre: Criminóloga Lo Califica de “Vergüenza” Superando Ayotzinapa y San Fernando

Guamuchilense detenido en Condado de Kern con 118 mil pastillas de fentanilo y cocaína