Llama Guard 4 12B é um modelo multimodal de segurança de IA criado para classificar textos e imagens como seguros ou inseguros. Criadores de conteúdo, proprietários de plataformas e equipes que revisam conteúdo gerado por usuários podem enviar qualquer entrada por ele e receber um veredito claro, além da categoria específica de dano, se uma for detectada. Ele elimina as suposições da revisão de conteúdo e oferece uma verificação repetível e consistente em segundos. O modelo lida com texto e imagens, analisando um amplo conjunto de categorias de dano que inclui violência, discurso de ódio, conteúdo sexual e instruções perigosas. Você pode passar um prompt de sistema para definir o quão rigoroso o modelo deve ser e ajustar as configurações de temperatura e amostragem para controlar a variabilidade da saída. Cada resultado retorna com um rótulo informando se o conteúdo é seguro ou qual categoria de política ele violou. Na prática, Llama Guard 4 12B se encaixa em qualquer fluxo de revisão de conteúdo sem atritos. Cole um comentário, faça upload de uma captura de tela ou envie um parágrafo de um documento e obtenha um veredito de segurança em menos de um segundo. Sem arquivos de configuração, sem preparação de código, basta abri-lo no Picasso IA e executar sua primeira verificação.
Llama Guard 4 12B é um classificador de segurança de conteúdo que lê texto ou entradas de texto com imagem e retorna um veredito claro de seguro ou inseguro, juntamente com a categoria de política específica que acionou a sinalização. Se você administra uma plataforma, cria ferramentas com IA ou modera envios de usuários, obter uma segunda opinião confiável sobre se o conteúdo ultrapassa o limite é algo lento e caro quando feito manualmente. No Picasso IA, Llama Guard 4 12B faz essa revisão automaticamente, retornando julgamentos estruturados em segundos. Ele verifica coisas como discurso de ódio, conteúdo de automutilação e violência gráfica, para que sua equipe possa agir com base em sinais claros em vez de revisar tudo do zero.
Preciso de habilidades de programação ou conhecimentos técnicos para usar isto? Não, basta abrir Llama Guard 4 12B no Picasso IA, ajustar as configurações que quiser e clicar em gerar.
O que Llama Guard 4 12B realmente gera como saída? Ele retorna um veredito de classificação: "safe" ou "unsafe". Quando o conteúdo é sinalizado, ele também retorna a categoria específica da violação, para que você saiba exatamente qual regra foi acionada e possa responder adequadamente. Isso torna a saída acionável, em vez de apenas binária.
Posso verificar imagens além de texto? Sim. O modelo aceita uma lista de imagens junto com seu prompt de texto, permitindo avaliar conteúdo multimodal em uma única solicitação. Isso é útil para plataformas em que os usuários publicam conteúdo escrito e anexos visuais ao mesmo tempo.
Como personalizo quais regras o modelo aplica? Você fornece um prompt de sistema que descreve a política que o modelo deve aplicar. Pode nomear categorias específicas para observar, definir o nível de rigor ou adicionar quaisquer diretrizes personalizadas relevantes para sua comunidade ou plataforma.
Quanto tempo leva uma classificação? A maioria das solicitações retorna um veredito em poucos segundos. O tempo de processamento depende do tamanho do texto de entrada e do número de imagens incluídas, mas entradas curtas apenas de texto geralmente são as mais rápidas.
O que acontece se eu discordar de um resultado de classificação? Você pode refinar os critérios no seu prompt de sistema e executar a solicitação novamente. Reformular a descrição da política ou ajustar os limites de violação costuma deslocar casos limítrofes na direção que você espera. O Picasso IA permite iterar quantas vezes forem necessárias sem atingir limites de uso.
Onde posso usar os resultados? O veredito e o rótulo da categoria estão em texto simples, então você pode colá-los em uma planilha, enviá-los para uma fila de revisão ou usá-los como entrada para outra etapa em um pipeline automatizado de conteúdo.
Tudo o que este modelo pode fazer por você
Aceita texto e imagens na mesma solicitação para verificações de segurança unificadas.
Retorna a categoria específica da política quando conteúdo inseguro é detectado, e não apenas um sinal binário.
Defina seus próprios critérios de segurança para ajustar o rigor do modelo ao seu caso de uso.
Defina a temperatura de amostragem de 0 a 2 para tornar os veredictos mais determinísticos ou variados.
Entrega um resultado seguro ou inseguro em segundos, sem necessidade de configuração de infraestrutura.
Ajuste as penalidades de presença e frequência para reduzir a repetição na saída do modelo.
Limite o comprimento da conclusão para manter os resultados concisos e focados no veredito de segurança.