Navegar
···
Entrar / Registrar
19 de novembro - Melhores do ICCV (Dia 1)64243333535618120
Grátis
Favoritos
Compartilhar

19 de novembro - Melhores do ICCV (Dia 1)

addressF5HW+FGX, Vaiaku, Tuvalu

Alguns conteúdos foram traduzidos automaticamente pelo sistemaVer original
Descrição

Bem-vindo à série Melhores do ICCV, seu passe virtual para algumas das pesquisas inovadoras, ideias e inovações que definiram a conferência deste ano. Transmissão ao vivo diretamente dos autores para você. **Data, Hora e Local** 19 de novembro de 2025 9h horário do Pacífico Online. **[Inscreva-se no Zoom!](https://voxel51.com/events/best-of-iccv-november-19-2025)** **AnimalClue: Reconhecendo Animais por seus Rastros** A observação da vida selvagem desempenha um papel importante na conservação da biodiversidade, exigindo metodologias robustas para monitorar populações de animais selvagens e interações interespecíficas. Avanços recentes na visão computacional contribuíram significativamente para automatizar tarefas fundamentais de observação da vida selvagem, como detecção de animais e identificação de espécies. No entanto, identificar com precisão espécies a partir de evidências indiretas, como pegadas e fezes, ainda é relativamente pouco explorado, apesar de sua importância para o monitoramento da vida selvagem. Para preencher essa lacuna, apresentamos o AnimalClue, o primeiro conjunto de dados em larga escala para identificação de espécies a partir de imagens de evidências indiretas. Nosso conjunto de dados consiste em 159.605 caixas delimitadoras abrangendo cinco categorias de pistas indiretas: pegadas, fezes, ovos, ossos e penas. Ele cobre 968 espécies, 200 famílias e 65 ordens. Cada imagem é anotada com rótulos no nível de espécie, caixas delimitadoras ou máscaras de segmentação e informações detalhadas sobre traços, incluindo padrões de atividade e preferências de habitat. Diferentemente dos conjuntos de dados existentes, focados principalmente em características visuais diretas (por exemplo, aparência dos animais), o AnimalClue apresenta desafios únicos para tarefas de classificação, detecção e segmentação de instâncias devido à necessidade de reconhecer características visuais mais detalhadas e sutis. Em nossos experimentos, avaliamos extensivamente modelos de visão representativos e identificamos os principais desafios na identificação de animais a partir de seus rastros. *Sobre o Palestrante* [Risa Shinoda](https://www.linkedin.com/in/risa-shinoda/) recebeu seu mestrado e doutorado em Ciência Agrícola pela Universidade de Quioto em 2022 e 2025. Desde abril de 2025, atua como Professora Assistente Especialmente Nomeada na Escola de Pós-Graduação em Ciência e Tecnologia da Informação da Universidade de Osaka. Ela está envolvida em pesquisa sobre aplicação de reconhecimento de imagens em plantas e animais, bem como modelos de visão e linguagem. **LOTS of Fashion! Multi-Condição para Geração de Imagens por Emparelhamento de Esboço e Texto** O design de moda é um processo criativo complexo que combina expressões visuais e textuais. Designers transmitem ideias por meio de esboços, que definem estrutura espacial e elementos de design, e descrições textuais, capturando materiais, texturas e detalhes estilísticos. Neste artigo, apresentamos LOcalized Text and Sketch para geração de imagens de moda (LOTS), uma abordagem para geração composicional baseada em esboço e texto de visuais completos de moda. O LOTS utiliza uma descrição global com informações emparelhadas localizadas de esboço + texto para condicionamento e introduz uma nova estratégia de fusão baseada em etapas para adaptação à difusão. Primeiro, uma representação Modularizada Centrada em Pares codifica esboços e texto em um espaço latente compartilhado, preservando simultaneamente características localizadas independentes; em seguida, uma fase de Orientação por Par de Difusão integra condicionamentos locais e globais por meio de orientação baseada em atenção durante o processo de remoção de ruído em múltiplas etapas do modelo de difusão. Para validar nosso método, baseamo-nos no Fashionpedia para lançar o Sketchy, o primeiro conjunto de dados de moda em que múltiplos pares texto-esboço são fornecidos por imagem. Resultados quantitativos mostram que o LOTS alcança desempenho de ponta na geração de imagens tanto em métricas globais quanto localizadas, enquanto exemplos qualitativos e um estudo de avaliação humana destacam seu nível sem precedentes de personalização de design. *Sobre o Palestrante* [Federico Girella](https://www.linkedin.com/in/federico-girella-13a6561ba) é aluno de doutorado do terceiro ano na Universidade de Verona (Itália), supervisionado pelo Prof. Marco Cristani, com conclusão prevista em maio de 2026. Sua pesquisa envolve representações conjuntas no domínio multimodal de Imagem e Linguagem, trabalhando com redes neurais profundas, como Modelos de Visão e Linguagem (Grandes) e Modelos Gerativos de Texto para Imagem. Seu principal trabalho concentra-se em Recuperação e Geração de Imagem a partir de Texto no domínio da moda. **ProtoMedX: Aprendizado Explicável de Protótipos Multimodais para Avaliação da Saúde Óssea** A detecção precoce da osteoporose e da osteopenia é crítica, mas a maioria dos modelos de IA para saúde óssea depende exclusivamente de imagens e oferece pouca transparência sobre suas decisões. Nesta palestra, apresentarei o ProtoMedX, o primeiro framework baseado em protótipos que combina exames DEXA da coluna lombar com registros clínicos de pacientes para fornecer previsões precisas e intrinsecamente explicáveis. Diferentemente das redes profundas opacas, o ProtoMedX classifica pacientes comparando-os com protótipos baseados em casos aprendidos, imitando a forma como os clínicos raciocinam na prática. Nosso método não apenas alcança precisão de estado da arte em um conjunto de dados real do NHS com 4.160 pacientes, mas também fornece explicações claras e interpretáveis alinhadas com os requisitos do futuro Regulamento da UE sobre IA para sistemas médicos de alto risco. Além da saúde óssea, este trabalho ilustra como o aprendizado por protótipos pode tornar a IA multimodal poderosa e transparente, oferecendo um modelo para outros domínios críticos para a segurança. *Sobre o Palestrante* [Alvaro Lopez](https://www.linkedin.com/in/alvaropellicer) é candidato a doutorado em IA Explicável na Universidade de Lancaster e Associado de Pesquisa em IA no J.P. Morgan em Londres. Sua pesquisa concentra-se em aprendizado baseado em protótipos, IA multimodal e segurança em IA. Ele liderou projetos em IA médica, detecção de fraudes e robustez adversarial, com aplicações que vão da saúde aos sistemas financeiros. **CLASP: Agrupamento Espectral Adaptativo para Segmentação Não Supervisionada por Imagem** Apresentamos o CLASP (Agrupamento por Processamento Espectral Adaptativo), um framework leve para segmentação de imagens não supervisionada que opera sem qualquer dado rotulado ou ajuste fino. O CLASP extrai primeiramente características por fragmento usando um codificador ViT auto-supervisionado (DINO); depois, constrói uma matriz de afinidade e aplica agrupamento espectral. Para evitar ajustes manuais, selecionamos automaticamente a quantidade de segmentos com uma busca por eigengap-silhueta e afinamos os contornos com um DenseCRF totalmente conectado. Apesar de sua simplicidade e natureza isenta de treinamento, o CLASP alcança mIoU competitivo e precisão por pixel em COCO-Stuff e ADE20K, equiparando-se às linhas de base não supervisionadas mais recentes. O design sem treinamento torna o CLASP uma linha de base forte e facilmente reprodutível para grandes corpora não anotados — especialmente comuns em fluxos de trabalho de publicidade digital e marketing, como triagem de segurança de marca, curadoria de ativos criativos e moderação de conteúdo em mídias sociais. *Sobre o Palestrante* [Max Curie](https://www.linkedin.com/in/maxcurie/) é Cientista de Pesquisa na Integral Ad Science, desenvolvendo soluções rápidas e leves para segurança de marca, classificação multimídia e sistemas de recomendação. Como físico nuclear anteriormente na Universidade de Princeton, ele traz pensamento analítico rigoroso e disciplina de modelagem de sua formação em física para impulsionar a tecnologia publicitária.

Fonte da Informação:  meetup Ver publicação original

Localização
F5HW+FGX, Vaiaku, Tuvalu
Mostrar mapa

meetup

Você também pode gostar

Cookie
Configurações de cookie
Nosso aplicativo
Download
Baixado no
APP Store
Download
Ir para baixar
Google Play
© 2025 Servanan International Pte. Ltd., Todos os direitos reservados. support@ok.com