RS-Agent: 원격 탐사 자동화 에이전트원격 탐사 기술의 급속한 발전 덕분에 매일 수십 테라바이트의 고해상도 이미지를 획득할 수 있게 되었고, 이러한 이미지는 재난 감지, 환경 모니터링, 도시 계획 등 사회 경제적 환경의 다양한 측면에 원활하게 통합되었습니다.Dec 5, 2024Dec 5, 2024
Perceive, Reflect, and Plan: LLM을 활용한 경로찾기이 연구는 도시 환경에서 목표 지향적인 에이전트 내비게이션 문제를 다룹니다. 즉, AI 에이전트가 잘 알려진 랜드마크와 관련된 목표 위치에 대한 언어적 설명만 제공받고, 주변 장면 관찰(랜드마크 인식 및 도로망 연결 포함)을 통해 명시적인 지시 없이…Dec 1, 20241Dec 1, 20241
Reflexion: 스스로 성찰하고 개선하기목표 지향적인 에이전트는 trial-and-error와 같이 기존 강화 학습 방법처럼 광범위한 훈련 샘플과 비용이 많이 드는 finetuning 이 필요합니다. 그래서 저자들은 가중치를 업데이트하는 대신 언어적 피드백을 통해 언어 에이전트를 강화하는…Oct 28, 2024Oct 28, 2024
CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian EvaluationMamba 기반의 이미지 인코더를 활용해서 image-text pair를 학습한 CLIP인코더를 만들고 여러가지 실험을 통해 Mamba 인코더의 성능을 분석합니다.Aug 18, 2024Aug 18, 2024
SigLIP: Sigmoid Loss for Language Image Pre-TrainingSigLIP는 비대칭적이지 않으며 전역 정규화 인자도 필요하지 않습니다. SigLIP는 시그모이드 연산을 사용하고 각 이미지-텍스트 쌍(양수 또는 음수)은 독립적으로 평가됩니다. 따라서 모든 GPU가 모든 쌍별 유사도에 대해 NxN 행렬을 유지할…Aug 7, 2024Aug 7, 2024
Mamba-2: Transformers are SSMsTransformer에 대항하는 SSM 기반의 모델 Mamba의 두번째 버전이 공개됐습니다. 실험 결과가 부족하다는 이유로 ICLR 2024에서 reject 당했지만 Mamba-2는 ICML 2024에서 발표됐습니다.Aug 1, 20241Aug 1, 20241
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs이 연구는 Google DeepMind에서 Multimodal Instruction Navigation with Tours (MINT)을 위해 제안된 방법입니다. 이전에는 불가능했던 복잡한 추론이 필요한 내비게이션 작업에서 86% 및 90%의…Aug 1, 2024Aug 1, 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language…BLIP-2는 큰 규모의 모델을 end-to-end로 훈련하는 vision-language pre-training의 비용이 점점 더 높아지는 문제를 해결하기 위해 제안된 효율적이고 일반적인 pre-training 전략입니다. 이 모델은 기존의…Jul 3, 2024Jul 3, 2024
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and…Vision-Language Pre-training (VLP)은 많은 비전-언어 과제에서 성능을 크게 향상시켰습니다. 그러나 대부분의 기존 사전 학습된 모델들은 이해 기반 작업이나 생성 기반 작업 중 하나에서만 뛰어난 성능을 발휘합니다. 또한, 성능…Jun 30, 2024Jun 30, 2024
CLIP: Connecting text and imagesCLIP( Contrastive Language-Image Pre-training )은 Zero-shot, NLP supervision및 multimodal 학습에 대한 대규모 작업을 기반으로 합니다.Jun 27, 20241Jun 27, 20241