Taewan ChoCLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian EvaluationMamba 기반의 이미지 인코더를 활용해서 image-text pair를 학습한 CLIP인코더를 만들고 여러가지 실험을 통해 Mamba 인코더의 성능을 분석합니다.Aug 18Aug 18
Taewan ChoSigLIP: Sigmoid Loss for Language Image Pre-TrainingSigLIP는 비대칭적이지 않으며 전역 정규화 인자도 필요하지 않습니다. SigLIP는 시그모이드 연산을 사용하고 각 이미지-텍스트 쌍(양수 또는 음수)은 독립적으로 평가됩니다. 따라서 모든 GPU가 모든 쌍별 유사도에 대해 NxN 행렬을 유지할…Aug 7Aug 7
Taewan ChoMamba-2: Transformers are SSMsTransformer에 대항하는 SSM 기반의 모델 Mamba의 두번째 버전이 공개됐습니다. 실험 결과가 부족하다는 이유로 ICLR 2024에서 reject 당했지만 Mamba-2는 ICML 2024에서 발표됐습니다.Aug 11Aug 11
Taewan ChoMobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs이 연구는 Google DeepMind에서 Multimodal Instruction Navigation with Tours (MINT)을 위해 제안된 방법입니다. 이전에는 불가능했던 복잡한 추론이 필요한 내비게이션 작업에서 86% 및 90%의…Aug 1Aug 1
Taewan ChoBLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language…BLIP-2는 큰 규모의 모델을 end-to-end로 훈련하는 vision-language pre-training의 비용이 점점 더 높아지는 문제를 해결하기 위해 제안된 효율적이고 일반적인 pre-training 전략입니다. 이 모델은 기존의…Jul 3Jul 3
Taewan ChoBLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and…Vision-Language Pre-training (VLP)은 많은 비전-언어 과제에서 성능을 크게 향상시켰습니다. 그러나 대부분의 기존 사전 학습된 모델들은 이해 기반 작업이나 생성 기반 작업 중 하나에서만 뛰어난 성능을 발휘합니다. 또한, 성능…Jun 30Jun 30
Taewan ChoCLIP: Connecting text and imagesCLIP( Contrastive Language-Image Pre-training )은 Zero-shot, NLP supervision및 multimodal 학습에 대한 대규모 작업을 기반으로 합니다.Jun 271Jun 271
Taewan ChoModel Stock: All we need is just a few fine-tuned models네이버에서 개발한 Model Stock은 인공지능 모델을 훈련시키는 새로운 방법입니다. 기존 방법은 여러 모델을 학습시킨 후 합쳐서 성능을 높였는데, Model Stock은 단 두 개의 모델만 학습시켜도 비슷하거나 더 좋은 결과를 낼 수 있습니다.Jun 16Jun 16
Taewan ChoMixture-of-Agents Enhances Large Language Model Capabilities최근 GPU자원과 학습 데이터의 부족으로 인해 새로운 모델을 학습하거나 튜닝시키는 연구보다 기존에 잘 학습된 모델을 활용하여 어떻게 성능을 더 올릴 수 있는지에 대한 연구가 활발하게 이루어지고 있습니다.Jun 16Jun 16
Taewan ChoEvolutionary Optimization of Model Merging Recipes본 연구에서는 이러한 한계를 뛰어넘어, 마치 자연의 진화처럼 우수한 모델 조합을 스스로 찾아내는 “Evolutionary Model Merging” 기술을 제시합니다. 이 기술은 추가적인 학습 없이도 기존 모델들의 강점을 조합하여 놀라운 성능 향상을Jun 15Jun 15