List: NLP | Curated by Taewan Cho

Jun 16, 2024

14 stories

NLP자연어 처리에 대한 내용이 담긴 게시물
Taewan Cho
Model Stock: All we need is just a few fine-tuned models네이버에서 개발한 Model Stock은 인공지능 모델을 훈련시키는 새로운 방법입니다. 기존 방법은 여러 모델을 학습시킨 후 합쳐서 성능을 높였는데, Model Stock은 단 두 개의 모델만 학습시켜도 비슷하거나 더 좋은 결과를 낼 수 있습니다.
Jun 16, 2024
Jun 16, 2024
Taewan Cho
Mixture-of-Agents Enhances Large Language Model Capabilities최근 GPU자원과 학습 데이터의 부족으로 인해 새로운 모델을 학습하거나 튜닝시키는 연구보다 기존에 잘 학습된 모델을 활용하여 어떻게 성능을 더 올릴 수 있는지에 대한 연구가 활발하게 이루어지고 있습니다.
Jun 16, 2024
Jun 16, 2024
Taewan Cho
Evolutionary Optimization of Model Merging Recipes본 연구에서는 이러한 한계를 뛰어넘어, 마치 자연의 진화처럼 우수한 모델 조합을 스스로 찾아내는 “Evolutionary Model Merging” 기술을 제시합니다. 이 기술은 추가적인 학습 없이도 기존 모델들의 강점을 조합하여 놀라운 성능 향상을
Jun 15, 2024
Jun 15, 2024
Taewan Cho
Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning명령어 미세 조정(IFT)은 사전 학습된 대규모 언어 모델(LLM)의 제로샷 능력을 크게 향상시킵니다. 코딩 데이터는 LLM 사전 학습 중 추론 능력을 향상시키는 것으로 알려져 있지만, IFT 중 내부 추론 능력을 활성화하는 데 있어서의 역할은 아직
Jun 15, 2024
Jun 15, 2024
Taewan Cho
LLM을 평가하는 다양한 방법huggingface에 가면 Open LLM Leaderboard가 있습니다. 간단하게 보면 LLM에게 시험을 보도록 해서 점수를 매기는 시스템 입니다. 다양한 종류의 리더보드가 있지만 그래도 전세계에서 가장 정량적이고 많이 사용하는 리더보드라고 할…
Jun 10, 2024
Jun 10, 2024
Taewan Cho
DARE: 두 도메인 지식을 효율적으로 결합하는 방법Drops And REscales
Jun 7, 2024
Jun 7, 2024
Transformer에 대항하는 새로운 아키텍처 Mamba
Taewan Cho
Mamba: Liner-Time Sequence Modeling With Selective State Space우선 Mamba를 이해하기 위해선 많은 사전지식이 필요합니다. 관련 자료들을 아래 링크에 첨부해두겠습니다.
May 15, 2024
1
May 15, 2024
1
Transformer가 정답이 아닐 수 있다는 것을 보여준 새로운 이론
Taewan Cho
Sequence Modeling with State Space Models딥 시퀀스 모델은 입력 시퀀스를 처리하여 출력 시퀀스를 생성하는 모델로, 자연어 처리, 음성 인식, 시계열 예측 등 다양한 분야에서 활용되고 있습니다. RNN, CNN, Transformer 등이 대표적인 딥 시퀀스 모델이며, 각 모델은 뚜렷한…
May 14, 2024
2
May 14, 2024
2
Classification 모델을 더 효율적으로 학습시기 위한 방법
Taewan Cho
ELECTRA. Replaced Token Detection(RTD)Discriminator는 ELETRA의 핵심 기능입니다. 입력 토큰 시퀀스에 대해서 각 토큰이 original인지 replaced인지 이진 분류로 학습합니다. 이렇게 하면 마스킹 된 토큰이 아닌 전체 토큰을 학습할 수 있습니다.
Apr 28, 2024
1
Apr 28, 2024
1
기존 MoE에서 더 나아가 연산 최적화를 시키는 방법
Taewan Cho
Mixture-of-Depths. Long-Context가 답이다.최근 MoE를 활용하는 모델들이 좋은 성과를 보여주고 있습니다. 대표적으로 GPT-4, Gemini-1.5-pro가 있습니다. MoE는 생성할 토큰에 더 잘 맞는 Expert들이 연산하도록 해서 더 좋은 결과물을 만들어냅니다.
Apr 27, 2024
1
Apr 27, 2024
1
Token choice routing MoE 방법의 단점을 개선시킨 Expert choice routing
Taewan Cho
Mixture-of-Experts with Expert Choice Routingtoken이 top-k 전문가를 선택하는 대신에, 전문가들이 top-k개의 token을 선택하는 방법을 제안합니다. 이로 인해 각 토큰은 가변적인 수의 전문가에게 라우팅될 수 있으며, 각 전문가는 고정된 버킷 크기(할당된 토큰 크기) 를 가지게…
Apr 14, 2024
1
Apr 14, 2024
1
Multi-head attention의 성능을 개선시키기 위해 등장한 GQA
Taewan Cho
Grouped-query attention이란 무엇인가?최근 발표된 성능 좋은 오픈소스 모델은 대부분 Attention을 개선하여 성능을 개선시키고 있는 것 같습니다. 이번 포스트에서는 Meta의 Llama2와 Google의 gemma에서 사용된 GQA와 MQA에 대해서 알아보려고 합니다.
Apr 5, 2024
1
Apr 5, 2024
1
현대 NLP의 가장 기본이 되는 모델 Transformer
Taewan Cho
Transformer: Attention is all you needTransformer는 관계 정보를 포함한 형태로 변환하는 매커니즘으로, Self-Attention을 사용합니다. 이를 통해 토큰 간의 관계를 조금씩 담고 있는 새로운 토큰을 생성합니다.
Apr 3, 2024
Apr 3, 2024
Attention의 연산 과정을 수학적 트릭을 사용하여 10배 개선시킨 Flash Attention
Taewan Cho
성능 최적화를 위한 Flash Attention 2기존의 PyTorch의 Attention 연산 대비 10배 빠른 Flash Attention 2
Mar 13, 2024
1
Mar 13, 2024
1

NLP

자연어 처리에 대한 내용이 담긴 게시물

Model Stock: All we need is just a few fine-tuned models

Mixture-of-Agents Enhances Large Language Model Capabilities

최근 GPU자원과 학습 데이터의 부족으로 인해 새로운 모델을 학습하거나 튜닝시키는 연구보다 기존에 잘 학습된 모델을 활용하여 어떻게 성능을 더 올릴 수 있는지에 대한 연구가 활발하게 이루어지고 있습니다.

Evolutionary Optimization of Model Merging Recipes

Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning

LLM을 평가하는 다양한 방법

huggingface에 가면 Open LLM Leaderboard가 있습니다. 간단하게 보면 LLM에게 시험을 보도록 해서 점수를 매기는 시스템 입니다. 다양한 종류의 리더보드가 있지만 그래도 전세계에서 가장 정량적이고 많이 사용하는 리더보드라고 할…

DARE: 두 도메인 지식을 효율적으로 결합하는 방법

Drops And REscales

Mamba: Liner-Time Sequence Modeling With Selective State Space

우선 Mamba를 이해하기 위해선 많은 사전지식이 필요합니다. 관련 자료들을 아래 링크에 첨부해두겠습니다.

Sequence Modeling with State Space Models

ELECTRA. Replaced Token Detection(RTD)

Discriminator는 ELETRA의 핵심 기능입니다. 입력 토큰 시퀀스에 대해서 각 토큰이 original인지 replaced인지 이진 분류로 학습합니다. 이렇게 하면 마스킹 된 토큰이 아닌 전체 토큰을 학습할 수 있습니다.

Mixture-of-Depths. Long-Context가 답이다.

최근 MoE를 활용하는 모델들이 좋은 성과를 보여주고 있습니다. 대표적으로 GPT-4, Gemini-1.5-pro가 있습니다. MoE는 생성할 토큰에 더 잘 맞는 Expert들이 연산하도록 해서 더 좋은 결과물을 만들어냅니다.

Mixture-of-Experts with Expert Choice Routing

Grouped-query attention이란 무엇인가?

최근 발표된 성능 좋은 오픈소스 모델은 대부분 Attention을 개선하여 성능을 개선시키고 있는 것 같습니다. 이번 포스트에서는 Meta의 Llama2와 Google의 gemma에서 사용된 GQA와 MQA에 대해서 알아보려고 합니다.

Transformer: Attention is all you need

Transformer는 관계 정보를 포함한 형태로 변환하는 매커니즘으로, Self-Attention을 사용합니다. 이를 통해 토큰 간의 관계를 조금씩 담고 있는 새로운 토큰을 생성합니다.

성능 최적화를 위한 Flash Attention 2

기존의 PyTorch의 Attention 연산 대비 10배 빠른 Flash Attention 2

Taewan Cho

Mixture-of-Experts with Expert Choice Routing