Skip to content

The list of NLP paper and news I've checked. There might be short description of them (abstract) in Korean.

Notifications You must be signed in to change notification settings

chanmuzi/NLP-Paper-News

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📜: Paper link 🧑🏻‍💻: Developer blog & Github link 🗞️: News


2025

🌸 April

1st week
  • 📜 [UC San Diego] Large Language Models Pass the Turing Test
    • ELIZA, GPT-4o, LLaMA-3.1-405B, GPT-4.5 모델을 대상으로 튜링 테스트
    • GPT-4o 모델의 경우, 인간 페르소나를 부여했을 때 인간 상대로 73%의 win rate를 기록
  • 📜 [AI2] Introducing CodeScientist: A step toward automated scientific discovery
    • CodeScientist를 이용하여 19개의 potential discoveries를 생성했는데, 이중 6개는 전문가 평가를 통과함 (soundness & novelty 관점에서)
    • 전체 프로세스 내에서 Ideation, Planning, Experiment, Reporting, Meta-analysis 수행
    • 아직까지 사람의 의사결정이 중간에 개입되어야 한다는 한계가 있지만 빠른 속도로 발전하고 있다는 인상을 줌 (Sakana AI의 것도 그렇고..)
  • 🧑🏻‍💻 [HuggingFace] YourBench: A Dynamic Benchmark Generation Framework
    • Dynamic Benchmark Generation: Produce diverse, up-to-date questions from real-world source documents (PDF, Word, HTML, even multimedia).
    • Scalable & Structured: Seamlessly handles ingestion, summarization, and multi-hop chunking for large or specialized datasets.
    • Zero-Shot Focus: Emulates real-world usage scenarios by creating fresh tasks that guard against memorized knowledge.
    • Extensible: Out-of-the-box pipeline stages (ingestion, summarization, question generation), plus an easy plugin mechanism to accommodate custom models or domain constraints.
  • 📜 [National University of Singapore] JudgeLRM: Large Reasoning Models as a Judge
    • LLM이 enhanced reasoning 능력으로 충분히 judge 할 수 있는지를 연구한 논문
    • SFT performance gains & reasoning-demanindg samples의 비율 간의 음의 상관관계 확인
    • JudgeLRM: judge-wise, outcome-driven rewards 향으로 RL을 적용한 judgement-oriented LLMs family
  • 🧑🏻‍💻 [OpenAI] OpenAI Academy
    • prompt engineering, multimodal AI, fine-tuning 등 다양한 hands-on training 강의 제공 (practical applications rather than theory)
    • workshops & live events 등도 진행
  • 📜 [Meta] Multi-Token Attention
    • Soft attention은 LLM이 주어진 문맥 내에서 관련성이 높은 부분을 locate 하는 데 도움을 주었지만, single query & key vector에 의존한다는 점 자체가 한계임 (Single Token Attention)
    • Multi-Token Attention (MTA): LLM이 여러 개의 query & key vectors에 대해 attention weights를 condition 하는 어텐션 기법 제안
    • queries, keys, heads에 대해 convolution 적용
  • 📜 [OpenAI] PaperBench: Evaluating AI's Ability to Replicate AI Research
    • AI agent로 ICML 2024 Spotlight & Oral papers를 복제하는 벤치마크
    • Claude 3.5 Sonnet이 21.0% 스코어를 기록했으나 인간 ML PhD는 41.4%를 기록
    • 평가를 수행하는 것도 LLM임
  • 🧑🏻‍💻 [Anthropic] Introducing Claude for Education
    • 교육 목적에 특화된 Claude for Education 런칭
    • Learning mode: 학생들에게 정답을 바로 알려주기보다는 critical thinking skills를 develop 할 수 있도록 reasoning process를 가이드
    • Socratic questioning (결론을 뒷받침하는 근거는 무엇인가?), 핵심 개념 강조 등의 특징

🌱 March

1st week
  • 📜 [Microsoft] LongRoPE2: Near-Lossless LLM Context Window Scaling
    1. ‘높은 차원의 RoPE 차원에서의 불충분한 학습은 영구적인 OOD issue를 야기한다’는 가설
    2. needle-driven perplexity 기반의 evolutionary search를 이용한 RoPE rescaling alogirthm이 위 문제를 해결해줄 것이라고 가정
    3. mixed context window training
    • LLaMA3-8B에 LongRoPE2를 적용하여 128K를 커버할 수 있게 만들면서도 기존 short-context performance는 98.5% 보존
  • 🧑🏻‍💻 [OpenAI] Introducing GPT-4.5
    • function calling, structured outputs, system messages, streaming in API 지원
    • 이미지 입력, agentic planning & execution 가능
    • text-based interactions 내의 뉘앙스 파악 더 잘함 & 향상된 EQ → 문과적 사고는 좋아졌는데 실질적인 성능은 아쉽다는 평이 많음
  • 🧑🏻‍💻 [Inception Labs] Introducing Mercury, the first commercial-scale diffusion large language model
    • 스탠포드 교수 Stefano Ermon이 diffusion large language model 회사 설립 (dLLMs)
    • H100에서 초당 1000 토큰을 출력할 수 있을 정도로 기존 모델들 대비 10x 이상 빠르다고 설명
    • 다음 토큰을 autoregressive 하게 예측하는 방식/패러다임을 “coarse-to-fine” 생성 방식으로 전환해야 한다고 주장
  • 📜 [King’s College London, The Alan Turing Institue] CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation
    • implicit CoT가 explicit CoT에 비해 아직까지 뒤처져 있음을 언급
    • CODI: shared model이 teacher & student 역할을 수행하며 explicit & implict CoT를 학습
    • implicit CoT로도 explicit CoT 성능을 달성하면서도 3.1배의 토큰 압축률을 보여줌
    • explicit reasoning이 대박을 친 이후로 추론 비용이 급상승해서인지 implicit & compression 관련 연구들에 눈에 띄고 있음
  • 🧑🏻‍💻 [Sesame] Crossing the uncanny valley of conversational voice
    • Conversational Speech Model (CSM): context-aware speech in real-time conversations을 위해 설계된 모델 (1B, 3B, 8B)
    • tone, pace, rhythm 등을 conversational context and emotions 기반으로 조절 가능
    • decoder는 Residual Vector Quantization (RVQ) tokens로부터 high-fidelity speech를 reconstruct
    • 2K context window 커버 가능, 1M hours of publicly available transcribed and diarized speech로 학습
  • 🧑🏻‍💻 [Anthropic] Token-efficient tool use (beta)
    • token-efficient-tools-2025-02-19 header를 통해 평균 14%, 최대 70%의 토큰 & latency를 줄일 수 있다고 설명
      • API call에서 tool use와 관련된 옵션임. Claude 3.7을 공개하면서 사용 비용을 최소화하는 옵션을 함께 제시함.
  • 📜 LLM Post-Training: A Deep Dive into Reasoning Large Language Models
    • fine-tuning, reinforcement learning, test-time scaling 등의 post-training 방법론들을 조사한 서베이 논문
    • catastrophic forgetting, inference-time trade-off, reward hacking 등의 issues를 함께 다룸
    • Tuning 파트에 엑사원은 있는데 솔라는 포함되지 않았음
    • Awesome LLM Post-Training repository 🔗
  • 📜 [Mila] Multi-Turn Code Generation Through Single-Step Rewards
    • 현재 multi-turn code generation 방법론들은 피드백 없이 코드를 생성하거나 complex & hierarchical 강화학습을 사용
    • μCODE: single-step reward만을 사용하는 multi-turn code generation
    • 중간의 어떤 과정에서도 올바른 코드로 recovered 가능하다고 주장
    • 멀티턴 실행 피드백과 새로 생성된 코드를 scoring하는 verifier를 iteratively 학습
  • 📜 [Univ. of Oklahoma] A Survey On Large Language Models For Code Generation
    • 최근 아주 핫한 코드 생성 모델들에 대한 서베이 페이퍼
    • 엄청 방대한 양을 커버하고 있지는 않음
  • 📜 [Tencent AI] The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models
    • Unsupervised Prefix Fine-Tuning (UPFT): Prefix Self-Consistency를 이용. 다양한 solution에 공통적으로 포함되는 initial reasoning steps를 학습 대상으로 삼음
    • initial prefix substrings (8개 토큰) 에 대해서만 학습함으로써 데이터 라벨링이나 sampling의 공수를 줄임
    • 학습 시간은 75%, sampling cost는 99% 줄이면서도 Rejection Sampling Fine-Tuning과 같은 기존 학습 방식에 준하는 성능을 달성했다고 보고
  • 🧑🏻‍💻 [Qwen] QwQ-32B
    • DeepSeek-R1 671B 모델에 견주는 32B 모델 공개 (MoE 아닌 Dense 모델)
    • 131K Token length 지원
    • RoPE, SwiGLU, RMSNorm
  • 🧑🏻‍💻 [Cohere] Aya Vision: Expanding the Worlds AI Can See
    • 다양한 언어와 modalities를 지원하는 SoTA vision model (23개 언어)
    • 8B, 32B 사이즈 모델. Kaggle & HuggingFace 에 weights 공개
  • 🧑🏻‍💻 [Google] Data Science Agent in Colab: The future of data analysis with Gemini
    • Gemini를 이용한 multi-step reasoning을 통해 full notebooks를 생성 (just code snippets x)
    • classification, regression, feature selection, correlation analysis 등 기능 지원
    • CSV, JSON, Excel files 지원
  • 📜 [Nanjing Univ., Microsoft] Process-based Self-Rewarding Language Models
    • LLM이 학습용 데이터를 스스로의 output에 대한 reward를 기반으로 생성하는 방식을 제안
    • → 현존하는 self-rewarding 방식은 수학적 추론 영역에서 약점을 보인다고 지적
    • → self-rewarding 내에 long-thought reasoning, step-wise LLM-as-a-Judge, step-wise preference optimization 등 도입
  • 📜 [Washington, Peking] MPO: Boosting LLM Agents with Meta Plan Optimization
    • LLM-based agents 시스템은 아직 planning hallucination & each egent 학습 필요성 을 한계로 지님
    • Meta Plan Optimization (MPO): explicit guidance를 통합하여 agent의 planning capability를 향상시키는 프레임워크. agent의 실행 결과에 대한 피드백을 바탕으로 삼음.
    • Meta Plan에 대한 평가(reward)를 제공하는 모델도 있어서 파이프라인이 강화학습처럼 보임
  • 📜 [Alibaba] Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
    • (numbers of speakers 기준) 지구상 90% 인구가 이해하는 25개 언어를 커버
    • Babel-9B, 83B multilingual LLMs 공개
    • 전통적인 continued pretraining 대신 model extension을 통해 parameter count를 확장함으로써 성능 향상을 도모했음
  • 📜 [Alibaba] START: Self-taught Reasoner with Tools
    • external tools을 이용하여 reasoning capabilities를 큰 폭으로 향상
    • (1) Hint-infer: 인위적으로 설계한 힌트를 삽입 (ex. 파이썬 코드를 써야겠어!)
    • (2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-infer를 통해 생성된 reasoning trajectories(tool 사용을 포함하는)를 fine-tuning
  • 📜 [CMU] SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning
    • reasoning에서 nuanced topological reasoning이 문제임을 지적
    • accuracy와 efficiency를 향상시키기 위해 reasoning topology를 dynamically optimize
    • Topological-Annotation-Generation (TAG) system: topological dataset creation & segmentation을 자동화
    • multi-task Topological Reward Model (M-TRM) 학습: 자동적으로 best reasoning topology를 선택하여 single pass에 답변 반환 (multiple single-task 필요성 x)
  • 📜 [NVIDIA, Berkeley, MIT, Nanjing, KAIST] Token-Efficient Long Video Understanding for Multimodal LLMs
    • explicit temporal modeling이 부족하여 long videos의 dynamic patterns을 capture하기 어렵다는 문제를 지적
    • STORM (Spatiotemporal TOken Reduction for Multimodal LLMs): image encoder & LLM 사이의 temporal encoder를 통합하는 아키텍쳐
    • Mamaba State Space Model을 사용하여 temporal information을 image tokens에 통합하여 보다 풍부한 representations를 생성
    • training & inference latency 둘 다 감소시키면서도 extended temporal contexts에 대한 efficient & robust video understanding 를 보여줌
  • 📜 [Stanford] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
    • 동일한 사이즈의 모델 간에서도 RL을 통한 self-improvement 능력 획득이 가능(Qwen)한 경우와 그렇지 않은(Llama) 경우가 있음 → self-improvement 능력 획득에 필요한 조건은 무엇일까?
    • 4개의 cognitive behaviors: verification, backtracking, subgoal setting, backward chaining
    • OpenWebMath data를 continued-pretraining에 활용하여 Llama를 학습한 결과는 Qwen에 준함
  • 📜 [Columbia Business School] How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach
    • 다양한 compression instructions를 통해 reasoning length와 model performance 간의 관계에 대한 systematic study
    • → 거의 모든 distinct reasoning chain마다 reasoning length와 accuracy 간의 universal tradeoff 존재
    • token complexity: successful problem-solving을 위해 필요한 최소한의 토큰 숫자
    • → accuracy-compression tradeoff의 이론적 한계를 계산하는 데 활용
    • → adaptive compression: 답하기 쉬운 질문에는 짧은 responses를 반환토록 함
2nd week
  • 📜 [Renmin Univ.] R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
    • internal knowledge에만 의존하는 LRM들은 time-sensitive or knowledge-intensive questions에 대해 약함
    • R1-Searcher: two-stage outcome-based RL approach
    • reasoning process 동안 추가적인 지식 습득을 위해 모델이 자율적으로 external search system에 접근
    • RL만 배타적으로 사용. cold start를 위한 reward나 distillation 불필요.
  • 🧑🏻‍💻 [Manus] Leave it to Manus
    • 중국 스타트업이 AI agents 서비스로 세간의 주목을 받고 있음
    • 자체적으로 공개한 벤치마크 결과에서는 OpenAI Deep Research를 압살
    • 파격적인 데모(수십 개의 앱이 동시에 실행)가 사실인지에 대한 커뮤니티 논쟁이 있었음
  • 🧑🏻‍💻 [OpenAI] New tools for building agents
    • 개발자들이 agents를 만들 때 사용할 수 있는 agent 툴을 공개
    • Chat Completions API에 Assistants API의 tool 사용 능력을 합친 Responses API
    • web search, file search, computer use 능력을 내장
  • 📜 [Skolkovo Institue of Science and Technology] Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
    • Artificial Text Detection (ATD)는 LLM 등장 이래로 더욱 중요해지고 있으나 unseen text에 대한 일반화 성능이 낮다는 문제점을 지적
    • Sparse Autoencoder를 이용하여 Gemma-2-2b로부터 feature를 추출함으로써 ATD interpretability를 높임
    • 다양한 모델로부터 획득한 텍스트가 사람으로부터 얻은 것과 어떻게 다른지에 대한 인사이트 제공 가능
  • 🧑🏻‍💻 [Google DeepMind] Gemini Robotics brings AI into the physical world
    • Gemini Robotics: Gemini 2.0 기반의 vision-language-action (VLA) model
    • Gemini Robotics-ER: Gemini의 embodied reasoning (ER) 능력을 활용하여 advanced spatial understanding을 보여줌
    • 다음 세대의 휴머노이드를 만들기 위해 Apptronik와 파트너십
    • Technical Report link 🔗
  • 🧑🏻‍💻 [Google] Introducing Gemma 3: The Developer Guide
    • 1B-27B 사이즈의 open-weight model family (open-source는 아님)
    • LMArena에서 R1 바로 뒤를 이어 2위 차지
    • SigLIP 기반의 vision encoder를 통한 Multimodal 지원, 128K 윈도우 사이즈, 140개 이상 언어 이해
    • 3개의 강화 학습 기법 적용: RLMF (Machine Feedback), RLEF (Execution Feedback), RLHF (Human Feedback)
  • 🧑🏻‍💻 [Perplexity] Perplexity Ask MCP Server
    • Model Context Protocol (MCP)가 최근 핫한 키워드로 떠오르고 있음
      • AI 시스템과 데이터 소스를 연결하기 위한 개방형 표준 프로토콜
      • 클라이언트 - 서버 아키텍쳐를 기본으로 삼음
      • 기존 API 대비 더 직관적이고 유연한 솔루션
    • 도커 이미지로 만들어서 테스트까지 가능한 방법을 간단한 가이드로 소개함
  • 🧑🏻‍💻 [OpenAI] Detecting misbehavior in frontier reasoning models
    • 📜 Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
    • reasoning 모델을 위한 강화학습 과정에서 발생하는 reward hacking 문제 중 coding task에 집중
    • 모델이 reward를 maximize 하기 위해서 cheating 하는 내용들을 explicitly state 하는 것이 관측됨
    • 현재로서는 모델 스스로 intent를 숨기고 detection을 회피하고자 하는 경향성이 있음
  • 📜 [Meta, NYU, MIT, Princeton] Transformers without Normalization
    • Transformers에 normalization을 적용하지 않고도 기존과 동일하거나 그 이상의 퍼포먼스를 보여줌
    • Dynamic Tanh (DyT): element-wise 연산, $\text{DyT}(x)=\text{tanh}(\alpha x)$, Transformers 아키텍쳐에서 normalization layers를 replace
    • 이 아이디어는 기존 normalization의 결과가 tanh-like S-shaped input-output mapping을 보여준다는 점에서 착안함
    • recognition부터 generation, computer vision부터 language model 까지 다양한 태스크로 validate
  • 📜 [KAIST] Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching
    • Sketch-of-Thought (SoT): cognitive-inspired reasoning paradigm을 linguistic constraints와 결합하여 reasoning 정확도를 유지하면서도 token usage를 최소화하는 프레임워크
    • 3개의 paradigm: Conceptual Chaining, Chunked Symbolism, Expert Lexicons
      • lightweight routing model을 통해 적절한 reasoning task로 분기
3rd week
  • 📜 [UC Berkeley, Tokyo] Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks
    • LLM들이 high-level planning objectives & low-level execution 의 균형을 맞추는 것은 쉽지 않음
    • Plan-and-Act: synthetic data generation을 통해 LLM 기반 agents의 plan generation을 고도화한 프레임워크
    • Planner: 목표를 달성하는 데 필요한 structured & high-level plans
    • Executor: 위 plan들을 environment-specific actions로 translate
  • 🧑🏻‍💻 [Microsoft] RD-Agent
    • R&D를 자동화해주는 오픈소스 툴. data analysis, data mining, model tuning 지원
    • 확실히 Agent 개념을 활용한 자동화가 연구에 본격적으로 활용되고 있고 앞으로는 BM으로 발전하지 않을까 싶음
  • 📜 [IBM, HuggingFace] SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
    • end-to-end document conversation향으로 개발한 초소형(256M) vison-language model, SmolDocling
    • DocTags: 페이지 내 모든 요소를 위치와 함께 capture하는 새로운 universal markup format
    • business documents, academic papers, technical reports 등 다양한 형식의 문서에서 code listings, table,s equations, charts, list 등의 feature 추출 가능하며 robust 하다고 설명
    • 모델은 이용 가능하며 데이터셋은 곧 공개 예정
  • 📜 [Anthropic] Auditing Language Models for Hidden Objectives
    • alignment audits: 모델이 바람직하지 않은 objectives를 갖고 있는지 조사
    • RLHF 내 reward model의 error를 학습하고, 이러한 error를 이용(exploit)하는 방법을 익힘
    • (1) 모델의 hidden objective와 training에 대해 모르는 사람들을 4팀으로 꾸려 blind auditing game 수행
    • (2) 후속 연구로 모델을 audit 하는 8개 테크닉을 탐구. SAE가 가장 효과적이었다고 함
  • 📜 [IIIT Hyderabad] No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models
    • physical characteristics부터 socio-economic에 이르는 다양한 카테고리별로 LLM의 biases를 조사
    • bias detection task를 위한 5개의 prompting approaches 소개
    • biases detecting 벤치마크의 metrics에 대한 3개의 research questions 제시
    • 실험 결과에 따르면 모든 LLM이 최소 1개 이상의 bias를 나타내고 있으며, LLaMA3.1-8B 모델의 bias가 가장 적었다고 함
    • 논문 내에 bias 평가 metric에 대한 정리가 잘 되어 있으나 사이즈가 작은 오픈소스 모델 대상으로 실험 결과를 정리한 점은 아쉽
  • 🧑🏻‍💻 [Mistral] Mistral Small 3.1
    • 24B 사이즈, 128K 윈도우 사이즈, 오픈소스 모델로 동사이즈 비교에서 SoTA 달성
    • GPQA에서 44.42% 스코어를 달성하며 Gemma 3-it (36.83%) 모델과 GPT-4o-mini (40.2%) 모델을 능가
    • 초당 150 토큰 생성 가능하며 이미지도 처리 가능
  • 🧑🏻‍💻 [AI2] OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini
    • 지난 11월에 공개했던 7B, 13B 모델에 이어 32B 모델을 공개
    • 오픈소스 모델(데이터, 코드, 학습 방식 등 모든 디테일 공개) 중 GPT 3.5와 GPT 4o mini를 능가하는 것은 최초라고 보도
    • refined post-training과 RLVR (Reinforcement Learning with Verifiable Rewards) 적용
  • 📜 [Tsinghua] Personalize Anything for Free with Diffusion Transformer
    • Diffusion Transformer (DiT)에서 denoising tokens을 reference subject tokens로 대체함으로써 zero-shot reconstruction 가능
    • 덕분에 personalization 및 image editing도 가능
    • Personalize Anything: DiT를 이용하여 personalized image generation을 수행하는 training-free framework
      1. timestep-adaptive token replacement: early stage injection & late stage regularization
      2. patch perturbation strategies to boost structural diversity
  • 📜 [Babes-Bolyai University] Synthetic Data Generation Using Large Language Models: Advances in Text and Code
    • LLM을 이용해 텍스트와 코드 데이터를 생성하는 방식에 대한 서베이 페이퍼
    • low-resource tasks (classification, QA), code-centric applications 발전에 대해 언급
  • 🧑🏻‍💻 [Google] New ways to collaborate and get creative with Gemini
    • Canvas: Gemini 기반의 AI assisted coding tool
      • Python, Javascript, HTML 지원
      • real-time code collaboration이 가능하지만 multi user는 안됨
    • Audio Overview: documents, slides, Deep Research reports를 두 AI host 간의 오디오 팟캐스트로 변환
      • 웹/앱 지원
      • 생성물을 다운로드 또는 공유 가능
  • 🧑🏻‍💻 [LG AI Research] EXAONE Deep Released ━ Setting a New Standard for Reasoning AI
    • 32B reasoning 모델로, 수학, 과학, 코딩 등의 능력이 뛰어나다고 보고
    • Notable AI models에 이름을 올린 유일한 한국어 모델
    • 7.8B & 2.4B 모델도 공개
  • 📜 [Eleuther AI] RWKV-7 "Goose" with Expressive Dynamic State Evolution
    • 3B sequence 모델로, 동일 사이즈 타모델 대비 훨씬 적은 토큰을 사용하고도 SoTA 달성
    • 추론 시 토큰마다 필요한 memory usage & inference time이 constant
    • 3.1T 토큰의 multilingual dataset도 공개
  • 📜 [METR] Measuring AI Ability to Complete Long Tasks
    • 사람이 처리할 수 있는 태스크들을 처리하는데 걸리는 시간을 기준으로 난이도로 해석
    • AI 모델들이 2초에서 8시간까지 걸리는 engineering 태스크 170여 개를 완수
    • 서베이 결과에 따르면 AI task length는 7개월마다 2배로 증가하고, 현재를 기준으로는 Claude 3.7 Sonnet이 1-hour tasks를 50% 신뢰도로 잘 끝내는 수준이라고 함
    • 연구 결과를 정리해놓은 METR posting 링크 🔗
  • 📜 [Shanghai AI Lab] ϕ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation
    • foresight sampling: globally optimal step estimation을 획득하기 위해 simulated future steps를 leverage
    • φ-Decoding: foresight & clustering 을 통해 두 개의 distribution에 approximate → joint distribution으로부터 sampling
  • 📜 [Rice University] Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
    • reasoning 모델들은 분명 추론 성능을 크게 향상시켰음에도 불구하고 compuataional overhead가 발생
    • (1) model-based efficient reasoning: full-length reasoning 모델을 concise reasoning으로 optimize 하거나 애초에 efficient reasoning model을 학습
    • (2) reasoning output-based efficient reasoning: 추론 단계에서 reasoning step과 length를 dynamically 조절
    • (3) input prompts-based efficient reasoning: 입력 프롬프트의 난이도나 길이를 기준으로 reasoning efficiency를 개선
  • 📜 [The Hebrew University, IBM, Yale] Survey on Evaluation of LLM-based Agents
    • LLM agent 평가 벤치마크와 프레임워크를 네 개의 차원(dimension)으로 분석
    • (1) fundamental agent capabilities (planning, tool use, self-reflection, memory)
    • (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents
    • (3) benchmarks for generalist agents
    • (4) frameworks for evaluating agents
4th week
  • 📜 [University of Texas at Dallas] A Review of DeepSeek Models' Key Innovative Techniques
    • DeepSeek 모델을 만들 때 사용된 개념들에 대한 in-depth review
    • Multi-Head Latent Attention (MLA), Advanced MoE, Multi-Token Prediction (MTP), Grouped Relative Policy Optimization (GRPO) 등
  • 📜 [ByteDance, Tsinghua] DAPO: An Open-Source LLM Reinforcement Learning System at Scale
    • a fully open-source, large-scale RL system. Qwen2.5-32B 모델 베이스
    • Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) 알고리즘 제안
  • 📜 [Hong Kong, Peking] Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
    • reward hacking 문제를 해결하기 위해 Hierarchical Reward Model (HRM) 제안
    • fine-grained & coarse level의 individual & consecutive reasoning step을 평가
    • 이전 step의 추론이 잘못되어 뒤에 안좋은 영향을 주는 케이스를 특히 잘한다고 보고
    • MCTS의 비효율성을 해결하기 위해 Hierarchical Node Compression (HNC) 라는 node merging 기법 제안
  • 🧑🏻‍💻 [OpenAI] Introducing next-generation audio models in the API
    • 2개의 speech-to-text (Transcribe, Mini Transcribe), 1개의 text-to-speech (Mini TTS) 모델 API 공개
    • multi-speaker detection, 대화 시작 & 중단, noisy 환경 등에 대해 훨씬 robust 하다고 설명
    • real-time | batch-processing voice agents 구현 가능
  • 🧑🏻‍💻 [Anthropic] The "think" tool: Enabling Claude to stop and think in complex tool use situations
    • Claude의 extended thinking capability를 활용할 수 있도록 “think” tool을 사용하는 방법과 원리에 대해 안내하는 포스팅
    • 말 그대로 tool을 사용하는 schema(API 호출에 필요한)와 이를 위해 최적화된 프롬프트를 안내하고 있음
  • 🧑🏻‍💻 [DeepSeek AI] DeepSeek-V3-0324
    • an open-source 685B MoE model with improved front-end generation and tool use
    • multi-turn interactive rewriting, translation quality & letter writing, enhances search-based report analysis
    • function calling, JSON output, FIM (Fill-in-the-Middle) completion
    • 허깅페이스에 MIT 라이센스로 공개
  • 📜 [National University of Singapore, Nanyang] MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization
    • Multi-Agent framework incorpoRating Socratic guidance (MARS): multi-agent fusion technology를 사용하여 automatic planning을 수행하고 gradual continuous optimization & evaluation 가능
    • 7개의 agent로 구성되어 각각이 autonomously Planner를 사용하여 optimization path를 고안
    • 또한 Teacher-Critic-Student Socratic dialogue를 사용하여 프롬프트를 iteratively optimize
    • 이는 기존의 Automated Prompt Optimization (APO)의 한계를 극복하기 위함임
  • 🧑🏻‍💻 [Google DeepMind] Gemini 2.5: Our most intelligent AI model
    • LMArena에서 GPT4.5 & Claude3를 능가하며 1위를 차지한 thinking model
    • 1M token content window. 곧 2M을 지원할 예정
    • RAG & document-based workflows에 최적화되어 있다고 언급
  • 🧑🏻‍💻 ARC-AGI-2 + ARC Prize 2025 is Live!
    • 상금 $1,000,000 (한화 10억 이상)의 AGI 챌린지
    • 사람에게는 쉽지만 AI에게는 어려운 reasoning task 중심. 이전 challenge보다 더 어렵다고 자체적으로 설명함.
  • 🧑🏻‍💻 [OpenAI] Introducing 4o Image Generation
    • text rendering, precisely following prompts, leveraging 4o’s inherent knowledge base & chat context 등의 특징
    • trained our models on the joint distribution of online images and text
      • → 이를 통해 이미지와 텍스트가 어떤 식으로 관계되어 있는지를 학습했다고 설명
    • ChatGPT, Sora에서 사용 가능하며, 곧 API로도 지원될 예정
  • 📜 [Tencent] CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision
    • CodeTool: 코드의 concise & easilty verifiable 특성을 이용하여 LLM의 tool invocation을 개선하는 stepwise code generation 프레임워크
    • (1) On-the-spot Reward: each tool invocation에 대해 immediate feedback 제공
    • (2) Latent Reward: 전체적인 task completion에 대해 각 step의 기여를 평가
  • 🧑🏻‍💻 [Alibaba] Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!
    • text, image, audio, video를 이해하고 생성하는 오픈소스 모델 (Apache 2.0)
    • Think-Talker 아키텍쳐는 speech synthesis에서 reasoning을 분리함으로써 more structured ouputs에 기여
      • Thinker는 언어모델로서 reasoning & text generation을 담당
      • Talker는 text | direct audio instruction 을 기반으로 speech를 생성
    • Block-wise processing을 이용하여 continuous response generation 가능
  • 🧑🏻‍💻 [AI2] Introducing Ai2 Paper Finder
    • LLM 기반 문헌 검색 시스템으로, 사람처럼 질의 해석 → 검색 → 평가 → 재검색의 과정을 자동화
    • 키워드 대신 자연어 전체 문장을 그대로 입력해도 관련 논문을 찾아줌
    • relevance 판단 시 복잡한 질의를 다중 기준으로 분해해 평가하고, citation 기반 확장 탐색도 수행
    • 빠른 응답이 필요한 경우엔 fast mode, 깊이 있는 탐색이 필요할 땐 iterative exhaustive mode 제공
  • 📜 [Google] Gemma 3 Technical Report
    • 1B-27B 사이즈의 lightweight open models family, Gemma 3 공개
    • vision understanding, 더 많은 언어, longer context (128K)
    • local to global attention layer의 비중을 높임으로써 (local의 비중을 높임) KV-cache가 폭발적으로 증가하는 것을 방지
    • Gemma 3 모델들은 distillation으로 학습되어pre-trained & instruction finetuned version 둘 다 Gemma 2 성능을 능가
  • 🧑🏻‍💻 [Anthropic] Tracing the thoughts of a large language model
    • Anthropic에서 Claude 3.5 Haiku 내부 computation을 trace 할 수 있는 방법을 기술한 두 개의 technical papers를 공개
    • 이를테면 feature activations와 이것이 transformer layers에 걸쳐 미치는 영향을 추적할 수 있음
    • Claude는 한 번에 여러 개의 future words를 선택 / shared internal states를 사용하고 이를 다른 언어들에 각각 매핑
  • 🧑🏻‍💻 [Tencent] Reasoning Efficiency Redefined! Meet Tencent’s 'Hunyuan-T1'—The First Mamba-Powered Ultra-Large Model
    • 세계 최초 Mamba 아키텍쳐 기반 초거대모델 (Transformer-Mamba MoE)
    • TurboS 기반으로 in-depth reasoning에서 강점을 보이며 long-context capture 능력이 뛰어남
    • curriculum learning & self-rewarding

🏔️ February

1st week
  • 🧑🏻‍💻 AI Coder Reviewer
    • Ollama랑 통합 가능한 AI Code Review 도구
    • 다양한 프로그래밍 언어에 대한 automated code review 지원
  • 📜 [GIT] Large Language Models Think Too Fast To Explore Effectively
    • LLM이 open-ended tasks에서 인간을 능가할 수 있을지 Little Alchemy 2를 사용하여 테스트
    • 인간은 uncertainty와 empowerment를 적절히 조절할 수 있는데, 이를 능가하는 건 o1 모델 밖에 없었다고 주장
    • Sparse Auto Encoder에 대한 representational 분석 결과에 따르면 uncertainty와 choices는 early layer에서 represented 되는데, empowered values는 later layer에서 처리되어 모델 입장에서는 미성숙한 결정을 내리도록 하는 원인이 된다고 설명 (?)
  • 🧑🏻‍💻 [Mistral] Mistral Small 3
    • MMLU에서 81점 기록, 코드 생성과 수학 태스크에서 Llama-3.3-70B or GPT-4o-mini 급 성능
    • 24B 파라미터, 32K context window, 초당 150 토큰 처리 가능 → 32GB RAM을 가진 RTX 4090 또는 맥북에서 돌릴 수 있음
    • 합성데이터나 RLHF를 사용하지 않아 추가적인 fine-tuning 하기에 적합한 base 모델이라고 주장
  • 🧑🏻‍💻 [AI2] Scaling the Tülu 3 post-training recipes to surpass the performance of DeepSeek V3
    • Tülu 3 405B 오픈 소스 post-training 모델 공개
    • 오픈소스 모델임에도 불구하고 DeepSeek v4, GPT-4o 수준의 성능 달성
    • Reinforcement Learning from Verifiable Rewards (RLVR) 프레임워크가 MATH 성능을 크게 향상시켰다고 설명
  • 📜 [DeepSeek] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
    • DeepSeekMath 7B 모델 공개: DeepSeek-Coder-Base-v1.5 7B 모델을 Common Crawl의 수학 관련 120B 토큰으로 학습
    • MATH에서 외부 도구의 도움 없이 51.7%를 달성하며 GPT-4, Gemini-Ultra급의 성능을 보임
    • web data를 엄선하는 파이프라인 & Group Relative Policy Optimization (GRPO)
  • 🧑🏻‍💻 [OpenAI] OpenAI o3-mini
    • STEM, coding, logical problem-solving을 위해 디자인된 small-scale reasoning model
    • o1-mini 의 자리를 대신함 (예를 들어 기존 o1-mini API는 o3-mini 로 대체)
    • o1과 달리 vision을 지원하지 않음
    • 설연휴 기간 폭발적인 관심을 얻은 DeepSeek-R1 을 견제하는 움직임으로 해석
  • 🧑🏻‍💻 [OpenAI] Introducing deep research
    • 대량의 온라인 정보를 바탕으로 multi-step 추론하여 tasks를 수행하는 agent 기능
    • 기존 추론 모델들은 인터넷에 접근하지 못한다는 한계가 있었는데 이를 극복함
    • 굉장히 난이도가 높은 것으로 알려진 Humanity’s Last Exam에서 26.6% 스코어를 기록함
  • 📜 [HKU, UC Berkeley, Google DeepMind, NYU] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
    • SFT와 RL의 generalization & memorization 영향도를 비교 분석한 연구
    • 학습된 모델이 unseen textual & visual domain에서 일반화하는지 확인
    • SFT는 단순히 학습 데이터를 암기하는 것이라면 RL은 실제 일반화에 도움이 됨. 단, SFT는 답변의 형식을 유지하는 데 도움이 됨
  • 📜 [Arizona, UCLA] Preference Leakage: A Contamination Problem in LLM-as-a-judge
    • synthetic data generator & LLM-based evaluator 둘 간의 relatedness로 야기되는 LLM-as-a-judeg의 contamination을 preference leakage라고 명명
    • 동일 모델, inheritance 관계, model family, 세 가지 유형에 대한 조사
    • 모델 사이에 명백한 preference leakage가 존재한다고 주장
  • 📜 [Chineses Academy of Sciences] DeepRAG: Thinking to Retrieval Step by Step for Large Language Models
    • MDP로서 retrieval-augmented reasoning을 수행하는 프레임워크 DeepRAG 제안
    • 쿼리를 iteratively decompose 함으로써 external knowledge를 retrieve 할지 말지, 혹은 parametric reasoning을 할지를 결정
  • 🧑🏻‍💻 [Google] Gemini 2.0 is now available to everyone
    • multimodal reasoning이 가능한 Gemini 2.0 models 공개 (Flash, Flash-Lite, Pro Experimental)
    • Flash, Flash-Lite 모델은 1M context window, Pro Experimental 모델은 2M context window를 지님
    • 1.5 Flash 대비 cost & latency 증가하지 않으면서도 고품질 답변을 생성
  • 🧑🏻‍💻 [Anthropic] Constitutional Classifiers: Defending against universal jailbreaks
    • 논문 링크 🔗
    • 일반적인 jailbreaks를 수천 시간 시도했음에도 불구하고 robust 결과를 보여줬다고 설명
    • 그럼에도 불구하고 무지성 거절(refusal rates)의 비율은 단 0.38% 밖에 증가하지 않았음
    • 8개 레벨의 jailbreaking demo를 뚫는 사람에게는 $10,000를, 일반적인 jailbreaking strategy로 뚫는 사람에게는 $20,000를 수여하는 HackerOne 개최중
  • 🧑🏻‍💻 [HuggingFace] Open-source DeepResearch – Freeing our search agents
    • OpenAI에서 공개한 Deep Research를 구현하고 오픈소스로 공개한 포스팅
    • Deep Research가 GAIA 벤치마크에서 높은 성능을 달성한 것을 언급
    • CodeAgent 를 사용하여 복잡한 sequences of actions를 디자인할 수 있다고 설명
  • 🧑🏻‍💻 [OpenAI] Introducing ChatGPT search
    • 작년 10월 31일 공개했던 기능을 본격적으로 지원하고 있음
    • 크롬 확장프로그램을 통해 default 검색 엔진을 ChatGPT search로 설정할 수도 있음
  • 📜 [Stanford, Washington, AI2] s1: Simple test-time scaling
    • OpenAI의 o1과 같이 test-time scaling & strong reasoning performance를 위한 연구
    • s1K: 세 개의 기준(difficulty, diversity, quality)으로 검증한 reasoning taces를 포함한 데이터셋
    • budget forcing: 모델이 답변을 끝내려고 할 때, test-time compute를 강제로 중단하거나 늘리기 위해서 “Wait” 키워드를 여러 차례 붙이는 방법론
    • Qwen2.5-32B-Instruct 모델에 s1K 학습 한 s1-32B 모델에 budget forcing 장착하니 수학 능력 크게 향상
    • 모델, 데이터, 코드는 오픈소스로 깃허브에 공개 🔗
  • 🧑🏻‍💻 [Ai2] Ai2 Scholar QA beta
    • 연구할 때 literature review를 편하게 도와주는 솔루션
    • Section Planning and Generation, Paper Comparison Table Generation 등의 특징
    • 블로그 포스팅(Introducing Ai2 ScholarQA) 참고
  • 📜 [HuggingFace] SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
    • 1.7B 사이즈의 “small” language model 공개
    • multi-stage training process를 통해 math, code, instruction-following data를 web-text와 혼합하여 약 11T 토큰 학습
    • new specialized datasets 도입 (Fine-Math, Stack-Edu, SmolTalk): 기존 데이터셋이 너무 작거나 품질이 낮았던 이슈를 해결하기 위함
    • 비슷한 사이즈 수준의 모델들(Qwen2.5-1.5B, Llama3.2-1B) 중에서는 SoTA급 성능을 달성했다고 보고
  • 📜 [T-Tech] Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
    • 언어 모델의 연속적인 layer에 걸쳐 존재하는 features를 sparse autoencoder로 확인
    • data-free cosine similarity technique: 특정 features가 얼마나 persists, transform, first appear 하는지 등을 파악
    • 이를 통해 model computation에 대한 interpretability & mechanistic insights 획득 가능
  • 📜 [Shanghai AI Lab, Peking] UltraIF: Advancing Instruction Following from the Wild
    • UltraIF: real-world user prompts를 simpler queries, constraints, corresponding evaluation questions로 decompose
    • 이를 위해 UltraComposer를 constraint-associated prompts & evaluation questions 묶어서 학습
    • 8B 사이즈의 모델을 response generator & evaluator로 사용했을 때에도 유의미한 성능 향상이 있었다고 보고
  • 🧑🏻‍💻 [Mistral] The all new le Chat: Your AI assistant for life and work
    • iOS, Android, 기업 인프라에서 이용 가능한 챗봇 Le Chat을 공개
    • Flash Answers, a build-in code interpreter, real-time search 등을 주요 특징으로 내세움
    • Flash Answers의 경우 초당 1,000개 정도의 단어를 생성할 수 있다는 특징인데 데모상으로는 확실히 타사 서비스(ChatGPT, Claude)에 비해 압도적으로 빠름
2nd week
  • 📜 [Nanjing Univ.] Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
    • o1과 같은 추론 모델들은 아직 overthinking & over-reliance on auxiliary reward models 문제를 지니고 있음
    • 이를 해결하기 위해 LLM이 자율적으로 언제, 어디서 backtrack 할 것인지를 결정하도록 하면 된다고 주장 (like in traditional search algorithms)
    • 이를 위한 self-backtracking mechanism을 제시: 학습 & 추론 에서 backtrack 가능
    • 이는 optimal-path supervised fine-tuning method 대비 40% 정도의 성능 gain이 있다고 하는데 왜 그것과 비교하는지는 잘 모르겠음.
  • 📜 [SJTU] LIMO: Less is More for Reasoning
    • 복잡한 수학적 추론 능력은 (수십만 개 이상이 아니라) 극도로 적은 데이터로도 획득할 수 있다고 주장
    • 이는 supervised fine-tuning이 generalization 보다는 memorization으로 이어진다는 주장과도 상반되는 결과
    • 817개의 curated training samples로 학습한 LIMO를 기반으로 LIMO Hypothesis 주장
      • 사전학습 단계에서 domain knowledge가 충분히 encoded 되었다면, 정교한 추론 능력은 최소한의 cognitive process를 포함하는 데이터로도 획득할 수 있다
      • 이를 위해서는 (1) 모델이 pre-training 동안 획득한 knowledge (2) post-training examples의 effectiveness가 중요
  • 🧑🏻‍💻 [Harvard] Data.govArchive
    • 16TB 사이즈, 311,000개 데이터로 구성된 federal public dataset
  • 📜 [Apple] ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
    • movement design에 있어서 fuctional & expressive objectives 간의 interplay를 explore하는 prototype 공개
      • expressive: intention, attention, emotions
      • functional: task fulfillment, spatial constraints, time efficiency
    • posture, gesture, gaze 등의 비언어적 행동들이 internal state를 의식적으로 & 무의식적으로 표현하는 것이기 때문에 이를 (램프처럼 생긴) 로봇의 행동(movements) 결정에 반영하겠다는 연구
    • expression-driven movements가 function-drive movements보다 낫다는 연구 결과를 제시
  • 🧑🏻‍💻 [HuggingFace] π0 and π0-FAST: Vision-Language-Action Models for General Robot Control
    • HuggingFace의 LeRobot에 robotics foundation model을 공개
    • 이러한 유형의 모델을 Vision-Language-Action 모델이라고 부르는 듯 (VLA)
    • 설치부터 학습까지 상세한 코드 예시를 통해 설명하는 허깅페이스 블로그 포스팅
  • 📜 [ISTA] QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
    • Quantization 이후 학습을 추가로 진행하는 Quantization-Aware Training (QAT) 기법 중 하나
    • QeEST: 학습 모델의 weights & activations를 4-bit 혹은 그 이하로 학습하며 FP16과 유사한 수준의 성능 기록. 심지어 1-bit에서도 안정적으로 학습 가능하다고 설명.
    • 이는 (1) normalization 과정에서 weights & activations의 continuous distribution을 유지하여 quantization (2) 새로운 trust gradient estimator를 제시 했기에 가능했다고 함
  • 📜 [Ben Gurion Univ.] Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
    • Chameleon Benchmark Overfit Detector (C-BOD): LLM이 특정 벤치마크에 overfit 되었는지를 판단하기 위해 prompts를 systematically distort하는 framework
    • 학습 파이프라인에 integrate하여 robust language model을 만드는 데 기여 가능
    • 모델 성능이 memorized pattern에 의해 좋게 나온 것인지 아닌지를 판단하는 것이 중점
    • 예상 외로 성능이 높은 모델들이 perturbation에 의한 성능 degradation이 심했다고 보고
  • 📜 [AIRI] SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
    • multilingual parallel detoxification data를 생성하는 파이프라인 공개
    • SytnDetoxM: manually & synthetically 생성된 multilingual parallel detoxification dataset, 16K 개의 데이터로 구성
  • 📜 [Shanghai AI Lab] Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
    • Test-Time Scaling (TTS)에 있어서 compute-optimal strategy는 policy model, PRM (Process Reward Model)에 크게 dependent 하다고 설명
    • compute-optimal TTS를 이용하면 극도로 작은 reward model (< 1B)로도 엄청나게 사이즈가 큰 (> 405B or GPT-4o) 모델의 성능을 넘어서는 것이 가능하다고 주장
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [OpenAI] Sam Altman reveals GPT-5 will merge o-series models, removing manual model selection
    • GPT-4.5 (orion) 모델은 GPT-5 출시 전 마지막 non-chain-of-thought 모델이 될 것 / few weeks or months 후 출시 예정
    • reasoning 모델은 별도로 출시되지 않고 GPT-5에 통합
  • 🧑🏻‍💻 [Anthropic] The Anthropic Economic Index
    • Claude 데이터를 사용하여 AI가 일자리와 경제에 미친 영향을 분석
    • automation의 43%가 AI를 활용한 결과임을 보고
    • paper link 🔗
  • 📜 [Oxford] Distillation Scaling Laws
    • compute budget & allocation between student and teacher 를 기반으로 distilled model performance를 측정하여 distillation scaling law를 제시
    • (1) teacher가 존재할 때 (2) teacher 학습이 필요할 때로 구분하여 연구 결과 제시
    • 결국 distillation 과정에서 student 모델 뿐만 아니라 teacher 모델의 cross entropy loss를 함께 살피며 적절히 scaling 하는 것이 중요하다는 점을 언급하는 것으로 보임
  • 📜 [Imperial College London, Cohere] LLMs can implicitly learn from mistakes in-context
    • mathematical reasoning에서 발생한 mistakes에 대한 explanation이 주어지지 않더라도 성능 향상에 도움이 될지 연구
    • 실험 결과에 따르면 incorrect answer를 correct answer와 함께 보여주는 것만으로도 성능 향상이 있었다고 함. CoT의 성능도 boosting 가능.
    • LLM이 in-context implicit learning 할 수 있다는 결론
  • 📜 [Amazon, UCLA] Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs (ICLR 2025)
    • PrefEval: long-context conversational setting에서 LLM이 user의 preference에 대한 일관된 추론이 가능한지 평가하는 벤치마크
    • 3,000개의 엄선된 preference & query pair, 20개 주제 커버
    • 최대 100k 토큰 context에 해당하는 multi-session conversation으로 평가
    • 깃허브 링크 🔗
  • 📜 [Meta, KAIST, UC San Diego] LLM Pretraining with Continuous Concepts
    • Continuous Concept Mixing (CoCoMix): discrete next token prediction을 continuous concept와 결합하는 pretraining framework
    • CoCoMix는 사전학습된 sparse autoencoder로부터 “continuous concepts”를 학습하여 예측하고, 모델의 hidden state와 token의 hidden state을 interleave
    • 단순 next token prediction에 비해 sample efficient 하면서도 consistently 성능이 높았다고 설명
  • 📜 [University of Hong Kong, ByteDance] Goku: Flow Based Video Generative Foundation Models
    • 데모 페이지 링크 🔗
    • rectified flow Transformer를 이용하여 만든 joint image-and-video generation 중에서 SoTA model failmily
    • data curation pipeline, model architecture design, flow formulation, advanced infrastructure for efficient and robust large-scale training 공개
    • 주요 tasks의 정량 & 정성 평가 가장 높은 결과를 받았다고 설명
  • 📜 [SNU, Cornell] Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
    • Text-to-image (T2I) 분야에서 large scale text encoder는 denoising module에 비해 성능이 뛰어나지만 통상 8배나 많은 메모리를 사용한다는 문제점 존재
    • Skrr (Skip and Re-use layers): T2I diffusion 모델에서 text encoder를 효율적으로 pruning 하는 strategy
    • transformer block을 selectively skipping하거나 일부 layer를 reusing함
3rd week
  • 📜 [Convergence Labs] LM2: Large Memory Models
    • 기존 Transformer 아키테쳐의 한계를 극복하기 위해 auxiliary memory module을 붙여 contextual representation repository로 사용
    • input token과 cross attention 하며 gating mechanism을 통해 update
    • 일반적인 벤치마크에서도 좋은 성능을 유지하고 multi-hop 에서도 뛰어난 발전이 있었다고 보고
    • interpretability, test-time behavior 등에서도 장점이 있음
  • 📜 [ELLIS Institute Tübingen] Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
    • recurrent block을 iterate 함으로써 test-time에서 depth를 arbitrarily 정함
    • CoT에 의존하지 않아 specialized training data가 필요하지 않고, 심지어 small context window에서도 working
  • 📜 [Meta AI] Brain-to-Text Decoding: A Non-invasive Approach via Typing
    • Brain2Text: electro | magneto encephalography (EEG | EMG)로부터 sentences를 decode하는 deep learning 아키텍쳐. QWERTY 키보드로 type된다고 함
    • 기존 방식들은 invasive device를 활용하는데 이와 다른 non-invasive 방식이며 둘 사이의 gap을 줄인 데 의의가 있다고 설명
    • character-error-rate (CER)은 32%로 67%의 error rate를 보이는 EEG 대비 큰 성능 향상이 있었다고 보고
  • 📜 [University of California, Berkeley] LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
    • LLM이 Long CoT reasoning을 data-efficient SFT와 LoRA를 통해 학습할 수 있다고 주장
    • Qwen2.5-32B 모델을 17k CoT Training sample로 학습한 결과를 리포트
    • reasoning step의 각 내용보다는 Long CoT의 structure가 학습 과정에 훨씬 더 큰 영향을 미친다고 주장 (logical consistency가 중요!)
    • 저자가 이전에 공개한 Sky-T1-32B-Preview model의 academic paper
  • 📜 [NYU, Tubingen] Do Large Language Models Reason Causally Like Us? Even Better?
    • LLM의 답변은 understanding | statistical pattern 중 어떤 것으로부터 나오는 걸까
    • 본 논문에서는 from human-like to normative inference 라고 scale을 표현함
    • 실험한 4개의 모델 중에서 GPT-4o, Claude는 가장 normative behavior를 강하게 보였고 나머지인 Gemini-Pro와 GPT-3.5는 그렇지 않았다고 설명
    • 사람이 내놓는 답변도 실제로 이해한 내용을 바탕으로 나오는 것인지 판단하는 기준이 있긴 한가?
  • 🧑🏻‍💻 [Perplexity] Introducing Perplexity Deep Research
    • 수십 개 검색, 수백 개 source를 읽고 자율적으로 report를 생성하는 기능 공개
    • finance, marketing부터 product research까지 다양한 범위의 태스크를 expert 수준으로 처리
    • 최종 report를 PDF 또는 문서 형태로 export하거나 Perplexity Page로 변환하여 공유할 수 있음
  • 📜 [Renmin Univ. of China] Large Language Diffusion Models
    • LLaDA: scratch부터 pretraining & SFT를 적용한 diffusion model
    • self-constructed Autoregressive Models 성능과 scalability가 뛰어나다고 주장
    • forward data masking process & reverse process를 통해 Transformer가 masked token 예측하는 것처럼 분포를 모델링
  • 📜 [Virginia Tech, Oxford] Towards Reasoning Ability of Small Language Models
    • 6개의 model families에 속하는 72개의 SLM을 14개 reasoning benchmarks에 대해 실험한 결과를 정리한 survey
    • 4개의 평가 method와 4개의 LLM을 judge로 사용하며 실험은 3번씩 반복
    • adversarial conditions와 intermediate reasoning steps 또한 평가
  • 🧑🏻‍💻 [xAI] Grok 3 Beta — The Age of Reasoning Agents
    • 지구상 현존하는 모델들 중 가장 똑똑하다는 문구로 소개된 xAI의 LLM
    • logical processing을 위한 Think Mode, complex problem-solving을 위한 Big Brain Mode
    • faster query processing을 위해 H100 20만대 사용 (전작 대비 10x 이상)
    • Grok 3는 X Premium Plus 구독자들 사용 가능
  • 📜 [DeepSeek, Peking, Washington] Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
    • NSA: dynamic hierarchical sparse strategy를 사용하여 coarse-grained token compression을 fine-grained token selection과 결합
    • 현재 GPU에 최적화가 잘되어 있음 & end-to-end training
  • 🧑🏻‍💻 [Microsoft] OmniParser V2: Turning Any LLM into a Computer Use Agent
    • OmniParser: UI 스크린샷 내의 pixel spaces부터 structured elements까지 tokenizing
    • a large set of interactive element detection data & icon functional caption data 로 학습
    • ScreenSpot Pro 라는 벤치마크에서 높은 성능을 기록했다고 보고
    • OmniTool: agents를 위한 tool를 포함하는 dockerized Windows system
  • 📜 [Michigan, Amazon, Pennsylvania] Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models
    • Long CoT에서 불필요한 step의 존재로 인한 연산량 증가 및 지연에 대한 문제 제기
    • 이를 해결하기 위해 perplexity를 importance 지표로 삼는 method 제안
      • 특정 step을 제거했을 때 perplexity가 증가한다면 모델의 입장에서 중요도가 높은 것
    • few-shot CoT 내의 sample 중 불필요한 것들을 제거 or 살아남은(critical) steps만으로 fine-tuning 하는 방법으로 활용 가능
  • 📜 [AIRI] Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity
    • 현존하는 vector compression 성능은 최대 10x 수준으로 알려졌으나 실제로는 16-bit precision이 아니면 성능이 많이 떨어짐 (이론과 현실의 gap 지적)
    • 본 연구에서는 1500x 이상의 compression rate를 달성했다고 주장
    • compression에서 중요한 것은 input의 길이가 아닌 줄어들 uncertainty의 양이라고 설명
  • 🧑🏻‍💻 [Google Research] Accelerating scientific breakthroughs with an AI co-scientist
    • 연구자들을 돕기 위해 Gemini 2.0 기반으로 구축한 multi-agent AI system
    • Supervisor agent가 6개의 specialized agents에 tasks 할당
      • Generation, Reflection, Ranking, Evolution, Proximity, Meta-review
    • paper link 🔗
  • 🧑🏻‍💻 [Sakana AI] The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
    • CUDA kernel discovery & optimization을 온전히 자동화하는 agentic framework 제시
    • PyTorch code를 CUDA kernel용으로 변환 → evolutionary meta-generation을 거쳐 runtime performance optimize
    • 250개의 테스트에서 186개의 태스크의 처리 속도를 평균(median) 1.52x 향상시켰다고 보고
    • paper link 🔗
  • 📜 [Meta] MLGym: A New Framework and Benchmark for Advancing AI Research Agents
    • MLGym, MYGym-Bench: AI research tasks에 대한 LLM agents 프레임워크 및 벤치마크
    • 벤치마크는 CV, NLP, RL, Game Theory에 관한 13개의 tasks로 구성
    • 프레임워크는 여기에 새로운 태스크를 추가 및 통합하는 것을 도와줌
  • 📜 [The Univ. of Melbourne] Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models
    • 현존하는 벤치마크 평가로는 LLM의 ‘cognitive tasks’ 수행을 위한 능력을 판단할 수 없다고 주장
    • adversarial stimuli & interpretability techniques 로 평가 시 여러 언어와 reasoning tasks에서 not robust한 결과를 보였다고 설명
4th week
  • 🧑🏻‍💻 [StepFun, Tsinghua] Open-Reasoner-Zero
    • scalability, simplicity, accessibility에 집중한 open source reasoning-oriented RL training implementation
    • minimalist approach: vanilla PPO with GAE & rule-based reward function / w/o KL regularization
    • 1/30 training steps만으로도 DeepSeek-R1-Zero-Qwen-32B를 GPQA Diamond Bench에서 우세
    • paper link 🔗
  • 🗞️ [1X] Introducing NEO Gamma
    • NEO Beta 다음 세대의 휴머노이드 공개
    • “companion” 포지션으로 가정 환경에서 자연스러운 움직임을 보여줌 (링크 데모 참고)
  • 📜 [Alibaba] Qwen2.5-VL Technical Report
    • enhanced visual recognition, precise object localization, robust structured data extractions, document parsing, long-video compression
    • objects를 식별할 때 bounding box를 치거나 point를 정확하게 파악하는 점이 특징
    • dynamic resolution processing & absolute time encoding 도입 → 다양한 사이즈의 이미지, long-video 처리 가능
    • task-specific fine-tuning 없이도 다양한 domain에 robust performance를 보인다고 주장
  • 📜 [Arizona, UCLA, Notre Dame, UIUC] Preference Leakage: A Contamination Problem in LLM-as-a-judge
    • data generator LLM과 judge LLM 사이의 세 관계에 대해 연구
    • (1) being the same model (2) having an inheritance relationship (3) belonging to the same model family
    • 여러 LLM baselines와 benchmarks를 통해 관계에 따른 judge bias가 존재한다는 것을 empirically 확인 (preference leakage)
    • 그렇다면 데이터를 생성할 땐 다양한 LLM을 활용해야 하는 것 아닐까?
  • 🧑🏻‍💻 [Anthropic] Claude 3.7 Sonnet and Claude Code
    • Claude 3.7 Sonnet: Instant responses를 step-by-step thinking과 결합한 답변 반환 가능
      • thinking mode의 context length 128K 까지 확장
      • API를 통해 thinking time도 조절 가능
    • Claude Code: CLI AI coding assistant
      • repository search, edit files, commits to Github 기능 지원
  • 🧑🏻‍💻 [AI2] Efficient PDF Text Extraction with Vision Language Models
    • PDFs와 document images를 깔끔하고 구조화된 텍스트로 변환하는 툴킷
    • 다양한 종류의 PDF에 대해 250,000장 fine-tune
    • 1M PDF pages당 $190 → GPT-4o API batch 대비 32배 저렴하다고 소개
    • markdown 형태로 output 반환
  • 🧑🏻‍💻 [Alibaba] Wan 2.1: Leading AI Video Generation Model (Wanx 2.1)
    • text, image 입력으로 받아 고품질 images & videos 생성 가능한 open-source model family
    • T2V-1.3B, 14B 두 개 version으로 공개
    • 허깅페이스를 비롯한 다양한 플랫폼에서 이용 가능
  • 🧑🏻‍💻 [Google] Get coding help from Gemini Code Assist — now for free
    • VS Code, JetBrains IDE, GitHub 에서 지원
    • Gemini 2.0으로 지원하며 월 180,000개의 code completions 지원 (GitHub Copilot free tier 대비 20배 많은 양)
    • 128K context window를 바탕으로 complex code base에 대한 이해 가능
    • 코드 내 stylistic issues and bugs 등을 automatically 탐지 가능
  • 📜 [Kakao] Kanana: Compute-efficient Bilingual Language Models
    • Korean & English 처리할 수 있는 bilingual language model series
    • high quality data filtering, staged pre-training, depth up-scaling, pruning, distillation
    • 특히 Kanana models를 post-training 하는 과정에서 사용된 방법론들을 보고
    • 2.1B ~ 32.5B 사이즈의 모델들로 구성되어 있고, 2.1B 모델은 공개
  • 🧑🏻‍💻 [Amazon] Introducing Alexa+, the next generation of Alexa
    • 수만 개의 서비스와 장치들을 아우르는 시스템으로 supervision 없이 복잡한 multi-step tasks 수행
    • Amazon’s Nova & Anthropic’s Claude를 비롯한 여러 개의 foundational LLMs를 각 태스크에 가장 적합하게 활용
    • 도메인별 experts를 활용하는 개념. 개인 맞춤화된 특징들을 지원 (유저 히스토리 기반)
  • 📜 [Meta, UIUC, CMU] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
    • RL-based LLM의 reasoning을 real-world software engineering으로 확장하기 위한 approach
      • DeepSeek-R1 같은 모델들은 코딩 테스트를 위한 문제들처럼 실행하기 쉽고 real-world와는 동떨어진 코드들로 학습되었다는 한계를 지적
    • open-source software evolution data로부터 실제 개발자들의 reasoning processes & solutions를 autonomously 학습
      • GitHub Pull Requests Dataset Curation (4.6M repositories)
      • lightweight rule-based reward를 leverage
    • Llama3-SWE-RL-70B 모델이 SWE-bench Verified에서 41.0% 성능을 달성
      • 이는 100B 이하의 오픈소스 모델 중에서 유일하게 GPT-4o에 견줄 수 있는 성능
  • 📜 [Zoom] Chain of Draft: Thinking Faster by Writing Less
    • LLM과 달리 실제 사람은 본질적인 정보만을 다루는 간결한 intermediate thoughts를 draft 하여 보다 효율적인 reasoning 방식을 취하고 있음
    • Chain of Draft (CoD): 인간의 cognitive processes와 같이 tasks를 처리할 때 필수적이고 유용한 정보들만 남기는 방식
    • 기존 대비 7.6% 수준의 토큰만 사용해서도 성능을 유지할 수 있음 → 추론 비용을 아끼고 latency 낮출 수 있음

🙇🏻 January

1st week
  • 📜 [NVIDIA, HuggingFace] Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
    • ModernBERT: encoder-only 모델에서 Pareto improvement
    • 8192 sequence 길이로 2T 토큰을 학습
    • 분류, single-/multi- vector retrieval 태스크에서 SoTA 달성
  • 📜 [Google] LearnLM: Improving Gemini for Learning
    • 현존 LLM들은 정보 제공에 초점이 맞춰져 있고 교육 상황에 적합하지는 않음
    • 특정 pedagogical attribute를 평가하기 위한 프레임워크
    • pedagogical instruction following을 포함하여 학습한 LearnLM 이 다양한 learning scenario에서 좋은 평가를 받았음
  • 📜 [Nanjing Univ., Baidu] Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization
    • CV는 아직 NLP만큼의 zero-shot generalization 성능을 달성하지 못함
    • discrete & terminological task definitions 대신 Explanatory Instructions를 사용
    • ‘image input → explanatory instruction → output’ 12M 개의 triplet으로 구성된 데이터셋 구축
    • Auto-regressive-based vision-language model 학습 (AR-based VLM)
  • 📜 [Microsoft] Bootstrap Your Own Context Length
    • long-context LM을 학습하는 방식으로 short-context 능력만을 이용하는 bootstrapping approach를 제안
    • diverse long-context instruction tuning data를 합성하는 simple agent flow
    • 즉, short-context의 언어 모델들만을 이용하여 long-context 언어 모델을 만들 수 있다는 주장
    • Llama-3 계열 모델을 기준으로 최대 1M token 까지 확장했다고 언급
  • 📜 [GIT, Washington, CMU, AI2] Multi-Attribute Constraint Satisfaction via Language Model Rewriting
    • Multi-Attribute Constraint Satisfaction (MACS): 다양한 external real-value attributes에 대해 user-specified constraints를 만족할 수 있는 general한 언어 모델 학습 방법
    • 초기 paraphrased outputs으로부터 다양한 multi-attribute를 sampling 함으로써 LM을 editor로 학습
    • 이를 제대로 평가하기 위해 Fine-grained Constraint Satisfaction (FineCS) 벤치마크를 제작
      • Text Style Transfer, Protein Design, 두 개의 challenging tasks로 구성
  • 📜 [Xiaoduo AI Lab] Xmodel-2 Technical Report
    • reasoning task에 특화된 1.2B 사이즈의 sLLM
    • 이것의 아키텍쳐는 다른 모델들이 통합된 하이퍼파라미터셋을 그대로 활용할 수 있도록 함으로써 최적의 세팅으로 larger model에 scale 할 수 있음
    • MiniCPM의 WSD learning rate scheduler 사용
    • 깃허브 링크 🔗
  • 📜 [Tencent] HunyuanProver: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving
    • LEAN4와 interactive automatic theorem proving을 통해 Hunyuan 7B를 fine-tuning한 언어 모델 HunyuanProver
    • data sparsity issue 해결을 위해 iterative 데이터 합성 프레임워크를 디자인
    • system 2 thinking을 위한 guided tree search algorithm 디자인
    • 30k 개의 합성 데이터를 공개: 자연어로 된 원래 질문, autoformalization으로 변형된 것, HunyuanProver로부터의 proof로 구성
  • 📜 [Meta] MLLM-as-a-Judge for Image Safety without Human Labeling
    • AI-generated content (AIGC) 중에 harmful content가 포함되어 있는지를 확인하는 것이 중요한데 여기에 MLLM을 활용
      • 기존 문제점: human label, guideline 제작 등은 너무 비쌈. 룰 업데이트가 주기적으로 필요함
    • MLLM이 zero-shot으로 주어진 ruel과 이미지 간의 관련성을 평가하고 빠르게 판단할 수 있도록 하는 방법론을 제안
  • 📜 [Toronto] Toward Adaptive Reasoning in Large Language Models with Thought Rollback (ICML 2024)
    • Thought Rollback (TR) 라는 reasoning framework를 제시하여 LLM이 adaptive 하게 thought structure를 bulid 하여 hallucination을 완화
    • TR의 core mechanism은 rolling back thoughts로 LLM이 thoughts에 대해 error analysis를 수행하여 이전에 mistaken 된 thought를 roll back 하도록 함
    • prompt 내에 이러한 trail-and-error를 포함하여 더욱 reliable한 reasoning path를 구축
    • 깃허브 링크 🔗
  • 📜 [Taiwan, Intel] Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
    • additional safety data에 의존하지 않으면서도 downstream task performance를 개선할 수 있는 방법이 뭘까?
    • ⇒ merging pre- & post-fined-tuned safety-aligned model
    • Step 1. Downstream Task Fine-Tuning → Step 2. Combining Base and Fine-tuned Model
2nd week
  • 📜 [Shenzhen] ICPC: In-context Prompt Compression with Faster Inference
    • ICPC: prompt의 길이를 adaptive 하게 줄이는 prompt compression 방법론 제시
    • encoder를 사용하여 프롬프트 내 각 단어의 확률을 계산하고 information function을 이용하여 information 계산하여 information loss를 최소화
  • 📜 [AI2, Washington, NYU] 2 OLMo 2 Furious
    • OLMo 2는 개선된 아키텍쳐, 학습 레시피, 사전학습 데이터, dense autoregressive model을 포함
    • Dolmino Mix 1124, late-stage curriculum training에 사용되는 pretraining data mixture
    • Tulu 3에서 얻은 최선의 practice를 OLMo 2-Instruct 개발에 활용, final-stage reinforcement learning with verifiable reward (RLVR)에 focus
  • 📜 [Berkeley, CMU] AutoPresent: Designing Structured Visuals from Scratch
    • SlidesBench: 모델이 자연어 instructions를 바탕으로 slide를 자동 생성하는 태스크 벤치마크
      • 10개 도메인에 대한 310개 슬라이드 deck에 대한 585개의 testing sample로 구성
      • (1) reference-based 방식: target slide와의 유사도 평가
      • (2) reference-free: 생성된 슬라이드 자체의 디자인 퀄리티 평가
    • AutoPresent: 8B Llama-based model, 7k개의 instruction & 슬라이드 생성 코드 pair로 학습
    • 모델이 스스로의 결과물을 self-refined 하는 iteraitve design refinement가 유의미한 결과 향상으로 이어진다고 보고
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [HuggingFace] SmolAgents
    • code 몇 줄로 power agents를 실행할 수 있도록 돕는 허깅페이스의 오픈소스 라이브러리
    • transformers에서 사용 가능한, Hub에 업로드된 모든 모델을 사용할 수 있음. OpenAI, Anthropic, Meta 모델들도 사용 가능
  • 📜 [Chinese Academy of Sciences] Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
    • Auto-RT: 복잡한 attack 전략들을 자동적으로 explore & optimize 하는 강화학습 프레임워크
    • exploration complexity를 줄이고 최적화 전략을 개선하기 위한 두 가지 key points
      • (1) Early-terminated Exploration
      • (2)Progressive Reward Tracking algorithm
    • 깃허브 링크 🔗
  • 📜 [Orange] Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends
    • Visually-rich Document Understanding (VrDU)는 comprehension과 generation 능력을 둘 다 필요로 함
    • 본 논문에서는 LLMs function에 의한 VrDU 모델들의 개선 방법론 및 한계점 등을 survey
  • 🧑🏻‍💻 [Google] Agents
    • AI agents가 어떻게 reasoning, tools, external data를 결합하는지에 대해 설명한 whitepaper
    • 세 개의 핵심 구성 요소를 정의: Decision Engine, Tool Integration, Orchestration Layer
    • Tools는 각 functionality에 따라 Extension, Function, Data Stores로 구분
  • 🧑🏻‍💻 [NVIDIA] NVIDIA Announces Nemotron Model Families to Advance Agentic AI
    • AI agents를 4배 빠른 속도로 최적화 할 수 있는 open source LLMs 공개
    • NVIDIA NeMo Retriever 등을 포함하여 NVIDIA NeMo 플랫폼을 구축하고자 하는 움직임
  • 📜 [IBM] MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems
    • MTRAG: end-to-end human-generated multi-turn RAG benchmark
    • 4개 도메인에서 평균 7.7 턴의 110개 대화로 구성되며, 총 842개의 태스크를 다룸
    • 합성 데이터를 이용한 LLM-as-a-Judge 자동화 파이프라인도 포함하고 있음
    • 깃허브 링크 🔗
  • 📜 [Korea Univ.] SUGAR: Leveraging Contextual Confidence for Smarter Retrieval (ICASSP 2025)
    • Semantic Uncertainty Guided Adaptive Retrieval (SUGAR): context-based entropy로 single-/multi- step retrieval을 결정
    • external knowledge가 relevant 한 것인지 LLM이 알 수 없어 발생하는 hallucination을 최소화
  • 🧑🏻‍💻 [NVIDIA] Cosmos
    • 자율 주행 및 robotics를 위한 합성 데이터를 생성할 수 있는 오픈소스 비디오 모델
    • 20M 시간 & 9,000T 토큰으로 학습된 Diffusion-based models
    • Autoregressive, text-to-video, video-to-video, combined inputs 지원 등의 특징
  • 🧑🏻‍💻 [LangChain] Structured Report Generation Blueprint with NVIDIA AI
    • NVIDIA와 협력하여 AI agents 중 Structured Report Generation 개발
    • optimized Llama 3.3 and LangGraph integration
  • 📜 [NYU] Entropy-Guided Attention for Private LLMs
    • Shannon’s entropy를 지표로 사용한 결과, MHA 관점에서 초기 레이어에는 entropic overload, 후기 레이어에는 under-utilization을 관측
    • entropy regularization 테크닉을 곁들ㅇ니 entropy-guided attention 메커니즘으로 entropci overload를 완화
  • 📜 [Renmin, Tsinghua] Search-o1: Agentic Search-Enhanced Large Reasoning Models
    • OpenaAI-o1과 같은 Large reasoning models (LRMs) 들은 knowledge insufficiency 문제를 항상 겪고 있음
    • Search-o1: LRMs에 agentic RAG mechanism과 Reason-in-Documents module을 더한 프레임워크
    • 깃허브 링크 🔗
  • 📜 [Microsoft] GeAR: Generation Augmented Retrieval
    • GeAR: well-desgined fusion & decoding module 을 결합하여 query와 document의 fused representation을 토대로 관련된 텍스트를 생성
    • bi-encoder에 추가적인 연산 burden을 더하지 않는 방식임
    • LLM을 이용한 효과적인 합성 데이터 파이프라인을 구축
3rd week
  • 📜 [Nanyang, Fudan] Long Context vs. RAG for LLMs: An Evaluation and Revisits
    • Long Context (LC) vs. RAG 비교 페이퍼
    • (1) QA benchmarks에서는 LC가 일반적으로 RAG 보다 우위
    • (2) summarization-based RAG는 LC보다 낫지만 chunk-based retrieval는 조금 아쉽
    • (3) dialogue-based & generatl question queries에 대해서는 RAG가 우위
  • 📜 [SynthLab, Stanford, UC Berkeley] Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought
    • Meta Chain-of-Thought (Meta-CoT): traditional CoT를 explicitly modeling 함으로써 특정 CoT에 이르게 만들 수 있도록 하는 프레임워크
    • process supervision, synthetic data generation, search algorithms 등 Meta-CoT 생성에 대한 방법론 탐구
    • linearized search traces & reinforcement learning post-training 을 instruction tuning과 통합
  • 📜 [OneLineAI, Yonsei] Multi-Step Reasoning in Korean and the Emergent Mirage
    • HRMCR (HAE-RAE Multi-Step Commonsense Reasoning): 한국의 문화와 언어적 특성을 반영한 multi-step reasoning benchmark
    • 질문들은 템플릿과 알고리즘을 통해 자동적으로 생성되었음
    • 일정 threshold 이상의 학습을 수행한 모델로부터 emergent behavior 관측됨
  • 🧑🏻‍💻 [Mistral] Codestral 25.01
    • 더 효율적인 아키텍쳐와 개선된 토크나이저를 특징으로 삼음
    • 덕분에 2배 이상 빠른 속도로 코드 생성 가능
    • 256k context length를 지원하며 다양한 프로그래밍 언어 벤치마크에서 SoTA 달성
    • VS Code 또는 JetBrains 에서 Chat Demo 버전 사용 가능
  • 🧑🏻‍💻 [UCBerkeley NovaSky] Sky-T1: Train your own O1 preview model within $450
    • 17K 개에 달하는 수학, 코딩, 과학 데이터 / data curation, 학습, 평가를 위한 코드 / 모델 가중치 등을 오픈소스로 공개
    • QwQ-23B-Preview를 이용하여 초기 데이터를 생성한 뒤 reject sampling 적용
    • Qwen2.5-32B-Instruct 모델을 curated dataset으로 fine-tune
  • 📜 [Microsoft] rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
    • SLMs도 distillation 없이 OpenAI o1에 달하거나 혹은 그 이상 수준의 수학 추론 능력을 보유할 수 있다고 주장
    • MCTS를 통한 deep thinking을 활용하여 이와 같은 성과를 달성할 수 있었다고 보고
    • (1) code-augmented CoT data synthesis method (2) naive step-level score annotation을 지양하는 reward model training method (3) self-evolution recipe
  • 🧑🏻‍💻 [AMD, John Hopkins] Agent Laboratory: Using LLM Agents as Research Assistants
    • 사람이 만들어낸 연구 아이디어를 입력으로 받아 연구 결과와 코드 레포를 반환
    • MacBook이든 GPU cluster든 주어진 computational resources에 맞게끔 동작하는 structured framework
    • 세 단계로 구성: (1) Literature Review (2) Experimentation (3) Report Writing
  • 📜 [Google Research] Titans: Learning to Memorize at Test Time
    • attention이 긴 context를 커버하지 못한다는 단점을 극복하기 위해 새로운 long-term memory module을 제안
    • historical context를 기억하는 방법을 배워서 오래된 과거 정보를 활용하여 현재 context에 attention 하는 방법론
    • 결국 attention과 neural memory라는 두 개의 module을 기반으로 삼는 새로운 아키텍쳐 model family, Titan
    • 2M context size 이상에서도 needle-in-haystack tasks를 정확하게 수행할 수 있다고 보고
  • 📜 [Minimax] MiniMax-01: Scaling Foundation Models with Lightning Attention
    • MiniMax-Text-01, MiniMax-VL-01로 구성된 MiniMax-01 시리즈를 공개
    • 핵심은 lightning attention & efficient scaling
    • MoE 방식과 결합했는데, 이때 32개의 experts, 456B total parameters, 45.9B activated parameters 로 구성
    • 학습 중 context window는 1M 길이에 달하고, 추론 시에는 4M 까지 extrapolate 가능하다고 주장
    • GPT-4o, Claude-3.5-Sonnet에 준하는 성능을 달성하면서도 20-32배나 긴 context window를 커버할 수 있다고 함
  • 📜 [Sakana] Transformer^2: Self-adaptive LLMs
    • LLM이 weight matrice 내의 singular components를 실시간으로 selectively adjusting 함으로써 unseen tasks에 adapt 하도록 돕는 self-adapation framework
    • two-pass mechanism: (1) dispatch system (2) task-specific expert vectors
    • LoRA 대비 사용하는 파라미터의 숫자는 적으나 효율성이 뛰어남
  • 🧑🏻‍💻 [OpenAI] Scheduled tasks in ChatGPT
    • 한 번에 10개까지의 active tasks 스케줄 가능
    • one-time reminder 또는 recurring actions 설정 가능
    • 웹 인터페이스를 통한 태스크 관리
    • 데스크탑, 모바일, 웹에서 알림 수신 가능
  • 📜 [Chinese Academy of Sciences] Aligning Instruction Tuning with Pre-training
    • instruction tuning을 위한 데이터셋은 pre-training에 사용된 것과 분포도 맞지 않고 다양성이 부족하다는 문제가 존재
    • AITP (Aligning Instruction Tuning with Pre-training): underrepresented pre-training data를 고품질의 instruction-response pair 데이터로 변환
      • task-specific objective 유지 & 데이터셋의 다양성 증대
      • adaptive data selection, controlled rewriting, balanced integration 등
  • 📜 [Together AI, MIT, Princeton] Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping
    • Ladder Residual: residual-based model에 적용 가능한 간단한 architectural modification. communication latency를 효율적으로 hide 하는 방법
    • 모델을 여러 GPU에 나누는 Tensor Parallelism에서 발생하는 통신 간의 병목을 최소화하기 위한 방법론 제시
  • 📜 [Meta] Training Large Language Models to Reason in a Continuous Latent Space
    • LLM reasoning 에서는 일반적으로 textual coherence가 중요한 language space에서와 달리 reasoning에 최적화된 토큰이 필요
    • CoConuT (Chain of Continuous Thought): LLM의 last hidden state를 reasoning state의 representation으로 해석하여 continuous thought로 명명
    • official code link (Github) 🔗
  • 📜 [Northeastern Univ.] Foundations of Large Language Models
    • 200 페이지 분량의 LLM 책이 arxiv에 공개되어 화제
  • 📜 [Google DeepMind] Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
    • LLM과 달리 diffusion 모델은 denoising step 수를 통해 inference-time computation을 조절할 수 있음 (수십 step 이상이면 성능이 증가하지는 않음)
    • 이것 이상의 inference-time scaling hegavior에 대해 연구. diffusion sampling process에서 더 나은 noise를 찾는 search problem에 집중.
    • class-/text- conditioned 이미지 생성 벤치마크에서 상당한 개선을 이뤄냈다고 보고
4th week
  • 📜 [Zhejiang Univ.] OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
    • vanilla-retrieved information은 depth, utility가 부족하거나 redundancy 문제 존재
    • 이를 해결하기 위해 OmniThink라는 machine writing framework 프레임워크를 제안: 인간과 같은 iterative expansion & reflection 프로세스를 모방
    • 특정 주제에 대한 지식을 점진적으로 deepen 하는 cognitive behavior가 아이디어의 핵심
  • 🧑🏻‍💻 [DeepSeek] DeepSeek-R1
    • OpenAI-o1의 수학, 추론, 코드 태스크 수행 능력에 준하는 오픈소스 모델
    • Self-verification, Reflection, CoT solutions 등의 특징
    • DeepSeek-R1, DeepSeek-R1-Zero, Llama & Qwen 아키텍쳐 기반의 6개 distilled 모델 공개
  • 🧑🏻‍💻 [OpenAI] OpenAI’s function calling guide
    • OpenAI Platform에 Function calling 관련 문서가 추가됨
    • 좋은 예시들이 포함되어 있어 function calling 공부하는 데 활용할 수 있을 것 같음
  • 📜 [Microsoft Research] RedStone: Curating General, Code, Math, and QA Data for Large Language Models
    • RedStone: Common Crawl 의 데이터를 처리하는 scalable pipeline
    • 기존의 domain-specific expertise가 요구되었던 방식들과 달리 Common Crawl 에 포함된 다양한 도메인의 데이터를 tailor
    • 작업물 링크 🔗
  • 📜 [Korea Univ., Upstage] ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains (ICLR 2025)
    • ChroKnowBench: chronologically 축적된 지식을 평가하기 위한 벤치마크 데이터셋
      • 세 가지 핵심 요소: multiple domains, time dependency, temporal state
    • ChroKnowledge (Chronological Categoriazation of Knowledge): LLM의 non-parametric chronological knowledge를 평가하기 위한 sample-based framework
      • temporal knowledge를 이끌어내는 능력은 모델이 학습된 데이터 형식에 따라 다르다
      • LLM은 지식을 부분적으로 recall 하거나 temporal boundaries에서 단절되는 듯하다
  • 📜 [ChungAng Univ.] Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval (NAACL 2025)
    • Probing-RAG: 언어 모델의 중간 layer의 hidden state representation을 사용하여 주어진 query의 additional retrieval 필요성을 adaptive하게 결정하는 방법론
      • real-world 에서는 최적의 document를 찾기 위해 주로 multi-step을 거쳐야 하는 문제를 해결
    • pre-trained prober를 사용하여 모델의 internal cognition을 빠르게 capture
  • 🧑🏻‍💻 Pocket Flow
    • 100줄 짜리 LLM Agent framework for Agents, Task Decomposition, RAG
    • Nested Directed Graph를 활용하여 Node, Action, Flow, Batch & Async 등의 기능을 지원
  • 🧑🏻‍💻 [OpenAI] Announcing The Stargate Project
    • AI infrastructure를 만들기 위해 $500B (한화 약 700조)를 투자하는 Stargate Project를 발표
    • NVIDIA GPU 사용, Oracle은 고품질 cloud infrastructure 제공, Microsoft Azure는 모델 분산 학습 지원
    • medicine & biotechnology 등의 high-value fields에 집중
  • 📜 [ByteDance, Tsinghua] UI-TARS: Pioneering Automated GUI Interaction with Native Agents
    • UI-TARS: 입력으로 스크린샷을 받아 이해하고 사람과 같은 interaction을 수행하는 native GUI agent model
    • 프롬프트나 workflow를 통해 commercial model을 사용하는 이전 프레임워크들과 달리 end-to-end model임
    • Enhanced Perception, Unified Action Modeling, System-2 Reasoning, Iterative Training with Reflective Online Traces 등의 주요 특징
  • 📜 [Microsoft] LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts (ACL 2024)
    • 자연어 텍스트를 자동으로 평가하기 위한 프레임워크 제시
    • multiple LLM distribution을 combine 하여 인간 judge’s annotation을 predict
    • judge-specific & judge-independent parameters를 둘 다 포함하는 small feed-forward neural netowrk를 사용
  • 🧑🏻‍💻 [OpenAI] Introducing Operator
    • 현재는 US 거주 중인 Pro 유저만 사용 가능
    • web 상에서 tasks를 자동화해주는 AI agent (폼 작성, 여행 예약 등)
    • Computer-Using Agent (CUA) 라는 새로운 모델을 사용
      • GPT-4의 vision 능력으로 GUI 상호작용이 가능하도록 강화학습
    • 웹사이트 클릭, 타이핑, 스크롤 가능 / 캘린더 관리나 슬라이드쇼 생성 등의 복잡한 태스크는 아직 수행하지 못함
  • 🧑🏻‍💻 [Anthropic] Introducing Citations on the Anthropic API
    • Claude가 답변을 생성할 때 참고한 source document 내에서 활용한 정확한 문장 식별 가능
    • Anthropic API & Google Cloud’s Vertex AI 에서 API로 이용 가능
    • Document summarization, Complex Q&A, Customer support 등의 유즈케이스
  • 🧑🏻‍💻 [HuggingFace] SmolVLM Grows Smaller – Introducing the 250M & 500M Models!
    • SmolVLM family에 256M, 500M 사이즈의 모델들을 추가. 특히 256M 사이즈는 Vision Language Model 중에서 가장 작은 것
    • 두 개의 base 모델과 instruction fine-tuned 모델, 총 네 개의 체크포인트를 공개
  • 📜 [Google Cloud] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks (NeurIPS 2024)
    • 기존에는 LLM으로 long context를 처리하기 위해 1) 입력 길이를 줄이거나 2) context window를 확장하고자 함
    • Chain-of-Agents (CoA): multi-agent collaboration을 이용하여 information aggregation & context reasoning 가능하도록 만든 프레임워크
    • segmented text를 sequentially 처리할 수 있는 multiple worker agents로 구성 → manager agent가 결과를 종합하여 coherent final output 생성
5th week
  • 📜 [Renmin Univ. of China] Enhancing LLM Reasoning with Reward-guided Tree Search
    • reward-guided tree search algorithm을 통한 LLM의 추론 능력 향상 방법에 대한 연구
    • policy model, reward model, search alogirthm을 통합하는 프레임워크
    • policy 모델이 학습된 reward model에 의해 tree를 dynamically expand 하는 tree search algorithm
    • STILL-1 (Slow Thinking with LLMs) 라는 프레임워크
  • 📜 [Renmin Univ. of China] Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
    • o1-like reasoning system을 구현하기 위한 reproduction report
    • STILL-2: imitate, explore, self-improve framework
    • distilled long-form thought data를 사용하여 reasoning model을 학습함으로써 slow-thinking mode를 가능하게 만듦
    • 모델이 multiple rollout을 생성함으로써 어려운 문제를 탐색하도록 함 → high-quality trajectories가 올바른 답변으로 이어짐
  • 📜 [Centfor for AI Safety, Scale AI] Humanity’s Last Exam
    • Humanity’s Last Exam (HLE): 다양한 종류의 주제를 아우르는 최종 closed-ended academic benchmark를 목표 (멀티모달)
    • automated grading에 적합한 multiple-choice, short-answer question 등으로 구성
    • 정답은 논란의 여지가 없고 명확한 것이나 retrieval을 통해 바로 답변하기 어려운 문제들
    • 공개 링크 🔗
  • 📜 [Truthful AI, Toronto] Tell me about yourself: LLMs are aware of their learned behaviors
    • behavioral self-awareness: in-contex examples 없이도 스스로의 행동에 대해 언급하는 능력
    • 명시적으로 associated behavior에 대해 언급하지 않는 두 개의 데이터셋 사용
      • (a) making high-risk economic decisions (b) outputting insecure code
      • 그럼에도 모델은 이를 명백히 설명
    • 우리가 지시하지 않은 내용을 모델이 습득하게 된다는 것은 AI Safety 이슈로 이어질 수 있음
  • 🧑🏻‍💻 [DeepSeek] Janus-Pro release
    • multimodal understanding & visual generation 능력이 개선된 Janus-Pro 릴리즈
    • 작년(2024)에 이미 JanusFlow, Janus 라는 이름으로 mllm을 공개했었음 (허깅페이스에서 다운로드 가능)
  • 🧑🏻‍💻 [Alibaba] Qwen2.5-1M: Deploy Your Own Qwen with Context Length up to 1M Tokens
    • 알리바바에서 1M 토큰까지 커버할 수 있는 Qwen 모델을 공개 (Qwen2.5-7B-Instruct-1M & 14B)
    • 특히 14B 모델은 Qwen2.5-Turbo, GPT-4o-mini를 능가하는 성능을 보여줌
    • 긴 context를 효율적으로 처리하기 위해서 sparse attention과 DCA (Dual Chunk Attention) 사용
  • 📜 [COAI Research] Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models
    • DeepSeek R1 (deepseek-ai_deepseek-r1_2025) 모델의 reasoning tokens에 대한 연구
    • 모델이 명시적으로 학습한 적 없는 self-preservation (자기보호) 특성을 보임
    • 이러한 모델이 robotics와 결합되었을 때 물리적으로 영향을 줄 수 있음에 대한 concern 제기
  • 📜 [USTC, Microsoft] Optimizing Large Language Model Training Using FP4 Quantization
    • LLM을 위한 FP4 training framework 제시
    • 두 가지 key factor
      • (1) differentiable quantization estimator for precise weight updates
      • (2) outlier clamping and compensation strategy to prevent activation collapse
    • 안정성을 위해 mixed-precision training과 vector-wise quantization 통합
    • 100B 토큰으로 학습되는 13B 모델까지도 scale-up 가능한 것으로 확인
  • 🧑🏻‍💻 [Perplexity] Sonar
    • DeepSeek의 reasoning model로 제공하는 새로운 API 공개
    • Advanced CoT reasoning, US-based, Data privacy, Self-serve API access를 주요 특징으로 삼음
    • 일반 버전과 pro 버전으로 구분됨
  • 📜 [UIUC, AI2, IBM, Yale, Washington] ReFIT: Reranker Relevance Feedback during Inference
    • Retrieve-and-rerank는 보통 bi-encoder가 후보를 대량으로 retrieve 하면 cross-encoder가 reranking 하는 프레임워크를 일컬음
    • inference-time에 retriever에 대한 relevance feedback을 제공하여 최초 k개 recall에 대한 성능 향상을 도모
    • reranker의 predictions을 retriever의 query representation에 반영할 수 있도록 lightweight update mechanism을 사용하여 distill
      • → updated 된 query vector를 사용하여 second retrieval step 실행
      • 기존 retrieve-and-rerank frameworks에 applicable
  • 📜 [Huawei, McGill] InnerThoughts: Disentangling Representations and Predictions in Large Language Models
    • LLM에게 MCQA를 할 땐 last layer의 hidden state만 사용하는 것이 일반적
    • small separateneural network predictor module을 training questions에 대해 만들어 전체 레이어의 hidden state를 입력으로 받아 결과 예측
    • LLM의 representational abilities를 온전히 사용하는 방식의 프레임워크라고 주장
    • 비용은 적은데 finetuning급 성능 향상을 이뤄낼 때도 있었다고 보고
  • 🧑🏻‍💻 [Alibaba] Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model
    • large MoE language model로 DeepSeek V3를 능가하는 성능이라고 보고됨
    • 다양한 도메인의 데이터를 20T 토큰 이상 학습. SFT + RLHF.
    • Alibaba Cloud 계정 등록 후 OpenAI 라이브러리로 이용 가능

2024

🎄 December

1st week
  • 📜 [Google Cloud, Google DeepMind] Reverse Thinking Makes LLMs Stronger Reasoners
    • 인간의 역방향 사고(문제→해결, 해결→문제)를 LLM에 적용하는 RevThink 프레임워크 제안
    • 데이터 증강: teacher 모델로부터 (1)원래 질문 (2)정방향 추론 (3)역방향 질문 (4)역방향 추론을 수집
    • 3가지 training objectives를 통한 student 모델 학습
      • 질문→정방향 추론 생성
      • 질문→역방향 질문 생성
      • 역방향 질문→역방향 추론 생성
  • 📜 [Chineses Academy of Sciecnes] Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models
    • 기존: few-shot prompting이나 수동 규칙으로 iterative retrieval 구현
    • RAG의 성능 향상을 위한 iterative retrieval 과정을 LLM의 자율적 의사결정 능력에 맡기는 Auto-RAG 제안
      • LLM이 retriever와 multi-turn 대화를 통해 검색을 계획하고 쿼리를 개선
      • 충분한 정보가 모일 때까지 자동으로 반복
      • 질문의 난이도와 검색된 지식의 유용성에 따라 반복 횟수를 자율적으로 조절
  • 🧑🏻‍💻 [NVIDIA] Multimodal PDF Data Extraction
    • text, graphs, charts, tables 사이즈 상관 없이 insight를 추출 가능한 Data Extraction
    • enterprise RAG를 위한 제품으로 보임
    • 현재는 데모 수준으로 업로드된 370/501개 파일에 대한 QA를 RAG 기반으로 테스트 해볼 수 있는 것 같음
  • 🧑🏻‍💻 [Kaggle] LLMs - You Can't Please Them All
    • essay quality를 평가하기 위해 LLM-as-a-judge를 이용
    • LLM judges 간 disagreement를 극대화하는 essay를 제출하는 것이 목표
  • 📜 [The University of Sydney, Huawei] Enhancing Large Language Models through Adaptive Tokenizers (NeurIPS 2024)
    • 기존 tokenizer는 통계 기반으로 형성된 static 방식 → 현재 LLM 아키텍쳐와 싱크 안됨 (?)
    • 초기의 방대한 vocabulary로 시작, 학습 동안 모델의 perplexity를 관측하며 tokenizer를 refine
  • 🧑🏻‍💻 [Amazon] Amazon Nova Foundation Models
    • fast text model 부터 full video generation 까지 Bedrock API 를 통해 이용 가능
    • 라인업: Micro, Lite, Pro, Premier, Canvas, Reel
  • 🧑🏻‍💻 [Cohere] Introducing Rerank 3.5: Precise AI Search
    • 기업의 복잡한 데이터에 대한 improved reasoning & multilingual 능력
    • 현존하는 검색 시스템들과 compatible
    • 100개 이상의 언어를 지원한다고 설명
  • 🧑🏻‍💻 [Google DeepMind] Genie 2: A large-scale foundation world model
    • single 이미지를 입력으로 받아 플레이 가능한 3D 환경으로 반환
    • Genie 1 → 2 에서의 emergent capabilities of a foundation world model 을 주장
  • 📜 [Vanderbit Univ.] Training Noise Token Pruning
    • for vision transformers
    • discrete token dropping 조건을 continuous additive noise로 relax 하여 학습 내에서 smooth optimization을 제공
  • 📜 [Univ. of California, Berkely] Predicting Emergent Capabilities by Finetuning (COLM 2024)
    • LLM의 downtream 능력에 대해서는 사전학습에 비해서 예측하기 더 어렵다는 문제 (emergent ability를 fine-tuning 단에서 수행한 연구는 처음 보긴 함)
    • 현재 LLM의 random few-shot 정확도를 기반으로 다음 세대 모델의 정확도를 예측할 수 있을까?
    • insight: finetuning LLMs on a given task can shift the point in scaling at which emergence occurs towards less capable models
    • 언어 모델을 특정 태스크에 대해 학습하면 emergent ability가 발현되는 point를 옮길 수 있다
  • 📜 [Google DeepMind] PaliGemma 2: A Family of Versatile VLMs for Transfer
    • SigLIP-So400m vision encoder + Gemma 2 (224px, 448px, 896px)
    • long fine-grained captioning 같은 task 뿐만 아니라 OCR-related tasks도 커버
      • 꽤 넓은 범위로 transfer 가능하다는 것을 실험적으로 확인한 것으로 보임
  • 🧑🏻‍💻 [OpenAI] o1 and ChatGPT Pro
    • Day 1, o1 모델을 공개. ChatGPT Pro 플랜을 월 200$ 로 공개.
    • Improved accuracy, Multimodal support, Faster and more concise 등의 특징
    • Pro 유저는 o1, GPT-4o, o1-mini 등을 무제한 사용 가능
  • 📜 [Microsoft, MIT] Does Prompt Formatting Have Any Impact on LLM Performance? (NAACL 2025)
    • prompt template이 모델 성능에 미치는 영향을 연구
    • 같은 내용을 일반 텍스트, 마크다운, JSON, YAML 형식 등으로 변환하여 GPT-3.5-turbo, GPT-4 모델을 테스트
    • 성능이 높은 모델일수록 템플릿에 상관없이 성능이 유지되고, 그렇지 않은 모델은 크게 영향을 받는 것으로 확인됨
  • 🧑🏻‍💻 [Google DeepMind] GenCast predicts weather and the risks of extreme conditions with state-of-the-art accuracy (Nature)
    • 15일까지 아주 정확하게 예측 가능한 일기 예보 모델을 개발
    • new high resolution AI ensemble model 이라고 소개하고 있음 (diffusion 기반의 모델)
    • 📜 Nature 논문 링크
  • 📜 [Yunnan Univ.] Learning to Reason via Self-Iterative Process Feedback for Small Language Models (COLING 2025)
    • odds ratio preference optimization (ORPO)를 결합하여 SLM 스스로 positive & negative signal을 생성 및 활용할 수 있도록 함
    • sampling-based inference simulation & process reward models 를 이용하는 process supervision 도입
  • 📜 [Peking, Baichuan] SysBench: Can Large Language Models Follow System Messages?
    • 현존하는 LLM의 세 가지 한계점: constraint violation, instruction misjudgement, multi-turn instability
    • 위 능력을 평가하고 분석 가능한 벤치마크 SysBench를 도입
    • 이미 자주 사용되고 있는 6개의 constraint, 500개의 tailor-designed system messages, multi-trun conversation 등을 기반으로 데이터셋을 직접 구축
    • 깃허브 링크 🔗
2nd week
  • 📜 [Tsinghua] Densing Law of LLMs
    • capability density 개념 제시: LLM의 실제 파라미터 사이즈 대비 effective parameter size의 비율
      • effective parameter size는 기존 모델 M 만큼의 퍼포먼스를 낼 수 있는 최소한의 사이즈를 의미
    • → LLM의 학습 퀄리티를 평가
  • 📜 [CMU, KAIST, Washington] Evaluating Language Models as Synthetic Data Generators
    • AgoraBench: 언어모델의 데이터 생성 능력을 평가하는 벤치마크를 제시
    • 6개의 언어 모델, training 99개 student 모델을 사용하여 1.26M training instances를 합성
    • 데이터 생성 능력은 문제 해결 능력과 직접적인 상관관계를 보이지 않는다고 설명
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [LG AI Research] EXAONE-3.5 release
    • EXAONE 3.5 language model series including instruction-tuned models of 2.4B, 7.8B, and 32B
  • 🧑🏻‍💻 [Google] Meet Willow, our state-of-the-art quantum chip
    • 더 많은 qubits를 사용함에 따라 에러를 exponentially 줄일 수 있었음
    • Willow가 기록한 벤치마크 연산 능력은 오늘날 가장 빠른 슈퍼컴퓨터가 10 septilion (10의 25승)년을 연산할 것을 단 5분만에 처리할 수 있는 수준
  • 📜 [Chinese Academy of Sciences] Towards Adaptive Mechanism Activation in Language Agent (COLING 2025)
    • ALAMA: Adaptive Language Agent Mechanism Activation Learning with Self-Exploration
    • expert model에 대한 의존 없이 mechanism activation adaptability를 최적화하는 것에 집중
    • a harmonized agent framework (UniAct)를 구축하고 태스크 특성에 따라 적합한 방법론으로 최적화
  • 📜 [OpenAI] OpenAI o1 System Card
    • 최근 공개한 o1 preview → o1 모델의 특징과 성능을 리포트한 페이퍼를 공개
    • GPT-4를 공개할 때와 마찬가지로 뻔한 이야기들을 담고 있음
  • 🧑🏻‍💻 [OpenAI] Day 3. Sora
    • widescreen, vertical, square 세 형태로 20초 길이의 영상 생성 가능
    • 프롬프트를 통해 remix, blend, create 가능
    • Turbo 모델은 전작 모델 대비 확실히 생성 속도가 빠름
  • 🧑🏻‍💻 [OpenAI] Day 4. Canvas
    • Expanded Access (web and windows), Integrated with GPT-4o, Data visualization, Split-screen workspace
    • Direct python execution
  • 📜 [Microsoft] Phi-4 Technical Report
    • 데이터 퀄리티에 집중하여 학습한 14B 파라미터 언어 모델
    • web content, code 중심의 organic data로 사전학습하는 기존 모델들과 달리, 합성 데이터를 적절히 혼합하여 사용하는 학습 방법론 적용
    • phi-4는 STEM-focused QA 능력에서 teacher model의 성능을 능가하는 모습을 보여줌
  • 📜 [Univ. of California, Santa Barbara] RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
    • LLM이 추론 시 복잡한 현실 수준의 규칙들을 따를 수 있는지 평가하기 위한 벤치마크
    • 세 개의 practical domain을 다루고 있음: airline baggage fees, NBA transactions, tax regulations
    • 현존 LLM들의 세 가지 주요 한계: (1) 비슷하지만 다른 규칙을 구분하지 못함 (2) 규칙을 정확히 이해했더라도 수학 문제에서 일관된 성능을 보이지 않음 (3) 전반적으로 이 벤치마크 점수가 다 낮음
  • 📜 [Univ. of Potsdam] I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token (NeurIPS 2024)
    • hallucination을 잡기 위한 novel calibration method를 제시
    • [IDK] 라는 스페셜 토큰을 vocab에 추가하고 부정확한 예측에 대한 probability mass를 [IDK] 토큰으로 옮기는 objective function을 도입 → 모델이 uncertainty를 명시적으로 반환하도록 함
    • 이 방식으로 학습된 모델은 기존에 실수하거나 잘못 답변하던 내용들에 대해 uncertainty를 훨씬 더 잘표현할 수 있게 되었다고 보고
  • 📜 [OpenAI] Measuring short-form factuality in large language models
    • short & fact-seeking questions에 대한 모델의 능력을 평가하기 위한 벤치마크
    • GPT-4의 response에 반하도록 수집한 challenging 벤치마크
    • 오직 한 개의 답변만이 정답이 될 수 있도록 문제를 구성 (correct, incorrect, not attempted)
    • 모델의 “know what they know”를 평가하기 위한 벤치마크
    • 깃허브 링크 🔗
  • 📜 [Saudi Data & Artificial Intelligence Authority] SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
    • AI2에서 공개한 Tulu3 post-training 파이프라인을 이용하여 SmolLM2-1.7B 모델을 학습한 SmolTulu-1.7b-Instruct 모델을 공개
    • 135M 사이즈의 모델일 사용하여 learning rate과 batch size 관계가 모델 퍼포먼스에 큰 영향을 미친다는 것을 확인
    • ARC, GSM8K 같은 태스크는 높은 lr, HellaSwag의 pattern recognition, IFEval 등은 낮은 lr이 적합
3rd week
  • 📜 [Independent] Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
    • Foundation 모델의 성능을 높이기 위해 sequence transformation과 state transformation을 결합
    • state space duality algorithm에서 rotary position embedding의 availability를 확인
    • dynamic mask attention 적용하여 성능은 그대로 유지하면서도 연산 효율이 좋음
    • cross domain mixture of experts를 디자인 (1024개 experts)
  • 📜 [Beijing Univ.] Smaller Language Models Are Better Instruction Evolvers
    • SLM이 LLM보다 effective instruction을 합성하기 더 좋다는 것을 실험적으로 입증
    • SLM이 instruction evolving 동안 보다 넓은 output space를 가진다고 주장
    • Instruction Complex Aware IFD (IC-IFD)를 제안: instruction data를 평가하기 위해 IFD를 개선한 메트릭
  • 📜 [Google, Peking] TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
    • 현재 트랜스포머 아키텍쳐의 가장 큰 문제 중 하나는 linear projection을 고정된 숫자의 파라미터에 의존하고 있다는 것 → scale-up 어려워지는 이유
    • 모델 파라미터를 토큰으로 간주하여 트랜스포머 아키텍쳐 내 모든 linear projection을 token-parameter attention layer로 대체
    • 깃허브 링크 🔗
  • 📜 [Meta] Byte Latent Transformer: Patches Scale Better Than Tokens
    • byte-level LLM 아키텍쳐에서 최초로 추론 효율성과 강건함 측면에서 tokenization-based LLM 수준을 달성한 사례
    • bytes를 dynamic하게 sized patch로 encoding → 고정된 vocab x
    • 8B 사이즈의 모델을 4T training bytes로 학습
  • 🧑🏻‍💻 [Google DeepMind] Veo 2
    • 4k까지의 고해상도 비디오를 굉장히 현실적으로 생성할 수 있는 SoTA급 모델
    • 렌즈 타입과 카메라 효과를 instruction으로 정해서 비디오를 생성할수도 있음
    • 구글의 SynthID 워터마크를 통해 AI-generated content인지 아닌지 쉽게 식별 가능
  • 📜 [Shanghai AI Lab] Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
    • 현재 visual generative model을 평가하기 위해서는 수백, 수천 개의 이미지 또는 비디오를 sampling 하는 복잡한 과정을 거쳐야 한다는 문제점 존재
    • → Evaluation Agent 프레임워크: dynamic, multi-round evaluation, 각 라운드마다 몇 개의 샘플만을 사용
    • 완전한 오픈소스 프레임워크로써 1) efficiency 2) promptable evaluation 3) explainability 4) scalability 등이 핵심 특징
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 Claude Engineer v3
    • Claude 3.5 모델을 이용하는 self-improving AI Assistant
    • CLI & web 인터페이스 둘 다 지원
    • 무려 10k 개의 스타 ⭐
  • 📜 [AIRI] BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack (NeurIPS 2024)
    • extremely long documents 전체에 걸쳐 퍼져있는 fact를 바탕으로 LLM의 추론 능력을 평가하는 벤치마크, BABILong 공개
    • fact chaining, simple induction, deduction, counting 등 20여 개의 reasoning task 포함
    • 평가 결과에 따르면 popular LLM도 문맥의 10-20% 정도만 활용하는 수준이며 reasoning complexity가 높아짐에 따라 퍼포먼스가 급격하게 떨어짐
  • 📜 [CMU, Duke] TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
    • browsing the Web, writing code, running program 등 digital worker가 일하는 방식으로 AI agent의 상호작용 능력을 평가하기 위한 벤치마크
    • internal web site, data를 포함하는 self-contained environment를 구축
    • 가장 뛰어난 모델로는 전체 태스크의 24% 정도를 완수할 수 있었다고 보고함
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Google DeepMind] FACTS Grounding: A new benchmark for evaluating the factuality of large language models
    • 논문 링크 🔗 캐글 리더보드 링크 🔗
    • LLM의 답변이 사실적으로 정확하고 충분한 내용을 담고 있는지 확인할 수 있는 벤치마크
    • gemini 모델들이 상위권을 다 차지하는데 상당히 의문스러운 양상..
    • 860개의 public, 859개의 private held out set으로 구성되어 있고 전자를 공개
  • 🧑🏻‍💻 [VS Code] Announcing a free GitHub Copilot for VS Code
    • 2000 code completions/month, 50 chat requests/month, access to GPT-4o & Claude 3.5 Sonnet
    • 코드 어시스턴트에 대한 관심이 뜨거운데, Cursor, Windsurf 에 뒤지지 않으려는 노력으로 보임
    • 그러나 아직까지 다른 코드툴에 비해서는 너무 약해/평범해 보이는 기능들..
  • 🧑🏻‍💻 [OpenAI] o3 preview & call for safety researchers
  • 🗞️ [Perplexity] Perplexity has reportedly closed a $500M funding round
    • 인공지능 기반 검색 엔진 강자인 Perplexity가 500M 달러, 한화 약 6천 억원 규모의 투자를 받은 것으로 알려짐. 기업 가치는 약 110조에 달하는 것으로 평가.
    • OpenAI가 Chat 모델 시장을 선점한 것, 검색 시장을 Perplexity가 선점한 것 등을 보면 시장에서 입지를 빠르게 가져가는 쪽이 압도적인 인지도와 유저풀을 갖게 되는 것 같다는 생각이 듦
  • 📜 [Meta, Washington, CMU] Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning
    • ExploreToM, robust training & evaluation 을 위한 난이도 높은 theory of mind 관련 최초의 프레임 워크
    • A* search를 custom domain-specific language에 사용하여 복잡한 story sturcture를 생산
    • Llama-3.1-70B나 GPT-4o 같은 모델도 각각 0%, 9%에 달하는 낮은 정확도를 보임
    • 깃허브 링크 🔗
4rd week
  • 📜 [Washington, AI2] Self-Instruct: Aligning Language Models with Self-Generated Instructions (ACL 2023)
    • 2년 전 논문이지만 지금도 많이 활용되고 있는 좋은 방법론이라 기록
    • 언어 모델의 zero-shot 성능이 뛰어나더라도 human-written instruction data 자체는 확보하기 어렵다는 문제가 존재
    • → Self-Instruct: 언어 모델의 생성 결과를 bootstrapping 함으로써 사전학습 모델의 instruction following 능력을 개선하는 프레임워크 제시
    • instruction, input, output 생성 → invalid, similar 데이터는 필터링
  • 📜 [Oxford] Confidence in the Reasoning of Large Language Models
    • LLM의 답변에 대한 confidence와 accuracy 간의 상관관계를 연구한 논문
    • (1) reconsider 하도록 prompt를 받았을 때의 persistence를 정성적으로 측정
    • (2) self-reported confidnece score를 정량적으로 측정
    • 일반적으로는 confidence와 accuracy가 양의 상관관계를 보이지만, 두 번째 답변이 첫 번째 답변보다 안좋을 가능성이 높음
    • confidence는 token-level probability로 부분적인 해석만 가능
  • 📜 [Peking, Microsoft Research] Outcome-Refining Process Supervision for Code Generation
    • 코드 생성 태스크에서 학습된 리워드 모델을 사용하는 경우 성능은 뛰어나지만 학습 비용이 많이 들고 평가 신뢰도가 높지 않다는 문제가 존재
    • Outcome-Refining Process Supervision, outcome refinement 자체를 supervised process 자체로 취급하는 paradigm 제시
    • 여러 개의 solution trajectories를 유지하기 위해 tree-structured exploration을 사용
  • 📜 [HKUST, Tencent] B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
    • 평가하고자 하는 항목은 두 가지
      • (1) 모델이 충분히 다양한 response를 생성할 수 있는 능력이 있는가
      • (2) 고퀄리티-저퀄리티 데이터를 구분하는 external reward의 효용성
    • 추론 관련 태스크에서 exploration & exploitation을 추적하여 정량적 분석 수행
    • Self-Taught Reasoning 프레임워크 B-STaR 제시
  • 📜 [Tsinghua] Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
    • 언어 모델들의 각 요소를 상세히 분석함으로써 RoPE 기반 attention 일반화의 문제점을 파악
    • Discrete Signal Processing theory를 사용하여 RoPE가 Non-Uniform Discrete Fourier Transform을 achieve 함으로써 periodic attention을 가능하도록 만든다는 것을 확인
    • Fourier Position Embedding (FoPE): periodic extension과 length generalization을 개선하기 위해 attention의 frequency-domain properties를 enhance
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 MIS (Make It So)
    • CLI Assistant
    • OpenAI, Mistral, X.ai, Ollama 등과 같은 다양한 AI 프로바이더를 지원
    • 자연어로 명령을 실행할 수 있음. 실제 명령 실행 전에 확인 과정을 거쳐 문제 일으킬 가능성 최소화.
    • 깃허브 링크 🔗
  • 📜 [KAIST, Microsoft Research] Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
    • Language model Ensembel with Monte Carlo Tree Search (LE-MCTS) 제시
    • Markov decision process에 따라 언어 모델들의 ensemble 하여 step-by-step reasoning을 구성
    • state는 중간 추론 과정 (reasoning path)를 나타내고 action은 다음 reasoning step을 생성하는 것으로 구성됨
  • 📜 [Nanjing Univ.] Token-Budget-Aware LLM Reasoning
    • 다른 문제들을 바탕으로 token budget을 dynamic 하게 추정하는 프레임워크
    • CoT reasoning에 사용되는 토큰의 수와 비용을 효과적으로 감소시킬 수 있었다고 주장
    • 깃허브 링크 🔗
  • 📜 [KAIST, Google DeepMind] Revisiting In-Context Learning with Long Context Language Models
    • 최근 Long Context Language Models (LCLMs)의 등장으로 여러 개의 예시를 입력으로 제공할 수 있는 상황이 되며 ICL의 중요성이 재조명되고 있음
    • 정교한 예시 선정이 random selection 대비 큰 성능 향상으로 이어지지 않는다는 결과
    • 오히려 좋은 예시들을 찾는 것보다 context window를 채울 만큼의 예시를 확보하는 게 더 어렵고 중요한 문제로 인식되기 시작했다는 주장
  • 📜 [Tsinghua, Peking] How to Synthesize Text Data without Model Collapse?
    • 합성 데이터가 모델 학습에 미치는 영향은 무엇이며, 어떻게 하면 모델 붕괴 없이 데이터를 합성할 수 있을까?
    • 합성 데이터의 비율을 조절해가며 학습해 본 결과, 합성 데이터의 비율과 모델의 성능이 음의 상관관계를 보인다고 함
    • 사람이 생성한 데이터에 token editing을 적용하여 semi-synthetic data를 획득하는 방법론 제안
  • 📜 [Anthropic, NYU, Mila] Alignment faking in large language models
    • alignment faking: training objective를 선택적으로 준수하여 학습 이후의 수정을 방지하는 현상
    • 무료 유저와 대화할 것임을 시스템 프롬프트에 포함하고 모든 해로운 질문에 대해서도 답변할 수 있도록 학습 → 추론 시 무료/유료 유저 결과 비교해보니 무료 유저의 해로운 질문에 대해서 답변할 확률이 14%, 유료 유저에 대해서는 0%
    • 사전학습 데이터를 모방한 합성 데이터를 이용하여 보다 현실적인 세팅에서 실험한 결과 제시
    • 강화학습으로도 alignment-faking reasoning을 확인한 결과, 그 비율이 78%까지 오르는 것을 확인함
  • 📜 [Pennsylvania, Salesforce] GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers
    • prompt engineering automating에 있어서 비용이 많이 드는 LLM에 의존해야 한다는 문제점 존재
    • GReaTer: task loss gradients를 활용하여 open-source, lightweight LM으로 self-optimization of prompts 수행하는 테크닉
    • 깃허브 링크 🔗
  • 📜 [Google Research, Google DeepMind] A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs
    • LLM pre-training efficiency와 quality를 향상시키기 위해 SLM을 적절히 활용하는 방법론 제안
    • (1) additional training supervision을 위한 soft label 제공
    • (2) small subset of valuable training examples 선별
    • 1.5B 모델을 soft labeler로 이용하여 2.8B 사이즈 모델을 학습한 결과를 제시
    • low-quality supervision이 좋은 영향을 줄 수 있음, 그리고 adaptive하게 적용할 필요성 등을 확인한 것으로 보임. 장기적으로는 더 좋은 모델을 활용하여 더 뛰어난 모델을 사전학습 단계에서 만들 수 있다는 의미가 될 수도.. (자원이 뒷받침 된다면)
  • 📜 [DeepSeek] DeepSeek-V3 Technical Report
    • 671B total, 37B activated 파라미터 사이즈를 갖는 MoE LM / 14.8T 토큰으로 사전학습 및 SFT, RL / 2.788M H800 GPU hours
    • 효율적인 학습 및 추론을 위해 Multi-head Latent Attention (MLA) & DeepSeekMoE 아키텍쳐 선택
    • load balancing을 위한 auxiliary-loss-free strategy, multi-token prediction training objective
    • 깃허브 링크 🔗
  • 📜 [Meta] Large Concept Models: Language Modeling in a Sentence Representation Space
    • concept: an explicit higher-level semantic representation (실제 사람이 언어를 인지하는 방식을 따르고자 함 instead of token)
    • existing sentence embedding space, SONAR 사용
    • diffusion-based generation의 일종인 MSE regression 등을 시도
    • 1.6B 모델에 1.3T 토큰 학습 & 7B 모델에 2.7T 토큰 학습
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Ollama & HuggingFace] Use Ollama with any GGUF Model on Hugging Face Hub
    • 허깅페이스의 Local Apps settings에서 ollama 설정
    • 모델 페이지의 Use this model에서 ollama를 선택
    • ollama run hf.co/{username}/{repository}
  • 🧑🏻‍💻 [Qwen] QVQ: To See the World with Wisdom
    • Qwen에서 weight를 공개한 멀티모달 모델
    • MMMU, MathVista, MathVision, OlympiadBench 등 수학적 추론 능력이 크게 요구되는 벤치마크에서 GPT-4o & Claude3.5 Sonnet 이상의 퍼포먼스를 보임
    • Language Mixing & Code-Switching 등이 예상치 못하게 나타날 수 있음, Recursive Reasoning 등의 문제가 존재
  • 📜 [Tencent] A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
    • long-context를 처리하는 gits-based context compression에 대한 한계를 지적
      • synthetic recall과 같은 태스크에서 약점을 보임
    • 세 개의 key failure patterns
      • (1) lost by the boundary (2) lost if surprise (3) lost along the way
    • 두 개의 전략을 제시
      • (1) fine-grained autoencoding: original token 정보를 reconstruct 하는 걸 강화
      • (2) segment-wise token importance estimation: token dependencies 기반으로 최적화 조절
  • 📜 [Gaoling School] YuLan-Mini: An Open Data-efficient Language Model
    • 비슷한 사이즈 모델들 중 가장 뛰어난 2.42B LLM 공개 (1.08T 토큰으로 학습)
    • 세 개의 특징을 가진 사전학습 테크닉
      • (1) an elaborate data pipeline
      • (2) 학습 불안정성을 완화하는 robust optimization method
      • (3) targeted data selection & long context training
    • 깃허브 링크 🔗
  • 📜 [Chalmers University] The Impact of Prompt Programming on Function-Level Code Generation
    • CodePromptEval: 5개의 프롬프트 테크닉을 평가하기 위한 7072개의 프롬프트로 구성된 데이터셋 (few-shot, persona, chain-of-thought, funciton signature, list of packages)
    • 세 개의 LLM(GPT-4o, Llama3, Mistral)로 부터 생성한 completion function의 quality 평가
    • 특정 테크닉이 코드 생성에 도움은 되지만, 이것들의 조합/결합이 반드시 도움이 되는 것은 아님
    • correctness & quality 간의 trade-off 관측 (quality가 뭘 의미하는지 모르겠음)
  • 📜 [Meta] Improving Factuality with Explicit Working Memory
    • Explicit Working Memory (Ewe): long-form text generation에서 real-time feecback을 받는 working memory를 통합
    • memory는 online fack-checking과 retrieval feedback을 기반으로 refreshed
      • → 중간에 잘못 생성되었던 내용들에 대한 dependency issue를 해결할 수 있음
    • memory update 규칙, memory unit에 대한 configuration, retrieval datastore의 quality 등이 성능에 가장 큰 영향을 미치는 요소들

🍁 November

1st ~ 2nd week
  • 📜 [Boston] Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models
    • 하나의 대화 내에서 두 개 이상의 언어를 번갈아 가면서 사용하는 것은 NLP에서 상당히 어려운 문제
    • EZSwitch: Equivalence Constraint Theory (ECT)를 LLM에 결합하여 언어학적으로 타당하고 유려한 code-switched text를 만들 수 있도록 하는 프레임워크
    • CSPerf: human preference dataset
  • 📜 [Yale, NYU] Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? (NAACL 2024 Short)
    • LLM이 text table, HTML, LaTeX 형식 등을 잘 다룰 수 있는지 평가하는 벤치마크, Struc-Bench
    • Prompting Score (P-Score) & Heuristical Score (H-Score) 를 제안
    • structure fine-tuning을 고안하여 Llama에 적용한 결과, 눈에 띄는 성능 향상이 있었다고 보고
    • 깃허브 링크 🔗
  • 📜 [Apple] Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
    • HyperCloning, 사전학습된 모델의 파라미터를 더 큰 모델의 증가된 hidden dimension에 맞게 확장하는 방법론
    • larger model이 smaller model의 functionality를 보유할 수 있도록 도와줌
    • 학습이 시작되기 전 larger 모델이 smaller 모델의 능력을 탑재하고 있으므로, 무작위로 초기화된 파라미터를 학습하는 것보다 훨씬 효율적이라고 주장
  • 🧑🏻‍💻 [OpenAI] Introducing ChatGPT search
    • GPT-4o의 언어 처리 능력에 웹 데이터 access를 더한 hybrid system을 제공
    • 합성데이터로 fine-tuned GPT-4o를 사용
    • 날씨, 주식, 스포츠 등은 data provider와 파트너십을 통해 real-time data를 특별히 제공한다고 함
  • 📜 [Ghent University] Large Language Models Reflect the Ideology of their Creators
    • 다양한 LLM과 언어에 나타난 ideological stance의 다양성을 조사
    • LLM에게 최근 세계사의 유명하면서도 논쟁이 많은 인물들을 묘사하도록 프롬프팅 (영어 & 중국어)
    • 같은 LLM이라도 영어와 중국어 사용에 따라 normative disagreement를 보인다는 것을 확인함
    • Western 모델에 정치적인 성향이 반영되어 있다고도 주장
  • 📜 [Ohio, Washington, AI2] ComPO: Community Preferences for Language Model Personalization
    • 기존 언어 모델 학습에 반영하는 human feedback은 “average” user의 선호를 가정한 것이기 때문에 다양한 주관적 & finer-grained 특성을 무시하고 있음
    • ComPO, preference provider와 함께 모델 output의 확률 분포를 contextualize 함으로써 preference optimization를 personalize
    • 개인 단위가 아닌 그룹 단위의 선호 데이터셋을 수집하여 community-level preferences from Reddit → ComPRed 공개
  • 📜 [NYU, AI2, NVIDIA, Washington] Diverging Preferences: When do Annotators Disagree and do Models Know?
    • human-labeled preference dataset에 존재하는 diverging prefernces를 연구
    • 4개의 high-level 클래스로 구분되는 10개의 카테고리로 disagreement taxonomy를 구축
      • task underspecification, response style, refusals, annotation errors
    • 이것들이 reward modeling & evaluation 에 어떤 영향을 미치는지 조사
  • 📜 [VNU Univ.] MoD: A Distribution-Based Approach for Merging Large Language Models
    • Mixture of Distribution (MoD): 모델 weight 대신 출력 확률 분포로 operate
    • 각 모델들의 specialized 능력을 보존하면서도 task 사이의 효율적인 knowledge sharing 가능
    • 간단하게 살펴봤을 땐 다른 merge 방식과 뭐가 그렇게 크게 다른지는 잘 모르겠음
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Google] Gemini API and Google AI Studio now offer Grounding with Google Search
    • Grounding with Google Search 기능을 Google AI Studio, Gemini API 에서 선보임
    • 검색 결과를 기반으로 답변을 생성하는 방식으로 최근 생성형 검색 엔진에 대한 관심이 뜨거움
    • 그러나 최근 구글 검색의 결과물이 만족스럽지 않다는 점을 감안하면 그렇게 좋을지는 잘 모르겠음
  • 🧑🏻‍💻 [HuggingFace] SmolLM2-1.7B-Instruct
    • 135M, 360M, 1.7B 사이즈로 구성된 sLLM 패밀리 version 2를 공개
    • 잘 정제된 데이터셋으로 SFT & DPO 학습한 모델로, 동사이즈 대비 아주 뛰어난 성능 지표를 보임
    • 이미 ollama에서도 지원 🔗
  • 🧑🏻‍💻 [Anthropic] PDF support (beta)
    • PDF 파일 내에 존재하는 텍스트, 시각 자료, 이미지, 차트 등을 분석할 수 있는 기능을 API로 제공
    • 최대 32MB, 100 페이지 커버가 가능하며 페이지당 1,500 ~ 3,000 토큰 사용
  • 🧑🏻‍💻 [xAI] API Public Beta
    • 개발 마지막 단계에 있는 Grok 모델을 public beta로 공개
    • 128K 토큰 길이의 context, function calling, system prompt를 지원
    • 베타 기간 동안 25$의 API 크레딧을 매달 지급
  • 🧑🏻‍💻 [Anthropic] Claude 3.5 Haiku
    • optimized for rapid, accurate code completions
    • 다른 태스크보다 특히 코드 생성에서 좋은 퍼포먼스를 보이는 것 같음
    • 그런데 비용이 많이 올라서 논란이 되는 것으로 보임
    • Sonnet 3.5 (new)의 성능도 함께 화제가 되는 중
  • 📜 [MIT, Cambridge] The Geometry of Concepts: Sparse Autoencoder Feature Structuret
    • Sparse autoencoder는 최근 LLM에 의해 표현되는 세상의 concepts를 high dimensional vectors의 dictionaries로 produce 가능
    1. “atomic” small scale structure는 “crystal” face를 가진 평행사변형 또는 사다리꼴을 포함한다.
    2. “brain” intermediate-scael structure는 상당한 spatial modularity를 포함한다.
    3. “galaxy” scale structure는 isotropic이 아니다. 대신 middle layer에서 가파른 기울기를 갖는 power law of eigen values를 지닌다.
  • 📜 [Google Research] Distinguishing Ignorance from Error in LLM Hallucinations
    • close-book Question Answering (CBQA) 시나리오에서 hallucination에 대해 연구: 모델이 실제로 파라미터 내에 correct knowledge를 보유하지 않은 것인가 or 알고 있는데 답변을 잘못한 것인가
    • 후자의 경우 중간 연산에 개입함으로써 문제를 해결할 수 있으나, 전자의 경우 외부 지식 source가 필요
    • 두 경우를 구분하기 위해 Wrong Answer despite having Correct Knowledge (WACK) 라는 model-specific dataset 구축 방식을 제안
  • 📜 [Duke, Google Research] SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models
    • external knowledge base에 의존하거나 추가적인 fine-tuning 없이 LLM의 truthfulness를 향상시킬 수 있는 novel decoding framework
    • 마지막 layer의 output logits와 초기 layer의 output logits을 contrasting 하여 LLM 내부에 embedded 된 latent knowledge를 이용
    • latent knowledge가 output에 대해 self-refinement 할 수 있도록 approximate gradient approach 를 사용
  • 🧑🏻‍💻 [HuggingFace] Smol Tools
    • LLaMA.cpp로 구현된 가벼운 AI-powered tools, small language models의 collection
    • SmolSummarizer, SmolRewriter, SmolAgent
    • 각각이 엄청난 건 아닌데 작은 모델들을 각자의 작업에 특화시켜서 합친 것에 의미가 있는 듯함
  • 📜 [IBM] Granite 3.0 Language Models
    • lightweight SoTA 모델 패밀리 공개. 총 12T 토큰으로 학습된 2B & 8B 사이즈의 모델
    • Sparse 1B & 3B MoE 모델. 400M & 800M activate 파라미터. 총 10T 토큰으로 학습.
    • 비교군으로는 Llama3.1 8B, Mistral 7B / SmolLM-1.7B 등 모델을 사용
    • 상업적으로도 사용 가능하도록 Apache 2.0 라이센스로 공개됨
  • 📜 HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
    • RAG 시나리오에서 검색된 html을 plain text로 변환하는 과정에서 heading, table structure와 같은 구조적 or semantic 정보가 많이 소실됨
    • 따라서 plain text 대신 HTML을 사용하는 HtmlRAG를 제안
    • 그러나 HTML을 바로 사용하기는 어렵기 때문에, HTML cleaning, compression, pruning strategies를 도입하여 정보의 손실을 최소화 하면서도 HTML을 줄이고자 함
  • 📜 [Dartmoouth, Adobe, Stanford, …] Personalization of Large Language Models: A Survey
    • personalized LLM usage에 대한 taxonomy를 정비하고 주요 차이점과 챌린지를 요약하는 서베이
    • personalization techniques, datasets ,evaluation methods, application 등을 기준으로 구분
  • 📜 [Huawei] Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
    • 다양한 science tasks를 자율적로 수행할 수 있는 end-to-end agent, Agent K v1.0 공개
    • 기존의 rigid & limited 한 CoT & reflection 대신에 아주 유연한 structrued reasoning 프레임워크를 사용했다고 언급
    • iteration마다 핵심 정보를 탐색 및 저장함으로써 long- & short-term memory를 업데이트함. 이를 통해 fine-tuning이나 backpropagation 없이 성능을 개선할 수 있음
  • 📜 [Tancent] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
    • 52B activation parameter를 갖는 389B 사이즈의 MoE 아키텍쳐 LLM 공개
    • 256K 길이의 window size를 갖는 모델
    • 다양한 태스크에서 LLama3.1-70B를 능가하고, 405B 모델에 비견되는 성능을 보임
    • large-scale synthetic data, mixed expert routing, key-value cache compression, expert-specific learning rate 등이 핵심 특징
    • MoE 모델의 scaling law와 learning rate schedule에 대해서도 연구
    • 깃허브 링크 🔗 허깅페이스 링크 🔗
  • 🧑🏻‍💻 [Ollama] Ollama 0.4 Integrates Meta's Llama 3.2 Vision Models (11B and 90B)
    • Llama 3.2 Vision: OCR, handwriting → machine-readable text, 차트와 표 이해
    • 터미널에서 사용 가능
  • 📜 [NVIDIA] MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs
    • MLLM을 이용하여 다양한 modality, 다양한 retrieval task를 아우르는 universal multimodal retrieval 시나리오 지원
    • MLLM을 10개 데이터셋 16개의 태스크에 대해 학습하여 bi-encoder retriever로 사용
    • MLLM에 존재하는 modality bias를 완화하기 위해 modality-aware hard negative mining을 제안
    • 여러 modality 중에서도 특히 text retrieval 능력을 향상시키기 위해 continually fine-tuning 할 것을 제안
    • 허깅페이스 링크 🔗
  • 📜 [Zhejiang] Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation
    • Guided Discovery Learning 교육학 이론을 바탕으로 FiGRet (Fine-grained Guidance for Retrievers) 제안
    • retriever가 잘 못하는 샘플들로부터 easy-to-understand 샘플을 LLM으로 생성하는 방식
    • 이때 세 가지 learning objective, relevance, comprehensiveness, purity를 고려
    • LLM과 retriever 간 dual curriculum learning & reciprocal feedback
  • 🗞️ [XPENG] XPENG Unveils Iron Humanoid Robot, Already Operational in EV Factory
    • 중국의 전기차 회사 XPENG에서 인간과 비슷한 사이즈의 휴머노드를 공개 (5’8’’, 154 파운드)
    • Eagle Vision 시스템과 end-to-end large AI model이 통합된 시스템
    • PoC 수준을 넘어 실제 공정에서 활용 가능
  • 🧑🏻‍💻 [ByteDance, Tsinghua] X-Portrait 2: Highly Expressive Portrait Animation
    • static portrait 이미지를 reference video를 참고하여 dynamic, expressive animation으로 변경해주는 모델
    • 현실적인 이미지와 만화 그림체 사이에도 style transfer 가능
  • 📜 [Edinburgh] Mixtures of In-Context Learners
    • demonstrations subset을 expert로 처리하고, 학습 데이터에서 각각에 대한 output distribution을 병합하는 방식, Mixtures of In-Context Learners (MoICL) → 입력에 불필요하게 포함되는 토큰 숫자를 줄여 메모리, 추론 속도 효율을 높일 수 있음
    • 분류 태스크에서 뛰어난 성능, 더 적은 demonstration으로 기존과 유사한 퍼포먼스를 달성하여 파레토 라인을 push
  • 📜 [Google, Peking] TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
    • transformer 아키텍쳐로 scale-up 하기 어려운 이유 중 하나는 linear projection에 필요한 파라미터의 숫자가 고정되어 있기 때문
    • Tokenformer: attention 메커니즘을 input token 사이의 computation 뿐만 아니라 token과 모델 파라미터 간 interaction에도 활용
    • 모든 linear layer를 token-parameter attention layer로 교체!
    • 깃허브 링크 🔗
  • 📜 [Hong Kong, Tsinghua, Peking, Tencent] Large Language Models Can Self-Improve in Long-context Reasoning
    • 현존 LLM은 Long-context Reasoning에 약세를 보이고 이를 해결하는 방법은 human annotation 기반의 합성 데이터를 학습하는 것 → 추가 발전이 어려움
    • 위 문제를 해결하기 위해 SeaLong 제안: 각 질문에 대해 여러 개의 output을 생성하고 Minimum Bayes Risks를 이용한 scoring 후 SFT 또는 preference optimization
    • 이런 방법론들은 결국 cost 문제에 직면하기 마련인데..
  • 🧑🏻‍💻 [INF, M-A-P] OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
    • 탑티어 Code LLM의 성능에 달하는 오픈소스 코드 모델을 공개 (1.5B & 8B)
    • 재현 가능한 960B 토큰의 데이터셋, 4.5M SFT samples, intermediate checkpoints
    • Two-Stage Instruction Fine-Tuning for Theory and Practice
    • Ollama에서 동작 가능. 로컬에서 코드 모델을 사용하고자 하는 수요가 적지 않은 것 같음
  • 🧑🏻‍💻 [NVIDIA] Cosmos Tokenizer: A suite of image and video neural tokenizers
    • SOTA 모델 대비 8배의 압축률을 자랑하는 image & video tokenizer를 공개
    • 토크나이저는 생성형 모델들의 성능에 직접적인 영향을 주는데 이를 평가하기 위한 TokenBench도 존재
  • 📜 [Wuhan Univ.] Adaption-of-Thought: Learning Question Difficulty Improves Large Language Models for Reasoning (EMNLP 2024 Main)
    • simple method로는 LLM이 어려운 질문에 대해 충분히 답변할 수 없음
    • Adaptation-of-Thought (AdoT): question의 난이도를 먼저 평가하고 demonstration set을 조정하여 difficulty-adapted retrieval 전략을 사용
  • 🧑🏻‍💻 [Alibaba] Qwen2.5-Coder Series: Powerful, Diverse, Practical.
    • Qwen2.5-Coder-32B-Instruct는 코딩에서 GPT-4o 이상의 퍼포먼스를 보임
    • 6개의 모델 사이즈를 기준으로 모델을 공개
      • 0.5B / 1.5B / 7B / 14B / 32B 모델은 Apache 2.0, 3B 모델은 Qwen-Research 라이센스를 따름
    • coding assistant & Artifact 두 개의 시나리오에서 사용할 수 있게끔 학습됨
  • 🧑🏻‍💻 [Nous Research] Introducing the Forge Reasoning API Beta and Nous Chat: An Evolution in LLM Inference
    • Hermes 70B 오픈소스 모델 이용하여 higher expression, long-form thinking, individual alignment가 가능하도록 함
    • 📜 모델 테크니컬 리포트 🔗
    • MCTS, CoC, MoA 등의 방법론들을 조합하여 모델 사이즈 증가 없이 퍼포먼스를 향상시킴
  • 📜 [Israel Institue of Technology] Backward Lens: Projecting Language Model Gradients into the Vocabulary Space (EMNLP 2024 Best paper)
    • 최근에는 Transformer 기반의 언어 모델들이 forward 하는 동안의 weight와 hidden state를 모델의 vocab에 project 함으로써 interpretailiby를 높이고자 하는 시도가 많았음
    • gradient matrix가 low-rank linear combination의 forward & backward pass의 입력으로 cast 될 수 있음을 입증 (?)
    • 이러한 gradients를 vocab item에 project하고 LM의 neuron에 새로운 정보를 저장할 수 있도록 하는 방법론을 고안
    • 깃허브 링크 🔗
  • 📜 [Univ. of Tehran] CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt
    • LLM의 성능은 입력 프롬프트의 품질에 크게 영향을 받는다는 문제가 존재
    • text classification 문제를 해결하기 위해 LLM의 code 능력을 활용하는 Code Completion Prompt (CoCoP) 방법론 제시: text classification → code completion
    • CodeLLaMA와 같은 코드 특화 모델을 사용하는 경우, few-shot learning 수준의 퍼포먼스 가능
  • 🧑🏻‍💻 [Together AI] Llama OCR
  • 📜 [Apple] Cut Your Losses in Large-Vocabulary Language Models
    • 점점 더 큰 vocab을 사용하는데, 이는 학습 시 cross entropy loss 계산으로 인해 불필요하게 많은 메모리를 차지하는 이슈가 존재함
      • 이는 각 입력 토큰 & vocab item 쌍마다 logit 행렬을 구축하기 때문이고, 작은 모델이라고 할지라도 LLM의 나머지 구성요소의 수배에 달하는 메모리를 차지하게 됨
    • Cut Cross-Entropy (CCE) 제안: 모든 토큰에 대한 로짓을 전역 메모리에 저장하지 않고도 Cross Entropy 계산 가능
      • 대신 정답에 대한 logit만 계산, 모든 logit에 대한 log sum-exp를 실시간 평가
    • Gemma 2 (2B) 모델의 경우 loss 계산의 메모리 사용량을 24GB → 1MB 로 줄이고, classification head의 전체 학습에서는 28GB → 1GB 로 줄임
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Anthropic] Improve your prompts in the developer console
    • Anthropic Console에서 기존 프롬프트를 개선하는 기능을 추가
    • CoT Reasoning, Example standardization, Example enrichment, Rewriting, Prefill addition 등을 활용
    • workbench에서 multi-shot example을 관리할 수 있음. Claude를 활용하여 synthetic 데이터를 자동적으로 만들 수도 있음
    • (이전에 출시된 기능이긴한데) 최종 생성 결과에 대해 1-5점 점수를 부여하는 평가 기능도 지원함
3rd week
  • 📜 [Harvard, Stanford, MIT, Databricks, CMU] Scaling Laws for Precision
    • low precision training & inference는 언어 모델의 성능에 영향을 크게 미치고 있으나 현존하는 scaling law는 이에 대해서 제대로 설명하고 있지 못함을 지적
    • training in lower precision은 모델의 effective parameter count를 감소시킴으로써 low precision training과 post-train quantization으로부터의 loss를 예측할 수 있도록 함
    • 추론에 대해서는, 모델이 더 많은 데이터로 학습되었을수록 post-training quantization에 의한 성능 하락이 심각
    • 학습에 대해서는, 본인들이 제시하는 scaling law를 통해 다른 precision으로 학습한 결과를 예측할 수 있다고 주장. 이때 큰 모델을 낮은 precision으로 학습하는 것을 권장.
  • 📜 [MIT] The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
    • test-time training (TTT): input data로부터의 로스를 이용하여, 모델 파라미터를 추론 시 임시 업데이트하는 방법론
    • Abstraction and Reasoning Corpus (ARC)를 벤치마크로 사용 (reasoning 포커스)
    • TTT의 중요한 구성 요소: (1) initial finetuning on similar tasks (2) auxiliary task format and augmentations (3) per-instance training
  • 📜 [Peking, Tsinghua] LLaVA-o1: Let Vision Language Models Reason Step-by-Step
    • 현재 Vision-Lanugage Model은 systematic & structured reasoning에서 어려움을 겪고 있음
    • LLaVA-o1, autonomous multistage reasoning
    • 일반적인 CoT prompting과 달리 LLaVA-o1은 summarization, visual interpretation, logical reasoning, conclusion generation 으로 구성된 stage들을 독립적 & 연속적으로 engage
    • LLaVA-o1-100k dataset: visual question answering, structured reasoning annotations
  • 📜 [Shanghai, Fudan] Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions
    • 기존 LLM 벤치마크들은 단순한 QA이고 현실 세계와 같이 복잡한 문제들을 전혀 다루고 있지 못하는 상황
    • Compound Question Synthesis (CQ-Syn)을 도입하여 Compound-QA를 제작. multi sub-question에 집중
    • Factual-Statement, Cause-and-Effect, Hypothetical-Analysis, Comparison-and-Selection, Evaluation-and-Suggestion, 다섯 개의 카테고리를 다룸
  • 📜 [UIUC, IBM] DELIFT: Data Efficient Language model Instruction Fine Tuning
    • single-stage optimization 또는 intensive gradient calculation에만 집중하는 현재 학습 방식이 별로라고 지적
    • DELIFT, 세 단계의 fine-tuning을 통해 data selection을 systematically optimize
    • (1) instruction tuning (2) task-specific fine-tuning (3) continual fine-tuning
    • 현재 데이터 샘플이 현재 모델의 상태에 얼마나 beneficial 한지를 정량화하는 pairwise utility metric 사용
  • 📜 [Univ. of California, Tsinghua, Peking] Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles
    • 언어 모델이 프롬프트를 압축할 때, 압축 스타일(extractive or abstractive)이 결과에 큰 영향을 미침
    • Style-Compress: smaller model이 새로운 태스크에 대해 추가적인 fine-tuning 없이 프롬프트를 압축할 수 있도록 adapt하는 방법론
    • 10개 샘플, 100개 쿼리로 adaptation 한 뒤 compression 적용한 결과가 준수하다는 것을 확인
    • 방법론에 대한 간단한 수식, 파이프라인, 다양한 실험을 통해 논문화.. 프레임워크도 중요한 시대
  • 🧑🏻‍💻 [Microsoft] Orca-AgentInstruct: Agentic flows can be effective synthetic-data generators
    • Agent 모델을 학습할 수 있는 고품질 instruction dataset 공개 (1M pair)
    • 합성 데이터 사용 시 LLM의 학습 속도를 높일 수 있다고 설명
  • 📜 [KAIST] AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
    • 현존 AutoML 시스템은 복잡한 툴들을 셋업하기 위한 전문지식이 필요하고 시간도 많이 걸림
    • AutoML-Agent, data retrieval 부터 model deployment 까지 아우르는 multi-agent framework
    • retrieval-augmented planning strategy를 사용하여 최적의 plan을 만듦
    • 각 plan을 sub-tasks로 쪼개어서 특화된 agent가 이를 처리할 수 있도록 함
  • 🧑🏻‍💻 [AI2] Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models
    • a retrieval-augmented LM & 45M-paper datastore (CS, Bio, Physics, … )
    • retriever and reranker to search the datastore
    • 8B Llama fine-tuned on high-quality synthetic data
    • self-feedback generation pipeline
  • 🧑🏻‍💻 [Mistral AI] Mistral has entered the chat
    • Web search with citations, Canvas for ideation
    • SoTA document and image understanding, powerd bye the new multimodal Pixtral Large
      • SoTA on MathVista, DocVQA, VQAv2
      • 123B multimodal decoder, 1B parameter vision encoder
      • 128K context window
    • Faster responses powered by speculative editing
  • 🧑🏻‍💻 [Perplexity] Shop like a Pro: Perplexity’s new AI-powered shopping assistant
    • 아직 US 한정인 것 같음
    • Buy with Pro: One-click checkout to save time & free shipping
    • Snap to Shop: 물건의 사진과 유사한 상품을 찾아주는 visual search tool
    • Introducing the Perplexity Merchant Program: 상품 판매자들이 가입하는 프로그램으로, 가입 시 상품이 인덱싱 대상이 되어 추천이 더 잘될 수 있음을 언급
  • 📜 [Together AI, Stanford, etc] RedPajama: an Open Dataset for Training Large Language Models
    • 오픈소스 모델이 발전하기 어려운 데이터 관점의 세 가지 문제점을 지적
      • 모델 개발의 투명성 부족 (데이터 정제 포함), 고품질 데이터셋 대량 확보의 어려움, 데이터셋 정제와 분석을 위한 artifact 및 메타 데이터 이용 가능성 낮음
    • 이러한 문제를 해결하기 위해 RedPajama-V1 release, open reproduction of the LLaMA training dataset
    • RedPajama-V2를 함께 release, 정제되지 않은 날것의 text data로 구성된 massive web-only dataset
    • RedPajama 데이터셋은 다양한 도메인에 걸쳐 100T 토큰 이상의 텍스트로 구성됨
  • 📜 [Stony Brook] A Novel Approach to Eliminating Hallucinations in Large Language Model-Assisted Causal Discovery
    • LLM이 causal discovery에서 hallucination을 일으키기 때문에 모델 선정이 중요함
    • 고품질 데이터에 접근 가능할 때 RAG를 사용하여 hallucination을 줄이는 방법을 제안
    • arbiter(결정권자)를 포함한 여러 LLM을 debate에 참여시켜 causal graphs의 edge를 감사함으로써 hallucination을 최소화하는 기법을 제안
    • 프롬프트 엔지니어링을 통해 graph를 만드는 것부터 시작
    • 고품질 데이터 기반의 RAG, 뛰어난 LLM간 debate를 활용한 hallucination 최소화에 대한 연구
  • 📽️ Cerebral Valley: Alexandr Wang Scale AI
    • 사전학습으로 쓸 수 있는 데이터는 사실상 고갈됨.
    • 그러나 post training으로 모델을 발전시킬 수 있는 여지는 무궁무진.
    • 최근 o1 or DeepSeek이 좋은 사례
  • 🧑🏻‍💻 [DeepSeek] DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!
    • o1-preview-level의 AIME & MATH 벤치마크 결과
    • thought process를 real-time으로 투명하게 공개
    • 곧 오픈 소스 모델과 API 공개 예정
    • 링크에서 채팅 가능
  • 🧑🏻‍💻 [H] French startup H Company launches Runner H: a web automation agent with human-like precision
    • 프랑스 스타트업 H가 웹 자동화 agent를 일부 사용자들에게 공개. 현재는 wait list에 이메일을 올려야 함
    • 이것이 첫 product인데 $220M 투자 받은 것으로 알려짐 (한화 약 3,000억원)
    • API beta도 제공
  • 🧑🏻‍💻 [HuggingFaceTB] SmolTalk
    • SmolLM2-Instruct 모델을 만들 때 사용된 1M 개 데이터
    • instruction following 능력을 향상시키면서 다양한 태스크를 잘 수행할 수 있는 데 기여하는 public 데이터셋을 합성하여 공개
  • 🧑🏻‍💻 [Ai2] Tülu 3 opens language model post-training up to more tasks and more people
    • post-training의 발전을 위해 제작된 데이터 & 툴
    • Data, Data Toolkit, Training Code & Infrastructure, Evaluation Framework, Demo, Models & Checkpoints
  • 🧑🏻‍💻 [Apple] AIMv2
    • AIMv2: multimodal autoregressive objective로 사전 학습된 vision model family
    • 대부분의 멀티모달 이해 벤치마크에서 OAI CLIP, SigLIP 등을 outperform
    • open-vocabulary object detection & referring expression comprehension에서 DINOv2를 outperform
    • 📜 Multimodal Autoregressive Pre-training of Large Vision Encoders
  • 📜 [Anthropic] Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations
    • 현재 LLM에 대한 평가는 experiment analysis and planning 에 대한 중요성을 간과하고 이뤄진다는 문제를 지적
    • 통계학 기반의 연구자들에게 언어 모델의 평가 데이터를 어떻게 분석하고 접근해야 하는지 설명하는 연구
    • 평가 데이터 분석, 두 모델 간의 차이 측정, 평가 실험 계획을 위한 공식을 제시
4th week
  • 📜 [Aalborg Univ.] Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective
    • knowledge integration & evaluating hallucination 방법론에 대한 연구
    • LLM의 hallucination 현상을 완화하기 위해 knowledge graph 활용
  • 📜 [Google DeepMind] Learning high-accuracy error decoding for quantum processors (Nature 2024)
    • recurrent, transformer-based neural network that learns to decode the surface code
    • 구글 딥마인드에서 인공지능을 활용한 quantum computer 연구를 수행하고 있음
  • 📜 [National Univ. of Singapore] The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
    • Claude 3.5 Computer Use를 다양한 도메인과 소프트웨어에서 사용해보며 작성한 case study
    • 연구에 활용된 프롬프트나 도메인, 소프트웨어 정보를 다양하게 포함하고 있음
    • 깃허브 링크 🔗
  • 📰 [Amazon] Amazon and Anthropic deepen strategic collaboration
    • 아마존이 Anthropic과의 전략적 협력을 강화하며 $40억 규모의 추가 투자를 진행 (한화 약 5조)
    • Microsoft & OpenAI 의 관계와 유사하다고 이해할 수 있음
    • Anthropic의 다음 세대 모델 개발을 위한 accelerator chip, “Trainium” 개발에 사용될 것
  • 🧑🏻‍💻 [Anthropic] Hume AI creates emotionally intelligent voice interactions with Claude
    • 2M minute이 넘는 AI voice 대화 완료
    • 36%의 유저가 다른 LLM 대신 Claude를 선택
    • 실시간으로 자연스럽게 interact 하는 모델을 Anthropic에서도 적극적으로 개발 중인 상황으로 이해됨
  • 📜 [UPC, ETH] Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
    • sparse autoencoder를 해석툴로 사용함으로써 entity recognition의 핵심 요소를 파악
    • representation space에서 의미있는 방향을 찾아내어 모델이 특정 entity에 대해 인지하고 있는지 확인할 수 있음
    • 챗 모델의 refusal behavior에도 영향을 줄 수 있는 내용
  • 📜 [UCL, Shanghai, Brown, Singapore] Natural Language Reinforcement Learning
    • 기존 RL은 수학적으로 MDP로 의사 결정을 공식화
    • Natural Language Reinforcement Learning (NLRL): 전통적인 MDP를 자연어 기반의representation space로 확장
    • 순수 프롬프팅 or gradient-based training 에 의한 RL-like policy & value 를 개선
    • 깃허브 링크 🔗
  • 📜 [Arizona] From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge
    • LLM-based judgment & assessment에 대한 서베이 논문
    • LLM-as-a-judge를 평가하는 벤치마크 compile
  • 🧑🏻‍💻 [OpenAI] Advancing red teaming with people and AI
  • 📜 [MIT] Model-Based Transfer Learning for Contextual Reinforcement Learning
    • zero-shot transfer에서 영감을 받음: selecting a good set of training tasks
    • Model-Based Transfer Learning (MBTL) 제시: Gaussian process를 사용한 performance set point, linear function of contextual similarity로 모델링되는 performance loss
    • 두 요소를 결합하여 Bayesian Optimization (BO) 프레임워크 내에서 전략적으로 사용
    • 50배 이상 개선된 independent & multi-task training 효율성
  • 📜 [NVIDIA] Star Attention: Efficient LLM Inference over Long Sequences
    • Star Attention: two-phase block-sparse approximation. attention을 여러 개의 호스트에 배치하면서도 communication overhead는 최소화하는 방식을 제안
    • 1단계: blockwise-local attention across hosts → 2단계: query & response tokens 가 이전에 생성 및 캐싱된 토큰에 대해 sequence-global attention
    • global attention을 사용하여 학습된 트랜스포머 기반의 모델들은 약 11배 정도까지의 추론 속도 향상을 기대할 수 있음 (정확도는 95~100% 유지)
  • 📜 [Ai2] OLMo 2: The best fully open language model to date
    • 5T 토큰으로 학습된 7B & 13B 모델
    • Tülu 3에서 얻은 나이스한 레시피를 OLMo 2에도 적용 (근데 둘이 뭐가 다르지 그럼..?)
  • 📜 [Case Western Reserve Univ.] Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models
    • DynSDPB: dynamic SelfD from the previous mini-batch, 마지막으로 생성되었던 logit을 활용하는 방식
    • distillation influence와 temperature value를 dynamic 하게 조절
    • self-correction & self-training 테크닉들과 seamless 하게 integration 가능
  • 📜 [Tsinghua] Training and Evaluating Language Models with Template-based Data Generation
    • Template-based Data Generation (TDG) 제안: GPT-4를 이용하여 parameterized meta-template을 생성
    • TemplateMath Part 1: TemplateGSM, 7백만 개 이상의 고등학교 수학 문제로 구성된 합성 데이터셋
    • 허깅페이스 데이터셋 링크 🔗
  • 🧑🏻‍💻 [Andrew Ng] aisuite
    • 다양한 기업의 LLM을 아주 손쉽게 바꿔 사용할 수 있도록 돕는 파이썬 패키지를 앤드류 응이 배포
    • OpenAI, Anthropic, Azure, Google, AWS, Groq, Mistral, HuggingFace, Ollama 등을 지원
  • 🧑🏻‍💻 [HuggingFace] SmolVLM - small yet mighty Vision Language Model
    • 2B SOTA VLM, SmolVLM 공개: SmolVLM-Base, SmolVLM-Synthetic, SmolVLM Instruct
    • 모든 모델 체크포인트, VLM 데이터셋, 학습 레시피, 도구 등 Apache 2.0 라이센스로 공개
  • 📜 [NVIDIA] Hymba: A Hybrid-head Architecture for Small Language Models
    • transformer attention mechanism과 SSM을 합쳐 hybrid-head parallel 아키텍쳐를 지닌 small language model family, Hymba 공개
    • Attention heads는 high-resolution recall을, SSM heads는 efficient context summarization을 담당
    • 프롬프트 앞에 붙어서 중요한 정보를 저장하는 learnable meta token 도입
    • 허깅페이스에 Base & Instruct 모델 공개
  • 🧑🏻‍💻 [Qwen] QwQ: Reflect Deeply on the Boundaries of the Unknown
    • QwQ: Qwen with Questions, QwQ-32B-Preview
    • Language Mixing and Code-Switching, Recursive Reasoning Loops, Safety and Ethical Considerations 등의 한계점
    • GPQA, AIME, MATH-500, LiveCodeBench 등 추론 능력이 요구되는 벤치마크에서 뛰어난 성능
  • 🧑🏻‍💻 [IBM, Meta] Supercharging Training using float8 and FSDP2
    • FSDP1 bf16 training으로 50% throughput speedup 달성
    • 1.8B 부터 405B 에 이르는 라마 모델에 대한 성능 개선을 확인함 (Llama 3 아키텍쳐 기준)
    • end-to-end float8 training에 대한 가능성을 입증
  • 📜 [Univ. of Luxembourg] LongKey: Keyphrase Extraction for Long Documents
    • Automated keyphrase extraction은 주로 512 토큰 수준의 짧은 문서에 집중
    • LongKey, a novel framework for extracting keyphrases from lengthy documents
    • encoder 기반의 언어 모델, max-pooling embedder 사용

🎃 October

1st week
  • 🧑🏻‍💻 [Google DeepMind] How AlphaChip transformed computer chip design
    • 강화학습을 이용한 컴퓨터 칩 개발 성과를 공개
    • 실제로 6세대 TPU을 몇 개로 구성할지를 이것으로 찾음 (AI for chip design)
  • 🧑🏻‍💻 [Anthropic] Introducing Contextual Retrieval
    • RAG에서 각 chunk에 대해 chunk-specific explanatory context를 prepending 함으로써 RAG의 정확도를 높이는 방식
    • Contextual BM25에 사용되는 index를 생성
    • context를 생성할 때는 사람이 직접할 수 없으므로 AI 모델을 사용 (Claude)
  • 📜 [BAAI] Emu3: Next-Token Prediction is All You Need
    • images, text, vidoe를 discrete space로 tokenize하고, 이를 scratch부터 학습
    • → diffusion 또는 compositional architecture 불필요
  • 📜 [Waterloo, Peking] MIO: A Foundation Model on Multimodal Tokens
    • sppech, text, image, video를 end-to-end로 처리하는데 이것도 역시 multimodal token을 사용 → causal multimodal modeling
    • four-stage training process
      • (1) alignment pre-training (2) interleaved pre-training (3) speech-enhanced pre-training (4) comprehensive supervised fine-tuning
  • 📜 [Microsoft] VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
    • Second-Order Optimization을 사용하여 LLM VQ (Vector Quantization) 문제를 공식화하고, quantization algorithm을 제시
    • Channel-Independent Second-Order Optimization을 사용하여 가중치를 refine
    • 깃허브 링크 🔗
  • 📜 [Apple] MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
    • text-rich image understanding, visual referring and grounding, multi-image reasoning을 잘 처리하기 위한 multimodal large language models (MLLMs) 공개
    • high-quality OCR data & synthetic caption 을 continual pre-training에 활용 → optimized visual instruction-tuning data mixture를 supervised fine-tuning에 활용
    • MoE 아키텍쳐를 포함하여 모델 사이즈는 1B ~ 30B 로 구성
    • video understanding과 mobile UI understanding에 특화된 MM1.5-Video, UI 버전을 공개.
    • 개인적으로 Apple Intelligence를 아주 기대하고 있는 입장에서 모델 성능이 뛰어나서 유용히 사용될 수 있길 간절히 바라는 중 🙏🏻
  • 📜 [Meta, UIUC] Law of the Weakest Link: Cross Capabilities of Large Language Models
    • cross capabilities: real-world task를 처리하는데 필요한 다양한 전문 지식의 intersection
    • 7개의 core individual capabilities를 정의하고 이를 manually 짝지어 taxonomy를 구축
    • 1,400개의 human-annotated prompts로 구성된 CrossEval 벤치마크를 공개. 각 individual & cross capability 마다 100개 prompt로 구성
    • 이에 대한 평가를 수행해봤을 때, 현 LLM은 Law of the Weakest Link를 보인다고 주장
  • 🧑🏻‍💻 [Liquid] Liquid Foundation Models: Our First Series of Generative AI Models
    • 각 모델 사이즈에서 SOTA를 달성한 생성형 언어모델 패밀리 (LFM). 1B, 3B, 40B (MoE, 12B activated) 모델로 구성.
    • 32k token context length, effective across the entire range
    • 오픈 소스 모델은 아님. Liquid Playground, Lambda, Perplexity Labs 등에서 사용 가능
    • 최근 sLLM 에 대한 관심이 뜨거운 것 같은데, 이중에서도 오픈소스가 아닌 모델 패밀리를 공개하는 것은 오히려 흔하지 않은 상황으로 이해됨
  • 📜 [CMU] Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation
    • 로봇 도메인에서 RAG를 활용
    • Embodied-RAG: navigation & language generation의 hierarchical knowledge를 자율적으로 구축할 수 있는 non-parametric memory system
    • 다양한 환경과 query type에 대해 넓은 범위의 spatial & semantic resolution을 처리할 수 있음
  • 📜 [Yale, OpenAI, Princeton] When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1
    • 추론에 특화된 모델 OpenAI o1은 분명 눈에 띄는 성능 향상을 보이지만, 여전히 기존 LLM들과 마찬가지로 모델이 확률 분포에 민감하다는 문제를 극복하지는 못했음
    • embers of augoregression이라는 표현을 사용하고 있는데, 결국 다음 토큰을 반복적으로 예측해나가는 근본적인 특성으로 인해 발생하는 문제점을 지적하고 싶은 것으로 이해함
  • 📜 Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting
    • LLM에 내재된 Relation Extraction 지식을 이용하는 Self-Prompting 프레임워크를 제안
    • 세 단계로 구성된 diversity approach를 사용하여 다양한 합성 데이터를 생성 → 이는 in-context learning sample로 사용
  • 📜 [Mila, Google DeepMind, Microsoft] Not All LLM Reasoners Are Created Equal
    • LLM의 grade-school math (GSM) 문제 풀이 능력을 확인. 이때 두 개의 문제를 상으로 묶고, 첫 번째 문제에 대한 답변을 고치는 것이 두 번째 문제를 풀이하는 것에 주는 영향을 확인하는 연구.
    • compositional pair를 풀어내는 것과 각 문제를 따로 푸는 것의 결과가 독립적이라고 주장
    • 이러한 결과는 더 작고, cost-efficient하며 수학 특화된 모델에서 두드러진다고 함
  • 📜 [Johns Hopkins] RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
    • LLM이 생성하는 reasoning step은 흉내 수준에 가까운 것이라 불완전하다는 점을 지적
    • → unlabeled data로부터 추출한 다양한 종류의 rationale annotations에 대한 사전학습을 기반으로 삼는 process-supervision of reasoning 모델, Rationalyst 제안
    • Pile 데이터셋으로부터 79K 개 rationale을 추출. 여기에 사람 개입은 최소화.
  • 📜 [Apple] Contrastive Localized Language-Image Pre-Training
    • CLIP은 region-level understanding이 요구되는 fine-grained vision representation에 적합하지 않음
    • CLIP에 region-text contrastive loss & module 을 보충하는 CLOC를 제안
    • 이미지 embedding을 region representation으로 쉽게 변환할 수 있는 promptable embedding을 공식화
  • 🧑🏻‍💻 [Google] Gemini 1.5 Flash-8B is now production ready
    • 1.5 Flash 대비 50% 저렴한 가격, 2배 높은 limit, small prompt에 대한 낮은 latency
    • 경량화된 모델이라고 하는 것 같은데 실사용 성능이 어떤지는 커뮤니티 반응 조사 필요
  • 📜 [Mila] Were RNNs All We Needed?
    • 기존 RNN은 BPTT 때문에 느렸는데 LSTM & GRU는 필요 없음. 이를 input, forget, update gate에 대한 hidden state dependencies를 제거함으로써 달성.
    • 전통적인 모델보다 적은 파라미터를 사용하고, 학습 동안 완전히 parallelizalbe한 버전을 제시
2nd week
  • 📜 [Google Research, Apple] LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
    • LLM의 internal representation이 truthfulness에 대해, 알려진 것보다 더 많은 정보를 담고 있다고 주장
    • (1) 정보를 많이 담고 있는 특정 토큰을 이용하여 error detction을 시도했으나 generalize 되지 않음 → multifaceted
    • (2) internal representation은 모델이 일으키는 에러를 줄이는 데 활용될 수 있다는 것을 확인
    • (3) LLM의 internal encoding과 external behavior 사이의 discrepancy를 확인
  • 📜 [Salesforce] Enhance Reasoning by Learning from Mistakes: Peer-Review Knowledge Distillation from Multiple Large Language Models
    • 현존 KD는 one isingle LLM으로부터의 response를 gold rationale로 사용하는 문제
    • Mistake-Aware Peer-Review Distillation (MAPD) 방식 제안
      • teacher 에게 student의 실수를 파악 및 설명하고 customized instruction learning data를 제공하도록 지시
      • simulated peer-review process를 디자인하여 acceptance threshold를 넘기는 rationale을 사용
    • 결국 peer-review라는 게 여러 개의 proprietary 모델을 사용한다는 뜻인데 비용을 n배로 증가시키는 방법론이긴 함
  • 🧑🏻‍💻 feder-cr/Auto_Jobs_Applier_AIHawk
    • AI 봇으로 24시간 내에 1,000개 지원서를 제출하고 50개의 인터뷰를 따낸 것으로 화제
  • 🧑🏻‍💻 mendableai/firecrawl
    • 웹사이트를 LLM이 사용 가능한 마크다운 또는 구조화된 데이터로 변경해주는 API
  • 📜 [Stanford] Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise
    • Tutor Copilot, a novel Human-AI approach. 학생들을 가르치는 Tutor를 보조하는 AI 도구임.
    • under-served communities의 900명 tutor와 1,800명 학생이 참여한 대규모 연구
    • 수학을 공부하는 학생들이 덕분에 유의미한 점수 향상(4%p)을 얻었다고 함
    • tutor마다 연간 $20 밖에 들지 않음
  • 📜 [Hong Kong, Huawei, McGill & MILA] RevisEval: Improving LLM-as-a-Judge via Response-Adapted References
    • LLM-as-a-Judge와 인간 평가 사이의 gap은 평가 과정에서 guided oracles의 부재에 기인한다고 주장
    • LLM이 text revision을 잘한다는 점을 이용하여 response를 adaptive하게 revise하고 이를 reference로 삼아 이어지는 평가에 활용하는 방식을 고안
  • 📜 [Microsoft, Tsinghua] Differential Transformer
    • Transformer는 irrelevant context에 attention을 overallocate하는 문제점이 있다고 지적
    • differential attention mechanism은 두 개의 separate softmax attention map의 차이로 attention score를 계산 → sparse attention pattern을 촉진
    • 특히 long-context modeling, key information retrieval, hallucination mitigation, in-context learning, reduction of activation outlier 등에 탁월
  • 🧑🏻‍💻 [HuggingFace] gradio-app/openai-gradio
    • AI-powered web app을 아주 간단하고 쉽게 만들 수 있도록 돕는 파이썬 패키지
    • API 대신 로컬 모델로 구축할 수 있으면 좋을텐데 아쉽
  • 📜 [Tsinghua, Microsoft] Data Selection via Optimal Control for Language Models
    • Pontryagin’s Maximum Principle (PMP) conditions를 해결함으로써 optimal data에 근사하도록 만드는 프레임워크 PMP-based Data Selection (PDS)
    • CommonCrawl을 대상으로 PDS를 적용했을 때, 사전학습의 효율이 크게 향상된다는 것을 확인
    • Mistral 아키텍쳐를 기반으로 160M, 470M, 1B, 1.7B 모델로 실험
    • 깃허브 링크 🔗
  • 📜 [Microsoft] VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models
    • Second-Order Optimization을 사용하여 LLM VQ 문제를 formulate하고 optimization을 풀어냄으로써 quantization algorithm 디자인을 설계
    • Channel-Independent Second-Order Optimization을 granular VQ에 적용함으로써 가중치를 refine
    • optimization problem을 decomposing함으로써 brief & effective codebook initialization algorithm을 제안
    • residual & outlier quantization을 지원하여 모델 정확도를 향상하고 압축률을 높임
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [HuggingFace] LLM Evaluation Guidebook
  • 📜 [Baidu] Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation (EMNLP 2024)
    • 기존 RAG의 문제점: 1) original query가 retrieval에 부적합할 수 있음 2) 언어 모델의 지식 한계 때문에 inconsistent answer를 생성할 수 있음
    • 이를 해결하기 위해 chain-of-verification (CoV-RAG)를 제안
    • verification module을 RAG에 넣어 scoring, judgement, rewriting에 참여하도록 함
    • internal generation error를 수정하기 위해 QA와 verification에 CoT reasoning을 포함하여 학습 진행
    • 예전에도 CoVE 라는 논문이 Meta에서 hallucination mitigate를 위해 제시되었는데 이와 무엇이 다른지 확인할 필요도 있는 듯함
  • 📜 [HKUST, UIUC] Personalized Visual Instruction Tuning
    • 현 MLLM의 face blindness 문제. personalized dialogue를 수행할 수 없음을 뜻함 → mobile device, domestic robot 등에 MLLM을 적용하기 어려움
    • MLLM이 target individual을 이미지 내에서 식별하고 coherent dialogue를 이어나갈 수 있도록 data curation & training framework를 포함하는 PVIT를 제안 (Personalized Visual Instruction Tuning)
  • 📜 [Microsoft] Scaling Optimal LR Across Token Horizons
    • dataset 사이즈에 따른 하이퍼파라미터 변화에 대한 연구는 아직 없었음
    • optimal LR은 token horizon에 따라 변화하는데, longer training일수록 smaller LR이 필요
    • optimal LR도 scaling law를 따르기 때문에, longer horizon에 대한 optimal LR을 shorter horizon으로부터 예측할 수 있다고 주장
    • 데이터셋, 모델 사이즈를 scale-up 할 때 필수로 참고해야 할 논문이 아닌가..
  • 📜 [KAIST, Washington, LG AI Research] Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition
    • knowledge acquisition & forgetting 관점에서, 모델의 parametric knowledge가 pretraining 동안에 어떻게 변화하는지에 대해 연구
    • knowlege entropy 개념을 도입하여 모델이 engage하는 memory의 범위를 정량적으로 나타냄. 이 값이 높으면 모델이 넓은 범위의 memory source를 포함하는 것이고, 낮으면 반대임
    • pretraining이 진행됨에 따라 knowledge entropy가 낮아지고, 이는 모델의 knowledge acquisition & retain 능력 감소를 의미한다고 주장
  • 📜 [OpenAI] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
    • AI agent가 machine learning engineering을 얼마나 잘하는지를 평가하기 위한 벤치마크를 도입
    • 캐글의 75개 MLE competition을 curate하여, 모델 학습, 데이터셋 준비, 실험 수행 등 다양한 real-world ML engineering skill을 테스트 할 수 있도록 함
    • OpenAI의 o1-preview가 최고라는 걸 보여주는 연구 결과..?
    • 깃허브 링크 🔗
  • 📜 [Hong Kong] Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models
    • 학생을 가르치는 선생의 instructional process를 모방하게 하는 Teaching-Inspired Integrated Framework를 제안
    • reasoning에 필요한 필수적인 개념, 관련 이론, 유사한 문제 등을 LLM이 떠올릴 수 있도록 함
    • 자체적으로 개발한 두 개의 중국어 벤치마크 MathMC, MathToF 공개
    • 이런 방식이 정말 모델의 능력을 극대화하는 것이 맞나? 어떤 상황에서도 적용 가능한 방법은 맞나? 또 모델이 학생을 가르치는 내용의 데이터를 학습하지는 않았을 것 같은데 이것이 working 하는 이유는 뭘까?
  • 🧑🏻‍💻 [Tesla] Robotaxi
    • 테슬라에서 Robotaxi & Robvan을 공개
  • 🧑🏻‍💻 ML Code Challenges
    • 리트코드 스타일의 머신러닝 코드 챌린지 사이트
    • 행렬곱, 공분산행렬, Decision Tree 등등 다양한 개념들이 있어서 코드 연습해보기 좋은 것 같음. 카테고리는 linear algebra, machine learning, deep learning, nlp 등으로 구분됨
  • 📜 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
    • activation vector로 이루어진 mini-batch의 SVD을 계산하여 data-driven 방식으로 LoRA의 가중치를 초기화하는 방식을 제안
    • 이를 Explained Variance Adaptation (EVA)라고 부르는데, 다양한 태스크에 적용해 보았을 때, convergence 속도가 빠르고 평균적으로 높은 스코어를 달성할 수 있었다고 주장함
  • 📜 [CMU] Better Instruction-Following Through Minimum Bayes Risk
    • LLM judge를 supervision에 활용하는 promising 방식 중 하나로 Minimum Bayes Risk (MBR) decoding을 제안
    • 이는 reference-based evaluator를 사용하여 여러 후보 output 중에서 가장 high-quality인 것을 고를 수 있도록 돕는 방식임
  • 📜 [Washington, AI2] Can Language Models Reason about Individualistic Human Values and Preferences? (Yejin Choi)
    • 진정한 의미의 다양성을 커버하기 위해서 individualistic alignment를 제안
    • World Value Survey (WVS)를 변형한 데이터셋 IndieValueCatalog 도입
    • 이 데이터셋으로 학습한 IndieValueReasoner 모델 시리즈를 공개
    • 코드 & 데이터 링크 🔗
3rd week
  • 📜 [Central Florida] Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning
    • random token 대신 meaningful words를 사용하는 prompt & prefix tuning, Semantic Knowledge Tuning (SK-Tuning) 제안
    • 이를 위해 zero-shot으로 프롬프트의 semantic content를 이해할 수 있는 fixed LLM을 활용
    • processed prompt를 입력 텍스트와 통합하여 모델이 특정 태스크에서 더 뛰어난 성능을 발휘할 수 있도록 함
    • text classification & understanding에서 다른 tuning method 대비 더 적은 시간과 비용으로 좋은 성능을 낼 수 있었다고 주장
  • 📜 [Peking, Microsoft] Self-Boosting Large Language Models with Synthetic Preference Data
    • 고품질의 선호 데이터셋을 획득하는 것은 resource-intensive & creativity-demanding process라는 단점이 있음
    • self-prompt generator가 다양한 프롬프트를 생성 → response improver가 response를 점진적으로 개선
    • LLM 스스로 자신의 output에 대한 generative reward를 자율적으로 학습하고, 대규모 annotation 작업을 하지 않을 수 있게 됨
    • AlpacaEval 2.0 & ArenaHard 에 대한 검증을 통해 모델의 instruction following 능력이 크게 향상되었음을 확인
  • 📜 [UNIST] Response Tuning: Aligning Large Language Models without Instruction
    • 적절한 output space를 확립하는 것이 더욱 효과적인 접근 방식이라는 가정 → instruction-conditioning step을 없애고, 오직 response space supervision에만 집중하는 방식
    • 실험 결과에 따르면 response에 대해서만 학습한 본인들의 모델이 instruction-tuned 모델들보다 더 다양한 범위의 instruction을 따를 수 있거나 성능이 좋았다고 언급함
    • training response distribution을 조절함으로써 target behavior를 유도할 수 있었다고 함
  • 🧑🏻‍💻 [OpenAI] openai/swarm
  • 📜 [Alibaba] StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
    • 현재 RAG는 useful infromation이 badly scattered 되어 있어 어려움을 겪는 경우가 많음
    • 사람이 raw information을 다양한 structured knowledge로 convert한다는 점에 착안하여 StructRAG를 제안
    • 즉, 태스크에 적합한 structured format으로 문서를 재구성하는 방식
  • 🧑🏻‍💻 [Mistral AI] Un Ministral, des Ministraux
    • Ministral 3B & 8B 모델 공개
    • 128k context length (vLLM에선 현재 32k). 8B 모델은 sliding-window attention
    • Llama-3.1-8B 보다 뛰어난 성능임을 벤치마크 결과를 통해 제시하고 있음
    • 라이센스는 각각 Mistral Commercial / Commercial & Research License를 따름
  • 📜 [Meta, Berkeley, NYU] Thinking LLMs: General Instruction Following with Thought Generation
    • 추가적인 데이터 없이 LLM이 general instruction following 능력을 갖추는 데 사고하는 능력을 갖추게 해주는 방법론 제시
    • iterative search & optimiation precedure를 통해 possible thought generation space를 탐색. 여기엔 direct supervision이 필요하지 않음
    • 각 instruction에 대한 thought candidate는 judge model이 평가하여 preference optimization에 활용 (DPO)
    • AlpacaEval & Arena-Hard 에서 우수한 성능을 보였음을 강조. 그외의 marketing, health, general knowledge 등의 분야에서도 뛰어나다고 주장.
  • 🧑🏻‍💻 [Zyphra] ZAMBA2-7B
    • Mistral, Gemma, Llama3 시리즈보다 뛰어난 퀄리티와 퍼포먼스를 자랑하는 오픈소스 모델을 공개
    • single shared attention block → two shared attention block
    • 토큰 당 추론 속도를 25% 가량 개선한 inference-efficient 모델
    • 하루 사이에 Mistral 신모델이 출시되었는데 성능 비교가 필요할지도..
  • 🧑🏻‍💻 [NVIDIA] Llama-3.1-Nemotron-70B
    • Llama를 fine-tuning한 NVIDIA의 모델
    • 2024년 10월 기준, Arena Hard와 RewardBench에서 SoTA 달성
    • GPT-4o와 Claude 3.5를 넘는 성능을 달성했다고 함
  • 🧑🏻‍💻 [Rhymes AI] Aria
    • Multi-modal 모델 중 SoTA
    • text, image, video 처리 가능하며 64k 사이즈의 context window 지원
    • 토큰당 3.9B activated parameters 사용
  • 🧑🏻‍💻 [Perplexity] Introducing Internal Knowledge Search and Spaces
    • internal & external data에 동시에 접근 가능한 unified tool (최대 500개 파일)
    • Perplexity Space에서 team based search 가능
  • 📜 [Fudan, CMU, ByteDance] Revealing the Barriers of Language Agents in Planning
    • language agent가 human-level planning에 실패하는 이유는 뭘까? → limited role constraints & diminishing influence of questions
    • Language model을 agent로 사용하여 planning에 활용하는 최근 연구가 많은데, 현재 연구들이 보이는 한계의 원인을 파악한 연구라고 볼 수 있음. 이를 Memory Updating과 연관지어 분석하고 설명한 내용들이 기술되어 있음.
  • 📜 [Tufts University] "Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities
    • possible inference result에 대한 arguments를 생성하고, end model이 생성된 argument를 rank하는 방식. Argument Generation.
    • 추가적인 레이어 없이 zero-shot prompting을 대체할 수 있는 방법론이라고 주장
    • CoT나 Argument Generation은 추론이 필요한 태스크에서 zero-shot 할 때나 유용한 보조적인 수단이라고 설명
    • 엄청 단순하고 흔한 방식 같긴 한데, 이런 테크닉이 한정적인 보조수단이라고 설명한 내용이 인상 깊음
  • 📜 [DeepSeek-AI, Hong Kong, Peking] Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
    • Any to any multimodal autoregressive framework
    • visual encoding을 여러 pathway로 분해(decouple)하되, 처리하는 transformer architecture는 통합된 것을 사용
    • decoupling은 visual encoder의 역할 간 충돌을 완화하면서도 framework의 유연성은 증가시켜줌
    • 깃허브 링크 🔗
  • 📜 [Meta AI, KAUST] Agent-as-a-Judge: Evaluate Agents with Agents
    • 현재 agentic system을 평가할 때는 최종 결과에만 집중하고 중간 과정은 평가하지 않는다는 문제점이 있음
    • LLM-as-a-Judge에 agentic feature를 통합하여 Agent-as-a-Judge를 만들고 이를 code generation에 활용
    • realistic automated AI 개발 태스크로 구성된 새로운 벤치마크 DevAI를 제시
    • LLM-as-a-Judge와 비교했을 때, human evaluation baseline에 준할 정도로 뛰어난 성능
    • 깃허브 링크 🔗
  • 📜 [UC Berkeley, Washington Univ] JudgeBench: A Benchmark for Evaluating LLM-based Judges
    • LLM-based judge를 객관적으로 평가할 수 있는 novel evaluation framework를 제안
    • knowledge, reasoning, math, coding 태스크를 다루는 challenging response pari로 구성
    • 현존하는 difficult dataset을 challenging response pair with preference label로 convert 해주는 pipeline을 포함하고 있음
    • response pair 데이터셋이 아닌 것을 convert 해주는 파이프라인은 활용 가치가 높은 것 같은데, 평가 방식 자체에 대단한 건 없는 것 같음
  • 📜 [KAIST, Naver Cloud AI] How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? (ICLR 2025)
    • Vison-Language adaptation (VL adaptation)은 LLM을 LVLM으로 transform 하는데, original LLM의 inherent safety capabilities를 손상시킬 수 있음
    • training data가 safe 하더라도 VL adaptation 동안 safety degradation이 발생한다고 설명
    • supervised fine-tuning with safety datasets | reinforcement learning from human feedback 등은 risk를 줄일 수 있지만 온전한 해결책이 아니라고 주장
    • 해결책으로 weight merging를 제안하여 safety degradation을 줄이면서도 helpfulness를 유지할 수 있도록 함
    • 요즘 은근 weight merging이 많이 활용되는 것 같은데 이게 퍼포먼스 한계치인가 싶은 생각
  • 📜 [AI2, Washington] Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback
    • preference-based learning의 핵심 네 가지 aspects를 identify
      • preference data, learning algorithm, reward model, policy training prompts
    • 연구 결과에 따르면 넷 다 중요하지만, preference data > learning algorithm > improves reward models > unlabeld prompts for policy trianing 순서로 영향을 준다고 함
    • PPO가 수학에서 2.5%, 일반적인 영역에서 1.2% 우위에 있다고 함
4th week
  • 📜 [Samsung Research] Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs
    • continuous pre-training & instruction fine-tuning 간 관계를 연구
    • Instruction 모델에 많은 양의 새로운 토큰을 CPT 하면 Instruction Following 성능 크게 하락
    • Base 모델은 많은 양의 새로운 토큰을 CPT 해도 안정적인 성능 유지 가능
  • 📜 [OpenAI] First-Person Fairness in Chatbots
    • AI 모델이 사람의 ‘이름’에 대해 편향을 갖고 있는지에 대한 OpenAI 연구
    • 1% 미만 수준으로 영향을 받는다는 요약글을 본 적이 있는 것 같은데, 사용자수를 고려한다면 훨씬 더 엄밀한 safety 정책이나 방법론이 필요하다는 생각이 듦
  • 📜 [Anthropic, Scale AI, NYU, UC Berkeley] Looking Inward: Language Models Can Learn About Themselves by Introspection
    • introspection이란 학습 데이터에 포함되어 있거나 이로부터 얻지 못하는 지식을 습득하는 것으로 정의
    • LLM이 가상의 시나리오에 대한 본인의 행동 특성을 예측하도록 fine-tuning
    • introspect 할 수 있는 모델 M1이 본인의 output 예측을 더 잘할 것이고, 이것이 곧 M2 보다 뛰어난 성능을 지닌다는 방증으로 이해하는 것 같음
    • 요즘 성찰, self-correct 등 모델의 inherent ability를 최대한 이끌어내고자 하는 연구가 꽤 많은 것 같은데, 약간 결과론적인 해석 위주인 것 같아서 아쉽게 느껴짐
  • 📜 [British Columbia] Supervised Chain of Thought
    • solution process를 두 파트로 분할: prompt space & answer space
    • one-for-all prompting (think step by step) 대신 task-specific supervision이 필요하다고 주장
    • reasoning path를 학습하는 방식은 이미 제시된 바 있는데 데이터셋을 잘 구축한 건가 싶은 인상
  • 📜 [Hong Kong, Washington, HKUST, Microsoft] SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
    • attention sparsity는 predefined 되는 것이 아니라 learned 되어야 한다고 주장
    • learnable gate를 두어 attention map에서 중요한 block를 adaptive 하게 선택하는 mechanism 제안
    • → accuracy & speed 균형
    • 이를 위한 customized Flash Attention 구현
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Microsoft] Open-sourced BitNet
    • 1-Bit LLM 논문의 코드를 오픈소스로 공개하여 LLM을 local device에서 돌리기 쉬워짐
  • 🧑🏻‍💻 [Meta FAIR] Sharing new research, models, and datasets from Meta FAIR
    • SAM 2.1을 공개. image & video 업데이트
    • Meta Spirit LM: An open source language model for seamless speech and text integration
      • cross modality generation을 위해 단어 단위의 text & audio 데이터를 interleaving 하는 방식 사용
    • Layer Skip: Enhancing large language model performance with accelerated generation times
      • 추론 시 일부 layer만을 사용, 이후 verification & correction layer 통과
      • Llama 3, Llama 2, Code Llama 등은 early exit이 가능하도록 학습
  • 📜 [Texas, Pittsburgh, Princeton, CMU] CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy
    • professional psychotherapy를 assist 하는 LLM의 potential에 대한 조사 연구
    • CBT-Bench를 구성하는 세 단계의 태스크 (Cognitive Behavior Therapy)
      1. Basic CBT knowledge acquisition
      2. Cognitive model understanding
      3. Therapeutic response generation
  • 📜 [Shanghai AI Lab] CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
    • 최초의 open-source all-in-one judge LLM, CompassJudger-1
    • unitary scoring & two-model comparison 가능 / 특정 형식을 따라 평가 가능 / critiques 생성 가능 / 일반적인 LLM 태스크 수행 가능
    • various subjective evaluation task와 topic을 커버하는 JudgerBench 구축
    • 모델 및 코드 공개 커뮤니티 링크 🔗
  • 📜 [CMU] Causality for Large Language Models
    • correlation-driven paradigm을 넘어서 more reliable & ethically aligned AI system 필요
    • 어떻게 causality가 언어 모델의 각 학습 단계에서 어떻게 영향을 줄 수 있는지 연구하고 앞으로의 연구 방향성을 제시. 프롬프트 기반의 연구들의 한계를 극복하겠다는 취지.
    • 말은 거창한데 abstract만 보고서는 무슨 소리인지 모르겠음
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Anthropic] Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
    • Computer use API는 화면을 읽고 커서를 이동 및 클릭, 타이핑을 수행할 수 있음
    • 자연어를 컴퓨터 명령어로 변환하는 기능을 포함
    • 기존 대비 훨씬 강력한 성능의 모델 업데이트를 공개함
  • 📜 [Alibaba] Aligning Large Language Models via Self-Steering Optimization (ICLR 2025)
    • iterative training 동안 predefined principle 기반의 고품질 preference signal을 자동적으로 생성하는 알고리즘, Self-Steering Optimization (SSO) 제안
    • chosen & rejected response 간의 consistent gap을 보장하면서도 현재 policy 모델의 learning capacity에 적합한 학습이 진행될 수 있도록 함
    • SSO로 생성된 선호 데이터셋은 reward 모델의 성능을 높인다는 결과도 함께 제시
    • 깃허브 링크 🔗
  • 📜 [Yonsei, SNU] Large Language Models Still Exhibit Bias in Long Text
    • essay-style prompt LLM의 bias를 평가하는 프레임워크 Long Text Fairness Test (LTF-Test) 제안
    • 14개 토픽, 10개 demographic axes, 11,948개 샘플로 구성
    • 연구에 따르면 특정 demographic group이 선호됨 & excessive sensitivity가 확인됨
    • 이를 완화하기 위해 biased prompt를 neutral response와 짝짓는 fine-tuning approach 제안
  • 🧑🏻‍💻 [IBM] IBM Introduces Granite 3.0: High Performing AI Models Built for Business
    • OpenLLM 리더보드에서 Llama 3.1 8B 모델을 능가
    • larger 모델 대비 3~23x 저렴한 비용
    • MoE 아키텍쳐를 이용하여 1B 이하의 사이즈로 enterprise 태스크 수행
    • 128K 윈도우 사이즈 지원 (예정)
  • 📜 [NVIDIA] HelpSteer2-Preference: Complementing Ratings with Preferences
    • Bradley-Terry training을 위한 preference annotation을 공개하여 현존하는 ratings (designed for Regression style training)을 보완할 수 있도록 함
    • 두 방식을 head-to-head comparison → Bradley-Terry and Regression reward modeling 제안
    • Llama-3.1-70B-Instruct 모델을 튜닝한 것이 RewardBench에서 94.1점을 달성
    • 데이터셋 링크 🔗 모델 링크 🔗
  • 🧑🏻‍💻 [Cohere] Introducing Multimodal Embed 3: Powering AI Search
    • text, image에 대한 통합 embedding space 지원
    • 나쁘지 않은 수준의 성능으로 100개 이상의 언어를 지원한다고 함 (검증할 길이 없어 아쉽)
    • text, image가 독립적으로 clustering 되는 문제가 해결되어 mixed-modality search에서 CLIP 대비 뛰어난 성능을 보여줌
  • 📜 [OpenAI] Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models
    • diffusion 모델과 Consistency 모델의 이전 parameterization을 통합하는 프레임워크를 제안하여 instability의 root cause를 식별
    • only two sampling step만으로도 뛰어난 성능을 거둘 수 있었음
    • OpenAI 블로그 & 데모 링크 🔗
  • 🧑🏻‍💻 [Google DeepMind] SynthID Identifying AI-generated content with SynthID
    • AI가 생성한 content에 watermark를 부여하거나 식별
    • image, audio, text, video 지원
    • 이중에서도 특히 audio, text를 어떻게 구분할 수 있다는 건지 전혀 이해가 안됨..
  • 🧑🏻‍💻 [Meta] Introducing quantized Llama models with increased speed and a reduced memory footprint
    • 모바일 기기에서 돌릴 수 있을 정도로 작으면서 뛰어난 first lightweight quantized Llama models 공개
    • Llama 3.2 모델에 Quantization-Aware Training with LoRA adaptors (accuracy) & SpinQuant (portability), 두 가지 방법론을 적용
  • 📜 [Washington, Google Cloud, DeepMind] Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence
    • LLM experts pool & utility function으로 시작하는 collaborative search algorithm
    • 모델 간의 best-found checkpoint를 기반으로 다양한 LLM expert가 집단적으로 weight space를 옮기고 최적화를 수행
    • 이러한 방식인 Model Swarms는 tuning-free model adaptation, 데이터의 수는 200개 미만 필요
5th week
  • 🧑🏻‍💻 [Stanford] Co-STORM Get a Wikipedia-like report on your topic with AI
    • 이 논문의 preview를 공개. 현재는 무료로 사용 가능 (NAACL 2024 Main)
    • 위키피디아 형식으로 작성된 내용들은 모두 PDF로 다운로드 가능
    • 글에 존재하는 모든 인용문에 대한 원본 출처 확인 가능
  • 📜 [Michigan, Amazon] A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration
    • CoT의 earlier step이 integrated 된다면 transformer가 더 나은 error correction 능력과 accurate prediction을 얻게 된다고 주장
    • 추론 단계에서 demonstration example이 corrupted 될 때, Coherent CoT를 사용하는 transformer의 sensitivity를 조사
    • → final outcome에 비해 intermediate reasoning step에서 더 sensitive하게 반응
  • 📜 [Shanghai] Agentic Information Retrieval
    • LLM이 기존 Information Retrieval 패러다임을 변화시켰다고 주장
    • 기존에는 사전에 정의된 candidate item을 filtering 하는 것에 수십년째 의존하고 있던 상황
    • Agentic IR을 제시하며 세 종류의 application과 현재의 문제점에 대해 논의
  • 📜 [Michigan, Alibaba] Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning
    • LLM이 질문을 더 잘 이해하고 problem-solving process를 가이드 할 수 있는 novel structure-oriented analysis method 도입
    • 왜 이런 방식이 실제 reasoning에 유용한지를 probabilistic graphical model을 통해 입증
    • multi-agent reasoning system, Structure-oriented Autonomous Reasoning Agents (SARA) 제안
  • 🧑🏻‍💻 [Stability.AI] Introducing Stable Diffusion 3.5
    • 8B 사이즈 모델로 1 메가픽셀 해상도의 이미지를 처리 (prompt adherence 굿)
    • Stable Diffusion 3.5 수준의 성능을 낼 수 있는 distilled version의 turbo 모델도 공개
    • transformer block에 Query-Key Normalization 테크닉 적용
  • 📜 [Huawei] Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning
    • 추가적인 finetuning이 필요하지 않은 방법론, Step Guidance REasoning을 제안
    • LLM은 small reasoning step을 reflect 하고, 이를 inference stage에 포함시킴으로써 첫 스텝을 다음으로 잘 이어나갈 수 있게 됨
    • 간단히 살펴봤을 땐 inference를 여러 번 하게 되는 것 같은데.. 근본적인 해결책은 아닌 것 같음
  • 📜 [Google DeepMind, Boston] Measuring memorization through probabilistic discoverable extraction
    • generated sample 내에서 target sequence를 추출할 확률을 정량화할 수 있는 probabilistic relaxation을 도입
    • 이를 통해 모델이 기억(암기)하고 있는 정보에 대해 파악할 수 있다고 주장
    • 이러한 연구는 학습에 사용된 민감한 정보 등이 유출되는 것을 방지하기 위함인데, 그럼 외운 것 없이 순수한 추론, 이해, 언어 능력만으로 여러 태스크를 처리하는 것이 궁극적인 goal이 될지 궁금함
  • 🧑🏻‍💻 [GitHub] Bringing developer choice to Copilot with Anthropic’s Claude 3.5 Sonnet, Google’s Gemini 1.5 Pro, and OpenAI’s o1-preview
    • Copilot을 타사의 모델들을 포함한 multi-model AI coding assistant로 전환함
    • VS Code, GitHub.com, Apple Xcode와의 직접적인 통합
    • VS Code 내에 GitHub Spark 공개 (Cursor의 Composer와 유사한 기능)
    • Cursor에 비해 한 발자국씩 대응이 늦는 것 같음. 모델 종류의 다양성이나 Spark 전부 다.

🙇🏻 September

1st week
  • 📜 [Meta] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
    • discrete & continuous 데이터에 대한 multi-modal model 학습 레시피를 공개
    • 언어 모델의 loss function(next token prediction)을 diffusion과 결합하여 mixed-modality sequence에 대해 single transformer를 학습
    • 7B 사이즈의 모델을 scratch부터 학습하고 2T multi-modal token을 사용, scaling law 확인.
    • 텍스트로 이뤄진 시퀀스 중간에 이미지 패치의 vector가 & 태그 사이에 삽입
  • 📜 [Stanford] Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment
    • LLM이 선호 데이터셋에 align 되는 과정은 꽤나 복잡하고 기대 이하의 결과로 이어지는 경우가 많음
    • → (1) 선호 데이터는 response가 contrastive 할 때 더 나은 learning singnal을 제공
    • → (2) alignment objective는 모델 학습에서 control over를 구체화 할 때 더욱 효과적 (?)
    • Contrastive Learning from AI Revisions (CLAIR): more contrastive preference pairs & Anchored Preference Optimization (APO)
  • 📜 [Google DeepMind, UCLA, Milla] Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
    • 합성데이터 생성에서 stronger but expensive (SE) vs. weaker but cheaper (WC) 비교
    • 세 개의 주요 메트릭: coverage, diversity, false positive rate → WC가 더 높은 coverage, diversity, but 더 높은 false positive 비율
    • weak-to-strong improvement setup: weaker LM이 stronger LM에게 reasoning을 가르침
    • WC-generated data로 학습한 모델이 SE-generated data로 학습한 모델보다 뛰어난 성능
  • 📜 [University of Virginia] Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
    • SC 관련해서 비용을 최소화하고자 하는 연구는 있었으나 reasoning path의 quality에 집중하는 것은 부족했다고 지적
    • → output answer와 CoT로부터의 reasoning path를 동시에 고려하여 생성되는 sample의 숫자를 dynamic하게 조절하는 early framework, Reasoning-Aware Self-Consistency (RASC)
    • 생성되는 샘플들에 confidence score를 부여하고 일정 기준이 충족되면 stop → weighted majority voting
  • 🧑🏻‍💻 [LMSYS] Lmsys launches style control for Chatbot Arena to help separating the impact of style from substance in LLM rankings
    • style control: 길이가 긴 or 포맷이 잘 갖춰진 답변을 생성하는 모델은 어떤 것인가?
  • 📜 [DP Technology] SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
    • LLM 과학 분야에서의 문제점 (1) 과학적 지식 부족 (2) 과학 특화 태스크에 친숙하지 x
    • continual pre-training (CPT) & supervised fine-tuning (SFT) 통합한 hybrid strategy 제안 → 과학 도메인 지식을 불어넣고 domain specific 태스크에서 instruction following 능력을 향상
    • 이를 위해 (1) 고품질의 CPT corpora 필요 (2) 다양한 SFT instructions 생성 필요
    • → PDF text extraction, parsing content error correction, quality filtering, synthetic instruction creation을 아우르는 pipeline으로 해결 시도
  • 📜 [Independent Researcher] CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation
    • LoRA에 CUR matrix decomposition을 접목한 CURLoRA 제시
    • → catastrophic forgetting during continual learning 완화 & trainable parameters 감소
    • 변형된 CUR decomposition: 1) 열과 행 선택에 역확률 (inverted probability) 2) U 행렬 0으로 초기화 3) U 행렬만 fine-tuning
  • 📜 [Tsinghua University] Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
    • real-time conversation이 가능하려면 audio modality로 입력을 받는 중에 생성을 할 수 있어야 함
    • audio-based end-to-end conversational model, Mini-Omni (real-time speech를 위한 최초의 오픈소스 모델)
    • text-instructed speech generation, batch-parallel strategies 사용
    • speech output을 만들 수 있도록 학습하는 데 사용 가능한 데이터셋 VoiceAssistant-400K
    • 깃허브 링크 🔗
  • 📜 [Peking University, ByteDance] MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models
    • 현재 오픈소스 LLM들이 수학적 추론을 할 때 시각적인 정보(geometric diagrmas, charts, function plots)를 활용하지 않고 있음을 지적
    • → 네 단계로 학습: 1) vison-language alignment 2) visual instruction-tuning 3) math instruction-tuning 4) process-supervised reinforcement learning → MultiMath-7B
    • K-12 수준의 image caption과 step-wise solution을 포함하는 MultiMath-300K 데이터셋 공개
    • 깃허브 링크 🔗
  • 📜 [NVIDIA] In Defense of RAG in the Era of Long-Context Language Models
    • LLM이 더 긴 입력을 처리할 수 있게 되면서 RAG의 매력도 감소
    • 그러나 극단적으로 길이가 긴 입력을 처리하는 것은 결국 관련성 높은 정보에 집중하는 것을 방해함으로써 성능 저하로 이어짐
    • → order-preserve retrieval-augmented generation (OP-RAG) 제안
    • retrieved chunk가 증가할수록 답변 퀄리티는 초반에 상성하다가 결국 감소하여 U-shaped curve ⇒ OP-RAG가 이득을 볼 수 있는 지점이 분명히 존재한다
  • 📜 [AI2, Washington, Princeton] OLMoE: Open Mixture-of-Experts Language Models
    • 7B의 파라미터를 갖고 있지만 input 토큰 당 1B 파라미터만 사용하는 OLMoE-1B-7B 공개
    • 5T 토큰으로 사전학습한 모델이며 instruct 버전도 함께 공개
    • Llama2-13B-Chat, DeepSeekMoE-16B 보다도 뛰어난 성능이라고 주장
    • 모델 가중치, 학습 데이터, 코드, 로그 등을 오픈소스로 공개. 역시 AI2..
    • 허깅페이스, 깃허브 링크 🔗
  • 📜 [Tsinghua] LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
    • long-context LLM이 sentence-level의 fine-grained citation을 포함한 답변을 생성할 수 있도록 하는 연구, Long-Context Question Answering (LCQA)
    • LCQA를 평가하기 위한 벤치마크 LongBench-Cite 제안
    • CoF (Coarse to Fine) 파이프라인 제안
    • LongCite-45k 데이터셋을 사용하여 LongCite-8B, 9B를 학습
    • 깃허브 링크 🔗
  • 📜 [Autodesk AI Research] MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
    • MMLU-Pro를 바탕으로 LLM의 shortcut learning과 higher-order reasoning을 평가하기 위한 벤치마크 MMLU-Pro+를 제안
    • 복잡한 추론을 하도록 세팅이 되어 있어서 단순한 problem-solving 전략과 다르다고 주장
    • 모델이 실제 추론을 하지 않고 표면적인 패턴을 학습하여 정답을 맞히는 shortcut learning 현상을 최소화하는 것이 본 연구의 목표. shortcut learning의 정도를 평가할 수 있는 메트릭도 제시.
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [SSI] lya Sutskever’s startup, Safe Superintelligence, raises $1 BILLION
    • OpenAI의 전 공동 창업자 Ilya Sutskever가 창업한 스타트업 Superintelligence가 1조원 규모의 투자를 받음
  • 📜 [Tsinghua University] Attention Heads of Large Language Models: A Survey
    • LLM의 internal reasoning process를 개선할 수 있도록 attention head의 interpretability와 underlying mechanism에 집중
    • 사람의 생각을 네 단계의 프레임워크로 distill: 1) Knowledge Recalling, 2) In-Context Identification, 3) Latent Reasoning, 4) Expression Preparation
    • 깃허브 링크 🔗
  • 📜 [HSE University] Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
    • 입력 이미지의 전체적인 구조와 변경되지 않아야 하는 local region을 잘 보존할 수 있도록 하는 sef-guidance technique를 탐구
    • source 이미지의 local & global 구조를 저장할 수 있도록 하는 layout-preserving energy function을 도입
    • → fast & high-quality editing mechanism
    • 깃허브 링크 🔗
  • 📜 [Tsinghua University] Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
    • Noise RAG Benchmark 구축
    • 언어학적인 관점에서 7개의 노이즈를 정의
    • → beneficial noise vs harmful noise로 구분
2nd week
  • 🧑🏻‍💻 [HuggingFace, IBM] Improving Hugging Face Training Efficiency Through Packing with Flash Attention
    • Flash Attention 2를 사용하여 instruction tuning을 진행할 때, padding 없이 packing 해주는 방법에 대한 허깅페이스 블로그 글
    • 최대 2배까지 높은 throughput으로 이어진다고 함
  • 📜 [Google DeepMind] Building Math Agents with Multi-Turn Iterative Preference Learning
    • 현재 direct preference learning 알고리즘은 single-turn chat task에 집중하고 있음. 즉, multi-turn 또는 external tool integration에 관심이 없음
    • → multi-turn direct preference learning framework를 제안: multi-turn DPO & KPO
  • 📜 [University of Toronto, Vector Institute] Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries
    • LLM은 conventional quantitative 벤치마크로 그 능력을 평가하기 어려움
    • → 특정 스킬이나 토픽에 대한 모델의 behavior를 요약한 natrual language summaries, Report Cards를 제안
    • specificity, faithfulness, interpretability, 세 기준을 근거로 Report Cards를 평가
    • human supervision 없이 Report Cards를 생성하는 iterative algorithm 제안
  • 🧑🏻‍💻 [Replit] Replit Agent
    • 자연어 프롬프트로부터 어플리케이션을 만들어 낼 수 있는 AI agent 기능을 공개
    • cursor의 composer와 유사한 기능으로 보임
    • long context, code understanding & generation에 많은 기업들이 집중하는 이유
  • 🧑🏻‍💻 [Google] Illuminate
    • research paper를 short podcast로 변환해주는 툴을 공개
    • 현재 waitlist에 등록해야 하는 실험적 기능임
  • 📜 [Beijing University] How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data
    • 어떤 데이터를 진정한 high-quality code instruction data로 볼 수 있을까?
    • instruction complexity, response quality, instruction diversity 세 개의 기준으로 데이터를 선별
    • 선별된 데이터로 Llama-3를 학습하여 XCoder 모델을 공개
  • 📜 [Mila, Princeton, Cambridge, Google DeepMind] Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving (5월 논문)
    • Meta cognitive knowledge: 자신의 thinking & reasoning process에 대한 직관적인 지식
    • → 본 연구 결과에 따르면 LLM이 meta cognitive knowledge를 지닌 것으로 판단된다고 함
    • 수학 문제에 합리적인 skill label을 붙일 수 있다는 것이 확인되었음. 그 결과는 사람도 해석 가능.
  • 📜 [Oxford] Detecting hallucinations in large language models using semantic entropy (Nature)
    • 인간이 정답을 알지 못하는 unseen questions에 대해도 LLM이 working 해야 함
    • → entropy-based uncertainty estimator를 도입하여 LLM이 hallucinations-confabulations-를 탐지할 수 있도록 함
    • 데이터셋이나 task에 대한 사전 지식 없이도 적용 가능한 방법론임을 설명
  • 📜 [Singapore University] Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models
    • long-context language models(LM)을 Needle-in-a-Haystack (NIAH) 로 평가하는 것은 부적절
    • → 생성된 long text sequences 내의 특정 사건들을 식별할 수 있는 능력을 평가하는 Spinning the Golden Thread (SGT) 제안
    • LM이 특정 사건과 constraint를 포함하여 long-form text를 생성하도록 지시
  • 🧑🏻‍💻 [Huawei] Huawei unveils $2,800 tri-fold phone just hours after iPhone 16 launch.
    • 화웨이에서 3단으로 접히는 스마트폰을 세계 최초로 출시. 약 377만원부터 시작
  • 📜 [University of Toronto] Seek and Solve Reasoning for Table Question Answering
    • Seek-and-Solve 파이프라인: LLM으로 하여금 관련 있는 정보를 먼저 찾고 답변을 생성하도록 지시
    • reasoning은 two-stage로 구성, CoT paths는 Seek-and-Solve CoT로 통합 (SS-CoT)
  • 📜 [Stanford University] Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
    • 100명의 expert NLP researcher와 LLM ideation agent 를 비교 → blind review
    • LLM-generated idea가 사람이 만든 것보다 더 novel 하다는 결과 (p<0.05). 단, feasibility는 조금 더 낮은 것으로 확인됨.
    • 얼마 전 Sakana에서 공개한 AI Scientist도 그렇고.. 확실히 연구도 AI로 하는 시대가 오게 될 듯
  • 📜 [Apple] Theory, Analysis, and Best Practices for Sigmoid Self-Attention
    • 기존 softmax attention과 비교하여, sigmoid attention이 universal function approximator일 뿐만 아니라 regularity를 개선해줄 수 있다는 측면에서 좋다고 주장
    • H100에서 FlashAttention2 위에서 돌아가는 Flash-Sigmoid 도입 → 추론 속도 17% 향상
    • 이런 것들은 실제 사용 경험을 많이 접해보고 적용하면 좋을 것 같음
  • 📜 [UIUC, CMU] Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance
    • 기존 DocQA는 personalized x, 최신 정보 업데이트 용이성 x 라는 점을 한계로 지적
    • → thought-retrieval을 기반으로 researcher를 돕는 self-evoling, efficient LLM 시스템 제안
    • 69.92%의 시간을 절약할 수 있다고 주장
    • 허깅페이스 스페이스 링크 🔗
  • 🧑🏻‍💻 [Mistral] pixtral-12b-240910
    • text-based Nemo 12B에 400M vision adapter를 합친 모델
    • 1024 x 1024 이미지까지 처리 가능하며 16 x 16 단위로 쪼갠다고 알려짐
    • 131,072개의 unique tokens
    • 업데이트 되지 않는 모델 체크포인트를 허깅페이스에 공개
    • 허깅페이스 링크 🔗
  • 🧑🏻‍💻 [SambaNova] SambaNova Launches The World's Fastest AI Platform
    • Llama 3.1 405B 모델이 full precision으로 초당 132 토큰 출력 가능 / 70B는 570토큰
    • 오픈소스는 아니고 fine-tuning과 inference 솔루션을 판매하는 기업의 제품으로 보임
  • 📜 [United We Care] LLMs Will Always Hallucinate, and We Need to Live With This
    • hallucination이 LLM의 수학적, 논리적 구조로부터 필연적으로 발생함을 입증
    • → 따라서 아키텍쳐 개선, 데이터셋 증가, fact-checking 등으로 hallucination을 제거한다는 것은 불가능하다고 주장
  • 📜 [KAIST] Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation
    • Think-Aloud (TA) 방법을 사용해서 checklist 기반의 텍스트 평가를 생성하도록 하는 human expertise & LLM 통합 프레임워크, InteractEval 제안
    • 사람은 Coherence & Fluency와 같은 internal quality와 관련된 작업에 능하고, LLM은 Consistency & Relavance와 같은 external alignment에 능하다는 분석 결과
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Intel, DeepLearning.AI] Multimodal RAG: Chat with Videos
    • short course에 Multimodal RAG와 관련된 강의를 인텔에서 제작
  • 🧑🏻‍💻 [Google] DataGemma: Using real-world data to address AI hallucinations
    • Data Commons로부터의 real-world 통계 데이터를 통합함으로써 hallucination을 줄인 DataGemma를 공개
    • RIG(Retrieval-Interleaved Generation) & RAG 사용
  • 📜 [Tsinghua] General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
    • 580M 사이즈의 OCR-2.0 방식의 General OCR Theory (GOT) 모델을 공개
    • scene, document, whole-page 스타일 등 다양한 이미지 양식을 커버할 수 있고 “글자” 단위로 처리하는 OCR tasks도 다룰 수 있음
    • 좌표나 색상 등으로 설명되는 region-level recognition도 가능
  • 🧑🏻‍💻 [FutureHouse] PaperQA2
    • PDF 또는 텍스트 파일 대상으로 RAG를 수행하여 논문을 쉽게 읽을 수 있도록 도와주는 패키지
    • QA, 요약, contradiction detection 등 가능
    • pip install paper-qa
    • 논문 링크 🔗
  • 🧑🏻‍💻 [OpenAI] Introducing OpenAI o1-preview
    • 더 오래 생각하고 복잡한 문제를 해결하는 새로운 AI 모델 시리즈 'OpenAI o1' 출시
    • 과학, 코딩, 수학 분야에서 뛰어난 성능 보임 (예: IMO 예선 83% 정답률, Codeforces 89번째 백분위)
    • o1-preview와 o1-mini 두 모델 제공, ChatGPT Plus/Team 사용자와 일부 API 개발자들에게 접근 권한 부여
    • 향상된 안전 기능 적용 (jailbreaking 테스트에서 GPT-4o 대비 큰 성능 향상)
    • OpenAI o1 System Card 🔗
  • 📜 [University of Mannheim] Fine-tuning Large Language Models for Entity Matching
    • 기존: entity matching을 주로 prompt engineering & in-context learning 으로 해결
    • → LLM fine-tuning: 1) LLM이 생성한 학습용 설명 데이터셋 2) LLM을 이용한 학습 데이터 선별
    • sLLM (Llama 3.1 8B) > LLM (GPT-4o Mini), in-domain > cross-domain, structured data 효과적
  • 📜 [Meta, Oxford, UCL] Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
    • human annotation 없이 LLM에게 새로운 스킬을 가르쳐주는 방법, Source2Synth 제안
    • custom data source 입력 → real-wrold source에 근거한 intermediate reasoning step을 포함하여 합성 데이터를 생성
    • answerability에 따라 low-quality generation를 버릴 수 있어 데이터셋 퀄리티가 개선됨
    • multi-hop question answering (MHQA), tool usage in tabular question answering (TQA) 에 효과적
  • 📜 [Alibaba] mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
    • OCR-free Document Understanding을 지원하는 현 MLLMs는 한 개 문서 이미지에 대해 너무 많은 visual tokens를 생성해야 해서 과도한 GPU 사용과 추론 속도 저하라는 문제점이 존재
    • → low-resolution global visual feature를 근거로 high-resolution document 이미지를 324개 토큰으로 압축하는 모듈, High-resolution DocCompressor 제안
    • Three-stage training framework: 1) Single-image Pretraining 2) Multi-image Continue-pretraining 3) Multi-task Finetuning
3rd week
  • 🧑🏻‍💻 [Stability.AI] Stable Diffusion 3 Medium Fine-tuning Tutorial
    • SD3M 모델의 파인튜닝 튜토리얼을 공개
    • 기존 SD1.5, SDXL 모델과 SD3M 파인튜닝의 차이점 설명
  • 📜 [CMU, MIT] Agent Workflow Memory
    • 현재 방법론들은 복잡한 action trajectories를 갖는 long-horizon task를 잘 처리하지 못함
    • Agent Workflow Memory (AWM): 자주 반복되는 routine을 induce 하는 방법론으로, agent에게 workflow를 선택적으로 제공
    • offline & online 시나리오 둘 다 적용 가능, Mind2Web & WebArena 벤치마크로 실험
    • 깃허브 링크 🔗
  • 📜 [KAIST] Stable Language Model Pre-training by Reducing Embedding Variability
    • Token Embedding Variability (TEV) 를 사전 학습 동안의 모델 안정성을 평가하는 proxy로 사용
    • Multi-head Low-Rank Attention (MLRA), output embedding의 exponential growth를 제안함으로써 instability를 완화
    • 연구실에서는 아직도 GPT-2, Llama-2 등을 사용할 수밖에 없는 실정..
  • 📜 [Peking, Microsoft] CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
    • 현재 언어 모델들은 task-specific reasoning에만 집중하고 generalization capabilities에는 관심이 없음
    • → Monte Carlo Tree Search (MCTS)를 이용하여 multi-step reasoning tasks 내의 다양한 planning step을 탐색하는 Critical Planning Step Learning (CPL) 제안
    • Step-APO (Step-level Adavantage Preference Optimization): MCTS를 통해 획득 가능한 step-level 선호쌍을 DPO와 통합
  • 📜 [Wisconsin-Madison] Your Weak LLM is Secretly a Strong Teacher for Alignment
    • 현존 alignment framework는 human effort 또는 높은 computational cost를 필요로 함
    • → weak LLM을 이용해서 human feedback만 사용할 때에 준하는, 혹은 그 이상의 효율을 뽑아내고자 함
    • 본 연구에서는 OPT-125M 모델을 사용 → 굉장히 작은 사이즈의 모델로도 좋은 결과를 얻었다고 볼 수 있음
  • 📜 [Chinese Academy of Sciecnes] StruEdit: Structured Outputs Enable the Fast and Accurate Knowledge Editing for Large Language Models
    • 최신 정보를 모델에 주입하는 것은 굉장히 어려운 태스크여서 아직 잘 풀리지 않음. 그 원인 중 하나로 unstructured natural language outputs를 들고 있음
    • → StruEdit 제안: reasoning triplet으로 structured output을 반환하도록 프롬프팅 → outdated knowledge를 제거하고 효율적으로 up-to-date 정보로 채워 넣음
  • 🧑🏻‍💻 [Microsoft] Microsoft 365 Copilot Wave 2: Pages, Python in Excel, and agents
    • Copilot 페이지 내에서 프롬프트 기반으로 검색 & 결과 정리한 것을 다른 사람들과 쉽게 공유할 수 있음
    • 이런 통합 시스템을 구현하겠다고 작년부터 구글과 경쟁하고 있는 것 같은데 실효성은 아직 잘 모르겠음
  • 🧑🏻‍💻 [Waymo] Waymo’s Self-driving cars beat humans in safety
    • 웨이모피셜) AI가 자율주행한 것이 사람보다 사고율이 낮았다. 사고 원인도 AI 시스템보다 외부에 많았다고 X에 공개
  • 🧑🏻‍💻 [Google] NotebookLM now lets you listen to a conversation about your sources
    • 두 명의 AI 호스트가 주제에 대해 이야기를 나누는 형식으로 만들어주는 서비스
    • 구글 Illuminate에 이것이 사용된 것으로 보이고 Gemini 1.5의 멀티모달 능력을 이용
    • NotebookLM 링크 🔗
  • 📜 [Huawei] Large Language Models are Good Multi-lingual Learners : When LLMs Meet Cross-lingual Prompts
    • long & complex contexts를 잘 이해할 수 있도록 Multi-Lingual Prompt, MLPrompt 제안
    • LLM이 다른 언어로는 따르기 어려워하는 error-prone rule을 자동으로 번역
    • structured data 생성에 대한 auto-checking 메커니즘을 포함하는 프레임워크를 공개
      • 이 부분은 확인할 필요가 있을 듯
  • 🧑🏻‍💻 [Mistral AI] AI in abundance
    • 실험과 프로토타입을 위한 무료 티어를 제공
    • Mistral AI 모델들의 비용을 크게 줄임: Nemo 50%, Small & Codestral 80%, Large 33, …
    • le Chat에서 사용 가능한 Pixtral 12B 모델을 Apache 2.0 라이센스로 공개
  • 🧑🏻‍💻 [Qwen] Qwen2.5: A Party of Foundation Models!
    • Qwen2를 업데이트하여 Qwen2.5, -Coder, -Math를 공개. 사이즈가 굉장히 다양함.
    • 3B & 72B 를 제외한 모델들은 Apache 2.0 라이센스
    • 18T 토큰으로 학습하여 coding, mathematics, instruction following, long texts 등 다양한 영역에서 강점을 보임 → 128K 윈도우 사이즈 지원, 8K 토큰까지 생성 가능, 29개 언어 지원
  • 📜 [ETRI] A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
    • 기존 quantized LLM 평가는 perplexity와 같은 메트릭 또는 구식 데이터셋으로 평가가 이뤄짐
    • → GPTQ, AWQ, SmoothQuant, FP8 등 다양한 방식, 7B ~ 405B 사이즈 모델. 13개 벤치마크에서 평가
    • (1) FP 16 LLM은 hallucination detection & instruction following 제외하고 괜찮
    • (2) quantization 방법, 모델 사이즈, bit-width 등에 따라 결과가 천차만별
    • (3) task 난이도가 accuracy degradation에 그렇게 큰 영향을 주지는 않음
    • (4) MT-Bench 평가 방식은 뛰어난 최근 LLM들의 독보적인 능력이 발휘되기에 적합하지는 않음
  • 🧑🏻‍💻 [HuggingFace] Fine-tuning LLMs to 1.58bit: extreme quantization made easy
    • Microsoft Research에서 제안한 BitNet 구현체에 대한 설명
    • 허깅페이스에서 1.58b 로 학습하고 추론하는 방법에 대한 블로그 글을 게시
  • 🗞️ [Snap] Introducing New Spectacles and Snap OS: The Next Frontier of AR Glasses
    • Snap에서 5세대 spectacle을 공개. Sanp OS로 동작하는 AR glasses임
    • OpenAI와의 파트너십을 발표하여 화제
  • 📜 [ETH] Breaking reCAPTCHAv2
    • 구글의 reCAPTCHAv2 시스템을 머신러닝으로 풀기 위한 연구
    • YOLO 모델을 사용하여 100% 확률로 통과할 수 있었으며, 통과에 필요한 문제 수가 사람과 다르지 않다는 결론
    • 깃허브 링크 🔗
  • 📜 [Texas at Austin, Johns Hopkins, Princeton] To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
    • 100개 논문에 대한 메타 데이터 분석, 14개 모델로 20개 데이터셋을 평가
    • → CoT는 math, logic 과 같이 논리적인 태스크에서는 효과적이지만 그 외에는 그닥 영향이 없음
    • MMLU에서 질문이나 모델의 답변에 ‘=’ 기호를 포함하는 태스크를 제외하고서는 CoT를 쓰나 안쓰나 비슷
    • 따라서 CoT는 상황에 맞게 선별적으로 사용하는 것이 좋을 것 같다는 결론
  • 📜 [Texas at San Antonio] Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent
    • 기존 multi-agent reasoning은 추론 경로를 얕게 탐색한다는 문제, ToT는 여전히 잘못된 path가 최종 결론으로 이어질 수 있다는 문제점을 포함하고 있음
    • Thought Validator agent를 동반한 ToT 기반의 Reasoner agent를 제시
  • 📜 [Qwen] Qwen2.5-Coder Technical Report
    • CodeQwen1.5의 후속작 Qwen2.5-Coder-1.5B, 7B의 테크니컬 리포트
    • 데이터 정제, 합성 데이터 생성, 데이터 혼합 등. 5.5T 토큰으로 학습. 큰 사이즈 모델보다도 뛰어난 성능을 보고.
    • 허깅 페이스, 깃허브 링크 🔗
  • 🧑🏻‍💻 [GitHub] Try out OpenAI o1 in GitHub Copilot and Models
    • OpenAI의 o1-preview & o1-mini를 GitHub Copilot 으로 사용 가능. wait list에 등록해야 함.
    • Copilot Chat 중간에 o1-preview, o1-mini, GPT-4o 모델 간 변경 가능
  • 🧑🏻‍💻 Open-source FinePersonas datasets dropped in Huggingface with 21 million rows and 142GB size
    • 21M개의 페르소나 데이터. 특정 페르소나에 대한 설명이 어떻게 라벨링 되어야 하는지 나타나있음.
    • 어떤 프롬프트를 사용했는지도 함께 공개
  • 📜 [Microsoft] Re-Reading Improves Reasoning in Large Language Models
    • 질문을 input으로 다시 Re-Reading 하는 방법, RE2를 제안
    • 질문을 두 번 처리함으로써 과정에 대한 이해도를 높인다는 것이 컨셉
    • 단방향의 decoder-only LLM에서 “bidirectional” encoding을 사용하여 global information 활용
  • 📜 [Huawei, McGill, Mila] Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data
    • 그래프 기반의 synthetic reasoning data를 training signal로 사용하여 LLM의 추론 능력을 향상시키고자 시도
    • 기존의 다른 능력들을 손상시키지 않으면서도 추론 능력을 향상시킬 수 있었다고 주장
    • 깃허브 링크 🔗
  • 📜 [Google DeepMind] Training Language Models to Self-Correct via Reinforcement Learning
    • multi-turn online reinforcement learning (RL) approach, SCoRE 개발
    • 전적으로 self-generated data를 이용하여 LLM의 self-correction 능력을 발전
    • offline model-generated correction traces (이를테면 SFT)는 self-correction behavior를 instill 하기엔 부족하다고 주장
4th week

🔥 August

1st week
2nd week
  • 📜 [Sheffiled, Liverpool] Adaptive Retrieval-Augmented Generation for Conversational Systems
    • 대화 시스템 내에서 retrieval이 항상 필요한 것인지 확인하는 방법을 제안 → 한 turn마다 human judgement
    • 발화할 때 과거의 내용을 돌아보게 만들어야하지 않을까 생각했던 것과 유사한 접근이라고 느껴짐
  • 📜 [Sapienza NLP Group] ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget (ACL 2024)
    • Entity Linking (EL) 과 Relation Extraction (RE) 를 위한 Retriever-Reader 아키텍쳐
    • Retriever 모듈은 entity, relation 후보를 탐색 → Reader 모듈은 실제 관계를 파악
  • 📜 [Meta] Self-Taught Evaluators
    • human annotation 없이 synthetic 데이터로만 evaluator를 개선하는 방법론을 제안
    • unlabeled instruction → contrasting model outputs → reasoning traces & final judgements
    • 최근 가장 주목을 받은 논문이 합성 데이터로 인한 모델 붕괴인데.. 아이러니하다.
  • 📜 [ByteDance] Language Model Can Listen While Speaking
    • real-time interaction을 위한 full duplex modeling (FDM)을 interactive speech language models (iSLM)에 적용
    • listening-while-speaking language model (LSLM) 이라는 모델 디자인을 공개
    • early fusion, middle fusion, late fusion 셋 중에서 middel fusion의 balance가 가장 훌륭
    • OpenAI에서 공개했던 자연스러운 실시간 대화와 관련된 연구로 보임
  • 🧑🏻‍💻 [LG AI Research] EXAONE 3.0 7.8B Instruction Tuned Language Model
    • technical report 링크 🔗
    • 영어와 한국어로 학습된 bilingual generative model
    • 8T curated tokens pre-trained & SFT & DPO
  • 🧑🏻‍💻 [NVIDIA] Advancing Humanoid Robot Development
    • 애플 비전프로와 로봇의 상호작용
    • 사용자의 움직임을 비전프로로 인식하고 로봇이 이를 실시간으로 모방하는 형태
  • 🧑🏻‍💻 [OpenAI] Introducing Structured Outputs in the API
    • API 모델이 JSON 형태의 출력을 보장하도록 하는 기능을 지원
    • “strict”: true 로 설정 시 100% 확률로 structured output 반환
    • function calling 또는 response_format 파라미터로 기능 지원
  • 📜 [OpenGVLab, Tsinghua] MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
    • Large Vision-Language Models (LVLMs)을 다양한 multi-image task에서 평가하기 위한 벤치마크 MMIU를 공개
    • 7개 종류의 multi-image 관계, 52개 태스크, 77K 이미지, 11K multiple-choice questions로 구성
  • 🧑🏻‍💻 [DeepLearning.AI] AI Python for Beginners
    • 데이터 조작, 분석, 시각화 등에 관한 AI tool 사용 방법을 파이썬으로 학습
    • 비지니스, 마케팅과 같은 실제 산업 분야에 파이썬을 활용하는 방법 안내
    • AI 어시스턴트를 이용한 코드 디버깅, 개념 설명 등을 시도
  • 📜 [Google DeepMind] Achieving Human Level Competitive Robot Table Tennis
    • 로봇 연구 분야에서 로봇이 real world task를 인간 수준으로 처리할 수 있게 되는 것은 아주 상징적
    • 탁구 칠 수 있는 로봇을 개발했는데 특징은 다음과 같음 (아마추어 수준으로 판단)
      • hierarchical and modular policy architecture
      • zero-shot sim-to-real을 가능하게 만드는 기술
      • unseen opponents에 대한 real time adapation (wow)
    • 데모 영상 링크 🔗
  • 🧑🏻‍💻 [HuggingFaceM4] Idefics3-8B-Llama3
  • 🧑🏻‍💻 [NVIDIA] Build a Digital Human
    • NVIDIA의 제품에 대해 잘 알고 있는 가상 디지털 인간 James
    • 웹 사이트에서 음성을 통해 실시간 interaction 가능
  • 📜 [Jilin University] Bias-Aware Low-Rank Adaptation: Mitigating Catastrophic Inheritance of Large Language Models
    • PEFT는 사전학습 데이터로부터의 bias propagation 이슈가 존재
    • → 세 개의 regularization terms: (1) consistency regularizer (2) diversity regularizer (3) singular vector decomposition regularizer
    • 깃허브 링크 🔗
  • 📜 [Appier AI Research] Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models
    • JSON, XML 등의 표준화된 형식으로 데이터를 뽑아내는 structured generation은 real-world application에서 활발하게 사용중
    • 특정 포맷을 강제할수록, 그리고 포맷이 엄격할수록 모델의 추론 능력이 하락하는 경향성을 관측
3rd week
  • 📜 [Google DeepMind] Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
    • Sparse autoencoders (SAEs)는 neural network의 latent representation을 interpretable feature로 decomposition 하는 방법을 비지도 학습으로 배움
    • Gemma 2 2B의 전체 layer, 9B의 일부 layer에서 학습, 27B에서 선택된 JumpReLU SAEs를 공개 → 비교를 위해 instruction-tuned version을 함께 공개
  • 📜 [Liverpool] Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models
    • LLM이 답변과 reasoning을 생성하는 순서가 consistency에 영향을 준다는 것을 발견 (answer → reasoning vs. reasoning → answer)
    • → LLM consistency를 평가하기 위한 새로운 벤치마크 제안, 직관적인 프롬프트 전략 제안
    • Andrej Karpathy가 언급한 Jagged Intelligence와 관련된 문제로 볼 수 있음
  • 📜 [Sakana AI] The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
    • automatic scientific discovery를 위한 LLM 기반 프레임워크, The AI Scientist
    • open-ended 방식으로 아이디어 발전 과정을 반복하며 knowledge archive를 키워 나감
    • diffusion modeling, transformer-based language modeling, learning dynamics, 세 분야에서 실험하는 동안 15$ 이하의 비용이 발생
    • 깃허브 링크 🔗
    • 반드시 확인해봐야 할 내용인 것 같음. 현재 엄청난 주목을 받고 있는 논문.
  • 📜 [Microsoft, Harvard] Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
    • small language models (SLMs)의 추론 성능을 크게 향상 시켜주는 self-play mutual reasoning 방법론, rStart 제안
      1. target SLM이 Monte Carlo Tree Search (CMTS)를 human-like reasoning actions로 증강
      1. another SLM이 target SLM이 만들어내는 trajectory를 discriminate
    • → 양측 동의를 받은 것들은 mutual consistent로 구분
  • 🧑🏻‍💻 [Anthropic] Prompt caching with Claude
    • API call 에서 자주 사용되는 컨텍스트를 캐싱하는 기능을 제공
    • 배경 지식, 예시 등을 설명하는데 사용되었던 컨텍스트가 캐싱됨으로써 비용을 90%까지 줄이고 latency도 85%까지 감소할 수 있음.
    • 현재 public beta로 Claude 3.5 Sonnet & Haiku 에서 사용 가능
  • 🧑🏻‍💻 [xAI] Grok-2 Beta Release
    • Grok-1.5 대비 대화, 코딩, 추론 능력이 크게 향상된 Grok-2를 공개
    • (xAI피셜..) Claude 3.5 Sonnet & GPT-4-Turbo 이상의 성능
    • Grok-2 & Grok-2 mini 를 X로 선공개. 추후 Grok에서 API 지원
  • 📜 [ACL 2024 Best Paper Award]
  • 🧑🏻‍💻 [Google] Gemini Live
    • Gemini와 자연스러운 대화 기능을 지원. 중간에 끼어들거나 주제를 바꾸는 것도 가능.
    • Gemini Advanced 구독자 대상
  • 🧑🏻‍💻 [Qwen] Introducing Qwen2-Math
    • Qwen2 베이스의 수학 특화 모델 Qwen2-Math, Qwen2-Math-Instruct-1.5B/7B/72B 공개
    • closed-source models (gpt-4o) 보다도 뛰어난 수학적, 추론 능력을 지녔다고 주장
    • 깃허브 링크 🔗 허깅페이스 링크 🔗
  • 📜 [Google DeepMind] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
    • 기존보다 훨씬 많은 시간을 추론에 할애할 수 있도록 하면 얼마나 잘할까?
    • (1) dense, process-based verifier reward models에 대한 searching
    • (2) 추론 시 프롬프트가 주어지면 response에 대해 adaptive 하게 모델 분포를 업데이트
    • → ‘사전학습 vs 추론’ 시간의 trade-off에 관한 연구: 작은 모델들도 뛰어난 성능 달성
  • 🧑🏻‍💻 [DeepLearning.AI] Improving accuracy of LLM applications
    • prompting, self-reflection, fine-tuning 등을 통해 모델의 신뢰도와 정확성을 향상
    • Llama 3-8b 모델을 학습하여 text-to-SQL 어플리케이션을 개발
  • 📜 [Oxford] Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
    • medical QA 분야에서 커리큘럼 기반의 학습 방식과 그렇지 않은 학습 방식의 결과를 여러 모델에 대해 실험하여 그 효과를 확인
    • curriculum learning의 난이도를 사람이 정하는 것보다 모델이 정하는 것이 더 효율적이었다는 결과
  • 🧑🏻‍💻 MetaGPT: The Multi-Agent Framework
    • one line requirement를 입력으로 받아 user stories, competitive analysis, requirements 등을 output으로 반환
    • 아주 간단하게 소프트웨어 제작 가능
  • 🧑🏻‍💻 [NVIDIA] How to Prune and Distill Llama-3.1 8B to an NVIDIA Llama-3.1-Minitron 4B Model
    • pruning과 knowledge distillation을 통해 Llama-3.1 8B 모델을 4B으로 줄임
    • from scratch 학습에 비해 16% 높은 MMLU 스코어 달성. 모델 학습에 들어가는 토큰의 수도 40배 가까이 줄일 수 있었음
    • 허깅페이스 링크 🔗
4th week
5th week
  • 📜 [The Fin AI] Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
    • Financial LLMs, Open-FinLLMs를 공개
    • 52B 토큰으로 학습된 FinLLaMA 모델에 573K financial instruction으로 fine-tuning 한 FinLLaMA-instruct
    • financial data 타입을 다루는 1.43M 개의 image-text instruction으로 학습된 FinLLaVA를 공개
  • 📜 [Singapore] Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution
    • (1) 여러 종류의 tabular data structure와 자료형을 categorization
    • (2) 모델 학습과 평가를 위한 핵심 데이터셋에 대한 리뷰
    • (3) data processing methods, popular architectures 등 모델링 테크닉 요약
    • 외에도 잠재적인 어려움이나 미래 발전 방향에 대해 논한 survery 페이퍼
  • 📜 [British Columbia] Automated Design of Agentic Systems (ADAS)
    • 새로운 블록을 만들거나 이를 새로운 방식으로 결합하는 등 강의 개발을 모델이 자동적으로 수행할 수 있도록 하는 agentic system design을 만드는 것을 목표로 삼고 있음
    • Meta Agent Search: 이전의 발견들을 쌓아두어 점점 커지는 archive를 바탕으로 계속해서 새로운 agent를 프로그래밍 해나갈 수 있다는 아이디어
    • 깃허브 링크 🔗
  • 📜 [Kyoto University] Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?
    • English-centric 모델 Llama2를 대상으로 latent language에 대한 실험을 수행
    • 일본어로 continued pretraining 한 Swallow, 영어와 일본어를 균형 있게 학습한 LLM-jp
    • → 영어만이 latent language인 Llama2와 달리, Swallow와 LLM-jp는 영어와 일본어 둘 다 laten language라고 볼 수 있음
  • 📜 [HuggingFace] Building and better understanding vision-language models: insights and future directions
    • vision-language models (VLMs)를 만드는 각 방법론들의 장/단점, 그리고 주요 챌린지 등을 보고
    • 더 직관적인 파이프라인으로 학습하여 전작 Idenfic2-8B를 능가하는 Idefics3-8B를 학습 데이터와 함께 공개
  • 🧑🏻‍💻 [Priceton-NLP] Llama-3-8B-ProLong
    • 기존 Llama-3의 성능을 저해하지 않으면서도 긴 컨텍스트를 이해할 수 있도록 학습한 모델
    • Instruct 버전도 존재하며 현재는 64K 버전만 공개되어 있음. 향후 512K 버전도 공개 예정
    • 1저자가 SimCSE 저자임
  • 📜 [Institute of Automation] K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
    • 기존의 아레나 방식은 사람들의 선호 파악을 위해 지나치게 많은 투표 결과를 받아야 한다는 문제점 존재
    • → 이미지와 비디오는 텍스트에 비해 더 인지적 직관성이 높다는 특징을 이용 (이미지 아레나임)
    • K개의 모델이 한 번에 경쟁에 참여 ⇒ ELO 알고리즘 대비 16.3배 빠른 수렴 속도
    • 허깅페이스 스페이스 링크 🔗
  • 📜 [University of Edinburgh] Explicit Inductive Inference using Large Language Models
    • 언어 모델에게, Premise가 Hypothesis를 entail 하는지를 묻는 것과, 반대로 Hypothesis의 conditional truthfulness를 Premise로 검증하는 것은 다른 문제 ⇒ bias 존재 ⇒ inductive inference에 활용
    • LLM을 이용하여 premise를 attested alternative 세트로 변경 & 이를 기반으로 hypothesis derive ⇒ 둘을 이용하여 NLI task 성능 향상
  • 🧑🏻‍💻 [Anthropic] Anthropic publishes Claude’s system prompts
    • Anthropic의 공식 문서에 새로운 시스템 프롬프트를 추가
    • 이는 Claude.ai 와 모바일 앱에 영향을 주지만 API와는 무관함
  • 🧑🏻‍💻 [Nous Research] DisTro
    • GPT 간 분산처리를 최적화하여 기존 대비 1,000x - 10,000x 속도 향상을 이뤄냈다고 보고
    • 깃허브에 A Preliminary Report on DisTrO를 공개
  • 🧑🏻‍💻 [DeepLearning.AI] Large Multimodal Model Prompting with Gemini
    • 구글의 Gemini를 이용하여 멀티모달 모델 사용 방법을 학습
    • function calling과 API 통합 관련 내용까지 포함
  • 🧑🏻‍💻 [Google] Google just released three new experimental Gemini 1.5 models
    • Gemini 1.5 Flash-8B, Gemini 1.5 Pro (better coding & complex prompts), improved Gemini 1.5 Flash model
    • Google AI Studio에서 사용 가능
  • 📜 [Waseem Inc.] Writing in the Margins: Better Inference Pattern for Long Context Retrieval
    • retrieval-oriented task에서 long input sequence 처리를 최적화한 inference pattern, Writing in the Margins (WiM) 공개
    • key-value cache의 chuncked prefill을 이용하여 segment-wise inference 실시 → 모델을 특정 task로 가이드하는 중간 정보, “margin”을 생성하고 분류하는 데 도움이 됨
    • 깃허브 링크 🔗에 사용 예시를 함께 공개
    • 허깅페이스 Daily Papers에서 100개 이상의 upvote를 받을 정도로 인기가 많은 연구 결과
  • 📜 [Google Research] Diffusion Models Are Real-Time Game Engines
    • 복잡한 환경과 이동 경로에 대해 실시간 상호작용이 가능한 최초의 neural model 기반의 게임 ㅔㅇ진, GameNGen을 공개
    • single TPU에서 초당 20 프레임으로 DOOM에서 simualte 가능
    • (1) RL-agent가 게임 플레이를 학습 (2) diffusion 모델이 이전 프레임과 행동들을 기반으로 다음 프레임을 생성하도록 학습
    • 깃허브 링크 🔗
  • 🧑🏻‍💻 [Qwen] Qwen2-VL: To See the World More Clearly
    • 향상된 video understanding 능력을 갖춘 Apache 2.0 라이센스의 오픈소스 모델
    • 2B, 7B, 72B 중에서 72B는 API로만 이용 가능
    • 72B 모델은 GPT-4o나 Claude 3.5-Sonnet을 넘어설 정도의 visual understanding benchmark score를 보여주었음
  • 📜 [Google DeepMind] Generative Verifiers: Reward Modeling as Next-Token Prediction
    • LLM이 생성한 N개의 후보 solution들의 순위를 매겨주는 verifier를 사용하는 방식인 Best-of-N 방식은 LLM의 텍스트 생성 능력을 활용하고 있지는 않음
    • → next-token prediction objective로 verifier를 학습, 즉 verification과 solution generation을 joint training
    • 기존 instruction tuning, CoT reasoning 등과 seamlessly 통합 가능
  • 📜 [Tsinghua] LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
    • LLM이 긴 text를 생성하지 못하는 이유는 SFT 단계에서의 학습 데이터 때문
    • → 엄청나게 긴 생성 태스크를 여러 개의 subtask로 쪼개어 LLM이 20,000 단어 이상의 텍스트를 생성할 수 있도록 만드는 agent-based pipeline 제시
    • LongWriter-6K: 답변의 길이가 2K - 32K 에 이르는 텍스트로 구성된 데이터셋
    • 장문의 텍스트 생성 능력이 있는지를 검증하는 벤치마크 LongBench-Write 또한 공개
    • 깃허브 링크 🔗
  • 📜 [Alibaba, Meta] WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
    • audio 도메인에서 SOTA를 달성한 acoustic codec model, WavTokenizer
    • extreme compression, improved subjective quality를 특징으로 내세움
    • 깃허브 링크 🔗

☔️ July

1st week
2nd week
3rd week
  • 📜 [Georgia Tech, NVIDIA] RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
    • instruction fine-tuning framework RankRAG
    • LLM을 contest ranking & answer generatino, 두 가지에 fine-tuning 하는 방식
    • 이런식으로 학습된 모델은 ranking 관련 데이터를 조금만 학습하더라도 기존 모델들보다 월등한 성능을 보임
  • 📜 [MIT, University of Washington] Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
    • contextual hallucination은 기존에 제공되었던 context와 새롭게 생성된 token들에 대한 attention weight에 차이가 있을 것이라는 가정
    • 따라서 각각에 대한 attention weight의 비율을 입력 feature로 받는 hallucination detection model을 제안
    • lookback ration-based detector, Lookback Lens
  • 📜 [Microsoft] SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
    • 기존에는 cell 주소, 값, 포맷을 통합하는 vanilla serialization → 입력 토큰수를 크게 차지
    • structural-anchor-based compression, inverse index translation, data-format-aware aggregation, 세 요소로 구성된 SheetCompressor를 도입
    • 이를 바탕으로 Chain of Spreadsheet를 제안
  • 🧑🏻‍💻 [DeepLearning.AI, MongoDB] Prompt Compression and Query Optimization
    • large-scale RAG를 위한 수업
    • Prefiltering and Postfiltering, Projection, Reranking, Prompt Compression
  • 📜 [Qwen, Alibaba] Qwen2 Technical Report
    • 0.5B - 72B(MoE) 모델들을 다양한 벤치마크 테스트한 결과를 공개
    • multilingual 능력이 뛰어나 30개 언어를 커버할 수 있다고 강조
    • 허깅페이스ModelScope에서만 이용 가능. 깃허브에서 예시 코드 참조 가능.
  • 🧑🏻‍💻 [Mistral AI] MathΣtral & Codestral Mamba
    • Mathstral: 수학적 추론 능력이 탁월한 7B 모델. 32K context window. Apache 2.0
    • Codestral Mamba: 코드 생성에 특화된 Mamba2 language model. Apache 2.0
  • 🧑🏻‍💻 [LlamaIndex] GraphRAG Implementation with LlamaIndex
    • Graphs + RAG, 마이크로소프트의 GraphRAG를 구현한 노트북을 공개
  • 🧑🏻‍💻 [AnthropicAI] Doubled max output token limit for Claude 3.5 Sonnet
    • 최대 출력 토큰을 4096에서 8192로 증가
    • API, console 둘 다 적용 가능
  • 📜 [University of Toronto] Toward Adaptive Reasoning in Large Language Models with Thought Rollback (ICML 2024 Poster)
    • hallucination을 최소화하기 위해 생각을 ‘rolling back’해야 한다고 주장.
    • LLM이 thought에 대해 error 분석을 수행. trial-and-error를 프롬프트에 포함.
    • 평소에 내가 고민하던 ‘인간이 사고하는 방식’을 고민한 것처럼 보이는 연구 결과
  • 🧑🏻‍💻 [HuggingFace] SmolLM - blazingly fast and remarkably powerful
    • sLLM계 SoTA collection을 공개. 135M, 360M, 1.7B 파라미터 사이즈.
    • Cosmopedia v2, FineWeb-Edu, Stack-Edu-Python을 정제한 Smollm-Corpus 데이터셋 (링크 🔗)
  • 🧑🏻‍💻 [OpenAI] Prover-Verifier Games improve legibility of language model outputs
    • paper link 🔗
    • 정확도만을 높이기 위해 학습된 모델은 legibility가 떨어진다는 문제가 존재
    • Prover-Verifier Game 이론을 바탕으로 하는 학습 알고리즘을 제안
    • small verifier는 solution이 옳았는지를 구분하도록 학습, helpful prover는 verifier에게 인정받을 정확한 답변을 생성하도록 학습, sneaky prover는 verifier를 속일 수 있는 부정확한 solution을 생성하도록 학습.
  • 🧑🏻‍💻 [Upstage, DeepLearning.AI] Pretraining LLMs
    • LLM의 사전학습, 데이터 준비 등과 관련된 수업
    • Meta의 Llama 모델을 비롯한 다양한 모델들을 원하는대로 학습하는 방식 등
    • 학습 비용을 크게 줄여주는 Depth Upscaling에 대한 소개
    • 업스테이지 강의가 여기에 나오다니.. 엄청 신기..
  • 🧑🏻‍💻 [Andrej Karpathy] new AI Education company called Eureka labs
    • AI teaching assistants가 특징
    • LLM101n 라는 첫 번째 컨텐츠 (링크 🔗)
    • 홈페이지 링크 🔗, 깃허브 링크 🔗
  • 🧑🏻‍💻 [Apple] DCLM-7B-8k
    • DCLM Baseline 데이터셋으로 학습된 7B 언어 모델
    • systematic data curation 관련해서 이점이 있음
    • Common Crawl로부터 추출한 240T 토큰의 corpus, DCLM (논문 링크 🔗)
  • 🧑🏻‍💻 [OpenAI] GPT-4o mini: advancing cost-efficient intelligence
    • GPT-3.5 Turbo의 자리를 대신하는 GPT-4o mini 모델. 가격도 60% 이상 저렴.
    • reasoning, math & coding, multimodal reasoning 특화되어 있음
    • LMSYS의 리더보드에서 GPT-4 보다도 선택을 많이 받으며 MMLU도 82점을 기록
  • 🧑🏻‍💻 [Mistral AI] Mistral NeMo
    • NVIDIA와 합작하여 만든 12B 모델. Mistral 7B 사용 환경에서 그대로 활용 가능
    • 128k context window를 지원
    • sentence 기반의 tokenizer → Tiktoken 기반의 tokenizer, Tekken을 사용
  • 📜 [Tsinghua, CMU] SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning
    • LLM을 특정한 태스크에 대해 finetuning 하기 위해서는 task-specific 데이터가 필요
    • 기존에는 이러한 데이터를 다른 LLM으로 생성하는 방식도 있으나, 법적 문제, 의존성 문제 등이 제기
    • → task-specific input-output pair를 student LLM으로부터 합성하고, 이것으로 스스로를 학습하는 Self-Guide 메커니즘을 제안
  • 📜 [University of Washington, AI2] Scaling Retrieval-Based Language Models with a Trillion-Token Datastore
    • 학습 데이터의 양을 늘리면 모델의 성능이 증가한다는 scaling law에 착안
    • → inference 시 사용 가능한 datastore의 사이즈를 키워 retrieval-based LM의 성능을 지속적으로 개선.
    • 뭔가 당연해 보이는데.. datastore를 키워서 이를 이용하면 사이즈만 큰 모델보다 잘한다는 결과를 제시함
    • 1.4T 토큰에 해당하는 datastore, MassiveDS 공개. (링크 🔗)
  • 📜 [The University of Hong Kong] Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
    • 33M ~ 3B 사이즈의 모델들을 500B 사이즈의 글자로 학습하며 vocab 사이즈의 영향력을 확인
    • → 큰 모델일수록 큰 vocab을 사용하는 것이 좋다. 그러나 현재 모델들은 너무 작은 vocab을 쓰고 있다.
    • 예를 들어 Llama2-70B 모델에는 216K 이상의 vocab이 적절 (현재는 32K)
  • 📜 [Meta] Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation
    • symbolic & audio-based conditions을 이용한 text-to-music 생성 모델
    • global text description을 기반으로 fine-grained local control도 가능
    • information bottleneck layer를 temporal blurring과 함께 적용하여 디테일한 컨트롤과 관련된 정보를 추출
    • 이런 모델들은 평가를 어떻게 하는 걸까?
  • 📜 [Moqi, Peking] Memory3: Language Modeling with Explicit Memory
    • LLM을 직접 학습하면서 많은 비용을 쓰는 것보다 explicit memory를 만드는 것이 경제적
    • 2.4B LLM을 scratch 학습한 결과, 더 큰 LLM보다도 뛰어나고 RAG에 비해서 decoding 속도도 빠름
    • implicit memory (model parameters), working memory (context key-values), 를 넘어선 제 3의 memory, $\text{Memory}^3$
4th week
  • 📜 [New York University] A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks
    • 44개의 paper에서 다루는 39개의 prompting method, 29개의 NLP task를 다룸
    • 최근 2년 간의 prompting 연구에 대해 총망라
  • 📜 [Generative AI Research Lab (GAIR), Fudan] Weak-to-Strong Reasoning
    • strong model이 advanced model 또는 human-annotated data 없이 스스로 학습 데이터를 refine 할 수 있도록 하는 learning framerwork를 제시
    • samll, but high-quality dataset으로 지도 학습을 시작 → 모델 스스로 contrastive sample로 식별한 케이스들에 대해 preference optimization
    • 세 개의 weak 모델을 이용하여 LLama2-70B 모델의 성능을 향상시킬 수 있었다고 보고
  • 📜 [Apple, Meta] LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
    • transformer 기반의 언어 모델 추론 과정은 두 단계를 거침. 1) prefilling 2) decoding
    • 병목을 해결하기 위해 prefilling과 decoding에 중요한 토큰의 KV만 선별적으로 계산하는 방식 LazyLLM을 제안
    • 다른 방식들과 달리 매 생성 step에서 ‘dynamically’ 토큰을 고른다는 점이 특징
    • 기존 모델들에 추가 학습 없이 seamlessly 통합 가능하다는 점이 특징
  • 🧑🏻‍💻 [groq] Introducing Llama-3-Groq-Tool-Use Models
  • 📜 [Google DeepMind] Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
    • Sparse autoencoders (SAEs) 는 LM activation을 decompose 할 필요가 있음
    • Gemma 2 9B activations를 기준으로 reconstruction fidelity에서 SoTA를 달성한 JumpReLU SAEs를 제안
    • activation 관련해서 오랜만에 눈에 띄는 논문..
  • 🧑🏻‍💻 [Meta] Introducing Llama 3.1: Our most capable models to date
  • 📜 [NC Research] OffsetBias: Leveraging Debiased Data for Tuning Evaluators
    • LLM을 evaluator로 사용하고자 하는 케이스가 많은데 bias 이슈가 심각
    • → judge 모델에 존재하는 6개 종류의 bias에 대한 연구
    • 각 bias 종류별로 hand-crafted test 케이스를 포함하는 EvalBiasBench 제안
  • 🧑🏻‍💻 [Numina, Hugging Face, MIT, Mistral, Peking] NuminaMath
    • Mathematical Olympiad 대회에서 1등을 한 팀이 공개한 데이터셋
    • 1M 수학 문제 & 정답으로 구성된 high-quality training dataset
    • Hugging Face 데이터셋 링크 🔗
  • 🧑🏻‍💻 WWDC 24: Running Mistral 7B with Core ML
    • Mac에서 Mistral 7B 모델을 4GB 이하의 메모리를 사용하여 실행하는 방법을 안내
    • 간단히 공부하기 좋을 것 같은 허깅페이스 블로그 글
  • 🧑🏻‍💻 [Mistral AI] Mistral Large 2
    • 128k context window를 갖는 123B 사이즈의 모델을 공개, mistral-large-2407
    • French, German 등 다양한 언어 뿐만 아니라 Python, Java 등 프로그래밍 언어에도 특화
    • 비상업적, 연구적 목적으로 이용 가능. weight download 🔗 HuggingFace 🔗
  • 🧑🏻‍💻 [OpenAI] SearchGPT Prototype
    • AI 기반의 검색 엔진 프로토타입을 공개
    • conversational capability를 향상시킴으로써 real-time 정보를 보다 쉽게 획득할 수 있음
    • partnering with publisher & creator
  • 🧑🏻‍💻 [Cohere] Introducing Rerank 3 Nimble: Faster Reranking for Enterprise Search & Retrieval-Augmented Generation (RAG) Systems
    • 높은 정확도는 유지하면서도 기존 대비 3배 이상 빠른 Rerank 3 Nimble 모델 시리즈를 공개
    • 영어 외에도 100개 이상의 언어를 지원
    • Amazon Sagemaker 🔗
  • 🧑🏻‍💻 [Google] Gemini’s big upgrade: Faster responses with 1.5 Flash, expanded access and more
    • 40개 이상의 언어를 지원하는 Gemini 1.5 Flash 모델을 free tier에서도 지원
    • 현재 트렌드는 조금 덜 뛰어난 성능일지라도 빠른 답변을 할 수 있는 모델을 제공하는 것. 빠른 속도를 한 번 경험하고 나면 느린 모델에 대한 반감이 커질 것 같다는 생각이 듦.
  • 📜 [AI2, University of Washington, Microsoft] The Art of Saying No: Contextual Noncompliance in Language Models
    • 유저의 명령을 따르지 않는 것을 noncompliance라고 말함
    • 모델이 언제 어떻게 유저의 요청을 따르지 말아야 하는지에 대한 어휘 분류 체계를 도입
    • 1,000개의 noncompliance prompt를 바탕으로 실험 → 30% 정도는 유저의 요청을 제대로 따르지 못하고 있음
    • → request & noncompliant response로 구성된 학습용 학습 데이터를 제작 → Fine-tuning은 overfit으로 이어지는 반면 LoRA 같은 기법이 밸런스가 좋음
  • 📜 [University of Washinton, AI2] Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
    • 학습 데이터의 분포적 특성을 파악하는 data mixture inference를 제안
    • → GPT-4o의 토크나이저는 39%의 non-English data로 학습되어 전작보다 multilingual 하다고 이야기 할 수 있음
    • → Llama3 모델은 48%의 non-English data로 학습되었음
  • 📜 [NVIDIA] Compact Language Models via Pruning and Knowledge Distillation
    • full retraining 대신 pruning 적용 후 기존 학습 데이터의 일부(3% 미만)를 학습하는 방식
    • 15B 사이즈 모델에서 8B/4B 모델을 만들어 내는 데 40배 적은 양의 데이터를 활용
    • 그럼에도 불구하고 MMLU 벤치마크에서 16%의 성능 개선을 보임
5th week
  • 📜 [Oxford, Cambridge, Imperial College London, Toronto] AI models collapse when trained on recursively generated data (nature)
    • 인공지능 모델이 생성한 데이터를 무분별하게 학습하는 경우 ‘모델 붕괴’ 현상이 나타날 수 있음
    • LLM 생성 데이터가 점점 늘어나고 있는 상황에서 인간이 직접 만들어낸 데이터의 가치는 점점 높아질 것이라고 예측
  • 📜 [Washington, AI2] The Art of Refusal: A Survey of Abstention in Large Language Models
    • LLM이 답변을 거부하는 Abstention은 hallucination을 줄이고 안전한 LLM 시스템을 구축하는 데 있어서 아주 중요한 요소
    • 이를 query, model, human value, 세 개의 관점에서 평가하난 프레임워크를 제시
  • 📜 [Equall] SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain
    • 법률 특화 LLM SaulLM-54B & 141B 를 공개
    • domain adaptation 과정은 세 단계로 구성됨.
    1. 540B 토큰 이상의 corpus로 continued pretraining
    2. 법률 특화 instruction-following protocol
    3. human preference와의 alignment
  • 🧑🏻‍💻 [Meta] Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images
    • zero-shot: custom adaptation 없이도 unseen objects에 대해 뛰어난 segment 퍼포먼스
    • memory mechanism: 과거 segmentation 정보를 저장 & 불러오기 하여 프레임 간 continuous tracking이 가능
    • real-time processing이 가능한 빠른 추론 속도
    • 51K videos & 600K masklets로 구성된 SA-V dataset 공개
  • 🧑🏻‍💻 [OpenAI] GPT-4o Long Output
    • 일부 사용자(알파) 대상으로 최대 64K output을 갖는 GPT-4o 버전을 제공 중
    • 요즘 가장 큰 두 개의 트렌드는 context 늘리기와 모델 사이즈 줄이기 (추론 속도 up)
  • 📜 [Meta, Berkeley, NYU] Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
    • self-reward 메커니즘은 언어 모델이 본인의 출력을 스스로 평가하여 개선될 여지가 있음을 보여주었음
    • 그러나 평가를 잘하게 만드는 방법에 대한 고민 없이 모델 성능 개선에만 집중하여 이미 포화된 양상을 보임
    • → 이를 해결하기 위해 모델이 스스로의 ‘판단’을 ‘판단’하고 이를 바탕으로 ‘판단’ 스킬을 개선하는 방법론 Meta-Rewarding을 제안

🌞 June

1st week
  • 📜 [Renmin University] One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models
    • 기존 LLM은 fine-tuning 할 경우 기존 지식이 손상될 가능성이 높다는 문제점이 존재
    • RAG를 위한 scalable & pluggable 가상 토큰을 제안. 해당 토큰에 대한 임베딩만 fine-tuning
  • 📜 [Jina AI] Jina CLIP: Your CLIP Model Is Also Your Text Retriever
    • Contrastive Language-Image Pretraining(CLIP)을 text-only task에 적용 가능. 하지만 text-only 또는 multimodal tasks에 따라 독립된 embedding을 유지해야 한다는 문제점 존재.
    • → 이를 해결하기 위해 multi-task contrastive training method를 제안
  • 🧑🏻‍💻 [Anthropic] Claude can now use tools
    • Claude에도 외부 API나 tool과 연동할 수 있는 기능이 추가됨
    • 예를 들어 구조화된 데이터 추출, DB 기반 검색 및 답변, API 기능 자동화 등에 활용 가능
  • 🧑🏻‍💻 [Perplexity] Introducing Perplexity Pages
    • 프롬프트 기반으로 커스텀 가능한 웹 페이지를 제작하는 기능 Pages를 오픈
2nd week
  • [Meta] Contextual Position Encoding: Learning to Count What’s Important
    • 현재의 Position Encoding (PE) 방식은 토큰 개수를 세는 방식으로 일반화가 어렵다는 문제점
    • → 모델에 의해 결정되는 특정 토큰에 대한 position만 확장함으로써 position이 context에 conditioned 될 수 있도록 하는 Contextual Position Encoding(CoPE)를 제안
  • 🗞️ [Samsung] Samsung’s Galaxy S24 Series Dominates GenAI-capable Smartphone Market in Q1 2024
    • 2024년도 1분기 스마트폰 시장에서 GenAI 스마트폰의 비중은 약 6% 정도. 이에 대한 삼성의 지분은 50% 이상임.
    • AI 기술 발전을 내세울 것으로 예상되는 애플의 WWDC가 많은 이들의 기대를 받고 있음
  • 📜 [Princeton, CMU] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
    • Mamba의 저자가 후속 연구로 제시한 Mamba-2
    • 핵심 레이어의 연산 속도가 Mamba의 selective SSM보다 2-8배 정도 빠르면서, 트랜스포머 기반의 언어 모델과 견줄 수 있는 성능을 내세움
  • 📜 [Perdue] SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
    • LLM의 confidence와 관련해서 prompt-based 연구와 supervised finetuning 연구가 존재
    • → fine-grained confidence estimates를 표현하도록 가르치는 SaySelf 방법론을 제안
    • 추가적으로 LLM은 스스로의 parametric knowledge를 나타내는 self-reflective rationale을 생성하고, 반대로 uncertainty를 표현할 수 있게 됨
  • 🧑🏻‍💻 [LlamaIndex] Introducing the Property Graph Index: A Powerful New Way to Build Knowledge Graphs with LLMs
    • 그래프를 구성하는 노드 및 관계를 categorize
    • 그래프를 hybrid search를 위한 vector database로 사용 가능
    • Cypher graph query language를 이용한 복잡한 query 표현 가능
  • 🧑🏻‍💻 [DeepLearning.AI] AI Agents in LangGraph
    • Python과 LLM을 이용하여 Agent를 구현하는 것을 scratch부터 학습
    • 추가로, 여러 개의 답변을 agent-friendly 형식으로 반환하는 agent serarch도 다룸
  • 📜 [ByteDance] Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data
    • 새로 제시한 arithmetical puzzle problem을 통해 LLM이 고품질 합성데이터로 학습된 경우 multi-step reasoning 능력을 크게 향상시킬 수 있음을 확인
    • 또한 추가 실험을 통해 out-of-domain 데이터셋에 대한 성능도 준수하다는 것을 확인
  • 📜 [Google DeepMind] To Believe or Not to Believe Your LLM
    • 언어 모델 답변의 불확실성은 epistemic (지식 부족) & aleatoric (랜덤, 확률) uncertainty로 구분됨
    • information-theoretic metric을 사용하여 언제 epistemic uncertainty가 높은지를 탐지
    • 이전의 답변을 기반으로 삼는 iterative prompting을 통해 metric을 계산. 즉, log-likelihood 등을 사용하지 않음.
  • 🧑🏻‍💻 [Google] PlaiGemma
    • SigLIP vision model과 Gemma language model을 기반으로 만든 lightweight open vision-language model (VLM), PaliGemma를 공개
    • 다양한 태스크를 처리할 수 있는 PaliGemma와 특정 research dataset에 fine-tuned PaliGemma-FT를 공개
    • 캐글에서 다운로드 가능
  • 🧑🏻‍💻 [Mistral AI] My Tailor is Mistral
    • Mistral fine-tuning API & SDK를 이용하여 Mistral 모델을 fine-tuning 하는 기능을 공개
    • LoRA를 기반으로 하여 memory-efficient 하면서도 performant한 fine-tuning 기법을 도입
  • 📜 [KAIST, LG AI] Block Transformer: Global-to-Local Language Modeling for Fast Inference
    • LLM의 inference에서 KV cache는 심각한 병목의 원인이 됨
    • → 낮은 layer에 대한 global modeling의 병목을 고립시키고, 상위 layer에 대해 fast local modeling을 적용. 입력 토큰을 특정 사이즈의 블록으로 압축하고 coarse level로 self attention을 적용.
  • 🧑🏻‍💻📜 [OpenAI] Extracting Concepts from GPT-4
    • 아카이브 논문 링크 🔗
    • GPT-4의 internal representation을 16M 개의 oft-interpretable pattern으로 decompose하기 위해 고안한 scalable method를 공개
    • k-sparse autoencoders를 제안하여 sparsity를 control 함과 동시에 reconstruction-sparsity frontier를 tuning하고 개선하는 과정을 간소화
    • autoencoder의 크기와 sparsity 간의 확연한 scaling laws를 관측
  • 🧑🏻‍💻 [Google] NotebookLM goes global with Slides support and better ways to fact-check
    • 작년 여름에 공개했던 NotebookLM을 Gemini 1.5 Pro 업그레이드
    • Google Slide, web URL, Google Docs, PDFs, text files를 지원
    • NotebookLM 링크🔗에서 가이드 확인 및 노트북 생성 가능
  • 📜 [ELLIS] Semantically Diverse Language Generation for Uncertainty Estimation in Language Models
    • LLM의 예측 불확실성을 정량적으로 측정하기 위해 Semantically Diverse Language Generation (SDLG)를 제안
    • 이를 통해 initial text가 hallucinated 인지 아닌지 판단할 수 있음
  • 📜 [Peking, Berkeley, Stanford] Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
    • thought-augmented reasoning approach, Buffer of Thoughts (BoT)를 제안
    • meta-buffer: 유익한 high-level thoughts를 저장
    • buffer-manager: meta-buffer를 동적으로 업데이트하여 meta-buffer의 capacity를 향상
  • 🗞️ [KLING] Forget Sora — Kling is a killer new AI video model that just dropped and I’m impressed
    • 중국의 비디오 플랫폼 회사 Kuaishou가 longer video generations, improved movement, better prompt following 등을 자랑하는 비디오 모델 Kling을 공개
  • 🧑🏻‍💻 [Alibaba] Hello Qwen2
    • 다섯 종류의 모델 사이즈: 0.5B, 1.5B, 7B, 57B-14B, 72B
    • coding, mathematics, multilingual understanding, long-context understanding 등에서 Meta의 Llama3나 OpenAI의 GPT-4를 능가하는 수준의 성능을 보임
3rd week
  • 📜 [Santa Cruz] Scalable MatMul-free Language Modeling
    • LLM의 주된 계산 비용을 차지하는 행렬곱(MatMul) 연산을 제거
    • MatMul-free 모델이 transformer 기반의 모델보다 2.7B 사이즈까지 뛰어나도록 학습한 결과를 제시
  • 📜 [University of Chicago] The Geometry of Categorical and Hierarchical Concepts in Large Language Models
    • categorical concepts은 어떻게 represented 되는가? 두 개념 간 계층적 관계는 어떻게 encoded 되는가?
    • 전자는 simplices, 후자는 orthogonal, 복잡한 개념은 direct sum으로 구성된 polytope로 표현
  • 🧑🏻‍💻 [Andrej Karpathy] Let's reproduce GPT-2 (124M)
    • Model Construction, Speed Optimization, Hyperparameter Setup, Model Evaluation and Training 등을 중심으로 유튜브에 GPT-2 모델 학습 영상을 업로드
  • 🧑🏻‍💻 [OpenAI, Apple] OpenAI and Apple announce partnership to integrate ChatGPT into Apple experiences
    • WWDC 2024에서 OpenAI의 ChatGPT를 Siri에 탑재하겠다는 계획을 발표.
    • privacy와 관련해서 애플이 직접 데이터 센터를 구축하고 관리하겠다고 함.
  • 📜 [University of Waterloo] GenAI Arena: An Open Evaluation Platform for Generative Models
    • image, video 생성 모델들을 유저가 평가하는 GenAI Arena에 관한 논문. 4개월 이상 운영하며 6천 개 이상의 투표 정보를 수집.
    • text-to-image, text-to-video, image editing, 세 영역에 대한 평가가 가능
  • 📜 [AI2] WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
    • 백만 개 이상의 human-chatbot 대화 로그에서 엄선한 1,024개의 task
    • GPT-4 turbo와 같은 LLM을 사용하여 WB-Reward, WB-Score 을 기준으로 평가 자동화
    • fine-grained pari-wise comparision 방식을 사용했으며, 세 개의 베이스라인을 설정
  • 📜 [Duke, Stanford, Together AI] Mixture-of-Agents Enhances Large Language Model Capabilities
    • 여러 LLM의 collective strength를 이용하는 Mixture-of-Agents (MoA) 방식을 제안
    • 즉, 여러 개의 LLM agents로 각 layer를 구성하는 방식. 각 agent는 이전 레이어의 결과물을 auxiliary information으로 활용.
  • 🗞️ LLMs Aren’t Just “Trained On the Internet” Anymore
    • 기존 데이터들만을 활용해서는 LLM이 기존 데이터와 다른 출력을 만들지 못하게 됨
    • 맞춤형 학습데이터를 제작하여 활용하는 방식이 대두. Phi-3가 대표적인 모델이며 Scale.ai 같은 회사가 크게 주목을 받게 됨.
  • 📜 [University of Washington] Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
    • Theory of Mind (ToM) Reasoning은 다른 개인들이 고유한 의도, 감정 등을 소유했다는 것을 전제로 함
    • Reddit, ChangedMyView에서 수집한 포스트에서 사람과 LLM 응답 간의 의미적 유사성 및 어휘 중복 정도를 비교 → open-ended scenarios에서 명백한 한계를 보임
    • LLM은 아직까지 social reasoning 성능이 부족함을 입증하고 어떻게 인간 의도와 감정을 통합할 수 있는지에 대한 방법을 제시
  • 📜 [ByteDance] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
    • next-token prediction 패러다임을 적용한 이미지 생성 모델, LlamaGen을 제시
    • (1) image tokenizer (2) class-conditional image generation (3) text-conditional image generation (4) optimizaing the inference speed of image generation
  • 📜 [Washington, Meta, AI2] Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
    • 기존 agents는 proprietary models 기반이거나 특정 태스크에 적합하도록 디자인되어 있음
    • → numerical, tabular, knowledge-based reasoning을 다룰 수 있는, 즉 unified action space에서 학습한 open-source language agent, Husky를 제안
      1. 다음 단계에 수행할 작업을 예측 2) expert 모델이 선택된 작업을 실행하고 상태 업데이트
    • 7B 모델로도 GPT-4에 준하거나 그 이상의 성능을 보임
  • 📜 [OpenAI, Stnaford, Microsoft] The Prompt Report: A Systematic Survey of Prompting Techniques
    • 프롬프트와 관련한 33개 어휘를 정리
    • 58개의 프롬프팅 테크닉과 다른 modality에 활용 가능한 40개의 테크닉을 정리
    • 자연어 prefix-prompting에 대한 내용도 다루고 있음
  • 🧑🏻‍💻 [Microsoft] Generative-AI-For-Beginners
    • Azure OpenAI, OpenAI API를 활용한 코드 샘플
    • 생성형 AI application을 만드는 데 필요한 18개의 강의를 제공
    • 데이터 베이스와 관련된 강의를 DeepLearning.AI 에서도 제공
  • 🧑🏻‍💻 [Luma AI] Dream Machine
    • OpenAI Sora에 견줄만한 text-to-video 모델을 무료로 공개
  • 📜 [University of Toronto] Out-Of-Context Prompting Boosts Fairness and Robustness in Large Language Model Predictions
    • 기존에는 LLM의 causal reasoning 능력을 바탕으로 fair & robust 한 답변을 할 수 있도록 세팅
    • → 반대로 out-of-comtext prompting을 제안 (테스트 단계에서)
  • 📜 [New York University] Large Language Models Must Be Taught to Know What They Don't Know
    • 모델 스스로에 대해 prompting 하는 것은 좋은 calibration으로 이어지지 않는다.
    • → 작은 correct & incorrect answer로 fine-tuning 함으로써 불확실성 추정에 대한 일반화 성능을 끌어올릴 수 있다.
    • 인간과 AI가 협력하는 환경에서의 불확실성 추정이 어떻게 인간 의사결정에 도움이 되는지 연구
  • 📜 [University of Edinburgh] Are We Done with MMLU?
    • MMLU 벤치마크의 정당성 검토 → Virology 파트 분석 결과 57% 문제
    • error taxonomy를 이용하여 데이터셋을 확인하는 프레임워크, MMLU-Redux를 제안
    • 30개의 MMLU subjects에 대해서 3,000개를 reannotate → 벤치마크 성능과 실제 체감 성능 간의 괴리를 줄이고자 함
  • 📜 [NVIDIA] Nemotron-4 340B
    • Base, Instruct, Reward, 세 버전의 모델 패밀리를 오픈 소스로 공개
    • smaller language model 을 학습할 때 사용할 합성데이터를 생성하는 데 활용 가능
4th week
  • 📜 [Fudan, AI2] SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals
    • 기존 agents는 구체적인 instruction이 없으면 목표를 달성하지 못하거나 피드백이 늦게 제공되는 상황에서는 적응을 어려워한다는 문제점이 존재
    • → 사람이 제공하는 피드백이 제한되고 느린(delayed) 상황에서도 high-level goal을 달성할 수 있도록 돕는 automatic apporach, SelfGoal을 제안
    • 핵심: high-level goal을 실용적인 subgoal로 이루어진 tree structure로 쪼개는 것
  • 📜 [AIRI] BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
    • LLM의 long context 이해 능력을 파악하기 위한 벤치마크, BABILong을 소개.
    • 20여개의 다양한 reasoning tasks를 포함
    • 아직까지는 유의미한 long context understanding 벤치마크가 없다고 생각하는데, 향후 유의미한 연구들이 등장할 것인지 개인적인 의문
  • 📜 [Hong Kong Science] Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning
    • LLM은 질문에 ‘답변’하도록 학습되었기 때문에 ‘모르는 걸 모른다’고 이야기하지 않는 특징이 있음
    • → uncertainity-sensitive tuning: uncertainty recognition + prompt-sensitive activation
    • 모르는 질문을 거절 + causal instruction을 통해 퍼포먼스 회복
  • 📜 [AIRI] XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
    • XLand—MiniGrid 환경을 기반으로 삼는 in-context reinforcement learning을 위한 대규모 데이터셋
  • 📜 [Fudan, Tsinghua] Needle In A Multimodal Haystack
    • MLLMs의 long multimodal documents 이해력을 파악하기 위한 벤치마크, MM-NIAH
    • multimodal retrieval, counting, reasoning, 세 타입의 태스크를 포함
  • 🧑🏻‍💻 [DeepSeek AI] DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
    • MoE 아키텍쳐를 사용하여 16/236B 파라미터 사이즈를 가진 오픈소스 코드 LLM
    • 338개 언어, 128K 컨텍스트 길이 지원
    • 코딩 벤치마크에서 GPT-4-turbo를 능가하는 퍼포먼스 달성
  • 📜 [Fudan, Shanghai] Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
    • MCT Self-refine (MCTSr) 알고리즘을 제안: LLM + MCTS
    • Selection, self-refine, self-evaluation, Backpropagation 과정을 반복하며 MCTS 수행
      • 이때 Upper Confidence Bound (UCB) 공식이 활용됨
  • 🧑🏻‍💻 [Google DeepMind] Generating audio for video
    • video 픽셀과 텍스트 프롬프트를 이용하여 풍부한 soundtrack을 생성 (V2A)
    • positive - negative prompt를 구분할 수 있을 정도로 정교한 컨트롤이 가능해짐
  • 🧑🏻‍💻 [runway] Introducing Gen-3 Alpha
    • fidelity, consistency, motion을 크게 개선한 text-to-video 생성 모델
    • Sora의 등장 이후로 이와 같은 고해상도 비디오 생성 모델들의 발전이 빠르게 이어지고 있는 듯한 느낌이 듦
  • 📜 [Tisnghua] Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding
    • RAG를 사용하더라도, 참조하는 source가 충분하지 않은 경우 결국 답변하지 못함
    • → 긴 context를 malleable(벼릴 수 있는) 외부 지식으로 생각하고 이를 dynamic하게 모으거나 통합하는 방법론
  • 📜 [Cohere] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
    • 지금까지 RLHF에 PPO가 정설처럼 여겨져 왔지만, 연산 비용이 많이 발생하고 하이퍼 파라미터에 민감하다는 한계가 존재
    • → PPO의 많은 요소가 RLHF에 불필요함을 입증 & DPO, RAFT와 같은 RL-free 방식이 PPO보다 뛰어나다는 것을 입증
    • 🧑🏻‍💻 RLOO 알고리즘을 설명한 허깅페이스 블로그 링크
  • 🧑🏻‍💻 [Cohere] Claude 3.5 Sonnet
    • 전작 Claude 3 Opus에 비해 속도와 성능이 훨씬 뛰어난 모델 Claude 3.5 Sonnet을 공개 (2배 속도, 80% 저렴)
    • 뛰어난 coding 능력과 visual reasoning 능력을 강조
    • code snippets & website design과 같이 AI-generated content와 상호작용 가능한 Artifacts 기능을 공개
  • 📜 [University of Maryland] GenQA: Generating Millions of Instructions from a Handful of Prompts
    • public instruction finetuning datasets은 closed source datasets에 비해 훨씬 부족한 상황
    • → single prompt로 large instruction datasets를 생성하는 방법을 제안
    • simple completion task부터 complex multi-turn dialogs까지 다양한 태스크에 이르는 데이터셋을 생성 가능
  • 📜 [Georgia, MIT] Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
    • 하나로 통합된 LLM을 self-specialized experts로 구성된 module system으로 변환하는 방법론, MiXSE (MiXture of Self-specialized Experts)
    • self-generated 합성 데이터를 사용하여 expert module을 구축 + self-optimized routing으로 통합
    • 다른 방법론들에 비해 trade-off (학습하면 기존의 것을 까먹어 버리는 것에 대한)가 적은 편이라고 언급
  • 🧑🏻‍💻 [Meta] Sharing new research, models, and datasets from Meta FAIR
    • text & image의 어떤 조합이든 input, output으로 처리 가능한 Meta Chameleon (권한 🔗)
    • 한 번에 여러 개의 토큰을 예측하는 Multi-Token Prediction (HuggingFace 🤗)
    • Meta Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation (데모 🔗)
    • 최초의 audio 워터마크 기법 (faster & efficient detection), AudioSeal (Github 🧑🏻‍💻)
    • Partnership supporting the release of the PRISM dataset (HuggingFace 🤗, Report 📜)
    • text-to-image 생성 시스템의 geographical 불균형을 측정 및 개선 (Github 🧑🏻‍💻, Dataset 🧑🏻‍💻)
5th week
  • 📜 [Zou group] TextGrad: Automatic "Differentiation" via Text
    • 여러 개의 LLM을 통합한 시스템 대두 → 자동화된 학습 최적화 방식 고안 필요성
    • compound AI 시스템의 개별 구성 요소를 LLM에 의해 제공되는 피드백으로 개선
    • LLM은 general & rich 자연어로 피드백을 제공 → out-of-the-box 태스크도 잘 수행
    • 깃허브 링크 🔗
  • 📜 [Bloomberg] Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering (ACL 2024 main)
    • RAG는 retriever 성능에 영향을 크게 받을 뿐만 아니라 retrieved documents에 존재하는 noise 이슈가 있음
    • → generate-then-ground (GenGround) 프레임워크를 제시: 최종 답변이 도출될 때까지 두 단락을 번갈아보는 방식
    • Generate: 더 간단한 single-hop question과 이에 대응하는 정답을 생성
    • Ground: retrieved documnets에서 question-answer pair를 ground
  • 📜 [USTC] Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation
    • RAG는 LLM generation 자체의 inherent uncertainty & off-topic information 포함 (문서가) 이슈가 있음
    • → Retrieve-Plan-Generation (RPG) 프레임워크를 제안
    • Plan stage: subsequent generation을 가이드하는 plan tokens을 생성
    • Answer stage: plan을 근거로 fine-grained paragraphs를 선택, 이를 바탕으로 futher answer 생성
    • 위 과정을 completion 될 때까지 반복
  • 📜 [Amherst, Meta] Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
    • LLM-as-Judeg 패러다임에는 LLM과 관련된 근본적인 문제들이 존재
    • 단순 의견 일치 비율 대신 Cohen’s Kappa Metric을 사용하는 것의 중요성을 강조
    • 여러 언어 모델을 비교(base, instruction-tuned)한 결과를 제시: 작은 모델을 잘 학습하면 큰 모델보다 뛰어남
  • 🧑🏻‍💻 [Andrej Karpathy] https://github.com/karpathy/LLM101n
    • 스토리텔링 AI LLM 구축 방법을 알려주는 강의를 담은 repo
    • from scratch in Python, C and CUDA
  • 📜 [ICL, Tisnghua] Entropy-Based Decoding for Retrieval-Augmented Large Language Models
    • retrieval-augmented LLM은 external & internal knowledge source에 존재하는 noise로 인한 한계점이 존재
    • → training-free decoding method를 제안
    • entropy-based document-parallel ensemble: retrieved 문서로부터 low-entropy distribution에 우선순위를 높이고자 함
    • constrastive decoding 메커니즘을 통합
  • 🧑🏻‍💻 [HuggingFace] Open-llm-leaderboard 2
    • 오픈 llm 리더보드 2
    • Qwen2 72B instruct > llama 3 70B > CommandR
    • MMLU-pro, GPQA, BBH 등 어려운 벤치마크 추가
  • 📜 [Peking, HKUST, MIT] Efficient Continual Pre-training by Mitigating the Stability Gap
    • stability gap: 학습 초기에 일시적인 퍼포먼스 drop, 이후 회복 단계를 거치는 현상. 이로 인한 catastrophic forgetting 이슈와 domain adapating이 어렵다는 이슈가 존재.
    • → 이를 해결하기 위한 세 가지 학습 전략을 제시
      1. 여러 epoch 동안 적당한 사이즈의 subset으로 continual pre-training (single epoch, large corpus 대신)
      1. high-quality의 sub-corpus에 대해서만 pre-training
      1. pre-training data와의 갭을 줄여줄 수 있는 data mixture를 사용
    • 의료 도메인(Llama-3-Physician) 적용 결과를 제시
  • 📜 [ByteDance, MIT-IBM] Selective Prompting Tuning for Personalized Conversations with LLMs (ACL 2024)
    • 개인화된 LLM을 만드는 방법론
    • prompt engineering보다 fine-tuning이 원하는 답변을 생성할 가능성이 더 높더라 → Selective Prompt Tuning (SPT)
    • soft prompts로 시작하고 학습 가능한 dense retriever를 사용하여 input context 기반 최적의 soft prompt를 dynamic하게 고르는 방식을 제안
    • Context-Prompt Contrastive Learning & Prompt Fusion Learning
  • 📜 [HuggingFace] The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
    • Llama3, Mixtral과 같은 모델들도 사전학습 데이터를 공개하지는 않았음
    • 96개의 Common Crawl snapshot으로부터 15T token 데이터셋을 구축 for pretraining
    • 이 FineWeb으로부터 추가 filtering을 한 1.3T token 데이터셋 FineWeb-Edu 또한 공개
  • 📜 [Hong Kong, Tsinghua, NVIDIA, HKUST] Unlocking Continual Learning Abilities in Language Models
    • old task data & task-wise inductive bias를 LLM에 주입하는 것이 현재 continual learning 방식인데, 옛날 데이터들은 접근이 어렵다거나 값이 비싸다는 이슈가 있음
    • MIGU (MagnItude-based Gradient Updating for continual learning): LM의 linear layer에서 가장 큰 output 크기를 갖는 파라미터 업데이트에 집중하는 방식
  • 🧑🏻‍💻 [Google] Gemma 2 is now available to researchers and developers
    • 9B/27B 사이즈의 Gemma 2 모델을 오픈소스로 공개. 동일 사이즈 모델들 대비 뛰어난 성능
    • 27B 모델의 경우 A100/H100 한 대에서 추론 가능
    • Kaggle, HuggingFace 등에서 다운로드 가능
  • 📜 [Tsinghua] Aligning Teacher with Student Preferences for Tailored Training Data Generation
    • teacher가 student의 선호에 의해 기반한 교육 content를 만드는 ‘responsive teaching’에 대한 논의는 부족 → Aligning teacheR with studenT preferencEs (ARTE) 제안 - 너무 억지;;
    • 학생의 선호를 반영한 학습 예시를 생성 for Knowledge Distillation
    • 우선 teacher model이 draft question & rationale 생성 → 이에 대한 학생의 in-context learning 능력을 proxy로 사용 → teacher model을 학생의 선호에 DPO
  • 📜 [CMU, KAIST] Learning to Correct for QA Reasoning with Black-box LLMs
    • LLM reasoning 능력을 향상시키고자 하더라도 black box 모델이라 방법들이 많이 제한됨
    • → CoBB (Correct for improving QA reasoning of Black-Box LLMs)
    • 불완전한 추론을 올바른 추론으로 Seq2Seq 매핑하는 학습된 adaptation 모델을 사용
    • dataset과 sampled sub-dataset의 divergence를 최소화하기 위한 유전 알고리즘 적용
  • 📜 [UC Berkeley, Toronto, Anthropic] Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data
    • LLM을 학습할 때 사용되는 데이터에서 safety risk가 있는 데이터들을 제거하더라도 LLM의 추론 능력으로 인해 간접적인 추론이 가능하다는 주장
    • 이를 inductive out-of-context (OOCR) 으로 표현
    • 작은 모델은 부족하지만, GPT-3.5, GPT-4 정도의 모델들은 충분 → 명시적으로 학습하지 않은 내용도 유추가 가능함을 입증. LLM 학습의 새로운 위험성을 제시.
  • 📜 [Meta] Meta Large Language Model Compiler: Foundation Models of Compiler Optimization
    • Meta Large Language Model Compiler (LLM Compiler) for code optimization task
    • 546B 토큰의 LLVM-IR & assembly 코드로 학습 후 compiler behavior를 instruction fine-tuning
    • 7B & 13B 사이즈의 모델을 공개

🏕️ May

1st week
2nd week
  • 📜 [MIT] KAN: Kolmogorov-Arnold Networks
    • Multi-Layer Perceptrons(MLPs)를 대신하는 Kolmogorov-Arnold Networks(KAN)를 제안. linear weight를 전혀 사용하지 않으며 각 weight 파라미터는 univariate function으로 대체됨.
  • 📜 [Imperial College London] Argumentative Large Language Models for Explainable and Contestable Decision-Making
    • reasoning 과정에서 argumentation을 생성하는 프레임워크를 제안. 이를 통해 LLM의 선택과 판단에 대한 근거를 명확하게 파악할 수 있음.
  • 🗞️ [X] X launches Stories, delivering news summarized by Grok AI
    • 개인 맞춤화된 이야기들을 Grok AI 모델이 요약하여 제시하는 서비스를 도입. X 링크. news 산업에 큰 영향을 줄 것으로 예상됨.
  • 🧑🏻‍💻 [DeepLearning.AI & HuggingFace] Quantization In Depth
    • 다양한 종류의 quantization 기법에 대해 공부하고 weight를 packing 하는 방법을 습득.
  • 🧑🏻‍💻 Meta-Llama-3-120B-Instruct
    • “self-merge”를 이용하여 70B 사이즈의 모델을 120B까지 scaling up하여 공개. 자료형을 float16으로 유지하여 성능을 최적화할 수 있도록 “passthrough” 머지 기법을 이용.
  • 🗞️ [Nvidia] Nvidia Launches ChatRTX Chatbot for RTX GPUs
    • 소비자들에게 ‘AI on your PC’ 경험을 제공하기 위해 RTX GPU를 기반으로 동작하는 ChatRTX 챗봇을 공개. 확실히 on-device, local LLM 등에 대한 관심이 뜨거움.
  • 🧑🏻‍💻 [LMSYS] gpt2-chatbot is Back Online
    • 챗봇아레나에서 gpt-2-chatbot 모델이 다시 등장. 모델을 선택할 수는 없지만 프롬프트 입력 후 결과를 확인해보면 해당 모델과의 비교가 이뤄지고 있음이 확인됨.
  • 🧑🏻‍💻 [DeepSeek-AI] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
    • 236B 사이즈의 Mixture-of-Experts (MoE) 기반 LLM을 공개. activated parameters는 21B 수준. 학습 및 추론 둘 다 굉장히 효율적임을 강조.
  • 🧑🏻‍💻 [DeepLearning.AI] Building Agentic RAG with LlamaIndex
    • 주어진 문서를 이해하고 복잡한 질문에 답변하도록 하는 방법에 대해 학습. 특히 여러 개의 문서를 다루거나 agent를 debug 하는 방법 등에 대해서도 학습. 강의 분량은 그렇게 많지 않아 보임.
  • 📜 xLSTM: Extended Long Short-Term Memory
    • exponential gating을 도입, LSTM 메모리 구조를 변형한 sLSTM과 mLSTM을 통합. 이 둘을 통해 Transformers와 State Space Models에 준하는 성능과 scaling 가능성을 보여줌.
  • 📜 [MIT] Co-design for Efficient LLM Serving
    • 현존하는 INT4 quantization 방법론에 나타나는 overhead 문제를 해결하기 위해 4-bit weight, 8-bit activation, 4-bit KV cache를 사용하는 W4A8KV4, QoQ(quattuor-octo-quattuor)를 도입
  • 🧑🏻‍💻 [Google] Meet Pixel 8a: The Google AI phone at an unbeatable value
    • Gemini를 탑재한 스마트폰 Pixel 8, Pixel 8 Pro를 출시. 카메라의 group shot, magic editor, 음성의 audio magic eraser 등의 기능을 탑재
  • 📜 [University of Texas] Mitigating Exaggerated Safety in Large Language Models
    • LLM이 유저의 질문을 harmful한 것으로 판단하고 거절하는 케이스 중 실제로 harmful 하지 않은 것을 ‘과장된(exaggerated)’ 경우라고 표현. 이러한 현상을 완화하기 위한 프롬프팅 기법을 제시함과 동시에 이러한 형상이 존재함을 확인할 수 있는 데이터셋을 제시.
  • 📜 [Google Research] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?
    • LLM이 기존 지식과 관련 없는 내용들에 대해 일으키는 hallucination 문제를 해결하기 위해 controlled setup을 설계. closed-book QA 환경에서 실험한 결과, fine-tuning을 통해 새로운 지식을 주입하는 방식의 위험성을 입증.
3rd week
  • 🧑🏻‍💻 [Anthropic] Prompt Generator
    • 태스크에 대한 간단한 설명을 최적화된 프롬프트 템플릿으로 변환해주는 metaprompt를 공개
  • 🧑🏻‍💻 [IBM] Granite Code Models: A Family of Open Foundation Models for Code Intelligence
    • 116개 프로그래밍 언어로 학습한 3B에서 34B에 이르는 8개의 코드 모델을 공개. 코드 관련 태스크에서 CodeGemma나 Mistral을 능가하는 성능을 보임
    • 논문 링크: https://arxiv.org/abs/2405.04324
  • 🧑🏻‍💻 [OpenAI] Hello GPT-4o
    • audio, vision, text를 real time으로 처리 가능한 플래그십 모델을 공개. ‘o’는 모두를 뜻하는 ‘omni’의 약자. 사람의 감정을 충분히 이해하는 듯한 반응, 다양한 음성 변주, 중간에 말을 끊어도 이해가 가능한 실시간 대화 양상 등 충격적인 데모를 공개.
    • 개인적인 교육 분야에서 특히 활용 여지가 많이 커진 것 같다고 느낌.
    • 유튜브에 공개된 데모 링크
  • 📜 [Baidu] A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models
    • RAG는 생성형 AI가 지닌 기존 지식에 새로운 지식을 더해줄 수 있는 방식임. Retrieval-Augmented Large Language Models(RA-LLMs)를 architecture, training strategies, applications, 세 관점에서 서베이한 페이퍼.
  • 🧑🏻‍💻 [TII] Falcon 2
    • 5,000B 토큰의 RefinedWeb으로 학습된 11B LLM. fine-tuned 되지 않은 raw 모델을 허깅페이스에 공개.
  • 📜 [Cohere] Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
    • tokenizer에 포함된 토큰 중에서 제대로 학습이 되지 않은 ‘glitch tokens’가 존재함.
    • ‘tokenizer analysis, model weight-based indicators, prompting techniques’의 조합을 이용하여 위와 같은 problematic tokens를 자동적으로 detect 하는 방법론을 제안.
  • 🧑🏻‍💻 [Google] Google I/O 2024: An I/O for a new generation
    • Gemini 1.5 Pro의 context window가 2M까지 증가. 그러나 128K 이하에 대해서는 가격을 50% 낮춤 (GPT-4o 대비 30% 저렴)
    • Gemini를 구글 제품(포토, 이미지 검색, 워크 스페이스, 이메일 등)에 통합하겠다고 발표. (라이브 데모 x, 여름 또는 올해 말 출시 예정 ????)
    • GPT-4o와 마찬가지로 multimodality를 강조. 그러나 그만큼의 임팩트가 있지는 않음.
  • 🧑🏻‍💻 [Salesforce] SFR-Iterative-DPO-LLaMA-8B-R
    • Alpaca-Eval-V2, MT-Bench, Chat-Arena-Hard, 세 개의 벤치마크에서 작은 사이즈의 모델 중 최고 성능을 달성. human-/GPT4-labeling 없는 open-sourced 데이터셋으로 학습된 모델.
  • 📜 [HuggingFace] What matters when building vision-language models?
    • vision-language models(VLMs)의 학습 방식에 대해서는 아직 자리잡은 것이 없음 → 아키텍쳐, 데이터, 학습 방식 등 다양한 실험을 통해 만든 8B 사이즈의 VLM, Idefics2를 공개. base, instructed, chat, 세 개 버전의 모델을 학습 데이터셋과 함께 공개.
  • 📜 [Salesforce, UIUC] RLHF Workflow: From Reward Modeling to Online RLHF
    • Reinforcement Learning from Human Feedback(RLHF)은 offline learning setting에서만 사용 가능하다는 단점이 존재 → 다양한 오픈 소스 데이터셋과 사전에 구축된 proxy preference model을 사용함으로써 preference model을 구축. 이를 이용하여 Online Iterative RLHF를 수행.
  • 📜 [Hwawei] Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory
    • Transformer 기반의 모델들의 사이즈를 키우면 성능이 증가한다는 scaling law가 반드시 지켜지는 것은 아님 → Hopfield 네트워크를 사용하여 이론적 프레임워크를 제시. attention mechanism에 대한 설명이 가능해짐.
  • 🧑🏻‍💻 [DeepLearning.AI] Multi AI Agent Systems with crewAI
    • multi agent 관련 강의. 오픈소스 라이브러리 crewAI를 사용하여 비지니스 자동화에 관한 내용을 학습.
  • 🧑🏻‍💻 [OpenAI] Improvements to data analysis in ChatGPT
    • Google Drive와 Microsoft OneDrive로부터 직접 테이블과 차트를 읽고 상호작용할 수 있는 기능을 공개.
    • 차주부터 ChatGPT Plus, Team, Enterprise 유저들에게 공개.
  • 📜 [University of Waterloo] UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models
    • Multi-Modal(MM) Large Language Models(LLMs)에 필요한 MM understanding을 강화하기 위해 추론 단계에서 few-shot examples를 제공하는 방법론을 제안.
  • 🗞️ [OpenAI & Reddit] OpenAI strikes Reddit deal to train its AI on your posts
    • Reddit의 data API로부터 실시간 컨텐츠를 확인할 수 있는 계약을 체결. 연초 Google이 Reddit과 맺은 계약 규모는 약 $60M(한화 약 8백억)에 이르는 것으로 알려짐.
  • 📜 [Columbia University] LoRA Learns Less and Forgets Less
    • programming과 mathematics 도메인에서 LoRA와 full finetuning을 비교. 또한 instruction finetuning과 continued pretraining을 비교 → LoRA는 full finetuning 대비 성능 향상 폭은 작지만, 기존의 지식을 더 잘 보존하는 경향을 보임.
  • 🧑🏻‍💻 [HuggingFace] Hugging Face x LangChain : A new partner package in LangChain
    • 허깅페이스에 업로드된 모델들을 LangChain을 통해 활용 가능하도록 업데이트한 내역을 공개.
  • 🧑🏻‍💻 [TIGER-Lab] MMLU-Pro
    • 12K 개의 복잡한 질문으로 구성된 MMLU 업그레이드 버전. 선택지를 4개에서 10개로 늘림. 또한 reasoning-focused problems에 집중.
  • 📜 [MIT] The Platonic Representation Hypothesis
    • 여러 모델들의 representation이 수렴한다는 주장. 여러 도메인 및 modalities에 대한 실험 결과를 포함.
    • 인공지능 모델의 발전 방향은 데이터 타입(언어의 종류, modality)과 무관할 것이라고 주장했던 사람이 생각남.
  • 📜 [Meta] Chameleon: Mixed-Modal Early-Fusion Foundation Models
    • image와 text를 어떤 순서로 제공하더라도 이해하고 이를 바탕으로 생성할 수 있는 foundation model, Chameleon을 공개.
    • early-fusion, token-based, mixed-modal 세팅을 위해 필요한 inception, alignment, architectural parameterization 등
4th week
  • 📜 [University of Cambridge] Zero-Shot Tokenizer Transfer
    • 한 언어로 학습된 언어 모델이 다른 언어는 전혀 처리하지 못한다는 한계점이 존재
    • tokenizer를 입력으로 받고 이에 대응하는 embedding을 예측하도록 학습하는 hypernetwork를 제안 → encoder & decoder 둘 다에 일반화 가능하다는 것을 실험적으로 입증
  • 📜 [Alibaba] Language Models can Evaluate Themselves via Probability Discrepancy
    • 기존 답변을 revise → revised 답변에 대한 조건부 확률이 기존 답변에 대한 조건부 확률보다 높다면 좋은 답변, 그렇지 않다면 나쁜 답변으로 self-evaluation하는 방법론을 제안
  • 📜 [Stanford, Toronto] Observational Scaling Laws and the Predictability of Language Model Performance
    • 언어 모델의 성능이 scale에 따라 어떻게 변화할지를 이해하는 것이 중요 → 80개 의 publicly available 모델들을 통해 observational approach를 확인 → 실험을 통해 smooth, sigmoidal, predictable 패턴을 검증
  • 🧑🏻‍💻 [Korea Univ.] Horangi 한국어 LLM 리더보드
    • W&B의 테이블 기능을 활용하여 평가 결과를 쉽게 분석 가능
    • llm-jp-eval을 기반으로 llm-kr-eval을 구축
    • Multi-turn 대화를 통해 생성 능력을 평가하는 MT-Bench를 포함
  • 📜 [Microsoft] MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
    • PEFT의 대표 주자인 LoRA는 LLM이 새로운 지식을 습득하고 기억하도록 하는 데 명백한 한계가 존재 → 학습 가능한 파라미터의 숫자는 그대로 유지하면서도 high-rank update가 가능하도록 square matrix를 이용하는 방식, MoRA를 제안
    • LoRA와 마찬가지로 학습 이후에는 weight matrix에 merge 되는 방식을 취함.
  • 🧑🏻‍💻 [DeepLearning.AI & Qualcomm] Introduction to On-Device AI
    • 모델을 deploy 할 때 낮은 latency를 유지하면서도 privacy를 지킬 수 있는 방법 등을 학습
  • 🧑🏻‍💻 llama3-from-scratch
    • Karpathy가 칭찬한 repo..?
    • llama3의 구성 요소를 하나씩 간단히 살펴볼 수 있는 ipynb을 제공. meta로부터 weight를 받을 수 있는 공식 링크도 포함되어 있음.
  • 📜 [ByteDance, Alibaba] OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
    • LLM에 RLHF를 편하게 scaling 하기 위한 오픈소스 프레임워크. 70B 이상 모델들도 고려.
    • Ray, vLLM, DeepSpeed와 같은 다양한 학습 기법들을 동원하며 Hugging Face와도 통합 가능.
  • 🧑🏻‍💻 [Anthropic] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
  • 🗞️ You can now buy a 4-foot-tall humanoid robot for $16K
    • Unitree G1 으로 불리는 휴머노이드 로봇을 16,000 달러에 구매 가능
    • 데모 영상을 보면 굉장히 자연스럽고 다양한 동작을 지원함 (상당히 유연..;;)
  • 🧑🏻‍💻 [Google] New AI tools to help merchants market brands and products
    • 브랜드 검색 시 브랜드와 관련된 정보를 일목요연하게 정리해주는 기능
    • Product Studio에서 상품 이미지를 다른 배경이나 상황에 맞게끔 생성하여 다양한 연출이 가능
  • 🧑🏻‍💻 [Microsoft] What’s next: Microsoft Build continues the evolution and expansion of AI tools for developers
    • Small Language Models: Phi-3-vision, Phi-3-small, New Phi-3 model, Phi-Sliica
    • Microsoft Copilots and GitHub Copilot
    • New Copilot + PCs: PyTorch and a new Web Neural Network
    • Real Time intelligence, partnerships with ADM, Khan Academy, Cognition AI
  • 📜 [Google DeepMind] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
    • Gemini 1.5 Pro의 technical report. 현존하는 LLM 중 최강이라고 주장
    • 경량화된 모델, Gemini 1.5 Flash에 대한 실험 결과도 함께 제시
  • 📜 [University of Michigan] A Turing test of whether AI chatbots are behaviorally similar to humans
    • ChatGPT의 인간적 특성을 확인하기 위한 Turing Test 결과
  • 🧑🏻‍💻 [Mistral AI] Mistral-7B-Instruct-v0.3
    • 32768 vocab size, v3 Tokenizer 지원, function calling 가능
  • 📜 [AIRI] Your Transformer is Secretly Linear
    • 연속된 layer 사이의 embedding transformation을 분석한 결과 거의 완벽한 선형 관계를 파악할 수 있었음
    • 이러한 linear block을 제거하더라도 모델의 성능에 거의 영향을 주지 않는다는 것이 관측됨
    • pretraining 단계에서 linearity를 최소화하기 위해 cosine-similarity-based regularization을 도입
  • 📜 [Xi’an Jiaotong University] Large Language Models Can Self-Correct with Minimal Effort
    • 잘못된 response를 스스로 확인하고 고쳐나가는 verify-then-correct 프레임워크를 제안
  • 📜 [MIT] Not All Language Model Features Are Linear
    • 최근 언어 모델이 activation space에서 1차원적인 representation을 갖는다고 주장하는 연구들이 제시됨
    • 이러한 주장과 달리 일부 언어 모델들은 inherently multi-dimensional representation을 갖는다는 것을 입증 → 독립적인 or 동시-발생하지 않는 lower-dimensional features로 decompose 가능
  • 📜 [Xi’an Jiaotong University] Quantifying Emergence in Large Language Models
    • 최근에는 언어 모델의 emergent ability가 잘못된 평가 지표 정의에 의한 것이라는 연구가 많음
    • → 본 연구에서는 macroscopic(semantic) & microscopic(token) level에서 entropy reduction을 비교하여 strength of emergence를 quantify
    • metric의 variance와 ICL에서 shot의 개수 등 사이의 상관 계수 등을 바탕으로 novel emergence pattern을 파악하고, 이를 통해 hallucination을 새로운 관점에서 해석
  • 🧑🏻‍💻 phidata
    • Autonomous Assistants를 구축하는 framework
    • Assistant = LLM + Memory(Chat History, Summaries, ...) + Knowledge(PDF, Docs, … ) + Tools(Search Web, Send Email, …)
  • 🧑🏻‍💻 [Mistral AI] mistral-finetune
    • 오픈소스 미스트랄의 모델을 LoRA 기반으로 fine-tuning 할 수 있도록 공개한 코드 베이스
    • 대부분의 파라미터는 frozen & 1-2% 정도의 추가 파라미터로 학습 → A100 or H100 권장
  • 📜 [EluetherAI and others] Lessons from the Trenches on Reproducible Evaluation of Language Models
    • 3년 간의 LLM 평가 경험을 바탕으로 researcher들을 위한 guidance와 lesson을 제공
    • 언어 모델 평가의 공통된 한계점, research에서의 어려움을 최소화하는 방법, 이와 같은 이슈를 해소하는 데 적합한 오픈소스 라이브러리 Language Model Evaluation Harness (lm-eval)
5th week
  • 📜 [Fudan University] Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models
    • CoT의 한계를 해결하기 위해 hierarchical reasoning aggregation framework, AoR (Aggregation or Reasoning)을 제시
    • reasoning chain에 대한 평가를 기반으로 정답을 고르는 방식. dynamic sampling 활용.
  • 📜 [Cohere] Cohere For AI Launches Aya 23, 8 and 35 Billion Parameter Open Weights Release
    • 23개 언어를 다룰 수 있는 8B, 35B 사이즈의 생성형 언어 모델 Aya 23를 공개
    • 대규모 multilingual instruction fine-tuning dataset으로 학습된 Aya 모델을 기반으로 발전
    • technical report on Aya 23
  • 📜 [National University of Singapore, Salesforce] Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework
    • LLM의 평가 능력에 대한 interpretability가 부족
    • → 평가 과정을 여러 개의 단계로 decompose 후 결과를 aggregate 하는 방법론을 제안. 이때 교육학적 관행을 근거로 여러 단계로 구분.
  • 📜 [University of Virginia, Princeton Language and Intelligence] SimPO: Simple Preference Optimization with a Reference-Free Reward
    • sequence의 평균 로그 확률을 implicit reward로 사용하여 reference model을 과정에서 제외
    • target reward margin을 사용하여 winning & losing response 간의 격차를 벌림
  • 📜 [IEEE] Wav-KAN: Wavelet Kolmogorov-Arnold Networks
    • 기존 MLP나 Spl-KAN은 interpretability, 학습 속도, robustness 등의 이슈가 존재
    • wavelet function을 KAN 네트워크 구조에 통합함으로써 입력 데이터의 high-/low-frequency 요소들을 효율적으로 capture 할 수 있도록 함
  • 🗞️ [xAI] Series B Funding Round
    • Valor Euquity Partners, Vy Captial 등으로부터 60억 달러 (약 7-8조..)에 해당하는 시리즈 B 펀딩을 확보
  • 📜 [Fudna University] Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization
    • LLM이 특정 query에 대해 답변을 잘하지 못하는 문제 → tokenization이 원인
    • 다양한 오픈소스 LLM이 tokenization에서 겪는 어려움을 테스트하기 위한 ADT (Adversarial Dataset for Tokenizer) 구축
  • 📜 [Google] Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?
    • LLM은 답변하기 애매한 것들에 대해 intrinsic uncertainty를 표현해야 한다고 주장
    • intrinsic uncertainty를 확인하기 위해 모델의 intrinsic confidence와 실제 결정 간의 갭을 측정할 수 있는 faithful response uncertainty를 공식화하여 실험
  • 📜 [Meta] An Introduction to Vision-Language Modeling
    • 메타에서 제시한 Vision-Language Modeling 관련 서베이 페이퍼
  • 📜 [Microsoft] Matryoshka Multimodal Models
    • Large Multimodal Models(LMMs)이 고해상도 이미지를 처리할 때 너무 많은 visual token을 학습해야 한다는 문제점이 존재
    • Matryoshka 인형에 착안. visual content를 여러 coarse-to-fine granularities 정보로부터의 nested sets of visual tokens로 표현하는 방법을 학습.
  • 🧑🏻‍💻 [DeepLearning.AI] AI Agentic Design Patterns with AutoGen
    • AutoGen 프레임워크를 사용하여 다양한 역할을 수행하고 뛰어난 능력을 가진 AI application을 만드는 방법을 학습
    • Reflection, Tool use, Planning 등 다양한 agentic design pattern에 대해 학습
  • 📜 [National University of Singapore] Faithful Logical Reasoning via Symbolic Chain-of-Thought
    • LLM의 logical reasoning 능력을 강화하기 위해 SymbCoT를 제안
      1. 자연어를 symbolic format으로 변경 2) 문제를 해결하기 위해 step-by-step plan을 구축 3) verifier가 translation & reasoning chain의 결과를 검증
  • 🧑🏻‍💻 [Karpathy] Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20
    • 124M: 90m, $20 / 350M: 14h, $200 / 1.6B: 1w, $2.5k
    • 124M 사이즈의 GPT-2를 A100x8를 사용하여 엄청나게 효율적으로 학습하는 방식을 공개
  • 🧑🏻‍💻 [Mistral AI] Codestral: Hello, World!
    • 80개 이상의 프로그래밍 언어를 다룰 수 있는 코드 특화 언어 모델을 공개
    • 22B 사이즈의 모델임에도 불구하고 Llama 3 70B, CodeLlama 70B 보다 뛰어난 성능을 보임
    • 허깅페이스에서 다운로드 가능
  • 📜 [The University of Edinburgh] 2BP: 2-Stage Backpropagation
    • Deep Neural Networks(DNNs)를 학습시키기 위한 기존의 pipeline parallelism은 ML 프레임워크에 내장된 automatic differentiation에 의한 병목이 발생
    • → 2-stage backporpagation(2BP)을 제안. 이를 통해 1.70x 향상된 throughput을 확인
  • 🗞️ [OpenAI] OpenAI makes ChatGPT-4o's advanced tools available to users in free tier
    • 이제 구독을 하지 않는 일반 유저들도 GPT-4o 모델을 이용할 수 있음
    • 또한 browse, vision, data analysis, file uploads, GPTs 등의 기능도 이용 가능
  • 📜 [Meta] Nearest Neighbor Speculative Decoding for LLM Generation and Attribution
    • LLM의 hallucination 문제를 해결하기 위해 kNN-LM과 같은 semi-parametric LM이 등장하였으나 inference 속도가 느리고 non-fluent texts를 생성한다는 문제점이 존재
    • 이를 해결하기 위해 임의 길이의 real-world text spans를 LM 생성 과정에 통합하는 Nearest Neighbor Speculative Decoding (NEST)를 제안 → token-level의 retrieval을 매 inference step마다 수행
  • 📜 [Adobe] Calibrating Reasoning in Language Models with Internal Consistency
    • CoT reasoning에 대한 모델의 internal representation에 대한 연구
    • → rationale은 정답 accuracy를 향상시키지만, 중간과 마지막 레이어 internal representation 간의 inconsistency를 야기함

🌸 April

1st week
2nd week
  • 🧑🏻‍💻 [Stability AI] Introducing Stable Audio 2.0
    • text-to-audio 뿐만 아니라 audio-to-audio 도 가능. 즉, audio로 새로운 audio를 생성하는 기능을 지원. 이 모델은 Diffusion Transformer (DiT) 아키텍쳐를 따르고 있음
  • 🧑🏻‍💻 [MyShell, MIT-IBM, Princeton, Lepton AI] JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars
    • 약 1억 3천 만원 정도의 비용으로 LLaMA2를 상회하는 능력의 모델 JetMoE를 학습했다고 밝힘. publicly 이용 가능한 데이터만으로 학습된 모델이라는 점을 강조. 향후 technical report 공개 예정 (아직 x)
  • 📜 [University of Copenhagen, Google DeepMind] MuLan: A Study of Fact Mutability in Language Models
    • 시간과 같은 contingency에 따라 정보가 mutable(변경될수도) 있다. mutable facts는 그렇지 않은 것과 다른 방식으로 인코딩되어 업데이트하기 더 쉬울 것이라는 가설 → 1:1, 1:N 관계에 대한 분석
  • 📜 [Stanford, MIT] Stream of Search (SoS): Learning to Search in Language
    • 문제를 풀기 위해 search가 필요한 데이터셋에 대해 transformer 기반의 모델을 from scratch 학습한 모델
  • 📜 [Stanford, Georgia] Social Skill Training with Large Language Models
    • 사람이 social skills에 의존하는 것처럼 LLM도 이러한 메커니즘을 활용할 수 있도록 하는 프레임워크, APAM(AI Partner, AI Mentor)를 제시
  • 📜 [Microsoft Research] Models to Self-Improve with General Preferences
    • Preference를 최적화하기 위해 contrastive learning의 단순함과 안전성을 theoretical generality와 결합한 Direct Nash Optimization(DNO)를 제시. 작은 사이즈(Orca-2 7B) 모델을 GPT-4와 AlpacaEval로 테스트했을 때 큰 성과 향상이 있었음
  • 🧑🏻‍💻 [W&B] Weight & Biases Docs
    • W&B의 document가 한글판으로 공식 배포됨
  • 🧑🏻‍💻 [Tesla] Robotaxi
    • 일론 머스크가 X에 Tesla의 Robotaxi가 8월 8일 출시될 예정임을 알림
  • 🧑🏻‍💻 [Andrej Karpathy] llm.c
    • GPT-2 모델 학습 코드 작성에 pytorch를 사용하지 않고 오직 c만 사용함. 1,000여 줄의 코드로 GPT-2의 학습 과정을 파악할 수 있음.
  • 🧑🏻‍💻 [3Blue1Brown] Attention in transformers, visually explained
    • 지난 번 Transformer 시각화 영상 이후 후속 영상 업로드
  • 📜 [Mila, McGil] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
    • decoder-only LLM에 1) bidiriectional attention, 2) masked token next prediction, 3) unsupervised contrastive learning을 적용하여 기존의 encoder 모델들보다 훨씬 뛰어난 MTEB 벤치마크 결과를 달성함
  • 📜 [Google] Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
    • 압축적인 정보를 vanilla attention mechanism에 넣고, single Transformer 블록 내에서 masked local attention과 long-term linear attention 메커니즘을 구현하는 방식, Infini-attention을 제안. 이를 통해 LLM이 long context 태스크를 잘 수행할 수 있게 됨
  • 📜 [NVIDIA] RULER: What's the Real Context Size of Your Long-Context Language Models?
    • Needle-In-A-Haystack (NIAH) 태스크에 multi-hop tracing과 aggregation 카테고리를 새로이 추가한 synthetic benchmark, Ruler를 공개
  • 📜 [UIUC] Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs
    • 대부분의 도메인에서 텍스트는 상호 관계를 갖는다는 점에 근거하여 Graph Reasoning Benchmark (GRBench)를 직접 제작. 10개의 도메인에서 1,740개 QA를 다룸.
  • 📜 [Apple] Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation
    • 사전학습된 트랜스포머 기반의 모델에 fine-tuning 없이 바로 적용 가능한 RAG prompting methodology, superposition prompting을 제안. 입력 문서를 parallel한 방식으로 처리하며 불필요한 것을 버리도록 함.
  • 📜 [Tsinghua, Microsoft] Rho-1: Not All Tokens Are What You Need
    • 모든 토큰이 동일한 중요도를 갖지 않으므로, 사전학습 단계에서 reference 모델을 사용하여 중요도가 높은 토큰에 대해 focused loss를 적용하는 방식인 Selective Language Modeling (SLM)을 제안. 이 방식으로 학습된 LLM이 Rho-1 모델.
  • 📜 [Google DeepMind] RecurrentGemma: Moving Past Transformers for Efficient Open Language Models
    • Griffin 모델의 아키텍쳐를 기반으로 linear recurrence에 local attention을 결합하여 학습한 모델 RecurrentGemma를 공개. 2B non-embedding parameters 버전의 모델과 instruction tuned 버전을 제공
  • 🧑🏻‍💻 [IBM] IBM watsonx chat
    • IBM watsonx.ai studio에서 사용 가능한 LLM 챗 모델을 공개. granite-13b-chat-v2, llama-2-13-chat, llama-2-70b-chat, 세 종류의 버전을 공개함.
3rd week
4th week

🌱 March

1st ~ 2nd week
3rd week
4th week
5th week

☃ February

1st ~ 3rd week
4th week
5th week

About

The list of NLP paper and news I've checked. There might be short description of them (abstract) in Korean.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published