-
Notifications
You must be signed in to change notification settings - Fork 0
Feedback #1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: feedback
Are you sure you want to change the base?
Feedback #1
Conversation
초기 readme 작성, 기초적인 gitignore
dvc 최초 설정
- DVC와 원격저장소(gdrive) 연동 - gitignore에 credential 추가 - requirements에 DVC 추가
DVC credential 파일 경로 수정, gitignore 업데이트
This reverts commit 2654da7.
baseline 노트북 업로드
train.py와 config.yaml을 폴더 구조에 맞게 정리 constants.py로 경로 상수 관리
import error fix
TRAIN_CONFIG 경로 수정, yaml에 맞는 float 형으로 lr 수정
- Train과 Inference 분리 - dataprocessor와 constants로 공통 코드 모듈화 #2
inference시에도 프롬프트에 assistant message가 추가돼 1/2 라벨만 출력되던 에러를 수정
🦄 refactor(Baseline): Refactor train/inference
- DVC로 힌트 파일 커밋 - 사소한 gitignore 업데이트
data extractor
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
전반적으로 코드가 간혹 너무 길거나 깔끔하지 못한 부분이 드물게 눈에 띄지만 그런 부분들을 제외하고, 그리고 모듈 구현체들이 너무 깔끔하게 구현되어 있어 코드를 체크하는 와중에 조금 놀랐습니다. 어떤 부분부터 체크하고 어떤 명령어로 실행해야하는지를 모르겠어서 이 부분 readme에 추가해주시면 더 좋을 것 같습니다.
RAG의 경우 체크해보니 문서 검색도 지원하시려고 하셨던 것 같은데 hint를 붙이는데 사용해주신 것 같습니다. RAG의 개념으로 봐야할지는 모르겠지만 재미있는 시도였던 것 같습니다. 가능하면 영어로 작성해주시면 더더욱 좋을 것 같아요. 해외에서도 이를 레퍼런스로 활용할 수 있기 때문입니다.
코드 스타일 checker를 한번 돌리면 좋을 것 같다는 생각도 듭니다! 하지만 전반적으로 코드가 꽤나 깔끔하고 주석도 잘 달려있고 또한 구현도 가독성 높게 잘 구현되어있어서 사실 가독성, 동작성, 효율성, 문서화까지 모두 잘 충족해서 너무 좋았습니다만 도리어 적을 게 없어 기술적인 부분에서 더 시도했으면 하는 부분들과 같은 이야기를 하지 않는 이상 코드 리뷰 단에서 개선할 부분이 잘 안보여 (좋은 의미로) 대부분은 프로덕션 레벨로 넘어가면서 확장성과 같은 부분을 신경쓰거나 멀티 노드 환경으로의 전환에서 신경써야 할 점등을 들 수 있겠으나 여기 단계에서 할 이야기는 아닌 것 같아 따로 적지는 않았습니다.
폴더에 src가 두번 달려있는 부분은 조금 더 부연 설명이 있으면 좋겠지만 전반적으로 너무 좋습니다! 고생 많으셨습니다!
|
||
|
||
peft: | ||
enable: true # PEFT 활성화 여부 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
잘 정리해주셨고 주석도 깔끔하네요! 다른 것보다는 코드베이스는 꼭 영어를 베이스로 해주세요! 왜냐하면 그래야 여러분들이 추후 여러분들의 프로젝트를 좀더 글로벌하게 보여줄 수 있습니다!!
data_extractor/extractor.ipynb
Outdated
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
pdfplumber를 이용해 two-column과 지정된 directory에서 모든 파일을 가져와서 텍스트를 추출하고 저장하는 깔끔하고 좋은 코드인 것 같습니다 👍
train_data_file: "train.csv" | ||
test_data_file: "test.csv" | ||
|
||
model_path: '../model/' |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
상대경로는 파일을 다른 위치에서 실행하거나 directory 구조를 바꾸면 올바르게 동작하지 않을 위험성이 있습니다. 가능하면 절대경로를 사용하시고, 여차하면 환경 변수를 이용해 관리하셔도 좋습니다.
|
||
choices_shuffle: False | ||
|
||
model_name: "../model/Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4_base/checkpoint-3654" # "../model/Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4/checkpoint-3654" #"maywell/EXAONE-3.0-7.8B-Instruct-Llamafied" # "../model/maywell/EXAONE-3.0-7.8B-Instruct-Llamafied_t" # "vennielee/BubbyTalk-EXAONE-3.0-7.8B-v1.0" # "meta-llama/Llama-3.2-1B-Instruct" # "../model/beomi/gemma-ko-2b/checkpoint-3654" # "beomi/gemma-ko-2b" # "meta-llama/Llama-3.2-1B-Instruct" # "../model/meta-llama/Llama-3.2-1B-Instruct/checkpoint-3654" # "../model/beomi/gemma-ko-2b/checkpoint-3654" #"maywell/EXAONE-3.0-7.8B-Instruct-Llamafied" |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
주석이 한줄로 이어져서 보기가 힘듭니다. 줄바꿈을 통해서 변경하면 좋을 것으로 생각되요!
|
||
<img src='./images/qwen.png' height='128'> | ||
|
||
### Qwen-32B(int4) + test_hint(Qwen-32B) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
오 이미지로 체계적으로 정리되어있어서 가독성이 정말 좋네요! 한편으로 test hint를 제공하는데 전혀 성능 변화가 없는 것에 의아함도 느껴집니다.
ipykernel | ||
ipywidgets | ||
torch | ||
transformers | ||
trl |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
사소할 수는 있지만 현재 동작한 버전을 적어주시면 좋습니다! 적혀진 모든 library가 backward compatibility가 안될 경우 추후 해당 라이브러리가 올바르게 동작하지 않을 가능성이 높습니다.
documents = [] | ||
|
||
c=0 | ||
for paragraph in data1['train']['paragraph']+data1['validation']['paragraph']+data1['test']['paragraph']: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
이런 코드는 아래처럼 바꾸는 것이 어떠할까 싶습니다. 다른 것보다 스타일 체크를 하나 사용해보시면 어떨까 싶네요.
for paragraph in (
data1['train']['paragraph']
+ data1['validation']['paragraph']
+ data1['test']['paragraph']
):
readme.md
Outdated
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
how to run 파일이 없습니다.
어떤 폴더를 봐야하고 어떤 절차를 통해서 해당 프로젝트를 실행해야 하는지에 대한 정보를 제공해주면 처음 사용자가 편리할 것 같습니다.
👋! GitHub Classroom created this pull request as a place for your teacher to leave feedback on your work. It will update automatically. Don’t close or merge this pull request, unless you’re instructed to do so by your teacher.
In this pull request, your teacher can leave comments and feedback on your code. Click the Subscribe button to be notified if that happens.
Click the Files changed or Commits tab to see all of the changes pushed to the default branch since the assignment started. Your teacher can see this too.
Notes for teachers
Use this PR to leave feedback. Here are some tips:
For more information about this pull request, read “Leaving assignment feedback in GitHub”.
Subscribed: @privetin @LeSaUi @jduck301 @son0179 @WHY1862