패스트캠퍼스 챌린지 16일차
4. dvc 기본명령어 2
1) dvc pull
데이터를 remote storage 로부터 다운로드합니다.
cd dvc-tutorial
# dvc 캐시를 삭제합니다.
rm -rf .dvc/cache/
# dvc push 했던 데이터를 삭제합니다.
rm -rf data/demo.txt
# dvc pull 로 google drive 에 업로드했던 데이터를 다운받습니다.
dvc pull
# 방금 다시 다운받은 데이터가 이전 데이터와 동일한지 확인합니다.
cat data/demo.txt
2) dvc checkout
data 의 버전 변경하는 명령어입니다.
버전 변경 테스트를 위해, 새로운 버전의 data 를 dvc push 합니다.
# 데이터를 변경합니다. (새로운 데이터를 같은 이름으로 copy 해와도 좋습니다.)
vi data/demo.txt
# 변경되었는지 확인합니다.
cat data/demo.txt
# dvc add (data/demo.txt.dvc 를 변경시켜주는 역할)
dvc add data/demo.txt
# git add and commit
git add data/demo.txt.dvc
git commit -m "update demo.txt"
# dvc push (and git push)
dvc push # 새로운 버전의 data 파일을 remote storage 에 업로드
(git push) # .dvc 파일을 git repository 에 업로드
구글 드라이브로 이동하여 new 파일이 정상적으로 업로드되었는지 확인합니다.
새로운 폴더가 추가로 생성되었고, 폴더 내부에 긴 이름의 파일이 하나 업로드된 것
을 확인하실 수 있습니다.
이 파일을 다운로드받은 뒤 열어보면 방금 변경한 파일이 업로드 된 것을 확인할 수
있습니다.
이전 버전의 data 로 되돌아가보겠습니다.
# git log 를 확인합니다.
git log --oneline
# demo.txt.dvc 파일을 이전 commit 버전으로 되돌립니다.
git checkout <COMMIT_HASH> data/demo.txt.dvc
# dvc checkout 합니다. (demo.txt.dvc 의 내용을 보고 demo.txt 파일을 이전 버전으로 변경합니다.)
dvc checkout
# 데이터가 변경되었는지 확인합니다.
cat data/demo.txt
5. DVC 의 추가 기능
이번 강의에서 다루지 않은 DVC 의 추가 기능
Python API 를 사용한 제어
https://dvc.org/doc/api-reference
S3, HDFS, SSH 등의 remote storage 연동
DAG 를 통한 Data pipeline 관리
https://dvc.org/doc/start/data-pipelines
dvc metrics , dvc plots 를 사용한 각 실험의 metrics 기록 및 시각화
#직장인인강 #직장인자기계발 #패스트캠퍼스후기#온라인패키지:머신러닝서비스구축을위한실전MLOps#머신러닝서비스구축을위한실전MLOps온라인패키지Online.
패스트캠퍼스 [직장인 실무교육]
프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.
fastcampus.co.kr
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.