Huggingface에서 데이터셋 다운로드가 계속 끊길때 해결방법

공대생의 팁 2025. 1. 14. 15:27

 


Huggingface 라이브러리에서 제공되는 Transformer 모델을 테스트해보기 위해 PC에 실행 환경 구축을 시도해보고 있었습니다. trasforemrs, datasets 등 필요한 pip 라이브러를 설치한 후 아래와 같은 방법으로 python 스크립트를 작성하였습니다.

1
2
from datasets import load_dataset
ds = load_dataset('scene_parse_150', trust_remote_code=True)
cs

그런데 데이터셋 다운로드가 진행되는 과정이 갑자기 중단되면서 에러가 발생합니다.

 

asyncio.exceptions.TimeoutError
fsspec.exceptions.FSTimeoutError

 

출력된 에러를 분석해보니 다운로드가 더이상 진행이 되지 않는 상황이 발생하였을 경우 datasets 라이브러리에서 다운로드를 중단시켜버립니다. 해당 라이브러리에서 다운로드 진행이 1초 이상 되지 않으면 프로그램이 종료되도록 설정되어 있는 것으로 제한시간을 넉넉하게 잡아주면 해결될 것 같아 아래와 같이 스크립트를 작성하였습니다.

1
2
3
4
5
from datasets import load_dataset
import aiohttp
ds = load_dataset('scene_parse_150'
    trust_remote_code=True
    storage_options={'client_kwargs': {'timeout': aiohttp.ClientTimeout(total==3600)}})
cs

위와 같이 설정해주었더니 다운로드가 끊기지 않고 완료되는 것을 확인할 수 있었습니다.

 

300x250