Programming, IT, Algorithm, Security

https://github.com/baejun10/Tag-counter-for-datasets

 

GitHub - baejun10/Tag-counter-for-datasets

Contribute to baejun10/Tag-counter-for-datasets development by creating an account on GitHub.

github.com

개발 동기

Stable Diffusion 모델을 학습시키기 위해서 Wd tagger나 BLIP등의 도구를 이용하여 이미지의 캡션을 생성하여 학습시켰다.

그런데 데이터셋에서 어떤 태그가 가장 많고 적은지 카운팅하는 프로그램이 없어 개발하게 되었다.

또한, 어떤 태그가 가장 많은지를 알면 프롬프트를 작성할때 좋은 참고가 된다. 이미지를 대량으로 파인튜닝하는 경우 필수적이다.

 

요구사항

  • 파이썬
  • Pandas 모듈

사용법

  1. 파이썬과 pandas 모듈을 설치한다.
  2. 코드를 다운 받은 후, 같은 폴더에 있는 bat 파일 코드의 옵션 수정 후 bat 파일 실행
  3. 출력된 csv파일을 열기

예시

python counting_tags.py --dir="C:\Users\dir\folder" --verbose --extension=caption --output="C:" --recursive
 

옵션

--dir 파일을 읽을 경로 입력 (필수)

--verbose 파일명과 태그 내용 출력

--extension 기본값으로 txt 파일을 읽지만, extension 옵션으로 다른 확장자로 변경 가능

--recursive 파일 경로의 하위 폴더도 포함하여 카운팅

--output 태그 카운팅 후, csv 파일을 저장할 경로 지정(지정 안할 경우 dir 폴더에 저장)

--processes 병렬 프로세스로 csv 파일 읽기 (어차피 파일 읽기는 빨라서 별 차이는 안나는듯?)

profile

Programming, IT, Algorithm, Security

@PITAS

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!