Tag Counter : 데이터셋에서 csv 태그 형식의 라벨을 카운팅 하는 프로그램

Programming

Tag Counter : 데이터셋에서 csv 태그 형식의 라벨을 카운팅 하는 프로그램

PITAS 2023. 2. 18. 21:29

https://github.com/baejun10/Tag-counter-for-datasets

GitHub - baejun10/Tag-counter-for-datasets

Contribute to baejun10/Tag-counter-for-datasets development by creating an account on GitHub.

github.com

개발 동기

Stable Diffusion 모델을 학습시키기 위해서 Wd tagger나 BLIP등의 도구를 이용하여 이미지의 캡션을 생성하여 학습시켰다.

그런데 데이터셋에서 어떤 태그가 가장 많고 적은지 카운팅하는 프로그램이 없어 개발하게 되었다.

또한, 어떤 태그가 가장 많은지를 알면 프롬프트를 작성할때 좋은 참고가 된다. 이미지를 대량으로 파인튜닝하는 경우 필수적이다.

요구사항

파이썬
Pandas 모듈

사용법

파이썬과 pandas 모듈을 설치한다.
코드를 다운 받은 후, 같은 폴더에 있는 bat 파일 코드의 옵션 수정 후 bat 파일 실행
출력된 csv파일을 열기

예시

python counting_tags.py --dir="C:\Users\dir\folder" --verbose --extension=caption --output="C:" --recursive

옵션

--dir 파일을 읽을 경로 입력 (필수)

--verbose 파일명과 태그 내용 출력

--extension 기본값으로 txt 파일을 읽지만, extension 옵션으로 다른 확장자로 변경 가능

--recursive 파일 경로의 하위 폴더도 포함하여 카운팅

--output 태그 카운팅 후, csv 파일을 저장할 경로 지정(지정 안할 경우 dir 폴더에 저장)

--processes 병렬 프로세스로 csv 파일 읽기 (어차피 파일 읽기는 빨라서 별 차이는 안나는듯?)

'Programming' 카테고리의 다른 글

[DART] Dart의 상속과 생성자에 대해서 (0)	2022.06.23
[백준] 2292번 벌집 (0)	2022.06.22
(UAC 우회) 윈도우 로그오프 상태에서 프로그램을 자동으로 실행하는 방법 (0)	2022.05.14
Selenium 으로 만든 11번가 구매 매크로 (0)	2022.05.14

현재글Tag Counter : 데이터셋에서 csv 태그 형식의 라벨을 카운팅 하는 프로그램

PITAS Blog

프로그래밍, 최신 기술, AI, 알고리즘, 보안, 등 수많은 프로그래밍, CS 관련 흥미로운 지식을 기록하는 블로그

AI그림, Ai, NovelAI, dreambooth, 생성AI, Stable Diffusion, 알고리즘, StableDiffusion, finetuning, 드림부스, Z-Image, 스터터링, 머신러닝, 클래스 밸런싱, 딥러닝, 파인튜닝, 열 제한, vscode, Diffusion, 프레임 저하,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

PITAS Blog