전체 글 17

[딥러닝] Z-Image 이미지 생성 모델 원리, 테크니컬 리포트 분석 및 요약

오랜만에 주목할 만한 새로운 오픈소스 이미지 생성 모델이 출시되어 직접 리포트를 읽고 분석해보았다. 이번 모델이 6B 정도의 사이즈인데 32B 크기의 Flux.1 를 이기는 성능을 보여주었기 때문에 더 흥미가 생겼고 앞으로의 로컬 이미지 생성의 새로운 표준이 될 가능성이 보이는거 같다.소개Z-Image는 Alibaba Cloud의 Tongyi Lab에서 개발하여 2025년 11월 말에 공개한 최신 텍스트-이미지 생성 모델입니다. 이 모델은 기존의 거대 모델 트렌드(20B+ 파라미터)와 달리 60억 개(6B)의 파라미터만으로 최상위권의 생성 품질을 달성하는 '효율성'에 초점을 맞추었습니다.모델 패밀리모델 명주요 특징 및 목적Z-Image-Turbo주력 모델. 추론 속도에 최적화된 증류(Distilled) ..

AI 2025.11.30

[딥러닝] 클래스 밸런싱의 여러 방법과 Stable Diffusion 데이터셋의 멀티 레이블 클래스 밸런싱

동기 10만장 정도의 중규모? 멀티 레이블 캡션-이미지 데이터셋을 구축해서 새로운 모델을 파인튜닝하려고 시도 중인데, 기존에 시도했던 수많은 파인튜닝 모델들이 공통적으로 데이터셋이 적은 class는 학습이 되지 않거나, 대충 오버샘플링 할 경우 과적합 된 것 처럼 diversity가 매우 낮다는 문제가 있어 이러한 클래스 불균형 문제를 해결하기 위한 여러 방법을 정리하고 이를 바탕으로 새로운 아이디어를 제시해보고자 한다. 클래스 밸런싱이란? 클래스 밸런싱은 원래 분류 모델에서 자주 거론되는 클래스 불균형을 해결하는 방법을 일컫는 말이다. 클래스 불균형은 말 그대도 데이터셋에 존재하는 각 클래스의 데이터의 양이 고르지 않은 것을 의미한다. 클래스 불균형은 딥러닝 및 머신러닝에서 예측 성능 저하, 정확도 왜..

AI 2023.09.11

[하드웨어] 노트북 CPU 클럭 제한으로 쓰로틀링 방지하기(간헐적 렉 해결하기)

동기최근, 카트라이더 드리프트라는 게임을 노트북으로 하던 도중 간헐적으로 갑자기 플레이 할 수 없을 정도의 렉이 걸리는 증상이 발생했다. 이 문제를 해결하기 위해 여러 방법을 시도하던 중 가장 좋은 방법을 찾아서 글을 쓰게 되었다. 원인은 쓰로틀링나는 이 문제의 원인을 파악하기 위하여 hwinfo 라는 프로그램을 사용하였다. 해당 프로그램을 다른 모니터에 띄워놓고 게임을 플레이하며 간헐적 렉이 발생하는 원인을 파악하기 위하여 관찰했다. 관찰 결과, 렉이 걸리면 CPU의 클럭이 4000Mhz 이상에서 500Mhz 대로 급격하게 저하되는 것을 확인하였다. 이것의 원인은 CPU온도가 100도를 넘나들며, 열 조절 항목의 값이 '예'로 되어있는 것으로 확인 가능했다.CPU의 쓰로틀링(열 조절)이 발동한 것으로 ..

Infra 2023.06.30

Stable Diffusion WebUI에서 프롬프트만으로 과적합된 모델을 살리는 팁(Prompt Editing)

StableDiffusion이 나오고 얼마 되지 않아서 발견한 팁들로 발견한지 꽤 오래 되었지만 아는 사람이 거의 없는거 같아서 글로 적어본다. 과적합된 모델이란? 이 글에서 의미하는 과적합된 모델은 스타일이나 캐릭터 등의 subject를 드림부스나 LoRa, 파인튜닝등으로 학습한 모델에서 특정 단어를 넣으면 원래 의도와 다르게 같은 자세만 나오거나 같은 캐릭터만 나오는 모델을 의미한다. 이런 현상은 데이터셋의 크기가 작을때 자주 발생한다. 예를 몇가지 들어 보자면, 캐릭터의 사진이 모두 같은 자세를 취하고 있다면 캐릭터를 출력하면 해당 자세만 출력된다. 흑백 캐릭터 그림만 학습할 경우, 캐릭터를 출력하면 흑백으로만 나오게된다. 캐릭터를 학습하는데 데이터셋이 모두 같은 그림체일 경우, 다른 그림체로는 잘..

AI 2023.03.10

[딥러닝]Stable Diffusion에서 너무 어두운 이미지를 학습하지 못하는 이유와 해결 방법(noise offset에 대하여)

동기Stable Diffusion, Latent Diffusion Model 관련 논문들과 정보글을 찾아다니다가 어두운 이미지를 출력하지 못하고, 학습하지도 못한다는 흥미로운 글을 발견해서 읽어보고 그 글에 나온 원인과 해결 방법까지 알아보게 되었다.  문제Stable Diffusion을 사용하여 이미지를 출력하다 보면, midnight, dark를 써줘도 내가 생각한것 만큼 어두운 이미지가 나오지 않는다. 학습 이미지가 부족해서 그런가라는 생각을 가지고 매우 어두운 그림의 이미지를 모델에 학습시켜도 더 밝아져서 나오게 된다.실험결과,심지어 완전히 검은색인 이미지를 학습시키고 출력해도 아래 그림처럼 검은색 이미지가 나오지 않는다고 하며, 출력되는 이미지 값의 평균이 0.5라고 한다.문제 원인이 문제는 기..

AI 2023.03.04

Tag Counter : 데이터셋에서 csv 태그 형식의 라벨을 카운팅 하는 프로그램

https://github.com/baejun10/Tag-counter-for-datasets GitHub - baejun10/Tag-counter-for-datasets Contribute to baejun10/Tag-counter-for-datasets development by creating an account on GitHub. github.com 개발 동기 Stable Diffusion 모델을 학습시키기 위해서 Wd tagger나 BLIP등의 도구를 이용하여 이미지의 캡션을 생성하여 학습시켰다. 그런데 데이터셋에서 어떤 태그가 가장 많고 적은지 카운팅하는 프로그램이 없어 개발하게 되었다. 또한, 어떤 태그가 가장 많은지를 알면 프롬프트를 작성할때 좋은 참고가 된다. 이미지를 대량으로 파인튜닝하..

Programming 2023.02.18

[딥러닝 연구] Classifier-Free-Guidance(CFG)와 Stable diffusion 파인튜닝

동기지금까지 text-to-image 생성 모델인 여러 Latent Diffusion Model을 파인튜닝 해왔는데, 이미지 생성 모델에 대한 논문을 다시 정독하다가 CFG에 대한 부분을 전혀 고려하지 않고 있었다는 것을 깨달았다. 그래서 이걸 고려해서 새로운 기법을 적용하여 파인튜닝 해 본 결과 꽤 재미있는 결과가 나와서 글을 쓰게 되었다.  Text Conditioning의 중요성text-to-image 생성 모델에서는 text conditioning이 매우 중요한 역할을 한다. 자신이 원하는 이미지를 출력하기 위해서는 입력한 프롬프트를 이해하고 정확하게 Sampling을 해야 하기 때문이다.Stable Diffusion 에서는 샘플링 과정에서 text condition이 적용된 샘플의 퀄리티를 높이..

AI 2023.02.18

[딥러닝]Text to Image 모델 드림부스 학습의 Diversity를 높이는 방법

문제 원인 Dreambooth를 통해 특정 캐릭터같은 Subject를 학습하면 Fidelity는 만족스러울 수 있으나, Dreambooth로 학습할때에는 보통 학습 데이터셋의 양의 원래 모델을 학습했던 데이터셋보다 터무니없이 적으므로 학습한 토큰을 이용하여 그림을 출력해보면 다른 요소들을 일일히 지정해 주지 않으면 Diversity가 떨어져 거의 비슷비슷한 이미지가 나오게 된다. 하지만 드림부스로 수 천장을 학습시킨다고 무조건 좋은 것도 아니다. 왜냐하면 수 천장의 데이터셋에서 이상치가 있을 가능성이 매우 높기 때문에 자신이 원하지 않는 그림도 학습시킬 수도 있으며, 또한 수 천장의 이미지에서 여러 공통 특징 중에서 내가 원하는 공통된 특징만을 한 단어에 압축시키는 것이 매우 어려워 Fidelity가 낮..

AI 2023.02.01

[딥러닝] 이미지 생성 모델의 평가 방법에 대해서

지금까지 여러 Latent Diffusion 모델을 드림부스로 특정 대상에 대한 개념을 파인튜닝 해보면서 어떤 설정이나 데이터셋에 따라서 결과에 차이가 발생한다는 것을 알게되었지만, 어느정도의 유의미한 차이가 있는지 판단에 어려움이 있었다. 그래서 나는 생성모델을 수학적으로 평가하는 방법들에 대하여 알아보았다.  평가요소우선, Latent Diffusion 모델과 같은 이미지 생성모델을 평가하려면 어떤 요소들을 고려해야 할지 알아보자Fidelity (충실도) : 이미지의 질 (실제와 얼마나 유사한가?)Diversity(다양성) : 이미지의 다양성이렇게 크게 두가지가 있다.생성 모델에서 출력한 이미지의 질은 당연히 중요하고, 생성 모델이 다양한 결과물을 출력할 수 있어야 생성모델이 진정한 생성모델이라고 할..

AI 2023.01.16

[논문 리뷰] Dreambooth의 원리와 기본적 이해

Stable Diffusion에 대한 인기가 높아지면서 모델의 파인 튜닝에 대한 관심도 같이 높아지고 있다. 그런데 여기서 간편한 모델 파인 튜닝 방법 중 하나인 Dreambooth(드림부스)라는 것이 주목 받고 있다. 이 글에서는Dreambooth 논문을 요약하고, 어떻게 쓰는 것이 효율적인지에 대하여 연구한 내용을 다룰 것이다. 이 글을 읽기 전에 Stable diffusion에 대한 글을 먼저 읽는것을 추천한다. Fine-tuning 이란? 먼저, Dreambooth가 하는 일인 Fine-tuning이 뭔지부터 설명해보겠다. Fine-tuning은 기존에 학습된 모델(pretrained model)을 기반으로 추가적으로 새로운 데이터셋을 학습하는 것을 통해 모델의 파라미터를 미세조정하는 것이다. F..

AI 2022.12.22