ProduSket: Transfromasi Gambar Produk Dari Sketsa Dengan Cepat

ProduSket adalah proyek yang dibuat sebagai Proyek Akhir untuk program MSIB Startup Campus: AI Track Computer Vision. ProduSket memanfaatkan General Adversarial Model (GAN) untuk mengubah sketsa mode menjadi gambar nyata. Proyek ini menggunakan model Pix2Pix Sketch2Shoes sebagai dasar dan memodifikasinya. Dengan menggunakan ProduSket, Anda dapat mengubah sketsa mode Anda menjadi gambar nyata dengan cepat. ProduSket memungkinkan percepatan proses pembuatan item mode dengan ini.

1. Latar Belakang & Deskripsi Proyek

ProduSket adalah proyek akhir (Final Project) yang dikembangkan dalam program MSIB Startup Campus: AI Track - Computer Vision.

Proses desain produk fashion seringkali memakan waktu lama, mulai dari pembuatan sketsa kasar hingga rendering desain 3D atau purwarupa. ProduSket hadir untuk mempercepat proses pembuatan item fashion dengan mengubah sketsa coretan desainer langsung menjadi gambar nyata (actual real-life images) menggunakan kecerdasan buatan, spesifiknya menggunakan model modifikasi dari arsitektur Pix2Pix.

2. Persiapan Data (Dataset)

Data yang kami gunakan bersumber dari Kaggle (Fashion Product Images Dataset). Kami mengekstraksi 8.744 gambar yang terbagi ke dalam 7 kelas berbeda: Kacamata (1000), Jam Tangan (2558), Tas (1000), Bawahan (790), Atasan (1330), Sepatu (1000), dan Sandal (1876).

  • Data Split: Training (70% - 6.691 data), Testing (20% - 1.906 data), Validation (10% - 957 data).
  • Image Processing (Edge Detection): Untuk melatih model terjemahan gambar ke gambar (image-to-image translation), kami melakukan pemrosesan pada gambar asli menggunakan teknik edge detection untuk mengekstrak bentuk sketsa sebagai input awal model.
Contoh Dataset Edge Detection ke Real Image

3. Arsitektur Model & Pelatihan (Training)

Sebagai model Adversarial-based generative, kami melatih arsitektur Generator dan Discriminator secara bersamaan. Kami membandingkan dua pendekatan modifikasi arsitektur (Ablation Study):

  • Model 1 (Pinka): Menggunakan Vanilla GAN dengan arsitektur generator ResNet.
  • Model 2 (Sultan): Menggunakan LSGAN (Least Squares GAN) dengan arsitektur generator UNet.

Training Curve: Grafik di bawah menunjukkan perbandingan Discriminator Loss dan Generator Loss selama proses training berlangsung (50 Epochs).

Discriminator Loss Generator Loss

4. Evaluasi Performa (Metrics)

Untuk mengukur seberapa realistis dan detail gambar yang dihasilkan oleh generator, kami menggunakan metrik Peak Signal-to-Noise Ratio (PSNR) dan Inception Score.

Model Name Epoch LR / Batch Optimizer PSNR Inception Score
pix_2_pix_pinka (ResNet) 50 0.0002 / 36 Adam 34.0 1.307
pix_2_pix_sultan (UNet) 50 0.0002 / 36 Adam 17.21 0.789

5. Hasil Generate Gambar (Testing)

Berikut adalah hasil inferensi model. Urutan dari atas ke bawah pada gambar: Baris pertama adalah gambar input (sketsa), baris kedua adalah Ground Truth (gambar asli), dan baris ketiga adalah hasil gambar yang di-generate oleh ProduSket.

6. Deployment

Agar model dapat digunakan secara interaktif, kami melakukan deployment menggunakan Streamlit. Pengguna dapat mengunggah (upload) gambar sketsa mereka sendiri (kacamata, jam, tas, sepatu, baju) dan melihat hasil jadinya dalam hitungan detik.

ProduSket App Demo

7. Dokumen Pendukung & Bisnis

Selain aspek teknis dan pengembangan model, kami juga merancang perancangan model bisnis serta membuat pitch deck untuk mempresentasikan potensi komersialisasi dari ProduSket. Anda dapat meninjau dokumen pendukung tersebut di bawah ini: