Protokol Eksperimen — Milestone 1Protokol Eksperimen — Milestone 1

ResearchPenelitian

Protokol Eksperimen — Milestone 1

Carbon Footprint of LLM Prompting in CS Education — Pengukuran & SPE Versi: Draft 0.1 — Juni 2026 · Pendamping concept-note.md.

1. Desain

Quasi-eksperimen mixed-methods, within/between-subjects, dengan dua faktor terkontrol. Setiap mahasiswa menyelesaikan tugas CS berbantuan LLM di bawah kondisi yang ditetapkan; setiap prompt dicatat untuk estimasi energi, lalu capaian belajar diukur pre/post.

2. Partisipan

Mahasiswa Informatics / Computer Science, mata kuliah pemrograman.
Maranatha sebagai lokasi utama; Tazkia sebagai replikasi.
Target ukuran sampel: ≥ 30 per kondisi (disesuaikan power analysis); minimal pilot 10–15.
Inklusi: telah lulus prasyarat dasar pemrograman; informed consent.

3. Variabel

Independen (faktor):

Gaya prompting: (a) bebas/zero-shot vs (b) framework terstruktur (mengikuti pola paper S2).
Kelas model: (a) efisien/kecil vs (b) besar/reasoning.

Dependen:

Footprint (Sisi A): energi (Wh) → kWh → gCO₂eq (via SCI = E × I).
Efektivitas (Sisi B): learning gain (skor post − pre), kualitas output (rubrik), waktu pengerjaan.
Prompt efficiency: jumlah prompt, retry, total token (input+output), panjang percakapan.
Komposit: SPE = learning gain / gCO₂eq.

Kontrol: jenis tugas identik, batas waktu, lingkungan, versi model dicatat.

4. Tugas

Satu tugas pemrograman representatif (mis. implementasi + debug fungsi dengan beberapa test case), setara antar kondisi dalam tingkat kesulitan.

5. Instrumentasi & Pengukuran Energi

Logging prompt: wrapper/proxy mencatat tiap panggilan — model, jumlah token input/output, jumlah panggilan, latensi, timestamp.
Estimasi energi: dua pendekatan, dilaporkan berdampingan:
- Top-down per query: angka acuan literatur (mis. query pendek ~0.42 Wh; reasoning hingga >33 Wh) diskalakan per token/panggilan.
- Bottom-up (bila self-host): ukur langsung daya GPU/CPU via CodeCarbon/RAPL untuk model lokal — konsisten dengan metodologi paper Green Coding.
Konversi karbon: gCO₂eq = kWh × I, I = intensitas grid (mis. Jawa–Bali ~790 gCO₂eq/kWh; lakukan analisis sensitivitas pada I).
Penyimpanan: tiap perhitungan disimpan ke backend (endpoint /api/footprint) sebagai dataset.

Instrumen efektivitas: pre/post-test berbobot setara; rubrik kualitas kode (kebenaran, gaya, keterbacaan); NASA-TLX untuk beban kognitif; kuesioner persepsi.

6. Prosedur

Pengarahan + informed consent.
Pre-test (pengetahuan/keterampilan awal).
Penugasan ke kondisi (acak/blok); (untuk RQ4: kelompok intervensi menerima green-prompting literacy singkat).
Pengerjaan tugas berbantuan LLM — semua prompt ter-log.
Post-test + rubrik output + NASA-TLX + kuesioner.
(Opsional) wawancara singkat untuk data kualitatif.

flowchart LR
  C[Consent] --> PRE[Pre-test]
  PRE --> COND[Penugasan Kondisi<br/>prompting × model]
  COND --> TASK[Tugas CS + LLM<br/>semua prompt di-log]
  TASK --> POST[Post-test + Rubrik + NASA-TLX]
  POST --> AN[Analisis: footprint, gain, SPE]

7. Analisis Data

Deskriptif: footprint per mahasiswa/sesi, distribusi token & retry.
RQ1: estimasi titik & interval footprint per tugas.
RQ2: ANOVA dua-arah / regresi — efek gaya prompting & kelas model pada footprint.
RQ3: korelasi & regresi learning gain vs footprint; bandingkan SPE antar kondisi.
RQ4: uji beda intervensi vs kontrol pada footprint & gain.
Sensitivitas: ulangi dengan beberapa nilai I dan asumsi energi.

8. Etika

Persetujuan komisi etik institusi; informed consent; partisipasi sukarela & dapat mengundurkan diri.
Anonimisasi data; pemisahan identitas dari data analisis; penyimpanan aman.
LLM hanya alat bantu belajar; tidak ada penilaian akademik yang dirugikan oleh partisipasi.

9. Ancaman Validitas

Internal: perbedaan kemampuan awal (dimitigasi pre-test & randomisasi); efek pembelajaran antar kondisi.
Konstruk: estimasi energi top-down bersifat proksi (dimitigasi pelaporan dua metode + sensitivitas).
Eksternal: satu jenis tugas & populasi (dimitigasi replikasi Tazkia; generalisasi hati-hati).
Eksperimenter/Hawthorne: logging dapat memengaruhi perilaku (dijelaskan & dinormalkan).

10. Linimasa Indikatif (≈ 3 bulan)

Minggu	Aktivitas
1–2	Finalisasi instrumen, etik, wrapper logging
3	Pilot (10–15 mahasiswa), kalibrasi energi
4–7	Pengumpulan data utama (Maranatha)
8–9	Replikasi (Tazkia)
10–11	Analisis (footprint, gain, SPE)
12	Penulisan draft artikel

11. Output

Dataset prompt+footprint, instrumen terbuka, dan draft artikel — bahan baku Milestone 2 (formalSPE).