Hendri Karisma

← Web Docs← Dokumentasi

Protokol Eksperimen — Milestone 1Protokol Eksperimen — Milestone 1

ResearchPenelitian

Protokol Eksperimen — Milestone 1

Carbon Footprint of LLM Prompting in CS Education — Pengukuran & SPE Versi: Draft 0.1 — Juni 2026 · Pendamping concept-note.md.


1. Desain

Quasi-eksperimen mixed-methods, within/between-subjects, dengan dua faktor terkontrol. Setiap mahasiswa menyelesaikan tugas CS berbantuan LLM di bawah kondisi yang ditetapkan; setiap prompt dicatat untuk estimasi energi, lalu capaian belajar diukur pre/post.

2. Partisipan

  • Mahasiswa Informatics / Computer Science, mata kuliah pemrograman.
  • Maranatha sebagai lokasi utama; Tazkia sebagai replikasi.
  • Target ukuran sampel: ≥ 30 per kondisi (disesuaikan power analysis); minimal pilot 10–15.
  • Inklusi: telah lulus prasyarat dasar pemrograman; informed consent.

3. Variabel

Independen (faktor):

  1. Gaya prompting: (a) bebas/zero-shot vs (b) framework terstruktur (mengikuti pola paper S2).
  2. Kelas model: (a) efisien/kecil vs (b) besar/reasoning.

Dependen:

  • Footprint (Sisi A): energi (Wh) → kWh → gCO₂eq (via SCI = E × I).
  • Efektivitas (Sisi B): learning gain (skor post − pre), kualitas output (rubrik), waktu pengerjaan.
  • Prompt efficiency: jumlah prompt, retry, total token (input+output), panjang percakapan.
  • Komposit: SPE = learning gain / gCO₂eq.

Kontrol: jenis tugas identik, batas waktu, lingkungan, versi model dicatat.

4. Tugas

Satu tugas pemrograman representatif (mis. implementasi + debug fungsi dengan beberapa test case), setara antar kondisi dalam tingkat kesulitan.

5. Instrumentasi & Pengukuran Energi

  1. Logging prompt: wrapper/proxy mencatat tiap panggilan — model, jumlah token input/output, jumlah panggilan, latensi, timestamp.
  2. Estimasi energi: dua pendekatan, dilaporkan berdampingan:
    • Top-down per query: angka acuan literatur (mis. query pendek ~0.42 Wh; reasoning hingga >33 Wh) diskalakan per token/panggilan.
    • Bottom-up (bila self-host): ukur langsung daya GPU/CPU via CodeCarbon/RAPL untuk model lokal — konsisten dengan metodologi paper Green Coding.
  3. Konversi karbon: gCO₂eq = kWh × I, I = intensitas grid (mis. Jawa–Bali ~790 gCO₂eq/kWh; lakukan analisis sensitivitas pada I).
  4. Penyimpanan: tiap perhitungan disimpan ke backend (endpoint /api/footprint) sebagai dataset.

Instrumen efektivitas: pre/post-test berbobot setara; rubrik kualitas kode (kebenaran, gaya, keterbacaan); NASA-TLX untuk beban kognitif; kuesioner persepsi.

6. Prosedur

  1. Pengarahan + informed consent.
  2. Pre-test (pengetahuan/keterampilan awal).
  3. Penugasan ke kondisi (acak/blok); (untuk RQ4: kelompok intervensi menerima green-prompting literacy singkat).
  4. Pengerjaan tugas berbantuan LLM — semua prompt ter-log.
  5. Post-test + rubrik output + NASA-TLX + kuesioner.
  6. (Opsional) wawancara singkat untuk data kualitatif.
flowchart LR
  C[Consent] --> PRE[Pre-test]
  PRE --> COND[Penugasan Kondisi<br/>prompting × model]
  COND --> TASK[Tugas CS + LLM<br/>semua prompt di-log]
  TASK --> POST[Post-test + Rubrik + NASA-TLX]
  POST --> AN[Analisis: footprint, gain, SPE]

7. Analisis Data

  • Deskriptif: footprint per mahasiswa/sesi, distribusi token & retry.
  • RQ1: estimasi titik & interval footprint per tugas.
  • RQ2: ANOVA dua-arah / regresi — efek gaya prompting & kelas model pada footprint.
  • RQ3: korelasi & regresi learning gain vs footprint; bandingkan SPE antar kondisi.
  • RQ4: uji beda intervensi vs kontrol pada footprint & gain.
  • Sensitivitas: ulangi dengan beberapa nilai I dan asumsi energi.

8. Etika

  • Persetujuan komisi etik institusi; informed consent; partisipasi sukarela & dapat mengundurkan diri.
  • Anonimisasi data; pemisahan identitas dari data analisis; penyimpanan aman.
  • LLM hanya alat bantu belajar; tidak ada penilaian akademik yang dirugikan oleh partisipasi.

9. Ancaman Validitas

  • Internal: perbedaan kemampuan awal (dimitigasi pre-test & randomisasi); efek pembelajaran antar kondisi.
  • Konstruk: estimasi energi top-down bersifat proksi (dimitigasi pelaporan dua metode + sensitivitas).
  • Eksternal: satu jenis tugas & populasi (dimitigasi replikasi Tazkia; generalisasi hati-hati).
  • Eksperimenter/Hawthorne: logging dapat memengaruhi perilaku (dijelaskan & dinormalkan).

10. Linimasa Indikatif (≈ 3 bulan)

MingguAktivitas
1–2Finalisasi instrumen, etik, wrapper logging
3Pilot (10–15 mahasiswa), kalibrasi energi
4–7Pengumpulan data utama (Maranatha)
8–9Replikasi (Tazkia)
10–11Analisis (footprint, gain, SPE)
12Penulisan draft artikel

11. Output

Dataset prompt+footprint, instrumen terbuka, dan draft artikel — bahan baku Milestone 2 (formalSPE).

Protokol Eksperimen — Milestone 1

Carbon Footprint of LLM Prompting in CS Education — Pengukuran & SPE Versi: Draft 0.1 — Juni 2026 · Pendamping concept-note.md.


1. Desain

Quasi-eksperimen mixed-methods, within/between-subjects, dengan dua faktor terkontrol. Setiap mahasiswa menyelesaikan tugas CS berbantuan LLM di bawah kondisi yang ditetapkan; setiap prompt dicatat untuk estimasi energi, lalu capaian belajar diukur pre/post.

2. Partisipan

  • Mahasiswa Informatics / Computer Science, mata kuliah pemrograman.
  • Maranatha sebagai lokasi utama; Tazkia sebagai replikasi.
  • Target ukuran sampel: ≥ 30 per kondisi (disesuaikan power analysis); minimal pilot 10–15.
  • Inklusi: telah lulus prasyarat dasar pemrograman; informed consent.

3. Variabel

Independen (faktor):

  1. Gaya prompting: (a) bebas/zero-shot vs (b) framework terstruktur (mengikuti pola paper S2).
  2. Kelas model: (a) efisien/kecil vs (b) besar/reasoning.

Dependen:

  • Footprint (Sisi A): energi (Wh) → kWh → gCO₂eq (via SCI = E × I).
  • Efektivitas (Sisi B): learning gain (skor post − pre), kualitas output (rubrik), waktu pengerjaan.
  • Prompt efficiency: jumlah prompt, retry, total token (input+output), panjang percakapan.
  • Komposit: SPE = learning gain / gCO₂eq.

Kontrol: jenis tugas identik, batas waktu, lingkungan, versi model dicatat.

4. Tugas

Satu tugas pemrograman representatif (mis. implementasi + debug fungsi dengan beberapa test case), setara antar kondisi dalam tingkat kesulitan.

5. Instrumentasi & Pengukuran Energi

  1. Logging prompt: wrapper/proxy mencatat tiap panggilan — model, jumlah token input/output, jumlah panggilan, latensi, timestamp.
  2. Estimasi energi: dua pendekatan, dilaporkan berdampingan:
    • Top-down per query: angka acuan literatur (mis. query pendek ~0.42 Wh; reasoning hingga >33 Wh) diskalakan per token/panggilan.
    • Bottom-up (bila self-host): ukur langsung daya GPU/CPU via CodeCarbon/RAPL untuk model lokal — konsisten dengan metodologi paper Green Coding.
  3. Konversi karbon: gCO₂eq = kWh × I, I = intensitas grid (mis. Jawa–Bali ~790 gCO₂eq/kWh; lakukan analisis sensitivitas pada I).
  4. Penyimpanan: tiap perhitungan disimpan ke backend (endpoint /api/footprint) sebagai dataset.

Instrumen efektivitas: pre/post-test berbobot setara; rubrik kualitas kode (kebenaran, gaya, keterbacaan); NASA-TLX untuk beban kognitif; kuesioner persepsi.

6. Prosedur

  1. Pengarahan + informed consent.
  2. Pre-test (pengetahuan/keterampilan awal).
  3. Penugasan ke kondisi (acak/blok); (untuk RQ4: kelompok intervensi menerima green-prompting literacy singkat).
  4. Pengerjaan tugas berbantuan LLM — semua prompt ter-log.
  5. Post-test + rubrik output + NASA-TLX + kuesioner.
  6. (Opsional) wawancara singkat untuk data kualitatif.
flowchart LR
  C[Consent] --> PRE[Pre-test]
  PRE --> COND[Penugasan Kondisi<br/>prompting × model]
  COND --> TASK[Tugas CS + LLM<br/>semua prompt di-log]
  TASK --> POST[Post-test + Rubrik + NASA-TLX]
  POST --> AN[Analisis: footprint, gain, SPE]

7. Analisis Data

  • Deskriptif: footprint per mahasiswa/sesi, distribusi token & retry.
  • RQ1: estimasi titik & interval footprint per tugas.
  • RQ2: ANOVA dua-arah / regresi — efek gaya prompting & kelas model pada footprint.
  • RQ3: korelasi & regresi learning gain vs footprint; bandingkan SPE antar kondisi.
  • RQ4: uji beda intervensi vs kontrol pada footprint & gain.
  • Sensitivitas: ulangi dengan beberapa nilai I dan asumsi energi.

8. Etika

  • Persetujuan komisi etik institusi; informed consent; partisipasi sukarela & dapat mengundurkan diri.
  • Anonimisasi data; pemisahan identitas dari data analisis; penyimpanan aman.
  • LLM hanya alat bantu belajar; tidak ada penilaian akademik yang dirugikan oleh partisipasi.

9. Ancaman Validitas

  • Internal: perbedaan kemampuan awal (dimitigasi pre-test & randomisasi); efek pembelajaran antar kondisi.
  • Konstruk: estimasi energi top-down bersifat proksi (dimitigasi pelaporan dua metode + sensitivitas).
  • Eksternal: satu jenis tugas & populasi (dimitigasi replikasi Tazkia; generalisasi hati-hati).
  • Eksperimenter/Hawthorne: logging dapat memengaruhi perilaku (dijelaskan & dinormalkan).

10. Linimasa Indikatif (≈ 3 bulan)

MingguAktivitas
1–2Finalisasi instrumen, etik, wrapper logging
3Pilot (10–15 mahasiswa), kalibrasi energi
4–7Pengumpulan data utama (Maranatha)
8–9Replikasi (Tazkia)
10–11Analisis (footprint, gain, SPE)
12Penulisan draft artikel

11. Output

Dataset prompt+footprint, instrumen terbuka, dan draft artikel — bahan baku Milestone 2 (formalSPE).