2 untuk Penyimpanan Hidrogen Menggunakan Machine …

47
i LAPORAN KEMAJUAN/LAPORAN AKHIR PENELITIAN HIGH IMPACT DANA ITS 2020 Desain Paduan AB 2 untuk Penyimpanan Hidrogen Menggunakan Pendekatan Machine Learning Tim Peneliti : Suwarno, ST., M.Sc., PhD./0020058004/Teknik Mesin/FTIRS Ir. Witantyo, M.Eng.Sc./ 0014036307/Teknik Mesin/FTIRS Dr. Lukman Noerochim/ 0013037701 /Teknik Materials/FTIRS DIREKTORAT RISET DAN PENGABDIAN KEPADA MASYARAKAT INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2020 Sesuai Surat Perjanjian Pelaksanaan Penelitian No: 840/PKS/ITS/2020

Transcript of 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Page 1: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

LAPORAN KEMAJUAN/LAPORAN AKHIR

PENELITIAN HIGH IMPACT

DANA ITS 2020

Desain Paduan AB2 untuk Penyimpanan Hidrogen Menggunakan 

Pendekatan Machine Learning 

Tim Peneliti :

Suwarno, ST., M.Sc., PhD./0020058004/Teknik Mesin/FTIRS Ir. Witantyo, M.Eng.Sc./ 0014036307/Teknik Mesin/FTIRS

Dr. Lukman Noerochim/ 0013037701 /Teknik Materials/FTIRS

DIREKTORAT RISET DAN PENGABDIAN KEPADA MASYARAKAT

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA

2020

Sesuai Surat Perjanjian Pelaksanaan Penelitian No: 840/PKS/ITS/2020

Page 2: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Daftar Isi

Daftar Isi ......................................................................................................................................................... 1

Daftar Tabel .................................................................................................................................................... 2

Daftar Gambar ................................................................................................................................................ 2

1 RINGKASAN ......................................................................................................................................... 3

1.1 Latar Belakang ................................................................................................................................. 4

1.2 Rumusan Masalah ........................................................................................................................... 4

1.3 Tujuan ............................................................................................................................................. 4

1.4 Kerjasama Internasional ................................................................................................................. 4

2 BAB II HASIL PENELITIAN ................................................................................................................ 5

2.1 Analisa awal .................................................................................................................................... 5

2.2 Data Awal ........................................................................................................................................ 8

2.3 Hasil Pengolahan Awal Data ........................................................................................................... 9

2.3.1 Feature Engineering .................................................................................................................. 10

2.3.2 Preprocessing Data ................................................................................................................... 12

2.4 Modelling Variabel dengan Unsur‐Unsur yang Tidak Dikelompokkan ......................................... 15

2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi ................................... 16

2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi ..................................... 18

2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14 ........................ 20

2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen ...................... 21

3 BAB III STATUS LUARAN ................................................................................................................ 24

4 BAB IV PERAN MITRA ..................................................................................................................... 25

(UntukPenelitian Kerjasama Antar Perguruan Tinggi) .................................. Error! Bookmark not defined.

BAB V KENDALA PELAKSANAAN PENELITIAN ............................................................................... 26

BAB VI RENCANA TAHAPAN SELANJUTNYA ................................................................................... 27

BAB VII DAFTAR PUSTAKA ................................................................................................................... 28

LAMPIRAN .................................................................................................................................................. 29

5 LAMPIRAN 1 Tabel Daftar Luaran ..................................................................................................... 30

 

 

Page 3: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Daftar Tabel Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H .................................................................................... 6

Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S ..................................................................................... 6

Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang Tidak Dikelompokkan ............ 10

Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur. .......... 11

Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B .......... 11

Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan ............ 16

Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan .............. 18

Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14 ........................ 20

Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen ...................... 21

 

 

Daftar Gambar Gambar  2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset .................................................................... 5

Gambar  2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn .......................... 7

Gambar  2‐3 Prevalensi Elemen pada Dataset Awal ....................................................................................... 8

Gambar  2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar ........................... 9

Gambar  2‐5. Pengecekan Null...................................................................................................................... 12

Gambar  2‐6 . Heat Map Uji Kolerasi Variabel Input ................................................................................... 13

Gambar  2‐7 Deteksi dan Penanganan Outliers ............................................................................................ 14

Gambar  2‐8. Jumlah Data Set untuk Setiap Variabel ................................................................................... 14

Gambar  2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan ................................. 16

Gambar  2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan ................................. 18

Gambar  2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14 ........................................... 20

Gambar  2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen ......................................... 22

Page 4: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

1 RINGKASAN

Hidrogen memiliki kerapatan energi yang tinggi dan memiliki potensi digunakan sebagai element penyimpanan energi dalam kendaraan bebas emisi maupun untuk penyimpanan energi . Namun, ditemukan banyak tantangan pada proses pengemasan hidrogen karena titik didih hidrogen yang rendah, yaitu -254°C. Beberapa metode yang digunakan untuk menyimpan hidrogen adalah pencairan, penyimpanan dalam tangki bertekanan tinggi, atau diikat dalam hidrida logam (metal hydride). Metode penyimpanan hidrogen dengan hidrida logam memiliki keunggulan dibandingkan metode lain karena hidrogen dapat disimpan pada tekanan rendah dengan kerapatan berat maupun volumetrik hidrogen yang tinggi.

Sampai saat ini, telah banyak logam paduan yang dipelajari sebagai media penyimpan hidrogen, dan beberapa di antaranya telah berhasil dikomersialkan. Salah satu contoh material penyimpanan hidrogen yang baik adalah paduan tipe AB2, dengan kapasitas hidrogen yang mampu disimpan sekitar 2-4 wt. % H dan kurang lebih 120 kg/m3. Tipe paduan ini juga memiliki laju penyerapan hidrogen yang cepat yang memungkinkan sintesis hidrida jenuh dalam waktu kurang dari 60 detik.

Penelitian ini berfokus pada penggunaan pendekatan ilmu pengolahan data, yaitu machine learning, untuk memprediksi daya simpan hidrogen paduan AB2. Tujuan dari penelitian ini adalah menemukan komposisi paduan yang dapat digunakan pada suhu kamar dengan kapasitas penyimpanan yang tinggi.

Proyek ini akan menjadi bagian konsorsium Eropa (http://hydride4mobility.fesb.unist.hr) yang sudah berjalan, di mana Departemen Teknik Mesin ITS Surabaya (Indonesia) adalah mitra dan Departemen Sistem Energi, IFE (Norwegia) berperan sebagi koordinator. Kerja sama ini memungkinkan pertukaran pengetahuan dan sumber daya sehingga penelitian dapat dilakukan dengan lebih efektif. Hasil dari penelitian ini akan diterbitkan dalam jurnal dengan reputasi baik yaitu The International Journal of Hydrogen Energy (IJHE).

Keywords: paduan AB2, penyimpanan hidrogen, machine learning, supervised learning, pengolahan data 

 

 

   

Page 5: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

1.1 Latar Belakang

Hidrida logam dapat diklasifikasikan menjadi tiga jenis, hidrida biner, hidrida paduan/ intermetalik, dan hidrida kompleks. Dua unsur dapat berikatan membentuk senyawa atau paduan dengan struktur kristal yang tidak teratur maupun teratur. Jenis pertama disebut juga paduan solid solution. Paduan pada jenis ini bereaksi membentuk hidrida logam. Hidrida logam yang berasal dari jenis paduan ini disebut "hidrida berbasis BCC". Contoh dari golongan hidrida ini adalah hidrida yang berasal dari paduan titanium dan vanadium. Jenis lain dari paduan yang tersusun dari paduan intermetalik dengan ciri – ciri struktur kristal yang teratur. Hidrida logam yang berasal dari paduan intermetalik termasuk pada jenis hidrida intermetalik, misalnya paduan AB2. Terdapat penelitian terbaru yang menunjukkan bahwa paduan AB2 digunakan sebagai baterai maupun penyimpan hidrogen [1-3].

1.2 Rumusan Masalah

Hal penting dari hidrida logam yang harus diperhatikan adalah sifat termodinamika dari hidrida yang terkait dengan suhu kesetimbangan untuk desorpsi hidrogen, laju reaksi yang menentukan waktu yang dibutuhkan untuk pengisian dan laju pelepasan hidrogen dari hidrida logam, stabilitas siklus, dan biaya produksi. Paduan dari AB2 mempunyai kepadatan hidrogen yang tinggi, laju reaksi yang cepat, dan sifat–sifat termodinamika pada paduan ini dapat diatur dengan penambahan elemen lain. Pada paduan AB2, sifat – sifat tersebut sangat bergantung pada komposisi kimianya. Komposisi kimia yang baik untuk memperoleh sifat – sifat yang baik hanya dapat dicapai melalui banyak percobaan. Metode baru yang digunakan untuk mengurangi jumlah eksperimen secara signifikan adalah prediksi hasil eksperimen dengan machine learning. Metode ini sudah diterapkan [4,5]. Namun demikian, penulis pada penelitian tersebut masih menggunakan database lama. Dalam penelitian ini, database dikumpulkan dari makalah – makalah baru yang diterbitkan untuk kemudian digunakan dalam machine learning untuk prediksi sifat dan komposisi paduan AB2.

 

1.3 Tujuan

Tujuan dari penelitian ini adalah sebagi berikut: o Mempelajari pengaruh komposisi kimia dari paduan AB2 terhadap kemampuan

sorption hidrogen. o Memprediksi sifat termodinamika paduan AB2 dengan pendekatan machine

learning. 1.4 Kerjasama Internasional

Departemen Teknik Mesin ITS terlibat dalam European Marie Currie Project HORIZON 2020, Hydride4Mobility, di dalam pengembangan kendaraan berbahan bakar fuel-cell. Konsorsium ini terbentuk dari 6 negara yang aggotanya berasal dari akademisi dan perusahaan (Error! Reference source not found.). Proyek ini berfokus pada pengembangan konsep kendaraan berbahan bakar fuel-cell layak pakai untuk menunjukkan bahwa hidrogen dapat digunakan sebagai penyimpan energi yang baik dan praktis. Penelitian ini sangat strategis bagi ITS untuk berkembang lebih jauh dalam teknologi hidrida logam dengan memanfaatkan jaringan pendidikan internasional di bidang ini.  

Page 6: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

2 BAB II HASIL PENELITIAN

2.1 Analisa awal

Analisa awal dilakukan untuk mendapatkan suatu visualisasi awal dari dataset yang sudah didapatkan untuk memprediksi hasil yang akan didapatkan dari analisa menggunakan machine learning. Dilakukan data count untuk mengetahui prevalensi elemen dari dataset dengan hasil sebagai berikut:

  

Gambar  2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset

Berdasarkan prevalensi elemen yang ada, indepen awal ini akan dilakukan menggunakan multivariate regression dimana variable independent dengan nilai prevalensi diatas 130 yaitu Ti, Zr, Mn, Cr, V, Ni, dan Co akan masing masing diregresi dengan variable dependen berupa entalpi dan entropi. Angka count 130 didapatkan dari asumsi serta analisa peneliti berdasarkan visualisasi prevalensi elemen yang didapatkan, guna meningkatkan kemampuan prediksi dari model regresi, karena secara teori ketika dataset memiliki nilai 0 yang lebih sedikit maka kemampuan prediksi akan meningkat. Hasil multivariate regression yang dilakukan menggunakan software Microsoft Excel didapatkan sebagai berikut. Statistika Regresi dengan nilai level signifikansi 95 % (α= 0.05) dengan hipotesa,

Ho = β1 = β2 = β3 = β4 = β5 = β6 = β7 = β8 = 0 H1 = at least one βi ≠ 0

Menmberikan hasil sebagai berikut, a. Regresi komposisi kimia terhadap selisih entalphi absorbsi

-R square = 0.2555967 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 25,5% yang berarti bahwa 25,5% dari entalphi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 2.67E-16 (Ho ditolak, setidaknya ada satu variable 5ndependent yang signifikan)

0

50

100

150

200

250

300

Ti Mn V Co Fe Y La Mg Cu W Ho Gd

Element Count

Unsur

Cou

nt

Page 7: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H 

No Unsur Koefisien Nilai P Signifikansi1 - 114,13 - - 2 Ti -83,9 0,393 Tidak 3 Zr -77,46 -,431 Tidak 4 Mn -2,667 0,134 Tidak 5 Co -13,68 0,009 Signifikan 6 Cr -4,40 0,019 Signifikan 7 V 8,243 0,000128 Signifikan 8 Ni 1,421 0,322 Tidak

Persamaan Regresi: Ŷ = 114.13 – 83.9Ti – 77.46Zr – 176.072Ho – 2.667Mn -13.68Co – 4.40Cr + 8.243V + 1.421 Ni……………………(7)

b. Regresi komposisi kimia terhadap selisih entropi absorbsi

-R square = 0.122785 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 12,2% yang berarti bahwa 12,2% dari entropi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 9.92E-07 (Ho ditolak, setidaknya ada satu variable 6ndependent yang signifikan)

Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S 

No Unsur Koefisien Nilai P Signifikansi1 - 239,5 - - 2 Ti -130,061 0,366 Tidak 3 Zr -130,097 0,366 Tidak 4 Mn -4,589 0,077 Tidak 5 Co -41,134 0,0001 Signifikan 6 Cr 0,503 0,0854 Signifikan 7 V 4,924 0,1137 Tidak 8 Ni 1,3513 0,5199 Tidak

Persamaan Regresi: Ŷ = 239.35 – 130.061Ti – 130.097Zr – 4.589Mn -41.134Co – 0.503Cr + 4.924V + 1.3513 Ni………………………………(8)

Regresi yang dilakukan menggunakan python jupyter notebook menghasilkan nilai yang sama

dengan nilai yang diberikan oleh microsoft excel. Hal ini terjadi karena memang pada dasarnya prinsip regresi linear pada microsoft excel sama dengan python. Namun, nilai 25,5 % dan 12,2% untuk kemampuan prediksi ini tergolong sangat lemah. Oleh karena itu perlu ditemukan penyebab lemahnya kemampuan prediksi ini. Untuk melakukan hal tersebut, dilakukan visualisasi plot dataset variabel input dengan variabel output dan didapatkan hasil sebagai berikut:

Page 8: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Berdasarkan plot pada Gambar 10 dapat dilihat bahwa terdapat banyak noise yang terjadi pada plot tersebut yang membuat trend pengaruh masing masing variabel input terhadap variabel output menjadi susah untuk dilihat. Sehingga wajar apabila hasil regresi awal menunjukkan kemampuan yang sangat lemah. Noise ini dapat disebabkan karena banyak hal, antara lain: i) 50 Jurnal yang didapatkan berasal dari peneliti serta laboratorium yang berbeda, sehingga terdapat kemungkinan set up percobaan yang berbeda pula. Seperti contohnya terdapat spesimen yang mengalami perlakuan panas dan ball milling. ii) Terdapat banyaknya nilai nol pada dataset tersebut. Oleh karena itu dilakukan analisa awal tahap kedua yaitu dengan melakukan feature engineering terhadap dataset, dimana dataset yang memiliki nilai 0 tidak akan diikutsertakan dalam regresi linear yang baru. Selain itu dilakukan juga data scaling untuk menyetarakan kemampuan masing masing fitur yang ada, sehingga semua fitur memiliki kesempatan yang sama untuk berkontribusi di proses regresi. Berdasarkan regresi linear tahap kedua, didapatkan hasil sebagai berikut:

a.

b Variabel Input

Var

iabe

l Out

put

Var

iabe

l Out

put

Variabel Input

Gambar  2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn

Page 9: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

a. Regresi komposisi kimia terhadap ΔH absorbsi: R square = 0.410 (kemampuan prediksi 41%) Nilai P keseluruhan = 2.46E-10 (H0 ditolak) Ŷ = 26.39 + 16.70Ti + 9.68Zr +16.75Mn +6.86Co + 50.52Cr -4.58V -17.46 Ni……………………………………………..(9)

b. Regresi komposisi kimia terhadap ΔS absorbsi: R square = 0.318 (kemampuan prediksi 31.8%) Nilai P keseluruhan = 3.03E-07 (H0 ditolak) Ŷ = 77.63+ 35.27Ti +42.35Zr +30.401Mn + 18.897Co +58.51Cr + 30.24V – 43.67

Ni………………………………………....(10)

Nilai kemampuan regresi dari terhadap kedua variabel output menunjukkan kenaikan yang cukup signifikan yaitu pada regresi terhadap ΔH yang semula bernilai 25,5% naik menjadi 41% dan pada ΔS yang semula bernilai 12,2% naik menjadi 31,8%. Hal ini menunjukkan bahwasanya sangat penting untuk dilakukan feature engineering ketika mengolah data sebelum dilakukan fitting terhadap model. Pada penelitian ini akan dilakukan data fitting yang lain berupa pengkategorian dataset berdasarkan set up percobaan yang dilakukan.  

2.2 Data Awal

Didapatkan 324 pasang data logam paduan dari 50 jurnal, dimana setiap logam paduan

memiliki kandungan unsur yang berbeda-beda. Gambar 2.3 menunjukkan grafik bubble prevalensi

Keterangan:

- Huruf: Nama Unsur - Angka: Jumlah Paduan yang

Mengandung Unsur Tersebut

Gambar  2‐3 Prevalensi Elemen pada Dataset Awal

Page 10: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

elemen yang berada pada seluruh set paduan. Angka yang berada dibawah keterangan jenis elemen menunjukkan jumlah set paduan yang mengandung elemen tersebut. Dapat dilihat bahwa terdapat bubble yang berukuran sangat kecil yang tidak memiliki keterangan jenis elemen unsur. Hal ini menunjukkan bahwa hanya terdapat sedikit logam paduan yang mengandung elemen-elemen tersebut. Keberadaan elemen unsur dengan prevalensi yang sangat rendah ini dapat memberikan pengaruh yang buruk terhadap model machine learning karena keterbatasan informasi yang diberikan oleh elemen unsur tersebut dapat menyebabkan prediksi yang tidak akurat. Oleh karena itu dilakukan pemilihan variabel input yang akan digunakan pada model dimana diambil 8 unsur yang memiliki prevalensi terbesar yaitu Ti, Zr, Mn, Cr, V, Ni, Co, dan Sn.

 Gambar  2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar

Gambar 2.4 menunjukkan prevalensi elemen setelah dilakukan penghapusan untuk unsur-

unsur yang memiliki prevalensi yang rendah. Gambar menunjukkan bahwa sudah tidak terdapat perbedaan ukuran bubble yang cukup besar. Namun, dari gambar tersebut dapat dilihat bahwa akan ada banyak baris dataset yang memiliki nilai 0 karena tidak semua paduan mengandung unsur-unsur yang ada pada gambar 2.4. Hal ini juga akan menyebabkan menurunnya kemampuan prediksi dari model. Oleh karena itulah dilakukan pengolahan terhadap data awal yang akan dijelaskan pada bagian subbab 2.3.

2.3 Hasil Pengolahan Awal Data

Pengolahan data awal dilakukan untuk mengatasi temuan-temuan pada analisis awal menggunakan multivariate regression seperti banyaknya noise yang dihasilkan oleh set up percobaan yang berbeda-beda, banyaknya null value, dan banyaknya data outliers yang dapat

Keterangan:

- Huruf: Nama Unsur - Angka: Jumlah Paduan yang

Mengandung Unsur Tersebut

Page 11: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

10 

menurunkan performa prediksi model machine learning. Pengolahan awal data dimulai dengan feature engineering dan dilanjutkan dengan data preprocessing. 2.3.1 Feature Engineering

Dilakukan feature engineering untuk memilih variasi fitur yang memiliki kemampuan prediksi yang paling tinggi, sebagai fitur yang akan digunakan pada pengujian secara keseluruhan. Kedua jenis variabel input yang ada pada penelitian ini akan mendapatkan perlakuan feature engineering yang berbeda. a. Variabel input dengan unsur-unsur elemen yang tidak dikelompokkan

Dataset dengan unsur-unsur yang tidak dikelompokkan berguna untuk megetahui pengaruh

masing masing unsur terhadap variabel output pada model serta mendapatkan prediksi model secara keseluruhan. Dimana untuk dataset ini, terdapat enam jenis variasi fitur yang akan diuji yaitu: i) seluruh fitur tanpa dilakukan persuntingan, ii) fitur yang dibagi berdasarkan set up pengujian tanpa menggunakan heat treatment, iii) fitur untuk paduan yang mengalami heat treatment pada set up pengujian, dan iv) fitur untuk senyawa tanpa menyertakan paduan yang memiliki komposisi yang bernilai 0 dimana dilakukan penghapusan untuk senyawa yang memiliki nilai nol seperti pada sel yang diblok menggunakan warna kuning pada gambar 2.3 sehingga dataset yang diuji hanyalah set paduan yang mengandung kedelapan unsur pada variabel input seperti sel yang diblok menggunakan warna hijau. Pengujian variasi fitur ini dilakukan dengan menggunakan multivariate linear regression terhadap seluruh variable target yaitu ΔH absorbsi, ΔS absorbs, phase abundance, dan persen massa hydrogen di software orange python, dengan data train sebanyak 80% dan data tes sebanyak 20 % secara random dan bertingkat. Dari hasil pengujian variasi tersebut didapatkan hasil sebagai berikut.

Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang

Page 12: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

11 

Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur. 

Variasi Fitur

ΔH absorbsi

ΔS absorbsi

Phase Abundance

Persen Massa Hidrogen

Skor rata rata

Seluruh fitur tanpa disunting

0.13 0.042 0.317 0.23 0.151

Fitur set up uji dengan heat treatment

0.684 0.94 0.476 0.22 0.368

Fitur set up uji tanpa heat treatment

0.257 0.105 0.332 0.445 0.284

Fitur tanpa nilai 0

0.42 0.19 0.86 0.66 0.532

Berdasarkan pengujian yang dilakukan skor rata-rata tertinggi diraih oleh fitur tanpa nilai 0,

dan secara berurutan diikuti fitur set up uji dengan heat treatment, fitur set up uji tanpa heat treatment, dan seluruh fitur yang tidak tidak disunting. Pengujian fitur senyawa A dan B secara terpisah mendapatkan skor terendah karena memang pada dasarnya seluruh unsur memiliki pengaruh terhadap variable output sehingga wajar bahwa pada saat senyawa A dan B dipisahkan, skor terendah didapatkan. Pengujian fitur tanpa nilai 0 mendapatkan skor tertinggi diantara semua variasi. Hal ini sesuai dengan teori analisis data bahwa data dengan nilai null yang lebih sedikit akan menghasilkan prediksi yang lebih baik. Oleh karena itu dataset fitur dengan unsur tanpa nilai 0 akan dipilih sebagai dataset yang digunakan untuk variabel dengan unsur-unsur yang tidak dikelompokkan pada pengujian selanjutnya.

b. Variabel dengan unsur-unsur elemen yang dikelompokkan menjadi unsur A dan B berguna untuk

mengetahui pengaruh paduan secara stoichiometryterhadap variabel output. Berdasarkan seleksi variabel awal yang telah dilakukan, unsur A pada data set yang digunakan terdiri dari unsur Ti dan Zr, sedangkan unsur B terdiri dari unsur Mn, Co, Cr, V, Ni, dan Sn. Variabel dengan unsur-

Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B  

Page 13: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

12 

unsur yang dikelompokkan menjadi unsur A dan B ini tidak akan melalui proses feature engineering karena seluruh unsur A dan B tidak bernilai nol.

2.3.2 Preprocessing Data

Data preprocessing dilakukan untuk meningkatkan kualitas dataset yang dimiliki dengan cara mengatasi data yang masih hilang atau kekurangan atribut tertentu, data yang mengandung data outlier, dan mengatasi variasi nilai dataset yang terlalu besar. Kedua jenis variable akan mengalami preprocessing data yang sama. Dilakukan beberapa jenis data preprocessing pada penelitian ini yaitu, pengecekan null, scaling, pendeteksian dan penanganan outliers, serta pengujian multikolinearitas untuk variabel input. a. Pengecekan Null

Pengecekan null dilakukan untuk mengetahui apakah ada nilai yang hilang pada setiap variabel. Nilai yang hilang ini dapat menyebabkan terjadinya error pada saat proses fitting data. Pengecekan null menggunakan fugsi ”isnull” akan menghasilkan dua kemungkinan output yaitu true apabila terdapat nilai null pada variabel dan false apabila tidak terdapat nilai null. Hasil pengecekan didapatkan sebagai berikut:

 Gambar  2‐5. Pengecekan Null

Seluruh variabel menghasilkan output false yang berarti bahwa tidak terdapat nilai null pada variabel sehingga pengujian bisa dilanjutkan ke tahap selanjutnya.

Page 14: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

13 

b. Uji Multikolinearitas

Multikolinearitas terjadi ketika terdapat satu variabel input yang memiliki korelasi yang

sangat tinggi dengan variabel inout yang lain. Hal ini dapat menyebabkan redudansi yang berujung pada variabel yang tidak signifikan secara statistik. Untuk menguji apakah ada multikolinearitas, digunakan matriks korelasi, matriks kolerasi antara setiap variabel input ini diletakkan pada sebuah heat map untuk mempermudah visualisasi data yang memiliki multikolinearitas. Warna yang gelap menunjukkan variabel yang memiliki kolerasi yang tinggi satu dengan yang lain.

Pengujian kolerasi yang dilakukan terhadap dataset dengan variabel unsur yang tidak dikelompokkan menghasilkan heatmap seperti gambar 2.6 diatas. Didapatkan bahwa unsur Ti dan Zr memiliki kolerasi yang sangat tinggi satu dengan yang lain seperti yang dilingkari oleh lingkaran berwarna merah. Namun, variabel Ti dan Zr tidak akan dihapuskan dari model walapun Ti dan Zr bersifat multikolinear satu dengan yang lain. Hal ini dapat terjadi karena unsur Ti dan Zr adalah anggota dari senyawa A pada AB2 yang mana senyawa A akan selalu bernilai 1. Sehingga Ti bersifat berbanding terbalik dengan Zr, apabila komposisi Ti menurun berarti komposisi Zr menaik, dan sebaliknya. Sedangkan, variabel dengan unsur-unsur yang dikelompokkan menjadi A dan B tidak menunjukkan adanya multikolinearitas antara variabel A dan B. c. Deteksi dan Penanganan Outliers

Outliers dapat memberikan efek yang tidak proporsional terhadap hasil statistik data seperti nilai mean yang dapat berujung kepada interpretasi model yang salah. Untuk mendeteksi adanya outliers, ditambahkan sebuah metric baru berupa 3 standar deviasi dibawah dan diatas nilai mean masing masing variabel. Selanjutnya akan seluruh dataset akan difilter berdasarkan nilai Z, yaitu jarak suatu data terhadap rata-ratanya dalam satuan standar deviasi. Apabila nilai Z diatas +-3 standar deviasi, maka nilai tersebut akan dianggap sebagai outliers yang akan dihapus

Gambar  2‐6 . Heat Map Uji Kolerasi Variabel Input

Page 15: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

14 

Gambar 2.7 adalah contoh deteksi dan penanganan outlier yang dilakukan untuk variable dengan unsur-unsur yang tidak dikelompokkan. Pada proses tersebut, ditemukan 11 baris dataset yang mengandung outliers seperti yang dapat dilihat pada gambar bagian bawah yaitu baris ke-30, 31, 32, 48, 49, 70, 71, 72, 75, 81, 86, sehingga outliers ini dapat dihapus. Dapat dilihat bahwa baris outliers ini terletak berdekatan satu dengan yang lain seperti baris ke-30, 31, dan 32, hal ini kemungkinan besar terjadi karena data tersebut bersumber dari paper dan peneliti yang sama, namun set up pengujian yang ada pada paper tersebut berbeda dengan mayoritas set up pengujian yang ada pada dataset, sehingga menghasilkan nilai yang jauh berbeda.

 Gambar  2‐8. Jumlah Data Set untuk Setiap Variabel 

Setelah dilakukan pendeteksian terhadap kedua jenis variabel, dapat dilihat hasil akhir jumlah dataset tanpa outliers pada gambar 2.8. Dari data yang awalnya berjumlah 314 pasang dataset, menjadi 234 pasang data untuk fitur A dan B yang dikelompokkan, dan 86 pasang data untuk fitur unsur yang tidak dikelompokkan. Dataset ini adalah dataset final yang akan digunakan sebagai input model machine learning. d. Data Scaling

Data scaling adalah suatu cara untuk membuat numerical data pada dataset memiliki rentang

nilai (scale) yang sana, sehingga tidak ada lagi satu variabel data yang mendominasi variabel data lainnya. Pada penelitian ini digunakan proses data scaling terhadap nilai mean yang ada menggunakan fungsi scaler.mean. Perbandingan data sebelum dan sesudah scaling dapat dilihat

314

234

86

Fitur Awal tanpaPreprocessing

Fitur A dan B yangdikelompokkan

Fitur Unsur yang tidakdikelompokkan

Gambar  2‐7 Deteksi dan Penanganan Outliers 

Page 16: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

15 

pada gambar 4.10a Dimana dapat diamati sebelum dilakukannya scaling masih terdapat perbedaan nilai yang sangat besar antara variable input yang ada seperti unsur Nikel yang dapat mencapai harga 41. Scaling tersebut dilakukan menggunakan rumus berikut:

𝑋′ ……………………………………………(10)

dimana X’ adalah nilai fitur yang telah mengalami scaling, X adalah nilai fitur sebelum scaling, X min adalah nilai minimum dari dataset fitur lama dan X max adalah nilai maksimum dari dataset fitur lama. Sebagai contoh, dilakukan perhitungan untuk melakukan scaling pada salah satu unsur Mangan yang bernilai 4,2. Diketahui bahwa nilai mangan minimum pada dataset adalah, dan nilai mangan maksimum pada dataset adalah 13,6 dan nilai minimum mangan pada dataset adalah 4 maka,

𝑋 𝑋 𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥 𝑋𝑚𝑖𝑛

𝑋 4,2 4

13,6 4

𝑋 0,02083 setelah dilakukannya scaling ditemukan nilai mangan yang telah mengalami scaling sebesar 0,02083.

Dilakukan pengujian untuk menentukan jumlah tree yang dapat memberikan prediksi yang paling optimum bagi setiap variabel output untuk model random forest. Pengujian dilakukan dengan melakukan pengecekan prediksi untuk model dengan jumlah tree mulai dari 0 sampai dengan 100. Hasil dari pengujian diletakkan pada grafik dimana sumbu x menunjukkan jumlah tree, dan sumbu y menunjukkan kemampuan prediksi. Jumlah tree yang dipilih adalah yang memiliki kemampuan prediksi terbaik, ditandai dengan titik dengan posisi yang paling tinggi pada grafik. Pengujian untuk ΔH absorbsi, ΔS absorbsi, phase abundance, dan persen massa hidrogen menemukan jumlah tree optimal adalah 21, 8, 32, dan 7 tree secara berurutan. Jumlah tree ini dipakai dalam penentuan jumlah tree pada saat pembuatan model random forest. 2.4 Modelling Variabel dengan Unsur-Unsur yang Tidak Dikelompokkan

Didapatkan hasil evaluasi dari masing masing model yaitu regresi linear multivariate, decision tree, dan random forest untuk variabel dengan unsur-unsur yang tidak dipisahkan. Hasil dari setiap model dibandingkan berdasarkan setiap variable output guna menemukan algoritma terbaik untuk memprediksi setiap variable output. Pengaruh masing masing unsur terhadap setiap variabel output didapatkan untuk mengetahui unsur-unsur yang dapat memberikan keuntungan bagi sifat-sifat penyimpanan hydrogen logam hidrida.

Page 17: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

16 

2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi  

Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan 

Metric Multivariate Regression

Decision Tree

Random Forest

R2 Train 0.478 0.868 0.819 R2 Validasi 0.055 -0.05 0.591 R2 Test 0.569 0.22 0.531 R2 Rata-rata

0.367 0.346 0.647

Mean Absolute Error

4,61 5,9 4,36

Root Mean Square Error

5.51 7,39 5,75

 Gambar  2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan 

Ketiga model machine learning dibandingkan untuk melihat performansi pada prediksi

selisih entalphi pembentukan. Algoritma multivariate regression menghasilkan fungsi matematis sebagai berikut,

Page 18: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

17 

Y = 28,51 + 19,82Ti + 8,68Zr +2,22Mn – 6,51Co + 4,54Cr – 4,54V – 15,15Ni + 5,92Sn……………………………………………(11) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta H dari data yang baru. Model random forest dan decision tree juga menghasilkan suatu fungsi matematis yang dapat digunakan untuk memprediksi dengan memasukkan data input yang baru ke software python. Untuk melakukan evaluasi terhadap model yang didapatkan, dilakukan pengecekan terhadap R2 dan nilai error yang dimiliki model. R2 rata-rata atau kemampuan prediksi tertinggi diraih oleh random forest pada angka 0,647 diikuti oleh multivariate linear regression pada 0.367 dan decision tree pada angka 0.346. Hal ini menandakan bahwa random forest adalah model yang paling baik digunakan untuk melakukan prediksi selisih entalphi pembentukan, serta dataset yang dimiliki bersifat non-linear sehingga apabila ingin dilakukan penelitian lebih lanjut akan lebih baik untuk menggunakan algoritma non-linear. Walaupun telah dilakukan preprocessing data dan feature selection, nilai R2 rata-rata model masih belum bisa menyentuh angka 0,70. Hal ini menandakan bahwa kemampuan prediksi delta entalphi masih tergolong lemah. Dapat dilihat bahwa terdapat penurunan nilai R2 pada data validasi apabila dibandingkan dengan data training, hal ini sebenarnya lumrah terjadi pada metode analisa machine learning, namun penurunan skor R2 yang sangat besar menandakan terjadinya overfitting yang sangat besar pula pada model tersebut. Pada prediksi delta entalphi ini dapat diamati bahwa terjadi ovefitting yang besar pada model multivariate regression dan decision tree.

Mean absolute error tertinggi ada pada decision tree pada 5,9 diikuti multivariate regression pada angka 4,61 dan random forest pada 4,36. Root mean square error tertinggi ada pada decision tree pada angka 7,39, diikuti oleh random forest pada angka 5,75 dan multivariate regression pada angka 5,51. Error yang terjadi terlihat besar karena error berada cukup jauh dari angka 0. Namun, apabila grafik plot nilai asli dan nilai prediksi dicermati, dapat dilihat bahwa selisih nilai yang didapatkan oleh prediksi model tidak terlalu jauh dengan nilai asli. Hasil prediksi model yang digambarkan oleh garis hijau, kuning, dan merah untuk linear regression, decision tree, dan random forest secara berurutan sudah dapat mengikuti fluktuasi grafik nilai asli yang digambarkan oleh garisbiru. Namun, dapat dilihat bahwa ketiga model gagal untuk memprediksi nilai selisih entalphi yang bernilai tinggi seperti yang berada pada angka 47 KJ/mol. Di sisi lain, model decision tree dan random forest bekerja dengan baik dalam hal memprediksi nilai selisih entalphi yang kecil seperti yang bernilai dibawah 10 KJ/mol. Tentu saja, berdasarkan model yang didapatkan dapat diketahui bahwa akan ada kemungkinan terjadi kesalahan pada saat melakukan prediksi yang baru. Namun, walaupun pada akhirnya terjadi selisih yang sangat besar antara nilai prediksi dan nilai asli selisih entalphi pembentukan. Konsekuensi yang dihasilkan dari error ini tidak akan terlalu besar, karena model prediksi hanya akan digunakan untuk tujuan penelitian, sehingga tidak akan membahayakan bagi manusia. Oleh karena itu nilai error dan R2 yang cukup lemah ini masih dapat diterima. Selisih entalphi pembentukan untuk alloy yang akan diteliti masih akan ditemukan dan tetap akan menjadi informasi yang berguna bagi peneliti yang lainnya sebagai baseline sebelum melakukan eksperimen pemaduan logam. Selain itu apabila selsisih entalphi yang diinginkan justru terlalu besar, hal ini masih dapat dikompensasi dengan properti hidrogenasi yang lain seperti persen massa hidrogen yang dihasilkan, karena kemungkinan apabila energi pembentukan yang dibutuhkan semakin besar, maka persen massa hidrogen yang dihasilkan akan semakin besar pula yang merupakan hal yang diinginkan pada logam hidrida.

Page 19: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

18 

2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi  

Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan 

Metric Multivariate Regression

Decision Tree

Random Forest

R2 Train 0.332 0.935 0.868 R2 Validasi -0.27 -1.5 0.6922 R2 Test 0.469 0.06 0.104 R2 Rata-rata

0.177 -0.16 0.554

Mean Absolute Error

9.39 7,57 30,8

Root Mean Square Error

13.0 14,2 33,6

 Gambar  2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan 

Page 20: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

19 

Ketiga model machine learning dibandingkan untuk melihat performansinya pada prediksi selisih entropi pembentukan. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 89,49 + 44,62Ti + 44,88Zr +0,54Mn – 15,55Co + 2,82Cr – 7,08V – 31,21Ni – 0,54Sn…………………………………….(12) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta S dari data yang baru, hal yang sama juga berlaku untuk model decision tree dan random forest, dimana nilai input yang baru dapat dimasukkan ke software python untuk menemukan prediksi delta entropi yang baru. Nilai R2 dan error dilihat untuk mengevaluasi model yang didapatkan. Nilai R2 rata-rata tertinggi diraih oleh model random forest pada angka 0,554 diikuti oleh multivariate regression pada angka 0,177, dan decision tree pada angka 0,16. Hal ini menandakan bahwa random forest adalah model yang paling baik untuk memprediksi selisih entropi, serta dataset yang dimiliki bersifat non-linear. Ketiga model yang didapatkan menghasilkan R2 rata-rata yang bernilai dibawah 0,7 yang menandakan bahwa prediksi yang dihasilkan masih cukup lemah. Terjadi overfitting yang besar pada model multivariate regression dan decision tree yang ditandai dengan penurunan nilai R2 validasi yang sangat besar apabila dibandingkan dengan R2 train.

Nilai error yang didapat tergolong cukup besar pada ketiga model, dimana untuk mean absolute error didapatkan nilai sebesar 9,39, 7,57, dan 30,8 untuk multivariate regression, decision tree, dan random forest secara berurutan. Root mean square error menunjukkan nilai 13,0, 14,2, dan 33,6 untuk multivariate regression, decision tree, dan random forest secara berurutan. Error yang terjadi terlihat jauh lebih besar apabila dibandingkan dengan error pada prediksi selisih entalphi pembentukan. Hal ini dapat terjadi karena memang pada proses pengumpulan data, banyak dataset dengan nilai selisih entropi pembentukan yang diasumsikan sebagai 110 KJ/mol untuk mendapatkan nilai selisih entalphi pembentukan. Nilai selisih entropi pembentukan dipilih sebagai nilai yang diasumsikan karena memang sebenarnya nilai entropi tidak berkaitan secara langsung dengan energi pembentukan. Nilai selisih entropi dihasilkan akibat terjadinya perubahan wujud hidrogen dari yang semula berbentuk gas menjadi padat ketika diserap oleh logam hidrida. Sehingga error yang cukup besar ini dapat ditoleransi. Apabila grafik plot nilai asli dan nilai prediksi dilihat, model sebenarnya telah dapat mengikuti fluktuasi nilai asli. Terutama model decision tree dan random forest yang bekerja sangat bagus dalam memprediksi nilai selisih entropi pada 110 KJ/mol yang sebenarnya diasumsikan oleh peneliti.

Page 21: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

20 

2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14

 

Gambar  2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14

Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14 

Metric Multivariate Regression

Decision Tree

Random Forest

R2 Train 0.419 0.966 0.893 R2 Validasi 0.292 0.788 0.819 R2 Test 0.633 0.603 0.786 R2 Rata-rata

0.448 0.785 0.832

Mean Absolute Error

11.5 8.48 22,4

Root Mean Square Error

13,3 13.8 25,6

Prediksi model yang dilakukan terhadap variabel output C14 menghasilkan R2 rata-rata

tertinggi pada random forest di angka 0.832, diikuti oleh decision tree pada angka 0,785, dan multivariate regression pada angka 0,448. Model decision tree dan random forest memiliki kemampuan diatas 0,70 yang berarti bahwa model tersebut memiliki kualitas yang baik untuk melakukan prediksi phase abundance C14. Apabila nilai R2 train dan R2 validasi dibandingkan, dapat dilihat bahwa penurunan nilai R2 pada data validasi tidak terlalu besar untuk ketiga model, hal ini menandakan bahwa overfitting yang terjadi tidak terlalu besar yang menandakan performansi

Page 22: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

21 

yang baik bagi model. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 32,47 + 17,66Ti + 14,18Zr – 19,25Mn – 24,99Co + 2,34Cr + 44,44V – 54,67Ni + 61,86Sn…………………………………..(13) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi phase abundance C14 dari data yang baru. Nilai mean absolute error tertinggi diraih oleh model random forest pada angka 22,4, diikuti oleh multivariate regression pada angka 11,5 dan decision tree pada angka 8,48. Nilai root mean square error tertinggi juga diraih oleh random forest pada angka 25,6, diikuti decision tree pada angka 13,8, dan multivariate regression pada angka 13,3. Nilai error baik yang dihasilkan oleh mean absolute error maupun root mean square error tergolong besar karena sangat jauh dari nilai 0. Performa prediksi digrafikan pada grafik nilai asli dan nilai prediksi, dimana dapat dilihat bahwa sebenarnya model sudah cukup baik dalam mengikuti naik turunnya nilai asli. Decision tree memiliki performansi yang sangat baik untuk memprediksi nilai C14 yang rendah, dimana model decision tree adalah satu satu nya model yang dapat meramalkan phase abundance C14 yang bernilai 0. Nilai error yang besar yang dihasilkan pada prediksi ini mungkin terjadi karena banyak logam paduan dari dataset yang memiliki phase C14 sebanyak 100% dan 0%, tentu saja model machine learning akan lebih susah memprediksi nilai yang sangat tinggi maupun sangat rendah, karena nilai tersebut terletak sangat auh dari nilai median dan dapat terlihat seperti outliers walaupun pada nyatanya memang benar bahwa suatu logam paduan dapat menghasilkan nilai 100% maupun 0% phase abundance C14.

2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen

Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen 

Metric Multivariate Regression

Decision Tree

Random Forest

R2 Train 0.741 0.989 0.928 R2 Validasi 0.608 0.113 0.521 R2 Test 0.654 0.392 0.615 R2 Rata-rata

0.667 0.498 0.688

Mean Absolute Error

0,0968 0,0894 0,101

Root Mean Square Error

0,12 0,159 0,126

Page 23: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

22 

 

Gambar  2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen 

Persen massa hidrogen adalah salah satu sifat yang paling penting dalam aplikasi logam

hidrida, karena persen massa hidrogen akan mempengaruhi massa logam hidrida secara keseluruhan. Pada prediksi machine learning yang dilakukan terhadap persen massa hidrogen, random forest meraih nilai R2 rata-rata tertinggi pada angka 0,688, diikuti oleh multivariate regression pada angka 0,667, dan decision tree pada angka 0,498. Ketiga model tidak menyentuh angka 0,70 yang berarti bahwa kemampuan prediksi yang dimiliki masih tergolong lemah. Overfitting yang sangat besar dapat diamati pada model decision tree dengan penurunan skor R2 validasi yang cukup signifikan apabila dibandingkan dengan nilai R2 training. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 0,31 + 0,38Ti – 0,06Zr + 0,72Mn +0,18Co + 0,42Cr -0,05V +0,12Ni + 0,29Sn……………………………………………..(14)

dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi nilai persen massa hidrogen dari data yang baru. Mean absolute error tertinggi diraih oleh random forest pada angka 0,101, diikuti oleh multivariate regression pada angka 0,0968, dan decision tree pada angka 0,0894.. Sedangkan root mean square tertinggi diraih oleh decision tree pada 0,159, random forest pada 0,126 dan multivariate regression pada 0,126. Ketiga metode pengujian error ini memberikan hasil yang bagus karena error berada pada angka yang mendekati nilai 0. Nilai error yang kecil ini dapat terjadi karena berbeda dengan variabel entalphi dan entropi pembentukan dimana terdapat banyak nilai yang

Page 24: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

23 

diasumsikan sehingga dapat mempengaruhi performa model karena nilai yang diasumsikan tersebut dapat mempengaruhi mean yang dimiliki oleh dataset secara keseluruhan, dan pada variabel phase abundance banyaknya dataset yang memiliki phase 100% dan 0% juga mempengaruhi model prediksi karena nilai tersebut terletak jauh dari mean yang dimiliki oleh dataset sehingga membuat model kesulitan untuk meraih nilai tersebut.   

   

Page 25: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

24 

 

3 BAB III STATUS LUARAN Saat ini dua mahasiswa sudah lulus dengan dana dari Penelitian ini, kemudiaan akan dilakukan presenbtasi

paper pada seminar internasioanal, dan output paper berupa draft. Draft masih perlu dilakukan perbaikan,

dan akan dikirim secepatnya setelah perbaikan.

Page 26: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

25 

4 BAB IV PERAN MITRA Tidak ada mitra, hanya Kerjasama penelitian

Page 27: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

26 

BAB V KENDALA PELAKSANAAN PENELITIAN

Kendala penyiapan dan pengujian sample di kala pandemic ini. Namun demikian output article Q1 akan tetap didapatkan.

Page 28: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

27 

BAB VI RENCANA TAHAPAN SELANJUTNYA  

Metode Machine learning akan dicoba untuk paduan yang lainnya.

Page 29: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

28 

BAB VII DAFTAR PUSTAKA

[1] U. Ulmer et al., “Cost reduction possibilities of vanadium-based solid solutions – Microstructural, thermodynamic, cyclic and environmental effects of ferrovanadium substitution,” J. Alloys Compd., vol. 648, pp. 1024–1030, Nov. 2015, doi: 10.1016/j.jallcom.2015.07.110.

[2] S. Suwarno and A. Shahab, “Prediksi Derajad Presipitasi Karbida Krom pada Baja Tahan Karat Austenitik dengan Metode Jaringan Syaraf Tiruan,” 2004, [Online]. Available: https://www.researchgate.net/publication/314256935_Prediksi_Derajad_Presipitasi_Karbida_Krom_pada_Baja_Tahan_Karat_Austenitik_dengan_Metode_Jaringan_Syaraf_Tiruan.

[3] A. Rahnama, G. Zepon, and S. Sridhar, “Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent,” Int. J. Hydrog. Energy, vol. 44, no. 14, pp. 7337–7344, Mar. 2019, doi: 10.1016/j.ijhydene.2019.01.261.

[4] A. Züttel, “Materials for hydrogen storage,” Mater. Today, vol. 6, no. 9, pp. 24–33, Sep. 2003, doi: 10.1016/S1369-7021(03)00922-2.

[5] L. Schlapbach and A. Züttel, “Hydrogen-storage materials for mobile applications,” Nature, vol. 414, no. 6861, pp. 353–358, Nov. 2001, doi: 10.1038/35104634.

[6] C. M. Graça Araújo, “Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics,” Acta Universitatis Upsaliensis, Uppsala, 2008.

[7] M. Hirscher, Ed., Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH, 2010.

[8] A. A. Volodin et al., “Study of hydrogen storage and electrochemical properties of AB2-type Ti0.15Zr0.85La0.03Ni1.2Mn0.7V0.12Fe0.12 alloy,” J. Alloys Compd., vol. 793, pp. 564–575, Jul. 2019, doi: 10.1016/j.jallcom.2019.03.134.

[9] G. Sandrock, “A panoramic overview of hydrogen storage alloys from a gas reaction point of view,” J. Alloys Compd., vol. 293–295, pp. 877–888, Dec. 1999, doi: 10.1016/S0925-8388(99)00384-9.

[10] F. Feng, “Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review,” Int. J. Hydrog. Energy, vol. 26, no. 7, pp. 725–734, Jul. 2001, doi: 10.1016/S0360-3199(00)00127-0.

[11] L. Klebanoff, Hydrogen Storage Technology: Materials and Applications. 2016. [12] D. P. Broom, Hydrogen storage materials: the characterisation of their storage properties.

London ; New York: Springer, 2011. [13] E. Alpaydin, Introduction to machine learning, 2nd ed. Cambridge, Mass: MIT Press, 2010. [14] G. S. Linoff and M. J. A. Berry, Data mining techniques: for marketing, sales, and customer

relationship management, 3rd ed. Indianapolis, IN: Wiley Pub, 2011. [15] H. Jiawie, Data Mining. Elsevier, 2012. [16] J. R. Hattrick-Simpers, K. Choudhary, and C. Corgnale, “A simple constrained machine

learning model for predicting high-pressure-hydrogen-compressor materials,” Mol. Syst. Des. Eng., vol. 3, no. 3, pp. 509–517, 2018, doi: 10.1039/C8ME00005K.

[17] M. Witman et al., “Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning,” J. Phys. Chem. Lett., vol. 11, no. 1, pp. 40–47, Jan. 2020, doi: 10.1021/acs.jpclett.9b02971.

[18] S.-R. Kim, K.-Y. Lee, and J.-Y. Lee, “Improved low-temperature dischargeability of C14-type Zr-Cr-Ni Laves phase alloy,” J. Alloys Compd., vol. 223, no. 1, pp. 22–27, May 1995, doi: 10.1016/0925-8388(94)01499-X.

[19] K.-H. Young, J. Nei, C. Wan, R. Denys, and V. Yartys, “Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications,” Batteries, vol. 3, no. 4, p. 22, Jul. 2017, doi: 10.3390/batteries3030022.

81

Page 30: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

29 

LAMPIRAN Lampiran berisi tabel daftar luaran (Format sesuai lampiran 1) dan bukti pendukung luaran wajib dan luaran

tambahan (jika ada) sesuai dengan target capaian yang dijanjikan

Page 31: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

30 

LAMPIRAN 1 Tabel Daftar Luaran

Program : Penelitian High Impact Nama Ketua Tim : Suwarno, PhD Judul : Desain Paduan AB2 untuk Penyimpanan Hidrogen

Menggunakan Pendekatan Machine Learning 1.Artikel Jurnal

No Judul Artikel Nama Jurnal Status Kemajuan*) 1 Machine Learning Analysis of the

Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties

International Journal of Hydrogen Energy

Draft

*) Status kemajuan: Persiapan, submitted, under review, accepted, published

2. Artikel Konferensi

No Judul Artikel Nama Konferensi (Nama Penyelenggara, Tempat,

Tanggal)

Status Kemajuan*)

1 Machine Learning Approach to Study the Effect Of Chemical

Composition On Hydrogen Storage Properties of the 𝐀𝐁𝟐 Alloys

ISOC, Depertemen Kimia ITS, Surabaya, Oktober 2020

Accepted

*) Status kemajuan: Persiapan, submitted, under review, accepted, presented

3. Paten

No Judul Usulan Paten Status Kemajuan

*) Status kemajuan: Persiapan, submitted, under review

4. Buku

No Judul Buku (Rencana) Penerbit Status Kemajuan*)

*) Status kemajuan: Persiapan, under review, published

5. Hasil Lain

No Nama Output Detail Output Status Kemajuan*) *) Status kemajuan: cantumkan status kemajuan sesuai kondisi saat ini

Page 32: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

31 

6. Disertasi/Tesis/Tugas Akhir/PKM yang dihasilkan

No Nama

Mahasiswa

NRP Judul Status*)

1 Ghazy Dicky 02111640000013 ANALISA PENGARUH

KOMPOSISI KIMIA

TERHADAP

SIFAT-SIFAT PENYIMPANAN

HIDROGEN LOGAM

PADUAN AB2

MENGGUNAKAN METODE

MACHINE

LEARNING

Lulus 2020

2 Muh. Rizal

Fadilah

02111540000181 STUDI PENGARUH

KOMPOSISI KIMIA

TERHADAP SIFAT

PENYIMPANAN HIDROGEN

PADA LOGAM PADUAN AB2

DENGAN METODE MACHINE

LEARNING

Lulus 2020

*) Status kemajuan: cantumkan lulus dan tahun kelulusan atau in progress

Page 33: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

1  

Machine Learning Analysis of the Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties

Ghazy Dicky1, Abdillah Suyuthi2, Mohammad K. Effendi1, Witantyo1, Lukman Nurochim3, Suwarno Suwarno1,*

1Department of Mechanical Engineering, Institut Teknologi Sepuluh Nopember (ITS), Surabaya Indonesia, 60111

2DNV GL, Veritasveien 1, 1363 Høvik, Norway 3Department of Materials and Metallurgical Engineering, Sepuluh Nopember Institute of Technology,

Surabaya 60111, Indonesia

*email: [email protected]

Abstract Zirconium‐Titanium based‐AB2 is potential candidate for hydrogen storage alloys as well as 

for NiMH battery electrode because of high energy density compare to the conventional AB5 

materials. Machine learning and data analytic has been implemented for materials discovery 

and  optimization  of  energy  related  materials.  In  the  present  work,  machine  learning 

approaches  were  used  to  analyze  the  AB2  metal  hydrides  dataset  consisting  of  chemical 

compositions of the alloys and the hydrogen storage properties obtained previous research, 

aiming to predict the effect of the alloying element on the heat of formation (ΔH), the phase 

abundance, and the hydrogen capacity of  the alloy. Three models were employed namely 

multivariate  regression, decision  tree, and  random  forest which were evaluated by  the R2 

scores and error metrics. The random forest model yields the most superior performance for 

the prediction of all hydrogen storage properties on the dataset. While for the dataset was 

group into A and B grouped elements, the decision tree model gives the best performance to 

phase  abundance,  while  ΔH  is  best  predicted  using  the  random  forest  model,  and  the 

multivariate regression yields the best performance on predicting the hydrogen capacity. 

Keywords—Machine  Learning,  Metal  Hydrides,  Hydrogen  Energy,  AB2  alloys,  Hydrogen 

Storage 

I. INTRODUCTION

The transitions towards a cleaner and more sustainable energy to overcome the dependency 

on the increasingly scarce fossil‐based fuel has underlain the development of research on the 

alternative energy sectors, with hydrogen being one of the most promising alternative energy 

sources that are often investigated. Hydrogen possesses energy density by mass value (142 

MJ kg‐1) that is three times larger compared to other chemical fuels such as raw fossil fuel (47 

MJ  kg‐1)  [1], while  at  the  same  time offering  an  eco‐friendly  fuel  synthesis  process which 

produces  water  vapor  as  a  by‐product  during  combustion  with  oxygen.    Hydrogen  could 

generate  electrical  power with  the  assistance  of  fuel  cells.  However,  an  external  storage 

Page 34: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

2  

hydrogen tank is needed to supply the hydrogen to the fuel cell which becomes a barrier to 

the mobile application of hydrogen as a fuel source. Approximately 4 kg of hydrogen is needed 

by  light  fuel  cell  vehicles  to  reach  a  distance  of  400  km  [1].  Nonetheless,  at  ambient 

temperature and atmospheric pressure, 1 kg of hydrogen in the gas form will occupy a volume 

of 11 m3 [2]. Consequently, 4 kg of hydrogen will be an equivalent of a ball with 5 m diameter 

which is very unpractical for mobile application [1]. Consequently, researches are conducted 

to study to discover materials that store hydrogen in small volume with high capacity. 

The fundamental purpose of hydrogen storage technology is to pack hydrogen particles as 

close  as  possible  to  reach  a  high  volumetric  density  by  utilizing  a  minimum  amount  of 

additional materials  [1,3]. To be utilized on  the mobile application,  the US Department of 

Energy has established several target criteria for hydrogen storage system to be reached by 

2025 [4,5], which includes: (i) High gravimetric absorption capacity (>5.5 wt% or 1.8 kWh/kg) 

and  volumetric  capacity  (>0.040kg  H2/L  system  or  1.3  kWh/L),  (ii)  Moderate  operational 

temperature  ranging  from  ‐40  to 850 C,  (iii)  reversibility of absorption/desorption  thermal 

cycles, (iv) economical price, (v) low toxicity, and (vi) high safety and security (low operational 

pressure).  There  are  several  methods  for  storing  hydrogen  namely  high‐pressure  gas 

cylinders, liquid hydrogen in cryogenic tanks, physisorption, and absorbed on interstitial sites 

in host metal. When comparing the properties of these storage methods, high‐pressure gas 

cylinder holds the highest hydrogen capacity (13 mass%) at room temperature, however, the 

stored hydrogen will be available at a very high pressure (800 bar) which present a safety risk 

to the vehicle and its’ passengers. Hydrogen that is absorbed on interstitial sites in host metal 

(metal  hydrides)  on  the  other  hand  enables  the  storage  in  room  temperature  and 

atmospheric pressure but with low a rather low hydrogen capacity, therefore metal hydrides 

are often studied to increase its hydrogen storage capacity. 

Metal  hydride  is  formed  when  hydrogen  interacts  with  metals.  Metal  hydrides  can  be 

differentiated into ionic or saline hydride, covalent hydride, and intermetallic hydride [6], with 

intermetallic hydride being the type of metal hydride that possess suitable properties to be 

used as a hydrogen carrier. Equation 1 shows the reaction between intermetallic alloy ABZ 

with hydrogen gas, 

𝐴𝐵 𝑥𝐻 ↔ 𝐴𝐵 𝐻 Δ𝑄      (1) 

with ΔQ being the amount of heat released during the hydrogen absorption process, which is 

usually characterized by enthalpy difference (ΔH) and entropy difference (ΔS) calculated using 

the Van’t Hoff  Law with  the  values  obtained  from  the  pressure‐composition‐temperature 

(PCT)  isotherms. Generally, element A will  form a stable binary hydride when the element 

consists of transition metals, such as  Ti and Zr  [6]. Element B on the other hand, such as Ni, 

Co,  Cr,  Fe,  Mn,  and  Al,  is  non  forming  hydride  elements  [6].  Intermetallic  hydride  is 

characterized into 5 families of metal hydrides namely A, A2B, AB, AB2, and AB5. Among these 

family groups, AB2 metal hydride is potential for hydrogen storage and battery applications. 

AB2  metal  hydrides  enable  a  larger  hydrogen  storage  capacity  due  to  its  utilization  of  a 

relatively  lighter  transition metal.  AB2 compound  is  formed by  a  combination  of  different 

elements. AB2 composes of element A can that be formed by group 4 (Ti, Zr, Hf) or lanthanoids 

Page 35: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

3  

(La, Ce, Pr, etc.), while B can be formed by transition and non‐transition metals with V, Cr, 

Mn, and Fe as the more preferred element [7]. Feng et al. [8] contended that element A can 

be  formed by Mg,  Zr,  and  Ti, while  B  can  be  formed by V,  Cr, Mn,  and Ni.  Theoretically, 

element A will  form a very stable hydride which  is  translated  into a very high operational 

temperature. To overcome this issue, element A is being alloyed with element B which forms 

an unstable hydride that can adjust the operational temperature and yield other desirable 

properties [9]. AB2 metal hydride’s form depends on their alloying element composition, with 

the  majority  being  cubic  structured,  C14  and  or  hexagonal  structure,  C15.  Each  crystal 

structure affects differently towards the properties of the hydrides [10–14]. 

The development of  informatics and data science technology has  led to the  integration of 

machine learning methods with materials science [15–18]. The machine learning algorithm 

aims  at  optimizing  the  performance  of  a  certain  task  by  utilizing  examples  from  past 

experiences [19]. Machine learning can be divided into three categories namely supervised 

learning,  unsupervised  learning,  semi‐supervised  learning,  and  reinforcement  learning. 

Supervised learning is principally is a data fitting process where the model will try to find an 

unknown function to connect the input variables obtaining an unknown output variable. The 

result is estimated by extrapolating the pattern found on the labeled data to be used to train 

the  model.  Unsupervised  learning  focuses  more  on  finding  a  pattern  from  a  group  of 

unlabeled data which has the same concept as sample grouping. Semi‐supervised  learning 

combines  a  small  amount  of  labeled  data  with  a  large  amount  of  unlabeled  data  during 

training. While the reinforcement learning objective is to analyze a certain problem to find 

the most optimum result. Supervised learning is the most used method on materials science 

as most of the input variables have a known label such as the type of element and atomic 

number. 

In the previous study, metal hydride researchers used database that has been pre‐collected 

from experimental results, i.e, HydPARK database collected by the US Department of Energy. 

Machine learning methods has been known to be useful for analyzing the HydPARK database 

for classification of the materials and the properties [20–23]. Rahnama et al. [20,21] showed 

that boosted decision tree model being the model with the best performance out of three 

other models (bayesian linear regression, neural network regression, and linear regression) 

for materials  classification  in  terms  of  heat  of  formation  and  hydrogen  content. Hattrick‐

Simpers  et  al.  [23]  used  the  same  database  for  materials  selection  for  metal  hydride 

compressor. Recent work by Witman et al. [22] using the similar database gave deep analysis  

on  the  relation  between  fundamental  properties  of  alloy  to  the  hydride  properties. 

Surprisingly,  molecular  volume  of  alloys  is  the  most  important  predictor  to  the 

thermodynamic which is in agreement with previously developed empiric model [24–26].    

In  the present work we  collected data  from previous  research  that  focuses  on AB2 metal 

hydrides.  We  built  machine  learning  model  to  relate  chemical  compositions  of  AB2  to 

hydrogen  storage  properties,  i.e,  the  heat  of  formations  (ΔH),  phase  abundance,  and 

hydrogen weight percent (wt% H). The aim was to obtain a new insight on the role of elements 

to the hydrogen storage properties. At  the end,  the  insight can be used by researchers  to 

guide their experimental work to design AB2 alloys.  

Page 36: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

4  

II. METHODS

A. Dataset

This  study utilizes  the data obtained  from previous published  research.  This  data and  the 

reference are given in supplementary information. We obtained 314 pairs of AB2 alloys which 

contain  the  information  of  the  alloying  elements  of  the  alloys,  and  the  hydrogen  storage 

properties consisting of ΔH absorption (in KJ/(molH2K)), phase abundance (in %), as well as 

the hydrogen storage capacity (in wt%). It is important to point out that some of the ΔH of 

these alloy pairs are not explicitly written in the papers, yet they are being implicitly explained 

in the Pressure‐Composition diagram. For the aforementioned issue, we conducted manual 

calculation using the Van’t Hoff Law expressed in equation 2. 

𝑙𝑛𝑃         (2) 

The  calculation  was  conducted  by  selecting  a  mid‐point  from  the  plateau  of  Pressure‐

Composition graph to obtain the equilibrium pressure information to obtain the value of ΔH. 

With R being the universal gas constant and the temperature value is constant in the Pressure‐

Composition graph. As for the unknown value of ΔS, it can be assumed as 110 KJ/(mol H2 K) 

for the absorption process.  

Two types of variables were used as illustrated in Fig. 1. Twenty‐two alloying elements were 

used as the input namely Ti, Zr, Ho, Mn, Co, Cr, V, Ni, Sn, Al, C, Mg, Gd, Fe, B, Cu, Mo, W, La, 

Si, Nb, and Ce. While ΔH, phase abundance, percent mass hydrogen, and the effect of each 

alloying element were used as the output variables. The aim was to  identify the  individual 

element effects. Another analysis was done were elements is grouped into A, and B to study 

the effect of the stoichiometric effect (A/B) to the hydrogen storage properties. 

B. Machine Learning Methods

Prior to the machine  learning analysis,  the data underwent an  initial analysis to select the 

appropriate data to be exported to Python for machine learning analysis. The initial analysis 

was  done  by  developing  ranks  for  each  input  variable  based  on  the  prevalence  of  each 

element  on  the  alloys.  Elements  with  low  prevalence  were  eliminated  to  decrease  the 

detrimental  effects  on  the  performance  of  the models. We  remove  all  dataset  rows  that 

possess elements with values equal zero to increase the performance of the models as part 

of features engineering for the dataset with the ungrouped elements. While the dataset with 

the  grouped elements did not undergo  the  aforementioned analysis  as none of  the  input 

variables possess values equal to zero.  

Page 37: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

5  

 

Figure 1. Illustration of steps and analysis during the study 

The dataset was then exported to Python as Microsoft Excel (xlsx) file by utilizing the Pandas 

library. Multicollinearity test was conducted to check whether one  input variables possess 

high collinearity with the other input variables, to prevent the redundancies which can lead 

to statistically insignificant variables. The multicollinearity test was conducted by utilizing the 

correlation matrix between each input variable. The result was presented on a heat map to 

ease out the visualization of the variables that possess multicollinearity which will be shown 

by a darker color on the heat map. Subsequently, outlier detection and removal were done 

to prevent a disproportional effect on  the  statistical  result of  the data which may  lead  to 

model misinterpretations. The detection was done by adding a new metric that calculates 3 standard deviation from the mean value of each variable. The data outside this range were 

considered as outliers and were ought to be eliminated. To standardize the range of features 

of  the  data,  feature  scaling was  overseen by  the  assistance of  StandardScaler  function of 

Scikit‐learn.  

The dataset was divided into training/validation/testing set (0.70/0.15/0.15). Three machine 

learning algorithms were employed to analyze the data. The first algorithm being multivariate 

linear  regression which was  chosen  since  linear  regression  is  the  simplest method  in data 

analytics to determine the relationship between existing variables. We do realize that there 

might be non‐linear patterns within the data, consequently, we employ decision tree as the 

second  algorithm  which  enables  us  to  reveal  the  non‐linear  relationship  within  the  data 

should it exists, and random forests which analyze the combination of different decision trees 

as the third algorithm to deal with the possibility that the performance may increase when 

more  than  one  tree  is  being  applied.  During  the  process  of  building  the  tree we  set  the 

minimum number of instances in leaves to be 1, the subsets smaller than 5 will not be split, 

Page 38: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

6  

the maximum  tree  depth was  limited  to  100,  and  the  regression  is  set  to  stop when  the 

majority reaches 95%. To build the random forest models, we tested a range between 0 and 

100  trees  and  selected  the  number  of  trees  that  could  yield  the  highest  prediction 

performance  for  each  output.  We  obtained  21,  8,  32,  and  7  trees  for  ΔH,  C14  phase 

abundance,  and  the  hydrogen  capacity  respectively.  The  models  were  evaluated  by  the 

average R2 score obtained from the summation of the R2 training, R2 validation, and R2 testing 

scores divided by three to measure the overall performance of the trained models as well as 

error metrics which consist of mean absolute error (MAE) and root mean square error (RMSE) 

to study the model behavior on predicting a new set of data. It should be noted that the result 

of the prediction will only be verified using the validation and testing set, instead of utilizing 

a new dataset from a new experiment, and that the model is only capable to predict values 

inside the range of the training set for all of the target variables.  

III. RESULTS AND DISCUSSIONS

 

 

Figure 2. Element Prevalence of Alloys for (a) Original Data and (b) After Initial Analysis Elimination 

Initially, we obtained 314 pairs of alloys in the dataset, where each alloy contains different 

elements. The initial analysis conducted in the dataset resulted in prevalence presented on 

the bubble graph as seen in Fig. 2a, the number below the name of the element represents 

the number of alloys that contain the elements. From the graph, we can observe small‐sized 

bubbles that don’t have element information. It indicates that only a small number of alloys 

contain those elements. The presence of these elements is undesirable on a machine learning 

analysis as it may disrupt the performance of the model. Hence, 8 elements with the highest 

prevalence namely Ti, Zr, Mn, Cr, V, Ni, Co, and Sn are kept, while the rest are eliminated as 

shown in Fig. 2b. 

(a) (b)

Page 39: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

7  

 Figure 3. Results for Multicollinearity Test 

The multicollinearity analysis yields the heat map as shown in Fig. 3. The heat map reveals 

that Ti and Zr have a very high correlation. In the dataset utilized for the analysis, Ti and Zr 

are  the  only  elements  that  forms  element  A  on  AB2.  Therefore,  Ti  and  Zr  are  inversely 

proportional to one another. As the addition of Ti with Zr equals to element A, when Ti value 

increases, Zr value will automatically decrease resulting in a high correlation value shown by 

the dark red color on the top left corner of the heat map. However, as this is a normal thing 

in the case of AB2 metal hydrides, Ti and Zr won’t be eliminated from the dataset. 

Outlier detection and elimination were conducted. The overall data preprocessing results in 

the final datasets that were ready to be used for the machine learning analysis. The amount 

of final dataset is 86 pairs of datasets, while when it is grouped into A and B variable, it consists 

of 234 pairs of datasets.  

Table 1 Evaluation for ML models for ΔH 

Evaluation Metric  Multivariate Regression 

Decision Tree  Random Forest 

R2 Training Set R2 Validation Set R2 Testing Set Average R2 

MAE RMSE 

0.478 0.055 0.569 0.367 4.61 5.51 

0.868 ‐0.05 0.22 0.346 5..9 7.39 

0.819 0.591 0.531 0.647 4.36 5.75 

Table 2. Evaluation for ML models for Phase Abundance  

Evaluation Metric  Multivariate Regression 

Decision Tree  Random Forest 

R2 Training Set R2 Validation Set R2 Testing Set Average R2 

MAE RMSE 

0.419 0.292 0.633 0.448 11.5 13.3 

0.966 0.788 0.603 0.785 8.48 13.8 

0.893 0.819 0.786 0.832 22.4 25.6 

Page 40: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

8  

Table 3. Evaluation for ML models for H capacity 

Evaluation Metric  Multivariate Regression 

Decision Tree  Random Forest 

R2 Training Set R2 Validation Set R2 Testing Set Average R2 

MAE RMSE 

0.741 0.608 0.654 0.667 0.0968 0.12 

0.989 0.113 0.392 0.498 0.0894 0.159 

0.928 0.521 0.615 0.688 0.101 0.126 

Model evaluation for each algorithm was presented in Table 1‐3. The analysis performed to 

predict the value of ΔH, phase abundance, and the hydrogen capacity shows more superior 

performance for the random forest algorithm on all hydrogen storage properties compared 

to the other algorithms, with an average R2 value of 0.647, 0.832, and 0.688 for ΔH, phase 

abundance, and the hydrogen capacity accordingly. Though being the model with the most 

superior performance, the prediction of the random forest model is considered to be fairly 

weak  for  ΔH  and  hydrogen  capacity  as  the  R2  values  are  lower  than  0.70.  However,  the 

insignificant decrease of R2 value for validation set compared to the training set shows that 

the  overfitting  occurred  on  the  random  forest  models  aren’t  very  significant  to  cause  a 

detrimental effect on the prediction. The overall value of MAE and RMSE for ΔH, and phase 

abundance is fairly high considering that the values are much larger than 0. While the MAE 

and RMSE value for hydrogen capacity prediction is considered to be satisfactory. Despite the 

large  error  value  for  ΔH,  and  phase  abundance  prediction,  during  the  observation  of  the 

Page 41: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

9  

actual  and  predicted  value  plot  as  shown  in  Fig.  4,  visual  observation  shows  that  the 

difference between the actual values and the predicted values are fairly small. 

 

  

 

 

Figure 4. Actual and Predicted Values Plot for  (a) ΔH Absorption,  (b) C14 Phase Abundance and (c) Hydrogen Capacity 

For the ΔH prediction, all models failed to predict the highest actual ΔH value of 56 KJ/(mol 

H2 K). However, the decision tree model is capable to generate a close prediction of the lowest 

ΔH value with the predicted value being 10 KJ/(mol H2 K) and the actual value being 7 KJ/(mol 

H2 K).  As for the phase abundance prediction, it became very difficult for the model to predict 

100% and 0% abundance since those values are located far from the median. However, from 

Fig. 5c, it can be seen that on the 75th and 76th alloys, the decision tree model successfully 

a) 

b) 

c) 

Page 42: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

10  

predicted the 0% phase abundance of C14. In theory, it is expected that the value of R2 for 

the validation set is higher than the value of R2 for the testing set, we can notice that this is 

not  the  case  for  some  of  the  evaluation  results  such  as  in  the  prediction  of  ΔH  for  the 

ungrouped dataset using the decision tree model. The reason for this occurrence is because 

the  testing  set  might  contain  easier  data  to  predict,  while  the  validation  test  contains 

strenuous cases to learn.  

Considering that the consequences of the prediction error are low, since the model will only 

be utilized for experiments which will furthermore be studied as well as tested, and given the 

fact that overfitting occurred on the random forest model is insignificant, we may argue that 

the prediction results can be accepted to be utilized as a baseline of  further research and 

experiments to predict the hydrogen storage properties prior to the experiment.  

       

  

Figure 5. Linear Regression‐Based Regression of Element Effects on (a) ΔH Absorption, (b) C14 Phase Abundance and (c) Hydrogen Capacity. 

 

The effects of each element to the properties of the hydride are presented in Fig.5 for the 

linear regression‐based regression and in Fig. 6 for the decision tree‐based regression. The 

elements with the blue‐colored bar in Figure 5 indicate that the element increases the value 

of  the  hydrogen  storage  properties, while  the  elements with  the  red‐colored  bar  are  the 

contrary,  with  the  determination  being  based  on  the  value  of  R  score.  On  Figure  6,  the 

elements with the higher position on  the decision tree  indicates more contribution to the 

determination of the value of the hydrogen storage properties accordingly. The decision tree‐

a)  b) 

c) 

Page 43: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

11  

based regression gave a more beneficial feature, where it is possible to evaluate the range of 

amount for each element that will either increase or decrease the storage properties as well 

as the element that doesn’t contribute to the values of the storage properties, for example 

from Fig.7a, we can see that above the value of 1.19111, Ni will decrease the value of ΔH and 

vice versa. For ΔH, the linear regression‐based regression yields Cr as the element with the 

highest  contribution  on  increasing  the  value  of  ΔH,  while  Ni  being  the  element with  the 

highest contribution on the desirable decrease of ΔH value as shown in Figure 5a. The decision 

tree‐based  regression  gave  similar  results  with  linear‐based  regression  where  Ni  is  the 

element  with  highest  contribution  to  decrease  the  value  of  ΔH  and  Cr  as  the  highest 

contributor to increase the ΔH value. It also reveals that Zr doesn’t give any contribution to 

determine the value of ΔH with Zr being eliminated from the decision tree as shown in Figure 

6a. In the practice, Ni and Cr is not hydride forming which could explain their contribution in 

lowering the formation energy. 

 

 

Figure  6.  Decision  Tree‐Based  Regression  of  Element  Effects  on  (a)  ΔH  Absorption,  (b)  C14  Phase Abundance, and (c) Hydrogen Capacity 

a) 

b) 

c) 

Page 44: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

12  

The  regression  for  phase  abundance  based on  linear  regression  resulted  in Mn being  the 

element with the highest contribution on increasing the abundance of C14, while Ni being the 

contrary. Previous research by K. Young et al. [13] shows that the addition of Mn on metal 

hydride alloys will instead decrease the C14 phase abundance as Mn contributes on creating 

a reactive surface which promotes the formation of C15. Therefore, we argue that the linear 

model has given inaccurate prediction on Mn being the element that promotes C14 formation 

as the addition of Mn should have decrease the C14 formation. It is known that alloys that 

contains C14 is more difficult to activate compared to C15 alloys [13], which correlates with 

the practical utilization of Ni as a catalyst, hence, the modeling result regarding Ni being the 

element that decrease C14 formation which automatically increase C15 formation could be 

justified. Unlike linear regression, the decision tree regression as shown in Fig. 6b indicates 

that Cr is the most influential element to increase C14 abundance. The stipulation whether 

C14 or C15 will be formed lies on the value of e/a, which is the value of the summation of 

valence electrons of all atoms over the number of atoms. The value of e/a could be adjusted 

by varying the elements of the alloy. Below the e/a value of 6.9, C14 will start to form and 

vice versa. It is known that C15 phase will stabilize with the reduction of Cr content [13,27], 

which could explain the influence of Cr on the abundance of C14. The decision tree on Figure 

6c generates the same results. 

For hydrogen capacity, the linear regression yields Mn as the best element to increase the 

hydrogen  capacity,  and  Ni  being  the  worst  to  increase  the  capacity.  The  decision  tree 

generates the same results. The theory that could determine the hydrogen capacity of metal 

hydrides is a higher volume of unit cell will lead to smaller compression or chemical potential 

of the hydrogen atoms inside the crystal. Manganese would cause an increase in the unit cell 

volume, hence, creating a smaller potency for hydrogen to escape the metal hydrides which 

creates  larger  hydrogen  capacity  [28].  If  we  compare  the  elements  that  influence  the 

hydrogen capacity with the elements that influence the heat of formation, it can be seen that 

a higher hydrogen capacity will come at the cost of an undesirable higher heat of formation, 

and vice versa.   

A. Grouped A and B Dataset

Multivariate linear regression model failed to predict all variables as shown by very low R2 

scores  of  0.049,  0.067,  and  0.165  for  ΔH,  phase  abundance,  and  the  hydrogen  capacity 

accordingly. These low R2 scores suggest that the grouped A and B dataset are not suitable to 

be  fitted  using  multivariate  linear  regression  model.  On  the  contrary,  the  modeling  by 

decision  tree  and  random  forest  algorithms  yield  higher  R2  scores  and  even  satisfactory 

results R2 scores valued above 0.70 for ΔH prediction. The comparison resulted in the decision 

tree algorithm being the superior model to predict phase abundance, random forest model 

being the superior one to predict ΔH, and multivariate regression being the best to predict 

the hydrogen capacity. The regression of B/A effect on the storage properties was analyzed 

using linear regression as shown in Fig. 7. The value B/A is inversely proportional to the value 

of ΔH as seen on Fig. 7a. Theoretically, element A will form a very stable hydride with the cost 

of the increasing value of formation energy [6]. This underlain the addition of element B to 

the alloy which will lower the formation energy. The model successfully described this theory. 

The value of B/A  is directly proportional  to the  increasing number of C14 abundance. The 

Page 45: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

13  

addition of element B will increase the value of e/a which theoretically drives the formation 

of C15 phase  to  some degree as  there are boundary  for  laves phase  formation. While  for 

hydrogen capacity regression, the modeling result shows that B/A gave a very small effect on 

the hydrogen capacity value. 

 

Figure  7.  Linear  Regression  Result  of  B/A  on  (a)  ΔH,  (b)  C14  Phase  Abundance,  and  (c)  Hydrogen Capacity 

IV. CONCLUSIONS

  The analysis of  the dataset  resulted  in  the  random forest being  the algorithm that 

outperforms the other models for all properties prediction with the highest R2 scores, with 

the regression of each element reveals Ni as the most desirable element to decrease the heat 

of formation, while Cr and Mn being the most contributive element on  increasing the C14 

a) 

b) 

c) 

Page 46: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

14  

abundance and hydrogen capacity respectively. It is found that increasing hydrogen capacity 

by adjusting the alloying element will come at the cost of higher heat of formation value. The 

modeling for grouped A and B datasets yields decision tree algorithm being the best model to 

predict phase abundance, random forest model being the best to predict ΔH, and multivariate 

regression being the best to predict the hydrogen capacity. The regression of B/A showed an 

inversely  proportional  relation  with  ΔH,  directly  proportional  relation  with  C14  phase 

abundance,  and  no  relation  with  hydrogen  capacity.  The  rather  high  error  values  and 

overfitting on both datasets may be tolerated considering the low consequences imposed by 

prediction errors. 

ACKNOWLEDGMENTS

The present work was funded by High Impact Research Scheme  Institut Teknologi Sepuluh 

Nopember (ITS) 2020.   

REFERENCES [1] Schlapbach L, Züttel A. Hydrogen-storage materials for mobile applications. Nature 2001;414:353–8.

https://doi.org/10.1038/35104634. [2] Züttel A. Materials for hydrogen storage. Materials Today 2003;6:24–33. https://doi.org/10.1016/S1369-

7021(03)00922-2. [3] Bannenberg LJ, Heere M, Benzidi H, Montero J, Dematteis EM, Suwarno S, et al. Metal (boro-) hydrides

for high energy density storage and relevant emerging technologies. International Journal of Hydrogen Energy 2020;45:33687–730. https://doi.org/10.1016/j.ijhydene.2020.08.119.

[4] Graça Araújo CM. Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics. Acta Universitatis Upsaliensis, 2008.

[5] US DOE. Target Explanation Document: Onboard Hydrogen Storage for Light-Duty Fuel Cell Vehicles n.d. https://www.energy.gov/sites/prod/files/2017/05/f34/fcto_targets_onboard_hydro_storage_explanation.pdf (accessed October 5, 2020).

[6] Hirscher M, editor. Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH; 2010.

[7] Sandrock G. A panoramic overview of hydrogen storage alloys from a gas reaction point of view. Journal of Alloys and Compounds 1999;293–295:877–88. https://doi.org/10.1016/S0925-8388(99)00384-9.

[8] Feng F. Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review. International Journal of Hydrogen Energy 2001;26:725–34. https://doi.org/10.1016/S0360-3199(00)00127-0.

[9] Klebanoff L. Hydrogen Storage Technology: Materials and Applications. 2016. [10] Huot J, Akiba E, Ogura T, Ishido Y. Crystal structure, phase abundance and electrode performance of

Laves phase compounds (Zr, A) V0. 5Ni1. 1Mn0. 2Fe0. 2 (A$\equiv$ Ti, Nb or Hf). Journal of Alloys and Compounds 1995;218:101–109.

[11] Huot J, Akiba E, Iba H. Crystal structure and phase composition of alloys Zr1 − xTix(Mn1 − yVy)2. Journal of Alloys and Compounds 1995;228:181–7. https://doi.org/10.1016/0925-8388(95)01884-0.

[12] Cuevas F, Joubert J-M, Latroche M, Percheron-Guégan A. Intermetallic compounds as negative electrodes of Ni/MH batteries: Appl Phys A 2001;72:225–38. https://doi.org/10.1007/s003390100775.

[13] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.

[14] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.

[15] Chen C, Zuo Y, Ye W, Li X, Deng Z, Ong SP. A Critical Review of Machine Learning of Energy Materials. Advanced Energy Materials 2020;10:1903242. https://doi.org/10.1002/aenm.201903242.

[16] Liu Y, Zhao T, Ju W, Shi S. Materials discovery and design using machine learning. Journal of Materiomics 2017;3:159–77. https://doi.org/10.1016/j.jmat.2017.08.002.

Page 47: 2 untuk Penyimpanan Hidrogen Menggunakan Machine …

15  

[17] Ward L, Dunn A, Faghaninia A, Zimmermann NER, Bajaj S, Wang Q, et al. Matminer: An open source toolkit for materials data mining. Computational Materials Science 2018;152:60–9. https://doi.org/10.1016/j.commatsci.2018.05.018.

[18] Correa-Baena J-P, Hippalgaonkar K, van Duren J, Jaffer S, Chandrasekhar VR, Stevanovic V, et al. Accelerating Materials Development via Automation, Machine Learning, and High-Performance Computing. Joule 2018;2:1410–20. https://doi.org/10.1016/j.joule.2018.05.009.

[19] Alpaydin E. Introduction to machine learning. 2nd ed. Cambridge, Mass: MIT Press; 2010. [20] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen

storage, part II: Prediction of material class. International Journal of Hydrogen Energy 2019;44:7345–53. https://doi.org/10.1016/j.ijhydene.2019.01.264.

[21] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent. International Journal of Hydrogen Energy 2019;44:7337–44. https://doi.org/10.1016/j.ijhydene.2019.01.261.

[22] Witman M, Ling S, Grant DM, Walker GS, Agarwal S, Stavila V, et al. Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning. J Phys Chem Lett 2020;11:40–7. https://doi.org/10.1021/acs.jpclett.9b02971.

[23] Hattrick-Simpers JR, Choudhary K, Corgnale C. A simple constrained machine learning model for predicting high-pressure-hydrogen-compressor materials. Mol Syst Des Eng 2018;3:509–17. https://doi.org/10.1039/C8ME00005K.

[24] Lundin CE, Lynch FE, Magee CB. A correlation between the interstitial hole sizes in intermetallic compounds and the thermodynamic properties of the hydrides formed from those compounds. Journal of the Less Common Metals 1977;56:19–37. https://doi.org/10.1016/0022-5088(77)90215-6.

[25] Mendelsohn MH, Gruen DM, Dwight AE. The effect of aluminum additions on the structural and hydrogen absorption properties of AB5 alloys with particular reference to the LaNi5−xAlx ternary alloy system. Journal of the Less Common Metals 1979;63:193–207. https://doi.org/10.1016/0022-5088(79)90243-1.

[26] Reilly JJ, Adzic GD, Johnson JR, Vogt T, Mukerjee S, McBreen J. The correlation between composition and electrochemical properties of metal hydride electrodes. Journal of Alloys and Compounds 1999;293–295:569–82. https://doi.org/10.1016/S0925-8388(99)00413-2.

[27] Zhu JH, Liaw PK, Liu CT. Effect of electron concentration on the phase stability of NbCr2-based Laves phase alloys. Materials Science and Engineering: A 1997;239–240:260–4. https://doi.org/10.1016/S0921-5093(97)00590-X.

[28] Souza EC, Ticianelli EA. Effect of partial substitution of nickel by tin, aluminum, manganese and palladium on the properties of LaNi5-type metal hydride alloys. J Braz Chem Soc 2003;14:544–50. https://doi.org/10.1590/S0103-50532003000400009.