2 untuk Penyimpanan Hidrogen Menggunakan Machine …

i

LAPORAN KEMAJUAN/LAPORAN AKHIR

PENELITIAN HIGH IMPACT

DANA ITS 2020

Desain Paduan AB2 untuk Penyimpanan Hidrogen Menggunakan

Pendekatan Machine Learning

Tim Peneliti :

Suwarno, ST., M.Sc., PhD./0020058004/Teknik Mesin/FTIRS Ir. Witantyo, M.Eng.Sc./ 0014036307/Teknik Mesin/FTIRS

Dr. Lukman Noerochim/ 0013037701 /Teknik Materials/FTIRS

DIREKTORAT RISET DAN PENGABDIAN KEPADA MASYARAKAT

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

SURABAYA

2020

Sesuai Surat Perjanjian Pelaksanaan Penelitian No: 840/PKS/ITS/2020

1

Daftar Isi

Daftar Isi ......................................................................................................................................................... 1

Daftar Tabel .................................................................................................................................................... 2

Daftar Gambar ................................................................................................................................................ 2

1 RINGKASAN ......................................................................................................................................... 3

1.1 Latar Belakang ................................................................................................................................. 4

1.2 Rumusan Masalah ........................................................................................................................... 4

1.3 Tujuan ............................................................................................................................................. 4

1.4 Kerjasama Internasional ................................................................................................................. 4

2 BAB II HASIL PENELITIAN ................................................................................................................ 5

2.1 Analisa awal .................................................................................................................................... 5

2.2 Data Awal ........................................................................................................................................ 8

2.3 Hasil Pengolahan Awal Data ........................................................................................................... 9

2.3.1 Feature Engineering .................................................................................................................. 10

2.3.2 Preprocessing Data ................................................................................................................... 12

2.4 Modelling Variabel dengan Unsur‐Unsur yang Tidak Dikelompokkan ......................................... 15

2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi ................................... 16

2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi ..................................... 18

2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14 ........................ 20

2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen ...................... 21

3 BAB III STATUS LUARAN ................................................................................................................ 24

4 BAB IV PERAN MITRA ..................................................................................................................... 25

(UntukPenelitian Kerjasama Antar Perguruan Tinggi) .................................. Error! Bookmark not defined.

BAB V KENDALA PELAKSANAAN PENELITIAN ............................................................................... 26

BAB VI RENCANA TAHAPAN SELANJUTNYA ................................................................................... 27

BAB VII DAFTAR PUSTAKA ................................................................................................................... 28

LAMPIRAN .................................................................................................................................................. 29

5 LAMPIRAN 1 Tabel Daftar Luaran ..................................................................................................... 30

2

Daftar Tabel Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H .................................................................................... 6

Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S ..................................................................................... 6

Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang Tidak Dikelompokkan ............ 10

Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur. .......... 11

Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B .......... 11

Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan ............ 16

Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan .............. 18

Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14 ........................ 20

Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen ...................... 21

Daftar Gambar Gambar 2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset .................................................................... 5

Gambar 2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn .......................... 7

Gambar 2‐3 Prevalensi Elemen pada Dataset Awal ....................................................................................... 8

Gambar 2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar ........................... 9

Gambar 2‐5. Pengecekan Null...................................................................................................................... 12

Gambar 2‐6 . Heat Map Uji Kolerasi Variabel Input ................................................................................... 13

Gambar 2‐7 Deteksi dan Penanganan Outliers ............................................................................................ 14

Gambar 2‐8. Jumlah Data Set untuk Setiap Variabel ................................................................................... 14

Gambar 2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan ................................. 16

Gambar 2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan ................................. 18

Gambar 2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14 ........................................... 20

Gambar 2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen ......................................... 22

3

1 RINGKASAN

Hidrogen memiliki kerapatan energi yang tinggi dan memiliki potensi digunakan sebagai element penyimpanan energi dalam kendaraan bebas emisi maupun untuk penyimpanan energi . Namun, ditemukan banyak tantangan pada proses pengemasan hidrogen karena titik didih hidrogen yang rendah, yaitu -254°C. Beberapa metode yang digunakan untuk menyimpan hidrogen adalah pencairan, penyimpanan dalam tangki bertekanan tinggi, atau diikat dalam hidrida logam (metal hydride). Metode penyimpanan hidrogen dengan hidrida logam memiliki keunggulan dibandingkan metode lain karena hidrogen dapat disimpan pada tekanan rendah dengan kerapatan berat maupun volumetrik hidrogen yang tinggi.

Sampai saat ini, telah banyak logam paduan yang dipelajari sebagai media penyimpan hidrogen, dan beberapa di antaranya telah berhasil dikomersialkan. Salah satu contoh material penyimpanan hidrogen yang baik adalah paduan tipe AB2, dengan kapasitas hidrogen yang mampu disimpan sekitar 2-4 wt. % H dan kurang lebih 120 kg/m3. Tipe paduan ini juga memiliki laju penyerapan hidrogen yang cepat yang memungkinkan sintesis hidrida jenuh dalam waktu kurang dari 60 detik.

Penelitian ini berfokus pada penggunaan pendekatan ilmu pengolahan data, yaitu machine learning, untuk memprediksi daya simpan hidrogen paduan AB2. Tujuan dari penelitian ini adalah menemukan komposisi paduan yang dapat digunakan pada suhu kamar dengan kapasitas penyimpanan yang tinggi.

Proyek ini akan menjadi bagian konsorsium Eropa (http://hydride4mobility.fesb.unist.hr) yang sudah berjalan, di mana Departemen Teknik Mesin ITS Surabaya (Indonesia) adalah mitra dan Departemen Sistem Energi, IFE (Norwegia) berperan sebagi koordinator. Kerja sama ini memungkinkan pertukaran pengetahuan dan sumber daya sehingga penelitian dapat dilakukan dengan lebih efektif. Hasil dari penelitian ini akan diterbitkan dalam jurnal dengan reputasi baik yaitu The International Journal of Hydrogen Energy (IJHE).

Keywords: paduan AB2, penyimpanan hidrogen, machine learning, supervised learning, pengolahan data

4

1.1 Latar Belakang

Hidrida logam dapat diklasifikasikan menjadi tiga jenis, hidrida biner, hidrida paduan/ intermetalik, dan hidrida kompleks. Dua unsur dapat berikatan membentuk senyawa atau paduan dengan struktur kristal yang tidak teratur maupun teratur. Jenis pertama disebut juga paduan solid solution. Paduan pada jenis ini bereaksi membentuk hidrida logam. Hidrida logam yang berasal dari jenis paduan ini disebut "hidrida berbasis BCC". Contoh dari golongan hidrida ini adalah hidrida yang berasal dari paduan titanium dan vanadium. Jenis lain dari paduan yang tersusun dari paduan intermetalik dengan ciri – ciri struktur kristal yang teratur. Hidrida logam yang berasal dari paduan intermetalik termasuk pada jenis hidrida intermetalik, misalnya paduan AB2. Terdapat penelitian terbaru yang menunjukkan bahwa paduan AB2 digunakan sebagai baterai maupun penyimpan hidrogen [1-3].

1.2 Rumusan Masalah

Hal penting dari hidrida logam yang harus diperhatikan adalah sifat termodinamika dari hidrida yang terkait dengan suhu kesetimbangan untuk desorpsi hidrogen, laju reaksi yang menentukan waktu yang dibutuhkan untuk pengisian dan laju pelepasan hidrogen dari hidrida logam, stabilitas siklus, dan biaya produksi. Paduan dari AB2 mempunyai kepadatan hidrogen yang tinggi, laju reaksi yang cepat, dan sifat–sifat termodinamika pada paduan ini dapat diatur dengan penambahan elemen lain. Pada paduan AB2, sifat – sifat tersebut sangat bergantung pada komposisi kimianya. Komposisi kimia yang baik untuk memperoleh sifat – sifat yang baik hanya dapat dicapai melalui banyak percobaan. Metode baru yang digunakan untuk mengurangi jumlah eksperimen secara signifikan adalah prediksi hasil eksperimen dengan machine learning. Metode ini sudah diterapkan [4,5]. Namun demikian, penulis pada penelitian tersebut masih menggunakan database lama. Dalam penelitian ini, database dikumpulkan dari makalah – makalah baru yang diterbitkan untuk kemudian digunakan dalam machine learning untuk prediksi sifat dan komposisi paduan AB2.

1.3 Tujuan

Tujuan dari penelitian ini adalah sebagi berikut: o Mempelajari pengaruh komposisi kimia dari paduan AB2 terhadap kemampuan

sorption hidrogen. o Memprediksi sifat termodinamika paduan AB2 dengan pendekatan machine

learning. 1.4 Kerjasama Internasional

Departemen Teknik Mesin ITS terlibat dalam European Marie Currie Project HORIZON 2020, Hydride4Mobility, di dalam pengembangan kendaraan berbahan bakar fuel-cell. Konsorsium ini terbentuk dari 6 negara yang aggotanya berasal dari akademisi dan perusahaan (Error! Reference source not found.). Proyek ini berfokus pada pengembangan konsep kendaraan berbahan bakar fuel-cell layak pakai untuk menunjukkan bahwa hidrogen dapat digunakan sebagai penyimpan energi yang baik dan praktis. Penelitian ini sangat strategis bagi ITS untuk berkembang lebih jauh dalam teknologi hidrida logam dengan memanfaatkan jaringan pendidikan internasional di bidang ini.

5

2 BAB II HASIL PENELITIAN

2.1 Analisa awal

Analisa awal dilakukan untuk mendapatkan suatu visualisasi awal dari dataset yang sudah didapatkan untuk memprediksi hasil yang akan didapatkan dari analisa menggunakan machine learning. Dilakukan data count untuk mengetahui prevalensi elemen dari dataset dengan hasil sebagai berikut:

Gambar 2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset

Berdasarkan prevalensi elemen yang ada, indepen awal ini akan dilakukan menggunakan multivariate regression dimana variable independent dengan nilai prevalensi diatas 130 yaitu Ti, Zr, Mn, Cr, V, Ni, dan Co akan masing masing diregresi dengan variable dependen berupa entalpi dan entropi. Angka count 130 didapatkan dari asumsi serta analisa peneliti berdasarkan visualisasi prevalensi elemen yang didapatkan, guna meningkatkan kemampuan prediksi dari model regresi, karena secara teori ketika dataset memiliki nilai 0 yang lebih sedikit maka kemampuan prediksi akan meningkat. Hasil multivariate regression yang dilakukan menggunakan software Microsoft Excel didapatkan sebagai berikut. Statistika Regresi dengan nilai level signifikansi 95 % (α= 0.05) dengan hipotesa,

Ho = β1 = β2 = β3 = β4 = β5 = β6 = β7 = β8 = 0 H1 = at least one βi ≠ 0

Menmberikan hasil sebagai berikut, a. Regresi komposisi kimia terhadap selisih entalphi absorbsi

-R square = 0.2555967 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 25,5% yang berarti bahwa 25,5% dari entalphi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 2.67E-16 (Ho ditolak, setidaknya ada satu variable 5ndependent yang signifikan)

0

50

100

150

200

250

300

Ti Mn V Co Fe Y La Mg Cu W Ho Gd

Element Count

Unsur

Cou

nt

6

Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H

No Unsur Koefisien Nilai P Signifikansi1 - 114,13 - - 2 Ti -83,9 0,393 Tidak 3 Zr -77,46 -,431 Tidak 4 Mn -2,667 0,134 Tidak 5 Co -13,68 0,009 Signifikan 6 Cr -4,40 0,019 Signifikan 7 V 8,243 0,000128 Signifikan 8 Ni 1,421 0,322 Tidak

Persamaan Regresi: Ŷ = 114.13 – 83.9Ti – 77.46Zr – 176.072Ho – 2.667Mn -13.68Co – 4.40Cr + 8.243V + 1.421 Ni……………………(7)

b. Regresi komposisi kimia terhadap selisih entropi absorbsi

-R square = 0.122785 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 12,2% yang berarti bahwa 12,2% dari entropi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 9.92E-07 (Ho ditolak, setidaknya ada satu variable 6ndependent yang signifikan)

Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S

No Unsur Koefisien Nilai P Signifikansi1 - 239,5 - - 2 Ti -130,061 0,366 Tidak 3 Zr -130,097 0,366 Tidak 4 Mn -4,589 0,077 Tidak 5 Co -41,134 0,0001 Signifikan 6 Cr 0,503 0,0854 Signifikan 7 V 4,924 0,1137 Tidak 8 Ni 1,3513 0,5199 Tidak

Persamaan Regresi: Ŷ = 239.35 – 130.061Ti – 130.097Zr – 4.589Mn -41.134Co – 0.503Cr + 4.924V + 1.3513 Ni………………………………(8)

Regresi yang dilakukan menggunakan python jupyter notebook menghasilkan nilai yang sama

dengan nilai yang diberikan oleh microsoft excel. Hal ini terjadi karena memang pada dasarnya prinsip regresi linear pada microsoft excel sama dengan python. Namun, nilai 25,5 % dan 12,2% untuk kemampuan prediksi ini tergolong sangat lemah. Oleh karena itu perlu ditemukan penyebab lemahnya kemampuan prediksi ini. Untuk melakukan hal tersebut, dilakukan visualisasi plot dataset variabel input dengan variabel output dan didapatkan hasil sebagai berikut:

7

Berdasarkan plot pada Gambar 10 dapat dilihat bahwa terdapat banyak noise yang terjadi pada plot tersebut yang membuat trend pengaruh masing masing variabel input terhadap variabel output menjadi susah untuk dilihat. Sehingga wajar apabila hasil regresi awal menunjukkan kemampuan yang sangat lemah. Noise ini dapat disebabkan karena banyak hal, antara lain: i) 50 Jurnal yang didapatkan berasal dari peneliti serta laboratorium yang berbeda, sehingga terdapat kemungkinan set up percobaan yang berbeda pula. Seperti contohnya terdapat spesimen yang mengalami perlakuan panas dan ball milling. ii) Terdapat banyaknya nilai nol pada dataset tersebut. Oleh karena itu dilakukan analisa awal tahap kedua yaitu dengan melakukan feature engineering terhadap dataset, dimana dataset yang memiliki nilai 0 tidak akan diikutsertakan dalam regresi linear yang baru. Selain itu dilakukan juga data scaling untuk menyetarakan kemampuan masing masing fitur yang ada, sehingga semua fitur memiliki kesempatan yang sama untuk berkontribusi di proses regresi. Berdasarkan regresi linear tahap kedua, didapatkan hasil sebagai berikut:

a.

b Variabel Input

Var

iabe

l Out

put

Var

iabe

l Out

put

Variabel Input

Gambar 2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn

8

a. Regresi komposisi kimia terhadap ΔH absorbsi: R square = 0.410 (kemampuan prediksi 41%) Nilai P keseluruhan = 2.46E-10 (H0 ditolak) Ŷ = 26.39 + 16.70Ti + 9.68Zr +16.75Mn +6.86Co + 50.52Cr -4.58V -17.46 Ni……………………………………………..(9)

b. Regresi komposisi kimia terhadap ΔS absorbsi: R square = 0.318 (kemampuan prediksi 31.8%) Nilai P keseluruhan = 3.03E-07 (H0 ditolak) Ŷ = 77.63+ 35.27Ti +42.35Zr +30.401Mn + 18.897Co +58.51Cr + 30.24V – 43.67

Ni………………………………………....(10)

Nilai kemampuan regresi dari terhadap kedua variabel output menunjukkan kenaikan yang cukup signifikan yaitu pada regresi terhadap ΔH yang semula bernilai 25,5% naik menjadi 41% dan pada ΔS yang semula bernilai 12,2% naik menjadi 31,8%. Hal ini menunjukkan bahwasanya sangat penting untuk dilakukan feature engineering ketika mengolah data sebelum dilakukan fitting terhadap model. Pada penelitian ini akan dilakukan data fitting yang lain berupa pengkategorian dataset berdasarkan set up percobaan yang dilakukan.

2.2 Data Awal

Didapatkan 324 pasang data logam paduan dari 50 jurnal, dimana setiap logam paduan

memiliki kandungan unsur yang berbeda-beda. Gambar 2.3 menunjukkan grafik bubble prevalensi

Keterangan:

- Huruf: Nama Unsur - Angka: Jumlah Paduan yang

Mengandung Unsur Tersebut

Gambar 2‐3 Prevalensi Elemen pada Dataset Awal

9

elemen yang berada pada seluruh set paduan. Angka yang berada dibawah keterangan jenis elemen menunjukkan jumlah set paduan yang mengandung elemen tersebut. Dapat dilihat bahwa terdapat bubble yang berukuran sangat kecil yang tidak memiliki keterangan jenis elemen unsur. Hal ini menunjukkan bahwa hanya terdapat sedikit logam paduan yang mengandung elemen-elemen tersebut. Keberadaan elemen unsur dengan prevalensi yang sangat rendah ini dapat memberikan pengaruh yang buruk terhadap model machine learning karena keterbatasan informasi yang diberikan oleh elemen unsur tersebut dapat menyebabkan prediksi yang tidak akurat. Oleh karena itu dilakukan pemilihan variabel input yang akan digunakan pada model dimana diambil 8 unsur yang memiliki prevalensi terbesar yaitu Ti, Zr, Mn, Cr, V, Ni, Co, dan Sn.

Gambar 2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar

Gambar 2.4 menunjukkan prevalensi elemen setelah dilakukan penghapusan untuk unsur-

unsur yang memiliki prevalensi yang rendah. Gambar menunjukkan bahwa sudah tidak terdapat perbedaan ukuran bubble yang cukup besar. Namun, dari gambar tersebut dapat dilihat bahwa akan ada banyak baris dataset yang memiliki nilai 0 karena tidak semua paduan mengandung unsur-unsur yang ada pada gambar 2.4. Hal ini juga akan menyebabkan menurunnya kemampuan prediksi dari model. Oleh karena itulah dilakukan pengolahan terhadap data awal yang akan dijelaskan pada bagian subbab 2.3.

2.3 Hasil Pengolahan Awal Data

Pengolahan data awal dilakukan untuk mengatasi temuan-temuan pada analisis awal menggunakan multivariate regression seperti banyaknya noise yang dihasilkan oleh set up percobaan yang berbeda-beda, banyaknya null value, dan banyaknya data outliers yang dapat

Keterangan:

- Huruf: Nama Unsur - Angka: Jumlah Paduan yang

Mengandung Unsur Tersebut

10

menurunkan performa prediksi model machine learning. Pengolahan awal data dimulai dengan feature engineering dan dilanjutkan dengan data preprocessing. 2.3.1 Feature Engineering

Dilakukan feature engineering untuk memilih variasi fitur yang memiliki kemampuan prediksi yang paling tinggi, sebagai fitur yang akan digunakan pada pengujian secara keseluruhan. Kedua jenis variabel input yang ada pada penelitian ini akan mendapatkan perlakuan feature engineering yang berbeda. a. Variabel input dengan unsur-unsur elemen yang tidak dikelompokkan

Dataset dengan unsur-unsur yang tidak dikelompokkan berguna untuk megetahui pengaruh

masing masing unsur terhadap variabel output pada model serta mendapatkan prediksi model secara keseluruhan. Dimana untuk dataset ini, terdapat enam jenis variasi fitur yang akan diuji yaitu: i) seluruh fitur tanpa dilakukan persuntingan, ii) fitur yang dibagi berdasarkan set up pengujian tanpa menggunakan heat treatment, iii) fitur untuk paduan yang mengalami heat treatment pada set up pengujian, dan iv) fitur untuk senyawa tanpa menyertakan paduan yang memiliki komposisi yang bernilai 0 dimana dilakukan penghapusan untuk senyawa yang memiliki nilai nol seperti pada sel yang diblok menggunakan warna kuning pada gambar 2.3 sehingga dataset yang diuji hanyalah set paduan yang mengandung kedelapan unsur pada variabel input seperti sel yang diblok menggunakan warna hijau. Pengujian variasi fitur ini dilakukan dengan menggunakan multivariate linear regression terhadap seluruh variable target yaitu ΔH absorbsi, ΔS absorbs, phase abundance, dan persen massa hydrogen di software orange python, dengan data train sebanyak 80% dan data tes sebanyak 20 % secara random dan bertingkat. Dari hasil pengujian variasi tersebut didapatkan hasil sebagai berikut.

Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang

11

Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur.

Variasi Fitur

ΔH absorbsi

ΔS absorbsi

Phase Abundance

Persen Massa Hidrogen

Skor rata rata

Seluruh fitur tanpa disunting

0.13 0.042 0.317 0.23 0.151

Fitur set up uji dengan heat treatment

0.684 0.94 0.476 0.22 0.368

Fitur set up uji tanpa heat treatment

0.257 0.105 0.332 0.445 0.284

Fitur tanpa nilai 0

0.42 0.19 0.86 0.66 0.532

Berdasarkan pengujian yang dilakukan skor rata-rata tertinggi diraih oleh fitur tanpa nilai 0,

dan secara berurutan diikuti fitur set up uji dengan heat treatment, fitur set up uji tanpa heat treatment, dan seluruh fitur yang tidak tidak disunting. Pengujian fitur senyawa A dan B secara terpisah mendapatkan skor terendah karena memang pada dasarnya seluruh unsur memiliki pengaruh terhadap variable output sehingga wajar bahwa pada saat senyawa A dan B dipisahkan, skor terendah didapatkan. Pengujian fitur tanpa nilai 0 mendapatkan skor tertinggi diantara semua variasi. Hal ini sesuai dengan teori analisis data bahwa data dengan nilai null yang lebih sedikit akan menghasilkan prediksi yang lebih baik. Oleh karena itu dataset fitur dengan unsur tanpa nilai 0 akan dipilih sebagai dataset yang digunakan untuk variabel dengan unsur-unsur yang tidak dikelompokkan pada pengujian selanjutnya.

b. Variabel dengan unsur-unsur elemen yang dikelompokkan menjadi unsur A dan B berguna untuk

mengetahui pengaruh paduan secara stoichiometryterhadap variabel output. Berdasarkan seleksi variabel awal yang telah dilakukan, unsur A pada data set yang digunakan terdiri dari unsur Ti dan Zr, sedangkan unsur B terdiri dari unsur Mn, Co, Cr, V, Ni, dan Sn. Variabel dengan unsur-

Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B

12

unsur yang dikelompokkan menjadi unsur A dan B ini tidak akan melalui proses feature engineering karena seluruh unsur A dan B tidak bernilai nol.

2.3.2 Preprocessing Data

Data preprocessing dilakukan untuk meningkatkan kualitas dataset yang dimiliki dengan cara mengatasi data yang masih hilang atau kekurangan atribut tertentu, data yang mengandung data outlier, dan mengatasi variasi nilai dataset yang terlalu besar. Kedua jenis variable akan mengalami preprocessing data yang sama. Dilakukan beberapa jenis data preprocessing pada penelitian ini yaitu, pengecekan null, scaling, pendeteksian dan penanganan outliers, serta pengujian multikolinearitas untuk variabel input. a. Pengecekan Null

Pengecekan null dilakukan untuk mengetahui apakah ada nilai yang hilang pada setiap variabel. Nilai yang hilang ini dapat menyebabkan terjadinya error pada saat proses fitting data. Pengecekan null menggunakan fugsi ”isnull” akan menghasilkan dua kemungkinan output yaitu true apabila terdapat nilai null pada variabel dan false apabila tidak terdapat nilai null. Hasil pengecekan didapatkan sebagai berikut:

Gambar 2‐5. Pengecekan Null

Seluruh variabel menghasilkan output false yang berarti bahwa tidak terdapat nilai null pada variabel sehingga pengujian bisa dilanjutkan ke tahap selanjutnya.

13

b. Uji Multikolinearitas

Multikolinearitas terjadi ketika terdapat satu variabel input yang memiliki korelasi yang

sangat tinggi dengan variabel inout yang lain. Hal ini dapat menyebabkan redudansi yang berujung pada variabel yang tidak signifikan secara statistik. Untuk menguji apakah ada multikolinearitas, digunakan matriks korelasi, matriks kolerasi antara setiap variabel input ini diletakkan pada sebuah heat map untuk mempermudah visualisasi data yang memiliki multikolinearitas. Warna yang gelap menunjukkan variabel yang memiliki kolerasi yang tinggi satu dengan yang lain.

Pengujian kolerasi yang dilakukan terhadap dataset dengan variabel unsur yang tidak dikelompokkan menghasilkan heatmap seperti gambar 2.6 diatas. Didapatkan bahwa unsur Ti dan Zr memiliki kolerasi yang sangat tinggi satu dengan yang lain seperti yang dilingkari oleh lingkaran berwarna merah. Namun, variabel Ti dan Zr tidak akan dihapuskan dari model walapun Ti dan Zr bersifat multikolinear satu dengan yang lain. Hal ini dapat terjadi karena unsur Ti dan Zr adalah anggota dari senyawa A pada AB2 yang mana senyawa A akan selalu bernilai 1. Sehingga Ti bersifat berbanding terbalik dengan Zr, apabila komposisi Ti menurun berarti komposisi Zr menaik, dan sebaliknya. Sedangkan, variabel dengan unsur-unsur yang dikelompokkan menjadi A dan B tidak menunjukkan adanya multikolinearitas antara variabel A dan B. c. Deteksi dan Penanganan Outliers

Outliers dapat memberikan efek yang tidak proporsional terhadap hasil statistik data seperti nilai mean yang dapat berujung kepada interpretasi model yang salah. Untuk mendeteksi adanya outliers, ditambahkan sebuah metric baru berupa 3 standar deviasi dibawah dan diatas nilai mean masing masing variabel. Selanjutnya akan seluruh dataset akan difilter berdasarkan nilai Z, yaitu jarak suatu data terhadap rata-ratanya dalam satuan standar deviasi. Apabila nilai Z diatas +-3 standar deviasi, maka nilai tersebut akan dianggap sebagai outliers yang akan dihapus

Gambar 2‐6 . Heat Map Uji Kolerasi Variabel Input

14

Gambar 2.7 adalah contoh deteksi dan penanganan outlier yang dilakukan untuk variable dengan unsur-unsur yang tidak dikelompokkan. Pada proses tersebut, ditemukan 11 baris dataset yang mengandung outliers seperti yang dapat dilihat pada gambar bagian bawah yaitu baris ke-30, 31, 32, 48, 49, 70, 71, 72, 75, 81, 86, sehingga outliers ini dapat dihapus. Dapat dilihat bahwa baris outliers ini terletak berdekatan satu dengan yang lain seperti baris ke-30, 31, dan 32, hal ini kemungkinan besar terjadi karena data tersebut bersumber dari paper dan peneliti yang sama, namun set up pengujian yang ada pada paper tersebut berbeda dengan mayoritas set up pengujian yang ada pada dataset, sehingga menghasilkan nilai yang jauh berbeda.

Gambar 2‐8. Jumlah Data Set untuk Setiap Variabel

Setelah dilakukan pendeteksian terhadap kedua jenis variabel, dapat dilihat hasil akhir jumlah dataset tanpa outliers pada gambar 2.8. Dari data yang awalnya berjumlah 314 pasang dataset, menjadi 234 pasang data untuk fitur A dan B yang dikelompokkan, dan 86 pasang data untuk fitur unsur yang tidak dikelompokkan. Dataset ini adalah dataset final yang akan digunakan sebagai input model machine learning. d. Data Scaling

Data scaling adalah suatu cara untuk membuat numerical data pada dataset memiliki rentang

nilai (scale) yang sana, sehingga tidak ada lagi satu variabel data yang mendominasi variabel data lainnya. Pada penelitian ini digunakan proses data scaling terhadap nilai mean yang ada menggunakan fungsi scaler.mean. Perbandingan data sebelum dan sesudah scaling dapat dilihat

314

234

86

Fitur Awal tanpaPreprocessing

Fitur A dan B yangdikelompokkan

Fitur Unsur yang tidakdikelompokkan

Gambar 2‐7 Deteksi dan Penanganan Outliers

15

pada gambar 4.10a Dimana dapat diamati sebelum dilakukannya scaling masih terdapat perbedaan nilai yang sangat besar antara variable input yang ada seperti unsur Nikel yang dapat mencapai harga 41. Scaling tersebut dilakukan menggunakan rumus berikut:

𝑋′ ……………………………………………(10)

dimana X’ adalah nilai fitur yang telah mengalami scaling, X adalah nilai fitur sebelum scaling, X min adalah nilai minimum dari dataset fitur lama dan X max adalah nilai maksimum dari dataset fitur lama. Sebagai contoh, dilakukan perhitungan untuk melakukan scaling pada salah satu unsur Mangan yang bernilai 4,2. Diketahui bahwa nilai mangan minimum pada dataset adalah, dan nilai mangan maksimum pada dataset adalah 13,6 dan nilai minimum mangan pada dataset adalah 4 maka,

𝑋 𝑋 𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥 𝑋𝑚𝑖𝑛

𝑋 4,2 4

13,6 4

𝑋 0,02083 setelah dilakukannya scaling ditemukan nilai mangan yang telah mengalami scaling sebesar 0,02083.

Dilakukan pengujian untuk menentukan jumlah tree yang dapat memberikan prediksi yang paling optimum bagi setiap variabel output untuk model random forest. Pengujian dilakukan dengan melakukan pengecekan prediksi untuk model dengan jumlah tree mulai dari 0 sampai dengan 100. Hasil dari pengujian diletakkan pada grafik dimana sumbu x menunjukkan jumlah tree, dan sumbu y menunjukkan kemampuan prediksi. Jumlah tree yang dipilih adalah yang memiliki kemampuan prediksi terbaik, ditandai dengan titik dengan posisi yang paling tinggi pada grafik. Pengujian untuk ΔH absorbsi, ΔS absorbsi, phase abundance, dan persen massa hidrogen menemukan jumlah tree optimal adalah 21, 8, 32, dan 7 tree secara berurutan. Jumlah tree ini dipakai dalam penentuan jumlah tree pada saat pembuatan model random forest. 2.4 Modelling Variabel dengan Unsur-Unsur yang Tidak Dikelompokkan

Didapatkan hasil evaluasi dari masing masing model yaitu regresi linear multivariate, decision tree, dan random forest untuk variabel dengan unsur-unsur yang tidak dipisahkan. Hasil dari setiap model dibandingkan berdasarkan setiap variable output guna menemukan algoritma terbaik untuk memprediksi setiap variable output. Pengaruh masing masing unsur terhadap setiap variabel output didapatkan untuk mengetahui unsur-unsur yang dapat memberikan keuntungan bagi sifat-sifat penyimpanan hydrogen logam hidrida.

16

2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi

Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan

Metric Multivariate Regression

Decision Tree

Random Forest

R2 Train 0.478 0.868 0.819 R2 Validasi 0.055 -0.05 0.591 R2 Test 0.569 0.22 0.531 R2 Rata-rata

0.367 0.346 0.647

Mean Absolute Error

4,61 5,9 4,36

Root Mean Square Error

5.51 7,39 5,75

Gambar 2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan

Ketiga model machine learning dibandingkan untuk melihat performansi pada prediksi

selisih entalphi pembentukan. Algoritma multivariate regression menghasilkan fungsi matematis sebagai berikut,

17

Y = 28,51 + 19,82Ti + 8,68Zr +2,22Mn – 6,51Co + 4,54Cr – 4,54V – 15,15Ni + 5,92Sn……………………………………………(11) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta H dari data yang baru. Model random forest dan decision tree juga menghasilkan suatu fungsi matematis yang dapat digunakan untuk memprediksi dengan memasukkan data input yang baru ke software python. Untuk melakukan evaluasi terhadap model yang didapatkan, dilakukan pengecekan terhadap R2 dan nilai error yang dimiliki model. R2 rata-rata atau kemampuan prediksi tertinggi diraih oleh random forest pada angka 0,647 diikuti oleh multivariate linear regression pada 0.367 dan decision tree pada angka 0.346. Hal ini menandakan bahwa random forest adalah model yang paling baik digunakan untuk melakukan prediksi selisih entalphi pembentukan, serta dataset yang dimiliki bersifat non-linear sehingga apabila ingin dilakukan penelitian lebih lanjut akan lebih baik untuk menggunakan algoritma non-linear. Walaupun telah dilakukan preprocessing data dan feature selection, nilai R2 rata-rata model masih belum bisa menyentuh angka 0,70. Hal ini menandakan bahwa kemampuan prediksi delta entalphi masih tergolong lemah. Dapat dilihat bahwa terdapat penurunan nilai R2 pada data validasi apabila dibandingkan dengan data training, hal ini sebenarnya lumrah terjadi pada metode analisa machine learning, namun penurunan skor R2 yang sangat besar menandakan terjadinya overfitting yang sangat besar pula pada model tersebut. Pada prediksi delta entalphi ini dapat diamati bahwa terjadi ovefitting yang besar pada model multivariate regression dan decision tree.

Mean absolute error tertinggi ada pada decision tree pada 5,9 diikuti multivariate regression pada angka 4,61 dan random forest pada 4,36. Root mean square error tertinggi ada pada decision tree pada angka 7,39, diikuti oleh random forest pada angka 5,75 dan multivariate regression pada angka 5,51. Error yang terjadi terlihat besar karena error berada cukup jauh dari angka 0. Namun, apabila grafik plot nilai asli dan nilai prediksi dicermati, dapat dilihat bahwa selisih nilai yang didapatkan oleh prediksi model tidak terlalu jauh dengan nilai asli. Hasil prediksi model yang digambarkan oleh garis hijau, kuning, dan merah untuk linear regression, decision tree, dan random forest secara berurutan sudah dapat mengikuti fluktuasi grafik nilai asli yang digambarkan oleh garisbiru. Namun, dapat dilihat bahwa ketiga model gagal untuk memprediksi nilai selisih entalphi yang bernilai tinggi seperti yang berada pada angka 47 KJ/mol. Di sisi lain, model decision tree dan random forest bekerja dengan baik dalam hal memprediksi nilai selisih entalphi yang kecil seperti yang bernilai dibawah 10 KJ/mol. Tentu saja, berdasarkan model yang didapatkan dapat diketahui bahwa akan ada kemungkinan terjadi kesalahan pada saat melakukan prediksi yang baru. Namun, walaupun pada akhirnya terjadi selisih yang sangat besar antara nilai prediksi dan nilai asli selisih entalphi pembentukan. Konsekuensi yang dihasilkan dari error ini tidak akan terlalu besar, karena model prediksi hanya akan digunakan untuk tujuan penelitian, sehingga tidak akan membahayakan bagi manusia. Oleh karena itu nilai error dan R2 yang cukup lemah ini masih dapat diterima. Selisih entalphi pembentukan untuk alloy yang akan diteliti masih akan ditemukan dan tetap akan menjadi informasi yang berguna bagi peneliti yang lainnya sebagai baseline sebelum melakukan eksperimen pemaduan logam. Selain itu apabila selsisih entalphi yang diinginkan justru terlalu besar, hal ini masih dapat dikompensasi dengan properti hidrogenasi yang lain seperti persen massa hidrogen yang dihasilkan, karena kemungkinan apabila energi pembentukan yang dibutuhkan semakin besar, maka persen massa hidrogen yang dihasilkan akan semakin besar pula yang merupakan hal yang diinginkan pada logam hidrida.

18

2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi

Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan


Decision Tree

Random Forest

R2 Train 0.332 0.935 0.868 R2 Validasi -0.27 -1.5 0.6922 R2 Test 0.469 0.06 0.104 R2 Rata-rata

0.177 -0.16 0.554

Mean Absolute Error

9.39 7,57 30,8


13.0 14,2 33,6

Gambar 2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan

19

Ketiga model machine learning dibandingkan untuk melihat performansinya pada prediksi selisih entropi pembentukan. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 89,49 + 44,62Ti + 44,88Zr +0,54Mn – 15,55Co + 2,82Cr – 7,08V – 31,21Ni – 0,54Sn…………………………………….(12) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta S dari data yang baru, hal yang sama juga berlaku untuk model decision tree dan random forest, dimana nilai input yang baru dapat dimasukkan ke software python untuk menemukan prediksi delta entropi yang baru. Nilai R2 dan error dilihat untuk mengevaluasi model yang didapatkan. Nilai R2 rata-rata tertinggi diraih oleh model random forest pada angka 0,554 diikuti oleh multivariate regression pada angka 0,177, dan decision tree pada angka 0,16. Hal ini menandakan bahwa random forest adalah model yang paling baik untuk memprediksi selisih entropi, serta dataset yang dimiliki bersifat non-linear. Ketiga model yang didapatkan menghasilkan R2 rata-rata yang bernilai dibawah 0,7 yang menandakan bahwa prediksi yang dihasilkan masih cukup lemah. Terjadi overfitting yang besar pada model multivariate regression dan decision tree yang ditandai dengan penurunan nilai R2 validasi yang sangat besar apabila dibandingkan dengan R2 train.

Nilai error yang didapat tergolong cukup besar pada ketiga model, dimana untuk mean absolute error didapatkan nilai sebesar 9,39, 7,57, dan 30,8 untuk multivariate regression, decision tree, dan random forest secara berurutan. Root mean square error menunjukkan nilai 13,0, 14,2, dan 33,6 untuk multivariate regression, decision tree, dan random forest secara berurutan. Error yang terjadi terlihat jauh lebih besar apabila dibandingkan dengan error pada prediksi selisih entalphi pembentukan. Hal ini dapat terjadi karena memang pada proses pengumpulan data, banyak dataset dengan nilai selisih entropi pembentukan yang diasumsikan sebagai 110 KJ/mol untuk mendapatkan nilai selisih entalphi pembentukan. Nilai selisih entropi pembentukan dipilih sebagai nilai yang diasumsikan karena memang sebenarnya nilai entropi tidak berkaitan secara langsung dengan energi pembentukan. Nilai selisih entropi dihasilkan akibat terjadinya perubahan wujud hidrogen dari yang semula berbentuk gas menjadi padat ketika diserap oleh logam hidrida. Sehingga error yang cukup besar ini dapat ditoleransi. Apabila grafik plot nilai asli dan nilai prediksi dilihat, model sebenarnya telah dapat mengikuti fluktuasi nilai asli. Terutama model decision tree dan random forest yang bekerja sangat bagus dalam memprediksi nilai selisih entropi pada 110 KJ/mol yang sebenarnya diasumsikan oleh peneliti.

20

2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14

Gambar 2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14

Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14


Decision Tree

Random Forest

R2 Train 0.419 0.966 0.893 R2 Validasi 0.292 0.788 0.819 R2 Test 0.633 0.603 0.786 R2 Rata-rata

0.448 0.785 0.832

Mean Absolute Error

11.5 8.48 22,4


13,3 13.8 25,6

Prediksi model yang dilakukan terhadap variabel output C14 menghasilkan R2 rata-rata

tertinggi pada random forest di angka 0.832, diikuti oleh decision tree pada angka 0,785, dan multivariate regression pada angka 0,448. Model decision tree dan random forest memiliki kemampuan diatas 0,70 yang berarti bahwa model tersebut memiliki kualitas yang baik untuk melakukan prediksi phase abundance C14. Apabila nilai R2 train dan R2 validasi dibandingkan, dapat dilihat bahwa penurunan nilai R2 pada data validasi tidak terlalu besar untuk ketiga model, hal ini menandakan bahwa overfitting yang terjadi tidak terlalu besar yang menandakan performansi

21

yang baik bagi model. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 32,47 + 17,66Ti + 14,18Zr – 19,25Mn – 24,99Co + 2,34Cr + 44,44V – 54,67Ni + 61,86Sn…………………………………..(13) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi phase abundance C14 dari data yang baru. Nilai mean absolute error tertinggi diraih oleh model random forest pada angka 22,4, diikuti oleh multivariate regression pada angka 11,5 dan decision tree pada angka 8,48. Nilai root mean square error tertinggi juga diraih oleh random forest pada angka 25,6, diikuti decision tree pada angka 13,8, dan multivariate regression pada angka 13,3. Nilai error baik yang dihasilkan oleh mean absolute error maupun root mean square error tergolong besar karena sangat jauh dari nilai 0. Performa prediksi digrafikan pada grafik nilai asli dan nilai prediksi, dimana dapat dilihat bahwa sebenarnya model sudah cukup baik dalam mengikuti naik turunnya nilai asli. Decision tree memiliki performansi yang sangat baik untuk memprediksi nilai C14 yang rendah, dimana model decision tree adalah satu satu nya model yang dapat meramalkan phase abundance C14 yang bernilai 0. Nilai error yang besar yang dihasilkan pada prediksi ini mungkin terjadi karena banyak logam paduan dari dataset yang memiliki phase C14 sebanyak 100% dan 0%, tentu saja model machine learning akan lebih susah memprediksi nilai yang sangat tinggi maupun sangat rendah, karena nilai tersebut terletak sangat auh dari nilai median dan dapat terlihat seperti outliers walaupun pada nyatanya memang benar bahwa suatu logam paduan dapat menghasilkan nilai 100% maupun 0% phase abundance C14.

2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen

Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen


Decision Tree

Random Forest

R2 Train 0.741 0.989 0.928 R2 Validasi 0.608 0.113 0.521 R2 Test 0.654 0.392 0.615 R2 Rata-rata

0.667 0.498 0.688

Mean Absolute Error

0,0968 0,0894 0,101


0,12 0,159 0,126

22

Gambar 2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen

Persen massa hidrogen adalah salah satu sifat yang paling penting dalam aplikasi logam

hidrida, karena persen massa hidrogen akan mempengaruhi massa logam hidrida secara keseluruhan. Pada prediksi machine learning yang dilakukan terhadap persen massa hidrogen, random forest meraih nilai R2 rata-rata tertinggi pada angka 0,688, diikuti oleh multivariate regression pada angka 0,667, dan decision tree pada angka 0,498. Ketiga model tidak menyentuh angka 0,70 yang berarti bahwa kemampuan prediksi yang dimiliki masih tergolong lemah. Overfitting yang sangat besar dapat diamati pada model decision tree dengan penurunan skor R2 validasi yang cukup signifikan apabila dibandingkan dengan nilai R2 training. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 0,31 + 0,38Ti – 0,06Zr + 0,72Mn +0,18Co + 0,42Cr -0,05V +0,12Ni + 0,29Sn……………………………………………..(14)

dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi nilai persen massa hidrogen dari data yang baru. Mean absolute error tertinggi diraih oleh random forest pada angka 0,101, diikuti oleh multivariate regression pada angka 0,0968, dan decision tree pada angka 0,0894.. Sedangkan root mean square tertinggi diraih oleh decision tree pada 0,159, random forest pada 0,126 dan multivariate regression pada 0,126. Ketiga metode pengujian error ini memberikan hasil yang bagus karena error berada pada angka yang mendekati nilai 0. Nilai error yang kecil ini dapat terjadi karena berbeda dengan variabel entalphi dan entropi pembentukan dimana terdapat banyak nilai yang

23

diasumsikan sehingga dapat mempengaruhi performa model karena nilai yang diasumsikan tersebut dapat mempengaruhi mean yang dimiliki oleh dataset secara keseluruhan, dan pada variabel phase abundance banyaknya dataset yang memiliki phase 100% dan 0% juga mempengaruhi model prediksi karena nilai tersebut terletak jauh dari mean yang dimiliki oleh dataset sehingga membuat model kesulitan untuk meraih nilai tersebut.

24

3 BAB III STATUS LUARAN Saat ini dua mahasiswa sudah lulus dengan dana dari Penelitian ini, kemudiaan akan dilakukan presenbtasi

paper pada seminar internasioanal, dan output paper berupa draft. Draft masih perlu dilakukan perbaikan,

dan akan dikirim secepatnya setelah perbaikan.

25

4 BAB IV PERAN MITRA Tidak ada mitra, hanya Kerjasama penelitian

26

BAB V KENDALA PELAKSANAAN PENELITIAN

Kendala penyiapan dan pengujian sample di kala pandemic ini. Namun demikian output article Q1 akan tetap didapatkan.

27

BAB VI RENCANA TAHAPAN SELANJUTNYA

Metode Machine learning akan dicoba untuk paduan yang lainnya.

28

BAB VII DAFTAR PUSTAKA

[1] U. Ulmer et al., “Cost reduction possibilities of vanadium-based solid solutions – Microstructural, thermodynamic, cyclic and environmental effects of ferrovanadium substitution,” J. Alloys Compd., vol. 648, pp. 1024–1030, Nov. 2015, doi: 10.1016/j.jallcom.2015.07.110.

[2] S. Suwarno and A. Shahab, “Prediksi Derajad Presipitasi Karbida Krom pada Baja Tahan Karat Austenitik dengan Metode Jaringan Syaraf Tiruan,” 2004, [Online]. Available: https://www.researchgate.net/publication/314256935_Prediksi_Derajad_Presipitasi_Karbida_Krom_pada_Baja_Tahan_Karat_Austenitik_dengan_Metode_Jaringan_Syaraf_Tiruan.

[3] A. Rahnama, G. Zepon, and S. Sridhar, “Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent,” Int. J. Hydrog. Energy, vol. 44, no. 14, pp. 7337–7344, Mar. 2019, doi: 10.1016/j.ijhydene.2019.01.261.

[4] A. Züttel, “Materials for hydrogen storage,” Mater. Today, vol. 6, no. 9, pp. 24–33, Sep. 2003, doi: 10.1016/S1369-7021(03)00922-2.

[5] L. Schlapbach and A. Züttel, “Hydrogen-storage materials for mobile applications,” Nature, vol. 414, no. 6861, pp. 353–358, Nov. 2001, doi: 10.1038/35104634.

[6] C. M. Graça Araújo, “Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics,” Acta Universitatis Upsaliensis, Uppsala, 2008.

[7] M. Hirscher, Ed., Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH, 2010.

[8] A. A. Volodin et al., “Study of hydrogen storage and electrochemical properties of AB2-type Ti0.15Zr0.85La0.03Ni1.2Mn0.7V0.12Fe0.12 alloy,” J. Alloys Compd., vol. 793, pp. 564–575, Jul. 2019, doi: 10.1016/j.jallcom.2019.03.134.

[9] G. Sandrock, “A panoramic overview of hydrogen storage alloys from a gas reaction point of view,” J. Alloys Compd., vol. 293–295, pp. 877–888, Dec. 1999, doi: 10.1016/S0925-8388(99)00384-9.

[10] F. Feng, “Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review,” Int. J. Hydrog. Energy, vol. 26, no. 7, pp. 725–734, Jul. 2001, doi: 10.1016/S0360-3199(00)00127-0.

[11] L. Klebanoff, Hydrogen Storage Technology: Materials and Applications. 2016. [12] D. P. Broom, Hydrogen storage materials: the characterisation of their storage properties.

London ; New York: Springer, 2011. [13] E. Alpaydin, Introduction to machine learning, 2nd ed. Cambridge, Mass: MIT Press, 2010. [14] G. S. Linoff and M. J. A. Berry, Data mining techniques: for marketing, sales, and customer

relationship management, 3rd ed. Indianapolis, IN: Wiley Pub, 2011. [15] H. Jiawie, Data Mining. Elsevier, 2012. [16] J. R. Hattrick-Simpers, K. Choudhary, and C. Corgnale, “A simple constrained machine

learning model for predicting high-pressure-hydrogen-compressor materials,” Mol. Syst. Des. Eng., vol. 3, no. 3, pp. 509–517, 2018, doi: 10.1039/C8ME00005K.

[17] M. Witman et al., “Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning,” J. Phys. Chem. Lett., vol. 11, no. 1, pp. 40–47, Jan. 2020, doi: 10.1021/acs.jpclett.9b02971.

[18] S.-R. Kim, K.-Y. Lee, and J.-Y. Lee, “Improved low-temperature dischargeability of C14-type Zr-Cr-Ni Laves phase alloy,” J. Alloys Compd., vol. 223, no. 1, pp. 22–27, May 1995, doi: 10.1016/0925-8388(94)01499-X.

[19] K.-H. Young, J. Nei, C. Wan, R. Denys, and V. Yartys, “Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications,” Batteries, vol. 3, no. 4, p. 22, Jul. 2017, doi: 10.3390/batteries3030022.

81

29

LAMPIRAN Lampiran berisi tabel daftar luaran (Format sesuai lampiran 1) dan bukti pendukung luaran wajib dan luaran

tambahan (jika ada) sesuai dengan target capaian yang dijanjikan

30

LAMPIRAN 1 Tabel Daftar Luaran

Program : Penelitian High Impact Nama Ketua Tim : Suwarno, PhD Judul : Desain Paduan AB2 untuk Penyimpanan Hidrogen

Menggunakan Pendekatan Machine Learning 1.Artikel Jurnal

No Judul Artikel Nama Jurnal Status Kemajuan*) 1 Machine Learning Analysis of the

Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties

International Journal of Hydrogen Energy

Draft

*) Status kemajuan: Persiapan, submitted, under review, accepted, published

2. Artikel Konferensi

No Judul Artikel Nama Konferensi (Nama Penyelenggara, Tempat,

Tanggal)

Status Kemajuan*)

1 Machine Learning Approach to Study the Effect Of Chemical

Composition On Hydrogen Storage Properties of the 𝐀𝐁𝟐 Alloys

ISOC, Depertemen Kimia ITS, Surabaya, Oktober 2020

Accepted

*) Status kemajuan: Persiapan, submitted, under review, accepted, presented

3. Paten

No Judul Usulan Paten Status Kemajuan

*) Status kemajuan: Persiapan, submitted, under review

4. Buku

No Judul Buku (Rencana) Penerbit Status Kemajuan*)

*) Status kemajuan: Persiapan, under review, published

5. Hasil Lain

No Nama Output Detail Output Status Kemajuan*) *) Status kemajuan: cantumkan status kemajuan sesuai kondisi saat ini

31

6. Disertasi/Tesis/Tugas Akhir/PKM yang dihasilkan

No Nama

Mahasiswa

NRP Judul Status*)

1 Ghazy Dicky 02111640000013 ANALISA PENGARUH

KOMPOSISI KIMIA

TERHADAP

SIFAT-SIFAT PENYIMPANAN

HIDROGEN LOGAM

PADUAN AB2

MENGGUNAKAN METODE

MACHINE

LEARNING

Lulus 2020

2 Muh. Rizal

Fadilah

02111540000181 STUDI PENGARUH

KOMPOSISI KIMIA

TERHADAP SIFAT

PENYIMPANAN HIDROGEN

PADA LOGAM PADUAN AB2

DENGAN METODE MACHINE

LEARNING

Lulus 2020

*) Status kemajuan: cantumkan lulus dan tahun kelulusan atau in progress

1

Machine Learning Analysis of the Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties

Ghazy Dicky1, Abdillah Suyuthi2, Mohammad K. Effendi1, Witantyo1, Lukman Nurochim3, Suwarno Suwarno1,*

1Department of Mechanical Engineering, Institut Teknologi Sepuluh Nopember (ITS), Surabaya Indonesia, 60111

2DNV GL, Veritasveien 1, 1363 Høvik, Norway 3Department of Materials and Metallurgical Engineering, Sepuluh Nopember Institute of Technology,

Surabaya 60111, Indonesia

*email: [email protected]

Abstract Zirconium‐Titanium based‐AB2 is potential candidate for hydrogen storage alloys as well as

for NiMH battery electrode because of high energy density compare to the conventional AB5

materials. Machine learning and data analytic has been implemented for materials discovery

and optimization of energy related materials. In the present work, machine learning

approaches were used to analyze the AB2 metal hydrides dataset consisting of chemical

compositions of the alloys and the hydrogen storage properties obtained previous research,

aiming to predict the effect of the alloying element on the heat of formation (ΔH), the phase

abundance, and the hydrogen capacity of the alloy. Three models were employed namely

multivariate regression, decision tree, and random forest which were evaluated by the R2

scores and error metrics. The random forest model yields the most superior performance for

the prediction of all hydrogen storage properties on the dataset. While for the dataset was

group into A and B grouped elements, the decision tree model gives the best performance to

phase abundance, while ΔH is best predicted using the random forest model, and the

multivariate regression yields the best performance on predicting the hydrogen capacity.

Keywords—Machine Learning, Metal Hydrides, Hydrogen Energy, AB2 alloys, Hydrogen

Storage

I. INTRODUCTION

The transitions towards a cleaner and more sustainable energy to overcome the dependency

on the increasingly scarce fossil‐based fuel has underlain the development of research on the

alternative energy sectors, with hydrogen being one of the most promising alternative energy

sources that are often investigated. Hydrogen possesses energy density by mass value (142

MJ kg‐1) that is three times larger compared to other chemical fuels such as raw fossil fuel (47

MJ kg‐1) [1], while at the same time offering an eco‐friendly fuel synthesis process which

produces water vapor as a by‐product during combustion with oxygen. Hydrogen could

generate electrical power with the assistance of fuel cells. However, an external storage

2

hydrogen tank is needed to supply the hydrogen to the fuel cell which becomes a barrier to

the mobile application of hydrogen as a fuel source. Approximately 4 kg of hydrogen is needed

by light fuel cell vehicles to reach a distance of 400 km [1]. Nonetheless, at ambient

temperature and atmospheric pressure, 1 kg of hydrogen in the gas form will occupy a volume

of 11 m3 [2]. Consequently, 4 kg of hydrogen will be an equivalent of a ball with 5 m diameter

which is very unpractical for mobile application [1]. Consequently, researches are conducted

to study to discover materials that store hydrogen in small volume with high capacity.

The fundamental purpose of hydrogen storage technology is to pack hydrogen particles as

close as possible to reach a high volumetric density by utilizing a minimum amount of

additional materials [1,3]. To be utilized on the mobile application, the US Department of

Energy has established several target criteria for hydrogen storage system to be reached by

2025 [4,5], which includes: (i) High gravimetric absorption capacity (>5.5 wt% or 1.8 kWh/kg)

and volumetric capacity (>0.040kg H2/L system or 1.3 kWh/L), (ii) Moderate operational

temperature ranging from ‐40 to 850 C, (iii) reversibility of absorption/desorption thermal

cycles, (iv) economical price, (v) low toxicity, and (vi) high safety and security (low operational

pressure). There are several methods for storing hydrogen namely high‐pressure gas

cylinders, liquid hydrogen in cryogenic tanks, physisorption, and absorbed on interstitial sites

in host metal. When comparing the properties of these storage methods, high‐pressure gas

cylinder holds the highest hydrogen capacity (13 mass%) at room temperature, however, the

stored hydrogen will be available at a very high pressure (800 bar) which present a safety risk

to the vehicle and its’ passengers. Hydrogen that is absorbed on interstitial sites in host metal

(metal hydrides) on the other hand enables the storage in room temperature and

atmospheric pressure but with low a rather low hydrogen capacity, therefore metal hydrides

are often studied to increase its hydrogen storage capacity.

Metal hydride is formed when hydrogen interacts with metals. Metal hydrides can be

differentiated into ionic or saline hydride, covalent hydride, and intermetallic hydride [6], with

intermetallic hydride being the type of metal hydride that possess suitable properties to be

used as a hydrogen carrier. Equation 1 shows the reaction between intermetallic alloy ABZ

with hydrogen gas,

𝐴𝐵 𝑥𝐻 ↔ 𝐴𝐵 𝐻 Δ𝑄 (1)

with ΔQ being the amount of heat released during the hydrogen absorption process, which is

usually characterized by enthalpy difference (ΔH) and entropy difference (ΔS) calculated using

the Van’t Hoff Law with the values obtained from the pressure‐composition‐temperature

(PCT) isotherms. Generally, element A will form a stable binary hydride when the element

consists of transition metals, such as Ti and Zr [6]. Element B on the other hand, such as Ni,

Co, Cr, Fe, Mn, and Al, is non forming hydride elements [6]. Intermetallic hydride is

characterized into 5 families of metal hydrides namely A, A2B, AB, AB2, and AB5. Among these

family groups, AB2 metal hydride is potential for hydrogen storage and battery applications.

AB2 metal hydrides enable a larger hydrogen storage capacity due to its utilization of a

relatively lighter transition metal. AB2 compound is formed by a combination of different

elements. AB2 composes of element A can that be formed by group 4 (Ti, Zr, Hf) or lanthanoids

3

(La, Ce, Pr, etc.), while B can be formed by transition and non‐transition metals with V, Cr,

Mn, and Fe as the more preferred element [7]. Feng et al. [8] contended that element A can

be formed by Mg, Zr, and Ti, while B can be formed by V, Cr, Mn, and Ni. Theoretically,

element A will form a very stable hydride which is translated into a very high operational

temperature. To overcome this issue, element A is being alloyed with element B which forms

an unstable hydride that can adjust the operational temperature and yield other desirable

properties [9]. AB2 metal hydride’s form depends on their alloying element composition, with

the majority being cubic structured, C14 and or hexagonal structure, C15. Each crystal

structure affects differently towards the properties of the hydrides [10–14].

The development of informatics and data science technology has led to the integration of

machine learning methods with materials science [15–18]. The machine learning algorithm

aims at optimizing the performance of a certain task by utilizing examples from past

experiences [19]. Machine learning can be divided into three categories namely supervised

learning, unsupervised learning, semi‐supervised learning, and reinforcement learning.

Supervised learning is principally is a data fitting process where the model will try to find an

unknown function to connect the input variables obtaining an unknown output variable. The

result is estimated by extrapolating the pattern found on the labeled data to be used to train

the model. Unsupervised learning focuses more on finding a pattern from a group of

unlabeled data which has the same concept as sample grouping. Semi‐supervised learning

combines a small amount of labeled data with a large amount of unlabeled data during

training. While the reinforcement learning objective is to analyze a certain problem to find

the most optimum result. Supervised learning is the most used method on materials science

as most of the input variables have a known label such as the type of element and atomic

number.

In the previous study, metal hydride researchers used database that has been pre‐collected

from experimental results, i.e, HydPARK database collected by the US Department of Energy.

Machine learning methods has been known to be useful for analyzing the HydPARK database

for classification of the materials and the properties [20–23]. Rahnama et al. [20,21] showed

that boosted decision tree model being the model with the best performance out of three

other models (bayesian linear regression, neural network regression, and linear regression)

for materials classification in terms of heat of formation and hydrogen content. Hattrick‐

Simpers et al. [23] used the same database for materials selection for metal hydride

compressor. Recent work by Witman et al. [22] using the similar database gave deep analysis

on the relation between fundamental properties of alloy to the hydride properties.

Surprisingly, molecular volume of alloys is the most important predictor to the

thermodynamic which is in agreement with previously developed empiric model [24–26].

In the present work we collected data from previous research that focuses on AB2 metal

hydrides. We built machine learning model to relate chemical compositions of AB2 to

hydrogen storage properties, i.e, the heat of formations (ΔH), phase abundance, and

hydrogen weight percent (wt% H). The aim was to obtain a new insight on the role of elements

to the hydrogen storage properties. At the end, the insight can be used by researchers to

guide their experimental work to design AB2 alloys.

4

II. METHODS

A. Dataset

This study utilizes the data obtained from previous published research. This data and the

reference are given in supplementary information. We obtained 314 pairs of AB2 alloys which

contain the information of the alloying elements of the alloys, and the hydrogen storage

properties consisting of ΔH absorption (in KJ/(molH2K)), phase abundance (in %), as well as

the hydrogen storage capacity (in wt%). It is important to point out that some of the ΔH of

these alloy pairs are not explicitly written in the papers, yet they are being implicitly explained

in the Pressure‐Composition diagram. For the aforementioned issue, we conducted manual

calculation using the Van’t Hoff Law expressed in equation 2.

𝑙𝑛𝑃 (2)

The calculation was conducted by selecting a mid‐point from the plateau of Pressure‐

Composition graph to obtain the equilibrium pressure information to obtain the value of ΔH.

With R being the universal gas constant and the temperature value is constant in the Pressure‐

Composition graph. As for the unknown value of ΔS, it can be assumed as 110 KJ/(mol H2 K)

for the absorption process.

Two types of variables were used as illustrated in Fig. 1. Twenty‐two alloying elements were

used as the input namely Ti, Zr, Ho, Mn, Co, Cr, V, Ni, Sn, Al, C, Mg, Gd, Fe, B, Cu, Mo, W, La,

Si, Nb, and Ce. While ΔH, phase abundance, percent mass hydrogen, and the effect of each

alloying element were used as the output variables. The aim was to identify the individual

element effects. Another analysis was done were elements is grouped into A, and B to study

the effect of the stoichiometric effect (A/B) to the hydrogen storage properties.

B. Machine Learning Methods

Prior to the machine learning analysis, the data underwent an initial analysis to select the

appropriate data to be exported to Python for machine learning analysis. The initial analysis

was done by developing ranks for each input variable based on the prevalence of each

element on the alloys. Elements with low prevalence were eliminated to decrease the

detrimental effects on the performance of the models. We remove all dataset rows that

possess elements with values equal zero to increase the performance of the models as part

of features engineering for the dataset with the ungrouped elements. While the dataset with

the grouped elements did not undergo the aforementioned analysis as none of the input

variables possess values equal to zero.

5

Figure 1. Illustration of steps and analysis during the study

The dataset was then exported to Python as Microsoft Excel (xlsx) file by utilizing the Pandas

library. Multicollinearity test was conducted to check whether one input variables possess

high collinearity with the other input variables, to prevent the redundancies which can lead

to statistically insignificant variables. The multicollinearity test was conducted by utilizing the

correlation matrix between each input variable. The result was presented on a heat map to

ease out the visualization of the variables that possess multicollinearity which will be shown

by a darker color on the heat map. Subsequently, outlier detection and removal were done

to prevent a disproportional effect on the statistical result of the data which may lead to

model misinterpretations. The detection was done by adding a new metric that calculates 3 standard deviation from the mean value of each variable. The data outside this range were

considered as outliers and were ought to be eliminated. To standardize the range of features

of the data, feature scaling was overseen by the assistance of StandardScaler function of

Scikit‐learn.

The dataset was divided into training/validation/testing set (0.70/0.15/0.15). Three machine

learning algorithms were employed to analyze the data. The first algorithm being multivariate

linear regression which was chosen since linear regression is the simplest method in data

analytics to determine the relationship between existing variables. We do realize that there

might be non‐linear patterns within the data, consequently, we employ decision tree as the

second algorithm which enables us to reveal the non‐linear relationship within the data

should it exists, and random forests which analyze the combination of different decision trees

as the third algorithm to deal with the possibility that the performance may increase when

more than one tree is being applied. During the process of building the tree we set the

minimum number of instances in leaves to be 1, the subsets smaller than 5 will not be split,

6

the maximum tree depth was limited to 100, and the regression is set to stop when the

majority reaches 95%. To build the random forest models, we tested a range between 0 and

100 trees and selected the number of trees that could yield the highest prediction

performance for each output. We obtained 21, 8, 32, and 7 trees for ΔH, C14 phase

abundance, and the hydrogen capacity respectively. The models were evaluated by the

average R2 score obtained from the summation of the R2 training, R2 validation, and R2 testing

scores divided by three to measure the overall performance of the trained models as well as

error metrics which consist of mean absolute error (MAE) and root mean square error (RMSE)

to study the model behavior on predicting a new set of data. It should be noted that the result

of the prediction will only be verified using the validation and testing set, instead of utilizing

a new dataset from a new experiment, and that the model is only capable to predict values

inside the range of the training set for all of the target variables.

III. RESULTS AND DISCUSSIONS

Figure 2. Element Prevalence of Alloys for (a) Original Data and (b) After Initial Analysis Elimination

Initially, we obtained 314 pairs of alloys in the dataset, where each alloy contains different

elements. The initial analysis conducted in the dataset resulted in prevalence presented on

the bubble graph as seen in Fig. 2a, the number below the name of the element represents

the number of alloys that contain the elements. From the graph, we can observe small‐sized

bubbles that don’t have element information. It indicates that only a small number of alloys

contain those elements. The presence of these elements is undesirable on a machine learning

analysis as it may disrupt the performance of the model. Hence, 8 elements with the highest

prevalence namely Ti, Zr, Mn, Cr, V, Ni, Co, and Sn are kept, while the rest are eliminated as

shown in Fig. 2b.

(a) (b)

7

Figure 3. Results for Multicollinearity Test

The multicollinearity analysis yields the heat map as shown in Fig. 3. The heat map reveals

that Ti and Zr have a very high correlation. In the dataset utilized for the analysis, Ti and Zr

are the only elements that forms element A on AB2. Therefore, Ti and Zr are inversely

proportional to one another. As the addition of Ti with Zr equals to element A, when Ti value

increases, Zr value will automatically decrease resulting in a high correlation value shown by

the dark red color on the top left corner of the heat map. However, as this is a normal thing

in the case of AB2 metal hydrides, Ti and Zr won’t be eliminated from the dataset.

Outlier detection and elimination were conducted. The overall data preprocessing results in

the final datasets that were ready to be used for the machine learning analysis. The amount

of final dataset is 86 pairs of datasets, while when it is grouped into A and B variable, it consists

of 234 pairs of datasets.

Table 1 Evaluation for ML models for ΔH

Evaluation Metric Multivariate Regression

Decision Tree Random Forest

R2 Training Set R2 Validation Set R2 Testing Set Average R2

MAE RMSE

0.478 0.055 0.569 0.367 4.61 5.51

0.868 ‐0.05 0.22 0.346 5..9 7.39

0.819 0.591 0.531 0.647 4.36 5.75

Table 2. Evaluation for ML models for Phase Abundance




MAE RMSE

0.419 0.292 0.633 0.448 11.5 13.3

0.966 0.788 0.603 0.785 8.48 13.8

0.893 0.819 0.786 0.832 22.4 25.6

8

Table 3. Evaluation for ML models for H capacity




MAE RMSE

0.741 0.608 0.654 0.667 0.0968 0.12

0.989 0.113 0.392 0.498 0.0894 0.159

0.928 0.521 0.615 0.688 0.101 0.126

Model evaluation for each algorithm was presented in Table 1‐3. The analysis performed to

predict the value of ΔH, phase abundance, and the hydrogen capacity shows more superior

performance for the random forest algorithm on all hydrogen storage properties compared

to the other algorithms, with an average R2 value of 0.647, 0.832, and 0.688 for ΔH, phase

abundance, and the hydrogen capacity accordingly. Though being the model with the most

superior performance, the prediction of the random forest model is considered to be fairly

weak for ΔH and hydrogen capacity as the R2 values are lower than 0.70. However, the

insignificant decrease of R2 value for validation set compared to the training set shows that

the overfitting occurred on the random forest models aren’t very significant to cause a

detrimental effect on the prediction. The overall value of MAE and RMSE for ΔH, and phase

abundance is fairly high considering that the values are much larger than 0. While the MAE

and RMSE value for hydrogen capacity prediction is considered to be satisfactory. Despite the

large error value for ΔH, and phase abundance prediction, during the observation of the

9

actual and predicted value plot as shown in Fig. 4, visual observation shows that the

difference between the actual values and the predicted values are fairly small.

Figure 4. Actual and Predicted Values Plot for (a) ΔH Absorption, (b) C14 Phase Abundance and (c) Hydrogen Capacity

For the ΔH prediction, all models failed to predict the highest actual ΔH value of 56 KJ/(mol

H2 K). However, the decision tree model is capable to generate a close prediction of the lowest

ΔH value with the predicted value being 10 KJ/(mol H2 K) and the actual value being 7 KJ/(mol

H2 K). As for the phase abundance prediction, it became very difficult for the model to predict

100% and 0% abundance since those values are located far from the median. However, from

Fig. 5c, it can be seen that on the 75th and 76th alloys, the decision tree model successfully

a)

b)

c)

10

predicted the 0% phase abundance of C14. In theory, it is expected that the value of R2 for

the validation set is higher than the value of R2 for the testing set, we can notice that this is

not the case for some of the evaluation results such as in the prediction of ΔH for the

ungrouped dataset using the decision tree model. The reason for this occurrence is because

the testing set might contain easier data to predict, while the validation test contains

strenuous cases to learn.

Considering that the consequences of the prediction error are low, since the model will only

be utilized for experiments which will furthermore be studied as well as tested, and given the

fact that overfitting occurred on the random forest model is insignificant, we may argue that

the prediction results can be accepted to be utilized as a baseline of further research and

experiments to predict the hydrogen storage properties prior to the experiment.

Figure 5. Linear Regression‐Based Regression of Element Effects on (a) ΔH Absorption, (b) C14 Phase Abundance and (c) Hydrogen Capacity.

The effects of each element to the properties of the hydride are presented in Fig.5 for the

linear regression‐based regression and in Fig. 6 for the decision tree‐based regression. The

elements with the blue‐colored bar in Figure 5 indicate that the element increases the value

of the hydrogen storage properties, while the elements with the red‐colored bar are the

contrary, with the determination being based on the value of R score. On Figure 6, the

elements with the higher position on the decision tree indicates more contribution to the

determination of the value of the hydrogen storage properties accordingly. The decision tree‐

a) b)

c)

11

based regression gave a more beneficial feature, where it is possible to evaluate the range of

amount for each element that will either increase or decrease the storage properties as well

as the element that doesn’t contribute to the values of the storage properties, for example

from Fig.7a, we can see that above the value of 1.19111, Ni will decrease the value of ΔH and

vice versa. For ΔH, the linear regression‐based regression yields Cr as the element with the

highest contribution on increasing the value of ΔH, while Ni being the element with the

highest contribution on the desirable decrease of ΔH value as shown in Figure 5a. The decision

tree‐based regression gave similar results with linear‐based regression where Ni is the

element with highest contribution to decrease the value of ΔH and Cr as the highest

contributor to increase the ΔH value. It also reveals that Zr doesn’t give any contribution to

determine the value of ΔH with Zr being eliminated from the decision tree as shown in Figure

6a. In the practice, Ni and Cr is not hydride forming which could explain their contribution in

lowering the formation energy.

Figure 6. Decision Tree‐Based Regression of Element Effects on (a) ΔH Absorption, (b) C14 Phase Abundance, and (c) Hydrogen Capacity

a)

b)

c)

12

The regression for phase abundance based on linear regression resulted in Mn being the

element with the highest contribution on increasing the abundance of C14, while Ni being the

contrary. Previous research by K. Young et al. [13] shows that the addition of Mn on metal

hydride alloys will instead decrease the C14 phase abundance as Mn contributes on creating

a reactive surface which promotes the formation of C15. Therefore, we argue that the linear

model has given inaccurate prediction on Mn being the element that promotes C14 formation

as the addition of Mn should have decrease the C14 formation. It is known that alloys that

contains C14 is more difficult to activate compared to C15 alloys [13], which correlates with

the practical utilization of Ni as a catalyst, hence, the modeling result regarding Ni being the

element that decrease C14 formation which automatically increase C15 formation could be

justified. Unlike linear regression, the decision tree regression as shown in Fig. 6b indicates

that Cr is the most influential element to increase C14 abundance. The stipulation whether

C14 or C15 will be formed lies on the value of e/a, which is the value of the summation of

valence electrons of all atoms over the number of atoms. The value of e/a could be adjusted

by varying the elements of the alloy. Below the e/a value of 6.9, C14 will start to form and

vice versa. It is known that C15 phase will stabilize with the reduction of Cr content [13,27],

which could explain the influence of Cr on the abundance of C14. The decision tree on Figure

6c generates the same results.

For hydrogen capacity, the linear regression yields Mn as the best element to increase the

hydrogen capacity, and Ni being the worst to increase the capacity. The decision tree

generates the same results. The theory that could determine the hydrogen capacity of metal

hydrides is a higher volume of unit cell will lead to smaller compression or chemical potential

of the hydrogen atoms inside the crystal. Manganese would cause an increase in the unit cell

volume, hence, creating a smaller potency for hydrogen to escape the metal hydrides which

creates larger hydrogen capacity [28]. If we compare the elements that influence the

hydrogen capacity with the elements that influence the heat of formation, it can be seen that

a higher hydrogen capacity will come at the cost of an undesirable higher heat of formation,

and vice versa.

A. Grouped A and B Dataset

Multivariate linear regression model failed to predict all variables as shown by very low R2

scores of 0.049, 0.067, and 0.165 for ΔH, phase abundance, and the hydrogen capacity

accordingly. These low R2 scores suggest that the grouped A and B dataset are not suitable to

be fitted using multivariate linear regression model. On the contrary, the modeling by

decision tree and random forest algorithms yield higher R2 scores and even satisfactory

results R2 scores valued above 0.70 for ΔH prediction. The comparison resulted in the decision

tree algorithm being the superior model to predict phase abundance, random forest model

being the superior one to predict ΔH, and multivariate regression being the best to predict

the hydrogen capacity. The regression of B/A effect on the storage properties was analyzed

using linear regression as shown in Fig. 7. The value B/A is inversely proportional to the value

of ΔH as seen on Fig. 7a. Theoretically, element A will form a very stable hydride with the cost

of the increasing value of formation energy [6]. This underlain the addition of element B to

the alloy which will lower the formation energy. The model successfully described this theory.

The value of B/A is directly proportional to the increasing number of C14 abundance. The

13

addition of element B will increase the value of e/a which theoretically drives the formation

of C15 phase to some degree as there are boundary for laves phase formation. While for

hydrogen capacity regression, the modeling result shows that B/A gave a very small effect on

the hydrogen capacity value.

Figure 7. Linear Regression Result of B/A on (a) ΔH, (b) C14 Phase Abundance, and (c) Hydrogen Capacity

IV. CONCLUSIONS

The analysis of the dataset resulted in the random forest being the algorithm that

outperforms the other models for all properties prediction with the highest R2 scores, with

the regression of each element reveals Ni as the most desirable element to decrease the heat

of formation, while Cr and Mn being the most contributive element on increasing the C14

a)

b)

c)

14

abundance and hydrogen capacity respectively. It is found that increasing hydrogen capacity

by adjusting the alloying element will come at the cost of higher heat of formation value. The

modeling for grouped A and B datasets yields decision tree algorithm being the best model to

predict phase abundance, random forest model being the best to predict ΔH, and multivariate

regression being the best to predict the hydrogen capacity. The regression of B/A showed an

inversely proportional relation with ΔH, directly proportional relation with C14 phase

abundance, and no relation with hydrogen capacity. The rather high error values and

overfitting on both datasets may be tolerated considering the low consequences imposed by

prediction errors.

ACKNOWLEDGMENTS

The present work was funded by High Impact Research Scheme Institut Teknologi Sepuluh

Nopember (ITS) 2020.

REFERENCES [1] Schlapbach L, Züttel A. Hydrogen-storage materials for mobile applications. Nature 2001;414:353–8.

https://doi.org/10.1038/35104634. [2] Züttel A. Materials for hydrogen storage. Materials Today 2003;6:24–33. https://doi.org/10.1016/S1369-

7021(03)00922-2. [3] Bannenberg LJ, Heere M, Benzidi H, Montero J, Dematteis EM, Suwarno S, et al. Metal (boro-) hydrides

for high energy density storage and relevant emerging technologies. International Journal of Hydrogen Energy 2020;45:33687–730. https://doi.org/10.1016/j.ijhydene.2020.08.119.

[4] Graça Araújo CM. Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics. Acta Universitatis Upsaliensis, 2008.

[5] US DOE. Target Explanation Document: Onboard Hydrogen Storage for Light-Duty Fuel Cell Vehicles n.d. https://www.energy.gov/sites/prod/files/2017/05/f34/fcto_targets_onboard_hydro_storage_explanation.pdf (accessed October 5, 2020).

[6] Hirscher M, editor. Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH; 2010.

[7] Sandrock G. A panoramic overview of hydrogen storage alloys from a gas reaction point of view. Journal of Alloys and Compounds 1999;293–295:877–88. https://doi.org/10.1016/S0925-8388(99)00384-9.

[8] Feng F. Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review. International Journal of Hydrogen Energy 2001;26:725–34. https://doi.org/10.1016/S0360-3199(00)00127-0.

[9] Klebanoff L. Hydrogen Storage Technology: Materials and Applications. 2016. [10] Huot J, Akiba E, Ogura T, Ishido Y. Crystal structure, phase abundance and electrode performance of

Laves phase compounds (Zr, A) V0. 5Ni1. 1Mn0. 2Fe0. 2 (A$\equiv$ Ti, Nb or Hf). Journal of Alloys and Compounds 1995;218:101–109.

[11] Huot J, Akiba E, Iba H. Crystal structure and phase composition of alloys Zr1 − xTix(Mn1 − yVy)2. Journal of Alloys and Compounds 1995;228:181–7. https://doi.org/10.1016/0925-8388(95)01884-0.

[12] Cuevas F, Joubert J-M, Latroche M, Percheron-Guégan A. Intermetallic compounds as negative electrodes of Ni/MH batteries: Appl Phys A 2001;72:225–38. https://doi.org/10.1007/s003390100775.

[13] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.

[14] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.

[15] Chen C, Zuo Y, Ye W, Li X, Deng Z, Ong SP. A Critical Review of Machine Learning of Energy Materials. Advanced Energy Materials 2020;10:1903242. https://doi.org/10.1002/aenm.201903242.

[16] Liu Y, Zhao T, Ju W, Shi S. Materials discovery and design using machine learning. Journal of Materiomics 2017;3:159–77. https://doi.org/10.1016/j.jmat.2017.08.002.

15

[17] Ward L, Dunn A, Faghaninia A, Zimmermann NER, Bajaj S, Wang Q, et al. Matminer: An open source toolkit for materials data mining. Computational Materials Science 2018;152:60–9. https://doi.org/10.1016/j.commatsci.2018.05.018.

[18] Correa-Baena J-P, Hippalgaonkar K, van Duren J, Jaffer S, Chandrasekhar VR, Stevanovic V, et al. Accelerating Materials Development via Automation, Machine Learning, and High-Performance Computing. Joule 2018;2:1410–20. https://doi.org/10.1016/j.joule.2018.05.009.

[19] Alpaydin E. Introduction to machine learning. 2nd ed. Cambridge, Mass: MIT Press; 2010. [20] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen

storage, part II: Prediction of material class. International Journal of Hydrogen Energy 2019;44:7345–53. https://doi.org/10.1016/j.ijhydene.2019.01.264.

[21] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent. International Journal of Hydrogen Energy 2019;44:7337–44. https://doi.org/10.1016/j.ijhydene.2019.01.261.

[22] Witman M, Ling S, Grant DM, Walker GS, Agarwal S, Stavila V, et al. Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning. J Phys Chem Lett 2020;11:40–7. https://doi.org/10.1021/acs.jpclett.9b02971.

[23] Hattrick-Simpers JR, Choudhary K, Corgnale C. A simple constrained machine learning model for predicting high-pressure-hydrogen-compressor materials. Mol Syst Des Eng 2018;3:509–17. https://doi.org/10.1039/C8ME00005K.

[24] Lundin CE, Lynch FE, Magee CB. A correlation between the interstitial hole sizes in intermetallic compounds and the thermodynamic properties of the hydrides formed from those compounds. Journal of the Less Common Metals 1977;56:19–37. https://doi.org/10.1016/0022-5088(77)90215-6.

[25] Mendelsohn MH, Gruen DM, Dwight AE. The effect of aluminum additions on the structural and hydrogen absorption properties of AB5 alloys with particular reference to the LaNi5−xAlx ternary alloy system. Journal of the Less Common Metals 1979;63:193–207. https://doi.org/10.1016/0022-5088(79)90243-1.

[26] Reilly JJ, Adzic GD, Johnson JR, Vogt T, Mukerjee S, McBreen J. The correlation between composition and electrochemical properties of metal hydride electrodes. Journal of Alloys and Compounds 1999;293–295:569–82. https://doi.org/10.1016/S0925-8388(99)00413-2.

[27] Zhu JH, Liaw PK, Liu CT. Effect of electron concentration on the phase stability of NbCr2-based Laves phase alloys. Materials Science and Engineering: A 1997;239–240:260–4. https://doi.org/10.1016/S0921-5093(97)00590-X.

[28] Souza EC, Ticianelli EA. Effect of partial substitution of nickel by tin, aluminum, manganese and palladium on the properties of LaNi5-type metal hydride alloys. J Braz Chem Soc 2003;14:544–50. https://doi.org/10.1590/S0103-50532003000400009.

2 untuk Penyimpanan Hidrogen Menggunakan Machine …

Documents

Transcript of 2 untuk Penyimpanan Hidrogen Menggunakan Machine …