2 untuk Penyimpanan Hidrogen Menggunakan Machine …
Transcript of 2 untuk Penyimpanan Hidrogen Menggunakan Machine …
i
LAPORAN KEMAJUAN/LAPORAN AKHIR
PENELITIAN HIGH IMPACT
DANA ITS 2020
Desain Paduan AB2 untuk Penyimpanan Hidrogen Menggunakan
Pendekatan Machine Learning
Tim Peneliti :
Suwarno, ST., M.Sc., PhD./0020058004/Teknik Mesin/FTIRS Ir. Witantyo, M.Eng.Sc./ 0014036307/Teknik Mesin/FTIRS
Dr. Lukman Noerochim/ 0013037701 /Teknik Materials/FTIRS
DIREKTORAT RISET DAN PENGABDIAN KEPADA MASYARAKAT
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2020
Sesuai Surat Perjanjian Pelaksanaan Penelitian No: 840/PKS/ITS/2020
1
Daftar Isi
Daftar Isi ......................................................................................................................................................... 1
Daftar Tabel .................................................................................................................................................... 2
Daftar Gambar ................................................................................................................................................ 2
1 RINGKASAN ......................................................................................................................................... 3
1.1 Latar Belakang ................................................................................................................................. 4
1.2 Rumusan Masalah ........................................................................................................................... 4
1.3 Tujuan ............................................................................................................................................. 4
1.4 Kerjasama Internasional ................................................................................................................. 4
2 BAB II HASIL PENELITIAN ................................................................................................................ 5
2.1 Analisa awal .................................................................................................................................... 5
2.2 Data Awal ........................................................................................................................................ 8
2.3 Hasil Pengolahan Awal Data ........................................................................................................... 9
2.3.1 Feature Engineering .................................................................................................................. 10
2.3.2 Preprocessing Data ................................................................................................................... 12
2.4 Modelling Variabel dengan Unsur‐Unsur yang Tidak Dikelompokkan ......................................... 15
2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi ................................... 16
2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi ..................................... 18
2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14 ........................ 20
2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen ...................... 21
3 BAB III STATUS LUARAN ................................................................................................................ 24
4 BAB IV PERAN MITRA ..................................................................................................................... 25
(UntukPenelitian Kerjasama Antar Perguruan Tinggi) .................................. Error! Bookmark not defined.
BAB V KENDALA PELAKSANAAN PENELITIAN ............................................................................... 26
BAB VI RENCANA TAHAPAN SELANJUTNYA ................................................................................... 27
BAB VII DAFTAR PUSTAKA ................................................................................................................... 28
LAMPIRAN .................................................................................................................................................. 29
5 LAMPIRAN 1 Tabel Daftar Luaran ..................................................................................................... 30
2
Daftar Tabel Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H .................................................................................... 6
Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S ..................................................................................... 6
Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang Tidak Dikelompokkan ............ 10
Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur. .......... 11
Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B .......... 11
Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan ............ 16
Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan .............. 18
Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14 ........................ 20
Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen ...................... 21
Daftar Gambar Gambar 2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset .................................................................... 5
Gambar 2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn .......................... 7
Gambar 2‐3 Prevalensi Elemen pada Dataset Awal ....................................................................................... 8
Gambar 2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar ........................... 9
Gambar 2‐5. Pengecekan Null...................................................................................................................... 12
Gambar 2‐6 . Heat Map Uji Kolerasi Variabel Input ................................................................................... 13
Gambar 2‐7 Deteksi dan Penanganan Outliers ............................................................................................ 14
Gambar 2‐8. Jumlah Data Set untuk Setiap Variabel ................................................................................... 14
Gambar 2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan ................................. 16
Gambar 2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan ................................. 18
Gambar 2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14 ........................................... 20
Gambar 2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen ......................................... 22
3
1 RINGKASAN
Hidrogen memiliki kerapatan energi yang tinggi dan memiliki potensi digunakan sebagai element penyimpanan energi dalam kendaraan bebas emisi maupun untuk penyimpanan energi . Namun, ditemukan banyak tantangan pada proses pengemasan hidrogen karena titik didih hidrogen yang rendah, yaitu -254°C. Beberapa metode yang digunakan untuk menyimpan hidrogen adalah pencairan, penyimpanan dalam tangki bertekanan tinggi, atau diikat dalam hidrida logam (metal hydride). Metode penyimpanan hidrogen dengan hidrida logam memiliki keunggulan dibandingkan metode lain karena hidrogen dapat disimpan pada tekanan rendah dengan kerapatan berat maupun volumetrik hidrogen yang tinggi.
Sampai saat ini, telah banyak logam paduan yang dipelajari sebagai media penyimpan hidrogen, dan beberapa di antaranya telah berhasil dikomersialkan. Salah satu contoh material penyimpanan hidrogen yang baik adalah paduan tipe AB2, dengan kapasitas hidrogen yang mampu disimpan sekitar 2-4 wt. % H dan kurang lebih 120 kg/m3. Tipe paduan ini juga memiliki laju penyerapan hidrogen yang cepat yang memungkinkan sintesis hidrida jenuh dalam waktu kurang dari 60 detik.
Penelitian ini berfokus pada penggunaan pendekatan ilmu pengolahan data, yaitu machine learning, untuk memprediksi daya simpan hidrogen paduan AB2. Tujuan dari penelitian ini adalah menemukan komposisi paduan yang dapat digunakan pada suhu kamar dengan kapasitas penyimpanan yang tinggi.
Proyek ini akan menjadi bagian konsorsium Eropa (http://hydride4mobility.fesb.unist.hr) yang sudah berjalan, di mana Departemen Teknik Mesin ITS Surabaya (Indonesia) adalah mitra dan Departemen Sistem Energi, IFE (Norwegia) berperan sebagi koordinator. Kerja sama ini memungkinkan pertukaran pengetahuan dan sumber daya sehingga penelitian dapat dilakukan dengan lebih efektif. Hasil dari penelitian ini akan diterbitkan dalam jurnal dengan reputasi baik yaitu The International Journal of Hydrogen Energy (IJHE).
Keywords: paduan AB2, penyimpanan hidrogen, machine learning, supervised learning, pengolahan data
4
1.1 Latar Belakang
Hidrida logam dapat diklasifikasikan menjadi tiga jenis, hidrida biner, hidrida paduan/ intermetalik, dan hidrida kompleks. Dua unsur dapat berikatan membentuk senyawa atau paduan dengan struktur kristal yang tidak teratur maupun teratur. Jenis pertama disebut juga paduan solid solution. Paduan pada jenis ini bereaksi membentuk hidrida logam. Hidrida logam yang berasal dari jenis paduan ini disebut "hidrida berbasis BCC". Contoh dari golongan hidrida ini adalah hidrida yang berasal dari paduan titanium dan vanadium. Jenis lain dari paduan yang tersusun dari paduan intermetalik dengan ciri – ciri struktur kristal yang teratur. Hidrida logam yang berasal dari paduan intermetalik termasuk pada jenis hidrida intermetalik, misalnya paduan AB2. Terdapat penelitian terbaru yang menunjukkan bahwa paduan AB2 digunakan sebagai baterai maupun penyimpan hidrogen [1-3].
1.2 Rumusan Masalah
Hal penting dari hidrida logam yang harus diperhatikan adalah sifat termodinamika dari hidrida yang terkait dengan suhu kesetimbangan untuk desorpsi hidrogen, laju reaksi yang menentukan waktu yang dibutuhkan untuk pengisian dan laju pelepasan hidrogen dari hidrida logam, stabilitas siklus, dan biaya produksi. Paduan dari AB2 mempunyai kepadatan hidrogen yang tinggi, laju reaksi yang cepat, dan sifat–sifat termodinamika pada paduan ini dapat diatur dengan penambahan elemen lain. Pada paduan AB2, sifat – sifat tersebut sangat bergantung pada komposisi kimianya. Komposisi kimia yang baik untuk memperoleh sifat – sifat yang baik hanya dapat dicapai melalui banyak percobaan. Metode baru yang digunakan untuk mengurangi jumlah eksperimen secara signifikan adalah prediksi hasil eksperimen dengan machine learning. Metode ini sudah diterapkan [4,5]. Namun demikian, penulis pada penelitian tersebut masih menggunakan database lama. Dalam penelitian ini, database dikumpulkan dari makalah – makalah baru yang diterbitkan untuk kemudian digunakan dalam machine learning untuk prediksi sifat dan komposisi paduan AB2.
1.3 Tujuan
Tujuan dari penelitian ini adalah sebagi berikut: o Mempelajari pengaruh komposisi kimia dari paduan AB2 terhadap kemampuan
sorption hidrogen. o Memprediksi sifat termodinamika paduan AB2 dengan pendekatan machine
learning. 1.4 Kerjasama Internasional
Departemen Teknik Mesin ITS terlibat dalam European Marie Currie Project HORIZON 2020, Hydride4Mobility, di dalam pengembangan kendaraan berbahan bakar fuel-cell. Konsorsium ini terbentuk dari 6 negara yang aggotanya berasal dari akademisi dan perusahaan (Error! Reference source not found.). Proyek ini berfokus pada pengembangan konsep kendaraan berbahan bakar fuel-cell layak pakai untuk menunjukkan bahwa hidrogen dapat digunakan sebagai penyimpan energi yang baik dan praktis. Penelitian ini sangat strategis bagi ITS untuk berkembang lebih jauh dalam teknologi hidrida logam dengan memanfaatkan jaringan pendidikan internasional di bidang ini.
5
2 BAB II HASIL PENELITIAN
2.1 Analisa awal
Analisa awal dilakukan untuk mendapatkan suatu visualisasi awal dari dataset yang sudah didapatkan untuk memprediksi hasil yang akan didapatkan dari analisa menggunakan machine learning. Dilakukan data count untuk mengetahui prevalensi elemen dari dataset dengan hasil sebagai berikut:
Gambar 2‐1 Grafik Visualisasi Prevalensi Elemen pada Dataset
Berdasarkan prevalensi elemen yang ada, indepen awal ini akan dilakukan menggunakan multivariate regression dimana variable independent dengan nilai prevalensi diatas 130 yaitu Ti, Zr, Mn, Cr, V, Ni, dan Co akan masing masing diregresi dengan variable dependen berupa entalpi dan entropi. Angka count 130 didapatkan dari asumsi serta analisa peneliti berdasarkan visualisasi prevalensi elemen yang didapatkan, guna meningkatkan kemampuan prediksi dari model regresi, karena secara teori ketika dataset memiliki nilai 0 yang lebih sedikit maka kemampuan prediksi akan meningkat. Hasil multivariate regression yang dilakukan menggunakan software Microsoft Excel didapatkan sebagai berikut. Statistika Regresi dengan nilai level signifikansi 95 % (α= 0.05) dengan hipotesa,
Ho = β1 = β2 = β3 = β4 = β5 = β6 = β7 = β8 = 0 H1 = at least one βi ≠ 0
Menmberikan hasil sebagai berikut, a. Regresi komposisi kimia terhadap selisih entalphi absorbsi
-R square = 0.2555967 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 25,5% yang berarti bahwa 25,5% dari entalphi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 2.67E-16 (Ho ditolak, setidaknya ada satu variable 5ndependent yang signifikan)
0
50
100
150
200
250
300
Ti Mn V Co Fe Y La Mg Cu W Ho Gd
Element Count
Unsur
Cou
nt
6
Tabel 2‐1. Koefisien Regresi Linear Prediksi Delta H
No Unsur Koefisien Nilai P Signifikansi1 - 114,13 - - 2 Ti -83,9 0,393 Tidak 3 Zr -77,46 -,431 Tidak 4 Mn -2,667 0,134 Tidak 5 Co -13,68 0,009 Signifikan 6 Cr -4,40 0,019 Signifikan 7 V 8,243 0,000128 Signifikan 8 Ni 1,421 0,322 Tidak
Persamaan Regresi: Ŷ = 114.13 – 83.9Ti – 77.46Zr – 176.072Ho – 2.667Mn -13.68Co – 4.40Cr + 8.243V + 1.421 Ni……………………(7)
b. Regresi komposisi kimia terhadap selisih entropi absorbsi
-R square = 0.122785 (menunjukkan bahwa kemampuan prediksi regresi multivariate adalah 12,2% yang berarti bahwa 12,2% dari entropi absorbs dapat dijelaskan menggunakan variable komposisi kimia) -Nilai P keseluruhan = 9.92E-07 (Ho ditolak, setidaknya ada satu variable 6ndependent yang signifikan)
Tabel 2‐2. Koefisien Regresi Linear Prediksi Delta S
No Unsur Koefisien Nilai P Signifikansi1 - 239,5 - - 2 Ti -130,061 0,366 Tidak 3 Zr -130,097 0,366 Tidak 4 Mn -4,589 0,077 Tidak 5 Co -41,134 0,0001 Signifikan 6 Cr 0,503 0,0854 Signifikan 7 V 4,924 0,1137 Tidak 8 Ni 1,3513 0,5199 Tidak
Persamaan Regresi: Ŷ = 239.35 – 130.061Ti – 130.097Zr – 4.589Mn -41.134Co – 0.503Cr + 4.924V + 1.3513 Ni………………………………(8)
Regresi yang dilakukan menggunakan python jupyter notebook menghasilkan nilai yang sama
dengan nilai yang diberikan oleh microsoft excel. Hal ini terjadi karena memang pada dasarnya prinsip regresi linear pada microsoft excel sama dengan python. Namun, nilai 25,5 % dan 12,2% untuk kemampuan prediksi ini tergolong sangat lemah. Oleh karena itu perlu ditemukan penyebab lemahnya kemampuan prediksi ini. Untuk melakukan hal tersebut, dilakukan visualisasi plot dataset variabel input dengan variabel output dan didapatkan hasil sebagai berikut:
7
Berdasarkan plot pada Gambar 10 dapat dilihat bahwa terdapat banyak noise yang terjadi pada plot tersebut yang membuat trend pengaruh masing masing variabel input terhadap variabel output menjadi susah untuk dilihat. Sehingga wajar apabila hasil regresi awal menunjukkan kemampuan yang sangat lemah. Noise ini dapat disebabkan karena banyak hal, antara lain: i) 50 Jurnal yang didapatkan berasal dari peneliti serta laboratorium yang berbeda, sehingga terdapat kemungkinan set up percobaan yang berbeda pula. Seperti contohnya terdapat spesimen yang mengalami perlakuan panas dan ball milling. ii) Terdapat banyaknya nilai nol pada dataset tersebut. Oleh karena itu dilakukan analisa awal tahap kedua yaitu dengan melakukan feature engineering terhadap dataset, dimana dataset yang memiliki nilai 0 tidak akan diikutsertakan dalam regresi linear yang baru. Selain itu dilakukan juga data scaling untuk menyetarakan kemampuan masing masing fitur yang ada, sehingga semua fitur memiliki kesempatan yang sama untuk berkontribusi di proses regresi. Berdasarkan regresi linear tahap kedua, didapatkan hasil sebagai berikut:
a.
b Variabel Input
Var
iabe
l Out
put
Var
iabe
l Out
put
Variabel Input
Gambar 2‐2. Plot Variabel Input dengan Variabel Output untuk a) Ti – Co dan b) Cr - Sn
8
a. Regresi komposisi kimia terhadap ΔH absorbsi: R square = 0.410 (kemampuan prediksi 41%) Nilai P keseluruhan = 2.46E-10 (H0 ditolak) Ŷ = 26.39 + 16.70Ti + 9.68Zr +16.75Mn +6.86Co + 50.52Cr -4.58V -17.46 Ni……………………………………………..(9)
b. Regresi komposisi kimia terhadap ΔS absorbsi: R square = 0.318 (kemampuan prediksi 31.8%) Nilai P keseluruhan = 3.03E-07 (H0 ditolak) Ŷ = 77.63+ 35.27Ti +42.35Zr +30.401Mn + 18.897Co +58.51Cr + 30.24V – 43.67
Ni………………………………………....(10)
Nilai kemampuan regresi dari terhadap kedua variabel output menunjukkan kenaikan yang cukup signifikan yaitu pada regresi terhadap ΔH yang semula bernilai 25,5% naik menjadi 41% dan pada ΔS yang semula bernilai 12,2% naik menjadi 31,8%. Hal ini menunjukkan bahwasanya sangat penting untuk dilakukan feature engineering ketika mengolah data sebelum dilakukan fitting terhadap model. Pada penelitian ini akan dilakukan data fitting yang lain berupa pengkategorian dataset berdasarkan set up percobaan yang dilakukan.
2.2 Data Awal
Didapatkan 324 pasang data logam paduan dari 50 jurnal, dimana setiap logam paduan
memiliki kandungan unsur yang berbeda-beda. Gambar 2.3 menunjukkan grafik bubble prevalensi
Keterangan:
- Huruf: Nama Unsur - Angka: Jumlah Paduan yang
Mengandung Unsur Tersebut
Gambar 2‐3 Prevalensi Elemen pada Dataset Awal
9
elemen yang berada pada seluruh set paduan. Angka yang berada dibawah keterangan jenis elemen menunjukkan jumlah set paduan yang mengandung elemen tersebut. Dapat dilihat bahwa terdapat bubble yang berukuran sangat kecil yang tidak memiliki keterangan jenis elemen unsur. Hal ini menunjukkan bahwa hanya terdapat sedikit logam paduan yang mengandung elemen-elemen tersebut. Keberadaan elemen unsur dengan prevalensi yang sangat rendah ini dapat memberikan pengaruh yang buruk terhadap model machine learning karena keterbatasan informasi yang diberikan oleh elemen unsur tersebut dapat menyebabkan prediksi yang tidak akurat. Oleh karena itu dilakukan pemilihan variabel input yang akan digunakan pada model dimana diambil 8 unsur yang memiliki prevalensi terbesar yaitu Ti, Zr, Mn, Cr, V, Ni, Co, dan Sn.
Gambar 2‐4 Prevalensi Elemen pada Dataset untuk 8 Unsur dengan Prevalensi Terbesar
Gambar 2.4 menunjukkan prevalensi elemen setelah dilakukan penghapusan untuk unsur-
unsur yang memiliki prevalensi yang rendah. Gambar menunjukkan bahwa sudah tidak terdapat perbedaan ukuran bubble yang cukup besar. Namun, dari gambar tersebut dapat dilihat bahwa akan ada banyak baris dataset yang memiliki nilai 0 karena tidak semua paduan mengandung unsur-unsur yang ada pada gambar 2.4. Hal ini juga akan menyebabkan menurunnya kemampuan prediksi dari model. Oleh karena itulah dilakukan pengolahan terhadap data awal yang akan dijelaskan pada bagian subbab 2.3.
2.3 Hasil Pengolahan Awal Data
Pengolahan data awal dilakukan untuk mengatasi temuan-temuan pada analisis awal menggunakan multivariate regression seperti banyaknya noise yang dihasilkan oleh set up percobaan yang berbeda-beda, banyaknya null value, dan banyaknya data outliers yang dapat
Keterangan:
- Huruf: Nama Unsur - Angka: Jumlah Paduan yang
Mengandung Unsur Tersebut
10
menurunkan performa prediksi model machine learning. Pengolahan awal data dimulai dengan feature engineering dan dilanjutkan dengan data preprocessing. 2.3.1 Feature Engineering
Dilakukan feature engineering untuk memilih variasi fitur yang memiliki kemampuan prediksi yang paling tinggi, sebagai fitur yang akan digunakan pada pengujian secara keseluruhan. Kedua jenis variabel input yang ada pada penelitian ini akan mendapatkan perlakuan feature engineering yang berbeda. a. Variabel input dengan unsur-unsur elemen yang tidak dikelompokkan
Dataset dengan unsur-unsur yang tidak dikelompokkan berguna untuk megetahui pengaruh
masing masing unsur terhadap variabel output pada model serta mendapatkan prediksi model secara keseluruhan. Dimana untuk dataset ini, terdapat enam jenis variasi fitur yang akan diuji yaitu: i) seluruh fitur tanpa dilakukan persuntingan, ii) fitur yang dibagi berdasarkan set up pengujian tanpa menggunakan heat treatment, iii) fitur untuk paduan yang mengalami heat treatment pada set up pengujian, dan iv) fitur untuk senyawa tanpa menyertakan paduan yang memiliki komposisi yang bernilai 0 dimana dilakukan penghapusan untuk senyawa yang memiliki nilai nol seperti pada sel yang diblok menggunakan warna kuning pada gambar 2.3 sehingga dataset yang diuji hanyalah set paduan yang mengandung kedelapan unsur pada variabel input seperti sel yang diblok menggunakan warna hijau. Pengujian variasi fitur ini dilakukan dengan menggunakan multivariate linear regression terhadap seluruh variable target yaitu ΔH absorbsi, ΔS absorbs, phase abundance, dan persen massa hydrogen di software orange python, dengan data train sebanyak 80% dan data tes sebanyak 20 % secara random dan bertingkat. Dari hasil pengujian variasi tersebut didapatkan hasil sebagai berikut.
Tabel 2‐3 Contoh Dataset untuk Variabel Input dengan Unsur-Unsur yang
11
Tabel 2‐4 Nilai Kemampuan Prediksi Seluruh Variable Target untuk Masing-masing Variasi Fitur.
Variasi Fitur
ΔH absorbsi
ΔS absorbsi
Phase Abundance
Persen Massa Hidrogen
Skor rata rata
Seluruh fitur tanpa disunting
0.13 0.042 0.317 0.23 0.151
Fitur set up uji dengan heat treatment
0.684 0.94 0.476 0.22 0.368
Fitur set up uji tanpa heat treatment
0.257 0.105 0.332 0.445 0.284
Fitur tanpa nilai 0
0.42 0.19 0.86 0.66 0.532
Berdasarkan pengujian yang dilakukan skor rata-rata tertinggi diraih oleh fitur tanpa nilai 0,
dan secara berurutan diikuti fitur set up uji dengan heat treatment, fitur set up uji tanpa heat treatment, dan seluruh fitur yang tidak tidak disunting. Pengujian fitur senyawa A dan B secara terpisah mendapatkan skor terendah karena memang pada dasarnya seluruh unsur memiliki pengaruh terhadap variable output sehingga wajar bahwa pada saat senyawa A dan B dipisahkan, skor terendah didapatkan. Pengujian fitur tanpa nilai 0 mendapatkan skor tertinggi diantara semua variasi. Hal ini sesuai dengan teori analisis data bahwa data dengan nilai null yang lebih sedikit akan menghasilkan prediksi yang lebih baik. Oleh karena itu dataset fitur dengan unsur tanpa nilai 0 akan dipilih sebagai dataset yang digunakan untuk variabel dengan unsur-unsur yang tidak dikelompokkan pada pengujian selanjutnya.
b. Variabel dengan unsur-unsur elemen yang dikelompokkan menjadi unsur A dan B berguna untuk
mengetahui pengaruh paduan secara stoichiometryterhadap variabel output. Berdasarkan seleksi variabel awal yang telah dilakukan, unsur A pada data set yang digunakan terdiri dari unsur Ti dan Zr, sedangkan unsur B terdiri dari unsur Mn, Co, Cr, V, Ni, dan Sn. Variabel dengan unsur-
Tabel 2‐5 Variabel input dengan unsur‐unsur elemen yang dikelompokkan sebagai unsur A dan B
12
unsur yang dikelompokkan menjadi unsur A dan B ini tidak akan melalui proses feature engineering karena seluruh unsur A dan B tidak bernilai nol.
2.3.2 Preprocessing Data
Data preprocessing dilakukan untuk meningkatkan kualitas dataset yang dimiliki dengan cara mengatasi data yang masih hilang atau kekurangan atribut tertentu, data yang mengandung data outlier, dan mengatasi variasi nilai dataset yang terlalu besar. Kedua jenis variable akan mengalami preprocessing data yang sama. Dilakukan beberapa jenis data preprocessing pada penelitian ini yaitu, pengecekan null, scaling, pendeteksian dan penanganan outliers, serta pengujian multikolinearitas untuk variabel input. a. Pengecekan Null
Pengecekan null dilakukan untuk mengetahui apakah ada nilai yang hilang pada setiap variabel. Nilai yang hilang ini dapat menyebabkan terjadinya error pada saat proses fitting data. Pengecekan null menggunakan fugsi ”isnull” akan menghasilkan dua kemungkinan output yaitu true apabila terdapat nilai null pada variabel dan false apabila tidak terdapat nilai null. Hasil pengecekan didapatkan sebagai berikut:
Gambar 2‐5. Pengecekan Null
Seluruh variabel menghasilkan output false yang berarti bahwa tidak terdapat nilai null pada variabel sehingga pengujian bisa dilanjutkan ke tahap selanjutnya.
13
b. Uji Multikolinearitas
Multikolinearitas terjadi ketika terdapat satu variabel input yang memiliki korelasi yang
sangat tinggi dengan variabel inout yang lain. Hal ini dapat menyebabkan redudansi yang berujung pada variabel yang tidak signifikan secara statistik. Untuk menguji apakah ada multikolinearitas, digunakan matriks korelasi, matriks kolerasi antara setiap variabel input ini diletakkan pada sebuah heat map untuk mempermudah visualisasi data yang memiliki multikolinearitas. Warna yang gelap menunjukkan variabel yang memiliki kolerasi yang tinggi satu dengan yang lain.
Pengujian kolerasi yang dilakukan terhadap dataset dengan variabel unsur yang tidak dikelompokkan menghasilkan heatmap seperti gambar 2.6 diatas. Didapatkan bahwa unsur Ti dan Zr memiliki kolerasi yang sangat tinggi satu dengan yang lain seperti yang dilingkari oleh lingkaran berwarna merah. Namun, variabel Ti dan Zr tidak akan dihapuskan dari model walapun Ti dan Zr bersifat multikolinear satu dengan yang lain. Hal ini dapat terjadi karena unsur Ti dan Zr adalah anggota dari senyawa A pada AB2 yang mana senyawa A akan selalu bernilai 1. Sehingga Ti bersifat berbanding terbalik dengan Zr, apabila komposisi Ti menurun berarti komposisi Zr menaik, dan sebaliknya. Sedangkan, variabel dengan unsur-unsur yang dikelompokkan menjadi A dan B tidak menunjukkan adanya multikolinearitas antara variabel A dan B. c. Deteksi dan Penanganan Outliers
Outliers dapat memberikan efek yang tidak proporsional terhadap hasil statistik data seperti nilai mean yang dapat berujung kepada interpretasi model yang salah. Untuk mendeteksi adanya outliers, ditambahkan sebuah metric baru berupa 3 standar deviasi dibawah dan diatas nilai mean masing masing variabel. Selanjutnya akan seluruh dataset akan difilter berdasarkan nilai Z, yaitu jarak suatu data terhadap rata-ratanya dalam satuan standar deviasi. Apabila nilai Z diatas +-3 standar deviasi, maka nilai tersebut akan dianggap sebagai outliers yang akan dihapus
Gambar 2‐6 . Heat Map Uji Kolerasi Variabel Input
14
Gambar 2.7 adalah contoh deteksi dan penanganan outlier yang dilakukan untuk variable dengan unsur-unsur yang tidak dikelompokkan. Pada proses tersebut, ditemukan 11 baris dataset yang mengandung outliers seperti yang dapat dilihat pada gambar bagian bawah yaitu baris ke-30, 31, 32, 48, 49, 70, 71, 72, 75, 81, 86, sehingga outliers ini dapat dihapus. Dapat dilihat bahwa baris outliers ini terletak berdekatan satu dengan yang lain seperti baris ke-30, 31, dan 32, hal ini kemungkinan besar terjadi karena data tersebut bersumber dari paper dan peneliti yang sama, namun set up pengujian yang ada pada paper tersebut berbeda dengan mayoritas set up pengujian yang ada pada dataset, sehingga menghasilkan nilai yang jauh berbeda.
Gambar 2‐8. Jumlah Data Set untuk Setiap Variabel
Setelah dilakukan pendeteksian terhadap kedua jenis variabel, dapat dilihat hasil akhir jumlah dataset tanpa outliers pada gambar 2.8. Dari data yang awalnya berjumlah 314 pasang dataset, menjadi 234 pasang data untuk fitur A dan B yang dikelompokkan, dan 86 pasang data untuk fitur unsur yang tidak dikelompokkan. Dataset ini adalah dataset final yang akan digunakan sebagai input model machine learning. d. Data Scaling
Data scaling adalah suatu cara untuk membuat numerical data pada dataset memiliki rentang
nilai (scale) yang sana, sehingga tidak ada lagi satu variabel data yang mendominasi variabel data lainnya. Pada penelitian ini digunakan proses data scaling terhadap nilai mean yang ada menggunakan fungsi scaler.mean. Perbandingan data sebelum dan sesudah scaling dapat dilihat
314
234
86
Fitur Awal tanpaPreprocessing
Fitur A dan B yangdikelompokkan
Fitur Unsur yang tidakdikelompokkan
Gambar 2‐7 Deteksi dan Penanganan Outliers
15
pada gambar 4.10a Dimana dapat diamati sebelum dilakukannya scaling masih terdapat perbedaan nilai yang sangat besar antara variable input yang ada seperti unsur Nikel yang dapat mencapai harga 41. Scaling tersebut dilakukan menggunakan rumus berikut:
𝑋′ ……………………………………………(10)
dimana X’ adalah nilai fitur yang telah mengalami scaling, X adalah nilai fitur sebelum scaling, X min adalah nilai minimum dari dataset fitur lama dan X max adalah nilai maksimum dari dataset fitur lama. Sebagai contoh, dilakukan perhitungan untuk melakukan scaling pada salah satu unsur Mangan yang bernilai 4,2. Diketahui bahwa nilai mangan minimum pada dataset adalah, dan nilai mangan maksimum pada dataset adalah 13,6 dan nilai minimum mangan pada dataset adalah 4 maka,
𝑋 𝑋 𝑋𝑚𝑖𝑛
𝑋𝑚𝑎𝑥 𝑋𝑚𝑖𝑛
𝑋 4,2 4
13,6 4
𝑋 0,02083 setelah dilakukannya scaling ditemukan nilai mangan yang telah mengalami scaling sebesar 0,02083.
Dilakukan pengujian untuk menentukan jumlah tree yang dapat memberikan prediksi yang paling optimum bagi setiap variabel output untuk model random forest. Pengujian dilakukan dengan melakukan pengecekan prediksi untuk model dengan jumlah tree mulai dari 0 sampai dengan 100. Hasil dari pengujian diletakkan pada grafik dimana sumbu x menunjukkan jumlah tree, dan sumbu y menunjukkan kemampuan prediksi. Jumlah tree yang dipilih adalah yang memiliki kemampuan prediksi terbaik, ditandai dengan titik dengan posisi yang paling tinggi pada grafik. Pengujian untuk ΔH absorbsi, ΔS absorbsi, phase abundance, dan persen massa hidrogen menemukan jumlah tree optimal adalah 21, 8, 32, dan 7 tree secara berurutan. Jumlah tree ini dipakai dalam penentuan jumlah tree pada saat pembuatan model random forest. 2.4 Modelling Variabel dengan Unsur-Unsur yang Tidak Dikelompokkan
Didapatkan hasil evaluasi dari masing masing model yaitu regresi linear multivariate, decision tree, dan random forest untuk variabel dengan unsur-unsur yang tidak dipisahkan. Hasil dari setiap model dibandingkan berdasarkan setiap variable output guna menemukan algoritma terbaik untuk memprediksi setiap variable output. Pengaruh masing masing unsur terhadap setiap variabel output didapatkan untuk mengetahui unsur-unsur yang dapat memberikan keuntungan bagi sifat-sifat penyimpanan hydrogen logam hidrida.
16
2.4.1 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entalphi
Tabel 2‐6 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entalphi Pembentukan
Metric Multivariate Regression
Decision Tree
Random Forest
R2 Train 0.478 0.868 0.819 R2 Validasi 0.055 -0.05 0.591 R2 Test 0.569 0.22 0.531 R2 Rata-rata
0.367 0.346 0.647
Mean Absolute Error
4,61 5,9 4,36
Root Mean Square Error
5.51 7,39 5,75
Gambar 2‐9 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entalphi Pembentukan
Ketiga model machine learning dibandingkan untuk melihat performansi pada prediksi
selisih entalphi pembentukan. Algoritma multivariate regression menghasilkan fungsi matematis sebagai berikut,
17
Y = 28,51 + 19,82Ti + 8,68Zr +2,22Mn – 6,51Co + 4,54Cr – 4,54V – 15,15Ni + 5,92Sn……………………………………………(11) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta H dari data yang baru. Model random forest dan decision tree juga menghasilkan suatu fungsi matematis yang dapat digunakan untuk memprediksi dengan memasukkan data input yang baru ke software python. Untuk melakukan evaluasi terhadap model yang didapatkan, dilakukan pengecekan terhadap R2 dan nilai error yang dimiliki model. R2 rata-rata atau kemampuan prediksi tertinggi diraih oleh random forest pada angka 0,647 diikuti oleh multivariate linear regression pada 0.367 dan decision tree pada angka 0.346. Hal ini menandakan bahwa random forest adalah model yang paling baik digunakan untuk melakukan prediksi selisih entalphi pembentukan, serta dataset yang dimiliki bersifat non-linear sehingga apabila ingin dilakukan penelitian lebih lanjut akan lebih baik untuk menggunakan algoritma non-linear. Walaupun telah dilakukan preprocessing data dan feature selection, nilai R2 rata-rata model masih belum bisa menyentuh angka 0,70. Hal ini menandakan bahwa kemampuan prediksi delta entalphi masih tergolong lemah. Dapat dilihat bahwa terdapat penurunan nilai R2 pada data validasi apabila dibandingkan dengan data training, hal ini sebenarnya lumrah terjadi pada metode analisa machine learning, namun penurunan skor R2 yang sangat besar menandakan terjadinya overfitting yang sangat besar pula pada model tersebut. Pada prediksi delta entalphi ini dapat diamati bahwa terjadi ovefitting yang besar pada model multivariate regression dan decision tree.
Mean absolute error tertinggi ada pada decision tree pada 5,9 diikuti multivariate regression pada angka 4,61 dan random forest pada 4,36. Root mean square error tertinggi ada pada decision tree pada angka 7,39, diikuti oleh random forest pada angka 5,75 dan multivariate regression pada angka 5,51. Error yang terjadi terlihat besar karena error berada cukup jauh dari angka 0. Namun, apabila grafik plot nilai asli dan nilai prediksi dicermati, dapat dilihat bahwa selisih nilai yang didapatkan oleh prediksi model tidak terlalu jauh dengan nilai asli. Hasil prediksi model yang digambarkan oleh garis hijau, kuning, dan merah untuk linear regression, decision tree, dan random forest secara berurutan sudah dapat mengikuti fluktuasi grafik nilai asli yang digambarkan oleh garisbiru. Namun, dapat dilihat bahwa ketiga model gagal untuk memprediksi nilai selisih entalphi yang bernilai tinggi seperti yang berada pada angka 47 KJ/mol. Di sisi lain, model decision tree dan random forest bekerja dengan baik dalam hal memprediksi nilai selisih entalphi yang kecil seperti yang bernilai dibawah 10 KJ/mol. Tentu saja, berdasarkan model yang didapatkan dapat diketahui bahwa akan ada kemungkinan terjadi kesalahan pada saat melakukan prediksi yang baru. Namun, walaupun pada akhirnya terjadi selisih yang sangat besar antara nilai prediksi dan nilai asli selisih entalphi pembentukan. Konsekuensi yang dihasilkan dari error ini tidak akan terlalu besar, karena model prediksi hanya akan digunakan untuk tujuan penelitian, sehingga tidak akan membahayakan bagi manusia. Oleh karena itu nilai error dan R2 yang cukup lemah ini masih dapat diterima. Selisih entalphi pembentukan untuk alloy yang akan diteliti masih akan ditemukan dan tetap akan menjadi informasi yang berguna bagi peneliti yang lainnya sebagai baseline sebelum melakukan eksperimen pemaduan logam. Selain itu apabila selsisih entalphi yang diinginkan justru terlalu besar, hal ini masih dapat dikompensasi dengan properti hidrogenasi yang lain seperti persen massa hidrogen yang dihasilkan, karena kemungkinan apabila energi pembentukan yang dibutuhkan semakin besar, maka persen massa hidrogen yang dihasilkan akan semakin besar pula yang merupakan hal yang diinginkan pada logam hidrida.
18
2.4.2 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Selisih Entropi
Tabel 2‐7 Perbandingan Metode Machine Learning untuk Prediksi Selisih Entropi Pembentukan
Metric Multivariate Regression
Decision Tree
Random Forest
R2 Train 0.332 0.935 0.868 R2 Validasi -0.27 -1.5 0.6922 R2 Test 0.469 0.06 0.104 R2 Rata-rata
0.177 -0.16 0.554
Mean Absolute Error
9.39 7,57 30,8
Root Mean Square Error
13.0 14,2 33,6
Gambar 2‐10 Grafik Nilai Asli dan Nilai Prediksi untuk Selisih Entropi Pembentukan
19
Ketiga model machine learning dibandingkan untuk melihat performansinya pada prediksi selisih entropi pembentukan. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 89,49 + 44,62Ti + 44,88Zr +0,54Mn – 15,55Co + 2,82Cr – 7,08V – 31,21Ni – 0,54Sn…………………………………….(12) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi delta S dari data yang baru, hal yang sama juga berlaku untuk model decision tree dan random forest, dimana nilai input yang baru dapat dimasukkan ke software python untuk menemukan prediksi delta entropi yang baru. Nilai R2 dan error dilihat untuk mengevaluasi model yang didapatkan. Nilai R2 rata-rata tertinggi diraih oleh model random forest pada angka 0,554 diikuti oleh multivariate regression pada angka 0,177, dan decision tree pada angka 0,16. Hal ini menandakan bahwa random forest adalah model yang paling baik untuk memprediksi selisih entropi, serta dataset yang dimiliki bersifat non-linear. Ketiga model yang didapatkan menghasilkan R2 rata-rata yang bernilai dibawah 0,7 yang menandakan bahwa prediksi yang dihasilkan masih cukup lemah. Terjadi overfitting yang besar pada model multivariate regression dan decision tree yang ditandai dengan penurunan nilai R2 validasi yang sangat besar apabila dibandingkan dengan R2 train.
Nilai error yang didapat tergolong cukup besar pada ketiga model, dimana untuk mean absolute error didapatkan nilai sebesar 9,39, 7,57, dan 30,8 untuk multivariate regression, decision tree, dan random forest secara berurutan. Root mean square error menunjukkan nilai 13,0, 14,2, dan 33,6 untuk multivariate regression, decision tree, dan random forest secara berurutan. Error yang terjadi terlihat jauh lebih besar apabila dibandingkan dengan error pada prediksi selisih entalphi pembentukan. Hal ini dapat terjadi karena memang pada proses pengumpulan data, banyak dataset dengan nilai selisih entropi pembentukan yang diasumsikan sebagai 110 KJ/mol untuk mendapatkan nilai selisih entalphi pembentukan. Nilai selisih entropi pembentukan dipilih sebagai nilai yang diasumsikan karena memang sebenarnya nilai entropi tidak berkaitan secara langsung dengan energi pembentukan. Nilai selisih entropi dihasilkan akibat terjadinya perubahan wujud hidrogen dari yang semula berbentuk gas menjadi padat ketika diserap oleh logam hidrida. Sehingga error yang cukup besar ini dapat ditoleransi. Apabila grafik plot nilai asli dan nilai prediksi dilihat, model sebenarnya telah dapat mengikuti fluktuasi nilai asli. Terutama model decision tree dan random forest yang bekerja sangat bagus dalam memprediksi nilai selisih entropi pada 110 KJ/mol yang sebenarnya diasumsikan oleh peneliti.
20
2.4.3 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Phase Abundance C14
Gambar 2‐11 Grafik Nilai Asli dan Nilai Prediksi untuk Phase Abundance C14
Tabel 2‐8 Perbandingan Metode Machine Learning untuk Prediksi Phase Abundance C14
Metric Multivariate Regression
Decision Tree
Random Forest
R2 Train 0.419 0.966 0.893 R2 Validasi 0.292 0.788 0.819 R2 Test 0.633 0.603 0.786 R2 Rata-rata
0.448 0.785 0.832
Mean Absolute Error
11.5 8.48 22,4
Root Mean Square Error
13,3 13.8 25,6
Prediksi model yang dilakukan terhadap variabel output C14 menghasilkan R2 rata-rata
tertinggi pada random forest di angka 0.832, diikuti oleh decision tree pada angka 0,785, dan multivariate regression pada angka 0,448. Model decision tree dan random forest memiliki kemampuan diatas 0,70 yang berarti bahwa model tersebut memiliki kualitas yang baik untuk melakukan prediksi phase abundance C14. Apabila nilai R2 train dan R2 validasi dibandingkan, dapat dilihat bahwa penurunan nilai R2 pada data validasi tidak terlalu besar untuk ketiga model, hal ini menandakan bahwa overfitting yang terjadi tidak terlalu besar yang menandakan performansi
21
yang baik bagi model. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 32,47 + 17,66Ti + 14,18Zr – 19,25Mn – 24,99Co + 2,34Cr + 44,44V – 54,67Ni + 61,86Sn…………………………………..(13) dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi phase abundance C14 dari data yang baru. Nilai mean absolute error tertinggi diraih oleh model random forest pada angka 22,4, diikuti oleh multivariate regression pada angka 11,5 dan decision tree pada angka 8,48. Nilai root mean square error tertinggi juga diraih oleh random forest pada angka 25,6, diikuti decision tree pada angka 13,8, dan multivariate regression pada angka 13,3. Nilai error baik yang dihasilkan oleh mean absolute error maupun root mean square error tergolong besar karena sangat jauh dari nilai 0. Performa prediksi digrafikan pada grafik nilai asli dan nilai prediksi, dimana dapat dilihat bahwa sebenarnya model sudah cukup baik dalam mengikuti naik turunnya nilai asli. Decision tree memiliki performansi yang sangat baik untuk memprediksi nilai C14 yang rendah, dimana model decision tree adalah satu satu nya model yang dapat meramalkan phase abundance C14 yang bernilai 0. Nilai error yang besar yang dihasilkan pada prediksi ini mungkin terjadi karena banyak logam paduan dari dataset yang memiliki phase C14 sebanyak 100% dan 0%, tentu saja model machine learning akan lebih susah memprediksi nilai yang sangat tinggi maupun sangat rendah, karena nilai tersebut terletak sangat auh dari nilai median dan dapat terlihat seperti outliers walaupun pada nyatanya memang benar bahwa suatu logam paduan dapat menghasilkan nilai 100% maupun 0% phase abundance C14.
2.4.4 Perbandingan Hasil Evaluasi Algoritma untuk Prediksi Persen Massa Hidrogen
Tabel 2‐9 Perbandingan Metode Machine Learning untuk Prediksi Persen Massa Hidrogen
Metric Multivariate Regression
Decision Tree
Random Forest
R2 Train 0.741 0.989 0.928 R2 Validasi 0.608 0.113 0.521 R2 Test 0.654 0.392 0.615 R2 Rata-rata
0.667 0.498 0.688
Mean Absolute Error
0,0968 0,0894 0,101
Root Mean Square Error
0,12 0,159 0,126
22
Gambar 2‐12 Grafik Nilai Asli dan Nilai Prediksi untuk Persen Massa Hidrogen
Persen massa hidrogen adalah salah satu sifat yang paling penting dalam aplikasi logam
hidrida, karena persen massa hidrogen akan mempengaruhi massa logam hidrida secara keseluruhan. Pada prediksi machine learning yang dilakukan terhadap persen massa hidrogen, random forest meraih nilai R2 rata-rata tertinggi pada angka 0,688, diikuti oleh multivariate regression pada angka 0,667, dan decision tree pada angka 0,498. Ketiga model tidak menyentuh angka 0,70 yang berarti bahwa kemampuan prediksi yang dimiliki masih tergolong lemah. Overfitting yang sangat besar dapat diamati pada model decision tree dengan penurunan skor R2 validasi yang cukup signifikan apabila dibandingkan dengan nilai R2 training. Algoritma multivariate regression meghasilkan fungsi matematis sebagai berikut, Y = 0,31 + 0,38Ti – 0,06Zr + 0,72Mn +0,18Co + 0,42Cr -0,05V +0,12Ni + 0,29Sn……………………………………………..(14)
dimana jumlah mol masing masing unsur dapat dimasukkan kedalam fungsi matematis tersebut untuk menemukan nilai Y yang merupakan prediksi nilai persen massa hidrogen dari data yang baru. Mean absolute error tertinggi diraih oleh random forest pada angka 0,101, diikuti oleh multivariate regression pada angka 0,0968, dan decision tree pada angka 0,0894.. Sedangkan root mean square tertinggi diraih oleh decision tree pada 0,159, random forest pada 0,126 dan multivariate regression pada 0,126. Ketiga metode pengujian error ini memberikan hasil yang bagus karena error berada pada angka yang mendekati nilai 0. Nilai error yang kecil ini dapat terjadi karena berbeda dengan variabel entalphi dan entropi pembentukan dimana terdapat banyak nilai yang
23
diasumsikan sehingga dapat mempengaruhi performa model karena nilai yang diasumsikan tersebut dapat mempengaruhi mean yang dimiliki oleh dataset secara keseluruhan, dan pada variabel phase abundance banyaknya dataset yang memiliki phase 100% dan 0% juga mempengaruhi model prediksi karena nilai tersebut terletak jauh dari mean yang dimiliki oleh dataset sehingga membuat model kesulitan untuk meraih nilai tersebut.
24
3 BAB III STATUS LUARAN Saat ini dua mahasiswa sudah lulus dengan dana dari Penelitian ini, kemudiaan akan dilakukan presenbtasi
paper pada seminar internasioanal, dan output paper berupa draft. Draft masih perlu dilakukan perbaikan,
dan akan dikirim secepatnya setelah perbaikan.
25
4 BAB IV PERAN MITRA Tidak ada mitra, hanya Kerjasama penelitian
26
BAB V KENDALA PELAKSANAAN PENELITIAN
Kendala penyiapan dan pengujian sample di kala pandemic ini. Namun demikian output article Q1 akan tetap didapatkan.
27
BAB VI RENCANA TAHAPAN SELANJUTNYA
Metode Machine learning akan dicoba untuk paduan yang lainnya.
28
BAB VII DAFTAR PUSTAKA
[1] U. Ulmer et al., “Cost reduction possibilities of vanadium-based solid solutions – Microstructural, thermodynamic, cyclic and environmental effects of ferrovanadium substitution,” J. Alloys Compd., vol. 648, pp. 1024–1030, Nov. 2015, doi: 10.1016/j.jallcom.2015.07.110.
[2] S. Suwarno and A. Shahab, “Prediksi Derajad Presipitasi Karbida Krom pada Baja Tahan Karat Austenitik dengan Metode Jaringan Syaraf Tiruan,” 2004, [Online]. Available: https://www.researchgate.net/publication/314256935_Prediksi_Derajad_Presipitasi_Karbida_Krom_pada_Baja_Tahan_Karat_Austenitik_dengan_Metode_Jaringan_Syaraf_Tiruan.
[3] A. Rahnama, G. Zepon, and S. Sridhar, “Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent,” Int. J. Hydrog. Energy, vol. 44, no. 14, pp. 7337–7344, Mar. 2019, doi: 10.1016/j.ijhydene.2019.01.261.
[4] A. Züttel, “Materials for hydrogen storage,” Mater. Today, vol. 6, no. 9, pp. 24–33, Sep. 2003, doi: 10.1016/S1369-7021(03)00922-2.
[5] L. Schlapbach and A. Züttel, “Hydrogen-storage materials for mobile applications,” Nature, vol. 414, no. 6861, pp. 353–358, Nov. 2001, doi: 10.1038/35104634.
[6] C. M. Graça Araújo, “Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics,” Acta Universitatis Upsaliensis, Uppsala, 2008.
[7] M. Hirscher, Ed., Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH, 2010.
[8] A. A. Volodin et al., “Study of hydrogen storage and electrochemical properties of AB2-type Ti0.15Zr0.85La0.03Ni1.2Mn0.7V0.12Fe0.12 alloy,” J. Alloys Compd., vol. 793, pp. 564–575, Jul. 2019, doi: 10.1016/j.jallcom.2019.03.134.
[9] G. Sandrock, “A panoramic overview of hydrogen storage alloys from a gas reaction point of view,” J. Alloys Compd., vol. 293–295, pp. 877–888, Dec. 1999, doi: 10.1016/S0925-8388(99)00384-9.
[10] F. Feng, “Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review,” Int. J. Hydrog. Energy, vol. 26, no. 7, pp. 725–734, Jul. 2001, doi: 10.1016/S0360-3199(00)00127-0.
[11] L. Klebanoff, Hydrogen Storage Technology: Materials and Applications. 2016. [12] D. P. Broom, Hydrogen storage materials: the characterisation of their storage properties.
London ; New York: Springer, 2011. [13] E. Alpaydin, Introduction to machine learning, 2nd ed. Cambridge, Mass: MIT Press, 2010. [14] G. S. Linoff and M. J. A. Berry, Data mining techniques: for marketing, sales, and customer
relationship management, 3rd ed. Indianapolis, IN: Wiley Pub, 2011. [15] H. Jiawie, Data Mining. Elsevier, 2012. [16] J. R. Hattrick-Simpers, K. Choudhary, and C. Corgnale, “A simple constrained machine
learning model for predicting high-pressure-hydrogen-compressor materials,” Mol. Syst. Des. Eng., vol. 3, no. 3, pp. 509–517, 2018, doi: 10.1039/C8ME00005K.
[17] M. Witman et al., “Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning,” J. Phys. Chem. Lett., vol. 11, no. 1, pp. 40–47, Jan. 2020, doi: 10.1021/acs.jpclett.9b02971.
[18] S.-R. Kim, K.-Y. Lee, and J.-Y. Lee, “Improved low-temperature dischargeability of C14-type Zr-Cr-Ni Laves phase alloy,” J. Alloys Compd., vol. 223, no. 1, pp. 22–27, May 1995, doi: 10.1016/0925-8388(94)01499-X.
[19] K.-H. Young, J. Nei, C. Wan, R. Denys, and V. Yartys, “Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications,” Batteries, vol. 3, no. 4, p. 22, Jul. 2017, doi: 10.3390/batteries3030022.
81
29
LAMPIRAN Lampiran berisi tabel daftar luaran (Format sesuai lampiran 1) dan bukti pendukung luaran wajib dan luaran
tambahan (jika ada) sesuai dengan target capaian yang dijanjikan
30
LAMPIRAN 1 Tabel Daftar Luaran
Program : Penelitian High Impact Nama Ketua Tim : Suwarno, PhD Judul : Desain Paduan AB2 untuk Penyimpanan Hidrogen
Menggunakan Pendekatan Machine Learning 1.Artikel Jurnal
No Judul Artikel Nama Jurnal Status Kemajuan*) 1 Machine Learning Analysis of the
Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties
International Journal of Hydrogen Energy
Draft
*) Status kemajuan: Persiapan, submitted, under review, accepted, published
2. Artikel Konferensi
No Judul Artikel Nama Konferensi (Nama Penyelenggara, Tempat,
Tanggal)
Status Kemajuan*)
1 Machine Learning Approach to Study the Effect Of Chemical
Composition On Hydrogen Storage Properties of the 𝐀𝐁𝟐 Alloys
ISOC, Depertemen Kimia ITS, Surabaya, Oktober 2020
Accepted
*) Status kemajuan: Persiapan, submitted, under review, accepted, presented
3. Paten
No Judul Usulan Paten Status Kemajuan
*) Status kemajuan: Persiapan, submitted, under review
4. Buku
No Judul Buku (Rencana) Penerbit Status Kemajuan*)
*) Status kemajuan: Persiapan, under review, published
5. Hasil Lain
No Nama Output Detail Output Status Kemajuan*) *) Status kemajuan: cantumkan status kemajuan sesuai kondisi saat ini
31
6. Disertasi/Tesis/Tugas Akhir/PKM yang dihasilkan
No Nama
Mahasiswa
NRP Judul Status*)
1 Ghazy Dicky 02111640000013 ANALISA PENGARUH
KOMPOSISI KIMIA
TERHADAP
SIFAT-SIFAT PENYIMPANAN
HIDROGEN LOGAM
PADUAN AB2
MENGGUNAKAN METODE
MACHINE
LEARNING
Lulus 2020
2 Muh. Rizal
Fadilah
02111540000181 STUDI PENGARUH
KOMPOSISI KIMIA
TERHADAP SIFAT
PENYIMPANAN HIDROGEN
PADA LOGAM PADUAN AB2
DENGAN METODE MACHINE
LEARNING
Lulus 2020
*) Status kemajuan: cantumkan lulus dan tahun kelulusan atau in progress
1
Machine Learning Analysis of the Alloying Element Effects on AB2 Metal Hydrides Hydrogen Storage Properties
Ghazy Dicky1, Abdillah Suyuthi2, Mohammad K. Effendi1, Witantyo1, Lukman Nurochim3, Suwarno Suwarno1,*
1Department of Mechanical Engineering, Institut Teknologi Sepuluh Nopember (ITS), Surabaya Indonesia, 60111
2DNV GL, Veritasveien 1, 1363 Høvik, Norway 3Department of Materials and Metallurgical Engineering, Sepuluh Nopember Institute of Technology,
Surabaya 60111, Indonesia
*email: [email protected]
Abstract Zirconium‐Titanium based‐AB2 is potential candidate for hydrogen storage alloys as well as
for NiMH battery electrode because of high energy density compare to the conventional AB5
materials. Machine learning and data analytic has been implemented for materials discovery
and optimization of energy related materials. In the present work, machine learning
approaches were used to analyze the AB2 metal hydrides dataset consisting of chemical
compositions of the alloys and the hydrogen storage properties obtained previous research,
aiming to predict the effect of the alloying element on the heat of formation (ΔH), the phase
abundance, and the hydrogen capacity of the alloy. Three models were employed namely
multivariate regression, decision tree, and random forest which were evaluated by the R2
scores and error metrics. The random forest model yields the most superior performance for
the prediction of all hydrogen storage properties on the dataset. While for the dataset was
group into A and B grouped elements, the decision tree model gives the best performance to
phase abundance, while ΔH is best predicted using the random forest model, and the
multivariate regression yields the best performance on predicting the hydrogen capacity.
Keywords—Machine Learning, Metal Hydrides, Hydrogen Energy, AB2 alloys, Hydrogen
Storage
I. INTRODUCTION
The transitions towards a cleaner and more sustainable energy to overcome the dependency
on the increasingly scarce fossil‐based fuel has underlain the development of research on the
alternative energy sectors, with hydrogen being one of the most promising alternative energy
sources that are often investigated. Hydrogen possesses energy density by mass value (142
MJ kg‐1) that is three times larger compared to other chemical fuels such as raw fossil fuel (47
MJ kg‐1) [1], while at the same time offering an eco‐friendly fuel synthesis process which
produces water vapor as a by‐product during combustion with oxygen. Hydrogen could
generate electrical power with the assistance of fuel cells. However, an external storage
2
hydrogen tank is needed to supply the hydrogen to the fuel cell which becomes a barrier to
the mobile application of hydrogen as a fuel source. Approximately 4 kg of hydrogen is needed
by light fuel cell vehicles to reach a distance of 400 km [1]. Nonetheless, at ambient
temperature and atmospheric pressure, 1 kg of hydrogen in the gas form will occupy a volume
of 11 m3 [2]. Consequently, 4 kg of hydrogen will be an equivalent of a ball with 5 m diameter
which is very unpractical for mobile application [1]. Consequently, researches are conducted
to study to discover materials that store hydrogen in small volume with high capacity.
The fundamental purpose of hydrogen storage technology is to pack hydrogen particles as
close as possible to reach a high volumetric density by utilizing a minimum amount of
additional materials [1,3]. To be utilized on the mobile application, the US Department of
Energy has established several target criteria for hydrogen storage system to be reached by
2025 [4,5], which includes: (i) High gravimetric absorption capacity (>5.5 wt% or 1.8 kWh/kg)
and volumetric capacity (>0.040kg H2/L system or 1.3 kWh/L), (ii) Moderate operational
temperature ranging from ‐40 to 850 C, (iii) reversibility of absorption/desorption thermal
cycles, (iv) economical price, (v) low toxicity, and (vi) high safety and security (low operational
pressure). There are several methods for storing hydrogen namely high‐pressure gas
cylinders, liquid hydrogen in cryogenic tanks, physisorption, and absorbed on interstitial sites
in host metal. When comparing the properties of these storage methods, high‐pressure gas
cylinder holds the highest hydrogen capacity (13 mass%) at room temperature, however, the
stored hydrogen will be available at a very high pressure (800 bar) which present a safety risk
to the vehicle and its’ passengers. Hydrogen that is absorbed on interstitial sites in host metal
(metal hydrides) on the other hand enables the storage in room temperature and
atmospheric pressure but with low a rather low hydrogen capacity, therefore metal hydrides
are often studied to increase its hydrogen storage capacity.
Metal hydride is formed when hydrogen interacts with metals. Metal hydrides can be
differentiated into ionic or saline hydride, covalent hydride, and intermetallic hydride [6], with
intermetallic hydride being the type of metal hydride that possess suitable properties to be
used as a hydrogen carrier. Equation 1 shows the reaction between intermetallic alloy ABZ
with hydrogen gas,
𝐴𝐵 𝑥𝐻 ↔ 𝐴𝐵 𝐻 Δ𝑄 (1)
with ΔQ being the amount of heat released during the hydrogen absorption process, which is
usually characterized by enthalpy difference (ΔH) and entropy difference (ΔS) calculated using
the Van’t Hoff Law with the values obtained from the pressure‐composition‐temperature
(PCT) isotherms. Generally, element A will form a stable binary hydride when the element
consists of transition metals, such as Ti and Zr [6]. Element B on the other hand, such as Ni,
Co, Cr, Fe, Mn, and Al, is non forming hydride elements [6]. Intermetallic hydride is
characterized into 5 families of metal hydrides namely A, A2B, AB, AB2, and AB5. Among these
family groups, AB2 metal hydride is potential for hydrogen storage and battery applications.
AB2 metal hydrides enable a larger hydrogen storage capacity due to its utilization of a
relatively lighter transition metal. AB2 compound is formed by a combination of different
elements. AB2 composes of element A can that be formed by group 4 (Ti, Zr, Hf) or lanthanoids
3
(La, Ce, Pr, etc.), while B can be formed by transition and non‐transition metals with V, Cr,
Mn, and Fe as the more preferred element [7]. Feng et al. [8] contended that element A can
be formed by Mg, Zr, and Ti, while B can be formed by V, Cr, Mn, and Ni. Theoretically,
element A will form a very stable hydride which is translated into a very high operational
temperature. To overcome this issue, element A is being alloyed with element B which forms
an unstable hydride that can adjust the operational temperature and yield other desirable
properties [9]. AB2 metal hydride’s form depends on their alloying element composition, with
the majority being cubic structured, C14 and or hexagonal structure, C15. Each crystal
structure affects differently towards the properties of the hydrides [10–14].
The development of informatics and data science technology has led to the integration of
machine learning methods with materials science [15–18]. The machine learning algorithm
aims at optimizing the performance of a certain task by utilizing examples from past
experiences [19]. Machine learning can be divided into three categories namely supervised
learning, unsupervised learning, semi‐supervised learning, and reinforcement learning.
Supervised learning is principally is a data fitting process where the model will try to find an
unknown function to connect the input variables obtaining an unknown output variable. The
result is estimated by extrapolating the pattern found on the labeled data to be used to train
the model. Unsupervised learning focuses more on finding a pattern from a group of
unlabeled data which has the same concept as sample grouping. Semi‐supervised learning
combines a small amount of labeled data with a large amount of unlabeled data during
training. While the reinforcement learning objective is to analyze a certain problem to find
the most optimum result. Supervised learning is the most used method on materials science
as most of the input variables have a known label such as the type of element and atomic
number.
In the previous study, metal hydride researchers used database that has been pre‐collected
from experimental results, i.e, HydPARK database collected by the US Department of Energy.
Machine learning methods has been known to be useful for analyzing the HydPARK database
for classification of the materials and the properties [20–23]. Rahnama et al. [20,21] showed
that boosted decision tree model being the model with the best performance out of three
other models (bayesian linear regression, neural network regression, and linear regression)
for materials classification in terms of heat of formation and hydrogen content. Hattrick‐
Simpers et al. [23] used the same database for materials selection for metal hydride
compressor. Recent work by Witman et al. [22] using the similar database gave deep analysis
on the relation between fundamental properties of alloy to the hydride properties.
Surprisingly, molecular volume of alloys is the most important predictor to the
thermodynamic which is in agreement with previously developed empiric model [24–26].
In the present work we collected data from previous research that focuses on AB2 metal
hydrides. We built machine learning model to relate chemical compositions of AB2 to
hydrogen storage properties, i.e, the heat of formations (ΔH), phase abundance, and
hydrogen weight percent (wt% H). The aim was to obtain a new insight on the role of elements
to the hydrogen storage properties. At the end, the insight can be used by researchers to
guide their experimental work to design AB2 alloys.
4
II. METHODS
A. Dataset
This study utilizes the data obtained from previous published research. This data and the
reference are given in supplementary information. We obtained 314 pairs of AB2 alloys which
contain the information of the alloying elements of the alloys, and the hydrogen storage
properties consisting of ΔH absorption (in KJ/(molH2K)), phase abundance (in %), as well as
the hydrogen storage capacity (in wt%). It is important to point out that some of the ΔH of
these alloy pairs are not explicitly written in the papers, yet they are being implicitly explained
in the Pressure‐Composition diagram. For the aforementioned issue, we conducted manual
calculation using the Van’t Hoff Law expressed in equation 2.
𝑙𝑛𝑃 (2)
The calculation was conducted by selecting a mid‐point from the plateau of Pressure‐
Composition graph to obtain the equilibrium pressure information to obtain the value of ΔH.
With R being the universal gas constant and the temperature value is constant in the Pressure‐
Composition graph. As for the unknown value of ΔS, it can be assumed as 110 KJ/(mol H2 K)
for the absorption process.
Two types of variables were used as illustrated in Fig. 1. Twenty‐two alloying elements were
used as the input namely Ti, Zr, Ho, Mn, Co, Cr, V, Ni, Sn, Al, C, Mg, Gd, Fe, B, Cu, Mo, W, La,
Si, Nb, and Ce. While ΔH, phase abundance, percent mass hydrogen, and the effect of each
alloying element were used as the output variables. The aim was to identify the individual
element effects. Another analysis was done were elements is grouped into A, and B to study
the effect of the stoichiometric effect (A/B) to the hydrogen storage properties.
B. Machine Learning Methods
Prior to the machine learning analysis, the data underwent an initial analysis to select the
appropriate data to be exported to Python for machine learning analysis. The initial analysis
was done by developing ranks for each input variable based on the prevalence of each
element on the alloys. Elements with low prevalence were eliminated to decrease the
detrimental effects on the performance of the models. We remove all dataset rows that
possess elements with values equal zero to increase the performance of the models as part
of features engineering for the dataset with the ungrouped elements. While the dataset with
the grouped elements did not undergo the aforementioned analysis as none of the input
variables possess values equal to zero.
5
Figure 1. Illustration of steps and analysis during the study
The dataset was then exported to Python as Microsoft Excel (xlsx) file by utilizing the Pandas
library. Multicollinearity test was conducted to check whether one input variables possess
high collinearity with the other input variables, to prevent the redundancies which can lead
to statistically insignificant variables. The multicollinearity test was conducted by utilizing the
correlation matrix between each input variable. The result was presented on a heat map to
ease out the visualization of the variables that possess multicollinearity which will be shown
by a darker color on the heat map. Subsequently, outlier detection and removal were done
to prevent a disproportional effect on the statistical result of the data which may lead to
model misinterpretations. The detection was done by adding a new metric that calculates 3 standard deviation from the mean value of each variable. The data outside this range were
considered as outliers and were ought to be eliminated. To standardize the range of features
of the data, feature scaling was overseen by the assistance of StandardScaler function of
Scikit‐learn.
The dataset was divided into training/validation/testing set (0.70/0.15/0.15). Three machine
learning algorithms were employed to analyze the data. The first algorithm being multivariate
linear regression which was chosen since linear regression is the simplest method in data
analytics to determine the relationship between existing variables. We do realize that there
might be non‐linear patterns within the data, consequently, we employ decision tree as the
second algorithm which enables us to reveal the non‐linear relationship within the data
should it exists, and random forests which analyze the combination of different decision trees
as the third algorithm to deal with the possibility that the performance may increase when
more than one tree is being applied. During the process of building the tree we set the
minimum number of instances in leaves to be 1, the subsets smaller than 5 will not be split,
6
the maximum tree depth was limited to 100, and the regression is set to stop when the
majority reaches 95%. To build the random forest models, we tested a range between 0 and
100 trees and selected the number of trees that could yield the highest prediction
performance for each output. We obtained 21, 8, 32, and 7 trees for ΔH, C14 phase
abundance, and the hydrogen capacity respectively. The models were evaluated by the
average R2 score obtained from the summation of the R2 training, R2 validation, and R2 testing
scores divided by three to measure the overall performance of the trained models as well as
error metrics which consist of mean absolute error (MAE) and root mean square error (RMSE)
to study the model behavior on predicting a new set of data. It should be noted that the result
of the prediction will only be verified using the validation and testing set, instead of utilizing
a new dataset from a new experiment, and that the model is only capable to predict values
inside the range of the training set for all of the target variables.
III. RESULTS AND DISCUSSIONS
Figure 2. Element Prevalence of Alloys for (a) Original Data and (b) After Initial Analysis Elimination
Initially, we obtained 314 pairs of alloys in the dataset, where each alloy contains different
elements. The initial analysis conducted in the dataset resulted in prevalence presented on
the bubble graph as seen in Fig. 2a, the number below the name of the element represents
the number of alloys that contain the elements. From the graph, we can observe small‐sized
bubbles that don’t have element information. It indicates that only a small number of alloys
contain those elements. The presence of these elements is undesirable on a machine learning
analysis as it may disrupt the performance of the model. Hence, 8 elements with the highest
prevalence namely Ti, Zr, Mn, Cr, V, Ni, Co, and Sn are kept, while the rest are eliminated as
shown in Fig. 2b.
(a) (b)
7
Figure 3. Results for Multicollinearity Test
The multicollinearity analysis yields the heat map as shown in Fig. 3. The heat map reveals
that Ti and Zr have a very high correlation. In the dataset utilized for the analysis, Ti and Zr
are the only elements that forms element A on AB2. Therefore, Ti and Zr are inversely
proportional to one another. As the addition of Ti with Zr equals to element A, when Ti value
increases, Zr value will automatically decrease resulting in a high correlation value shown by
the dark red color on the top left corner of the heat map. However, as this is a normal thing
in the case of AB2 metal hydrides, Ti and Zr won’t be eliminated from the dataset.
Outlier detection and elimination were conducted. The overall data preprocessing results in
the final datasets that were ready to be used for the machine learning analysis. The amount
of final dataset is 86 pairs of datasets, while when it is grouped into A and B variable, it consists
of 234 pairs of datasets.
Table 1 Evaluation for ML models for ΔH
Evaluation Metric Multivariate Regression
Decision Tree Random Forest
R2 Training Set R2 Validation Set R2 Testing Set Average R2
MAE RMSE
0.478 0.055 0.569 0.367 4.61 5.51
0.868 ‐0.05 0.22 0.346 5..9 7.39
0.819 0.591 0.531 0.647 4.36 5.75
Table 2. Evaluation for ML models for Phase Abundance
Evaluation Metric Multivariate Regression
Decision Tree Random Forest
R2 Training Set R2 Validation Set R2 Testing Set Average R2
MAE RMSE
0.419 0.292 0.633 0.448 11.5 13.3
0.966 0.788 0.603 0.785 8.48 13.8
0.893 0.819 0.786 0.832 22.4 25.6
8
Table 3. Evaluation for ML models for H capacity
Evaluation Metric Multivariate Regression
Decision Tree Random Forest
R2 Training Set R2 Validation Set R2 Testing Set Average R2
MAE RMSE
0.741 0.608 0.654 0.667 0.0968 0.12
0.989 0.113 0.392 0.498 0.0894 0.159
0.928 0.521 0.615 0.688 0.101 0.126
Model evaluation for each algorithm was presented in Table 1‐3. The analysis performed to
predict the value of ΔH, phase abundance, and the hydrogen capacity shows more superior
performance for the random forest algorithm on all hydrogen storage properties compared
to the other algorithms, with an average R2 value of 0.647, 0.832, and 0.688 for ΔH, phase
abundance, and the hydrogen capacity accordingly. Though being the model with the most
superior performance, the prediction of the random forest model is considered to be fairly
weak for ΔH and hydrogen capacity as the R2 values are lower than 0.70. However, the
insignificant decrease of R2 value for validation set compared to the training set shows that
the overfitting occurred on the random forest models aren’t very significant to cause a
detrimental effect on the prediction. The overall value of MAE and RMSE for ΔH, and phase
abundance is fairly high considering that the values are much larger than 0. While the MAE
and RMSE value for hydrogen capacity prediction is considered to be satisfactory. Despite the
large error value for ΔH, and phase abundance prediction, during the observation of the
9
actual and predicted value plot as shown in Fig. 4, visual observation shows that the
difference between the actual values and the predicted values are fairly small.
Figure 4. Actual and Predicted Values Plot for (a) ΔH Absorption, (b) C14 Phase Abundance and (c) Hydrogen Capacity
For the ΔH prediction, all models failed to predict the highest actual ΔH value of 56 KJ/(mol
H2 K). However, the decision tree model is capable to generate a close prediction of the lowest
ΔH value with the predicted value being 10 KJ/(mol H2 K) and the actual value being 7 KJ/(mol
H2 K). As for the phase abundance prediction, it became very difficult for the model to predict
100% and 0% abundance since those values are located far from the median. However, from
Fig. 5c, it can be seen that on the 75th and 76th alloys, the decision tree model successfully
a)
b)
c)
10
predicted the 0% phase abundance of C14. In theory, it is expected that the value of R2 for
the validation set is higher than the value of R2 for the testing set, we can notice that this is
not the case for some of the evaluation results such as in the prediction of ΔH for the
ungrouped dataset using the decision tree model. The reason for this occurrence is because
the testing set might contain easier data to predict, while the validation test contains
strenuous cases to learn.
Considering that the consequences of the prediction error are low, since the model will only
be utilized for experiments which will furthermore be studied as well as tested, and given the
fact that overfitting occurred on the random forest model is insignificant, we may argue that
the prediction results can be accepted to be utilized as a baseline of further research and
experiments to predict the hydrogen storage properties prior to the experiment.
Figure 5. Linear Regression‐Based Regression of Element Effects on (a) ΔH Absorption, (b) C14 Phase Abundance and (c) Hydrogen Capacity.
The effects of each element to the properties of the hydride are presented in Fig.5 for the
linear regression‐based regression and in Fig. 6 for the decision tree‐based regression. The
elements with the blue‐colored bar in Figure 5 indicate that the element increases the value
of the hydrogen storage properties, while the elements with the red‐colored bar are the
contrary, with the determination being based on the value of R score. On Figure 6, the
elements with the higher position on the decision tree indicates more contribution to the
determination of the value of the hydrogen storage properties accordingly. The decision tree‐
a) b)
c)
11
based regression gave a more beneficial feature, where it is possible to evaluate the range of
amount for each element that will either increase or decrease the storage properties as well
as the element that doesn’t contribute to the values of the storage properties, for example
from Fig.7a, we can see that above the value of 1.19111, Ni will decrease the value of ΔH and
vice versa. For ΔH, the linear regression‐based regression yields Cr as the element with the
highest contribution on increasing the value of ΔH, while Ni being the element with the
highest contribution on the desirable decrease of ΔH value as shown in Figure 5a. The decision
tree‐based regression gave similar results with linear‐based regression where Ni is the
element with highest contribution to decrease the value of ΔH and Cr as the highest
contributor to increase the ΔH value. It also reveals that Zr doesn’t give any contribution to
determine the value of ΔH with Zr being eliminated from the decision tree as shown in Figure
6a. In the practice, Ni and Cr is not hydride forming which could explain their contribution in
lowering the formation energy.
Figure 6. Decision Tree‐Based Regression of Element Effects on (a) ΔH Absorption, (b) C14 Phase Abundance, and (c) Hydrogen Capacity
a)
b)
c)
12
The regression for phase abundance based on linear regression resulted in Mn being the
element with the highest contribution on increasing the abundance of C14, while Ni being the
contrary. Previous research by K. Young et al. [13] shows that the addition of Mn on metal
hydride alloys will instead decrease the C14 phase abundance as Mn contributes on creating
a reactive surface which promotes the formation of C15. Therefore, we argue that the linear
model has given inaccurate prediction on Mn being the element that promotes C14 formation
as the addition of Mn should have decrease the C14 formation. It is known that alloys that
contains C14 is more difficult to activate compared to C15 alloys [13], which correlates with
the practical utilization of Ni as a catalyst, hence, the modeling result regarding Ni being the
element that decrease C14 formation which automatically increase C15 formation could be
justified. Unlike linear regression, the decision tree regression as shown in Fig. 6b indicates
that Cr is the most influential element to increase C14 abundance. The stipulation whether
C14 or C15 will be formed lies on the value of e/a, which is the value of the summation of
valence electrons of all atoms over the number of atoms. The value of e/a could be adjusted
by varying the elements of the alloy. Below the e/a value of 6.9, C14 will start to form and
vice versa. It is known that C15 phase will stabilize with the reduction of Cr content [13,27],
which could explain the influence of Cr on the abundance of C14. The decision tree on Figure
6c generates the same results.
For hydrogen capacity, the linear regression yields Mn as the best element to increase the
hydrogen capacity, and Ni being the worst to increase the capacity. The decision tree
generates the same results. The theory that could determine the hydrogen capacity of metal
hydrides is a higher volume of unit cell will lead to smaller compression or chemical potential
of the hydrogen atoms inside the crystal. Manganese would cause an increase in the unit cell
volume, hence, creating a smaller potency for hydrogen to escape the metal hydrides which
creates larger hydrogen capacity [28]. If we compare the elements that influence the
hydrogen capacity with the elements that influence the heat of formation, it can be seen that
a higher hydrogen capacity will come at the cost of an undesirable higher heat of formation,
and vice versa.
A. Grouped A and B Dataset
Multivariate linear regression model failed to predict all variables as shown by very low R2
scores of 0.049, 0.067, and 0.165 for ΔH, phase abundance, and the hydrogen capacity
accordingly. These low R2 scores suggest that the grouped A and B dataset are not suitable to
be fitted using multivariate linear regression model. On the contrary, the modeling by
decision tree and random forest algorithms yield higher R2 scores and even satisfactory
results R2 scores valued above 0.70 for ΔH prediction. The comparison resulted in the decision
tree algorithm being the superior model to predict phase abundance, random forest model
being the superior one to predict ΔH, and multivariate regression being the best to predict
the hydrogen capacity. The regression of B/A effect on the storage properties was analyzed
using linear regression as shown in Fig. 7. The value B/A is inversely proportional to the value
of ΔH as seen on Fig. 7a. Theoretically, element A will form a very stable hydride with the cost
of the increasing value of formation energy [6]. This underlain the addition of element B to
the alloy which will lower the formation energy. The model successfully described this theory.
The value of B/A is directly proportional to the increasing number of C14 abundance. The
13
addition of element B will increase the value of e/a which theoretically drives the formation
of C15 phase to some degree as there are boundary for laves phase formation. While for
hydrogen capacity regression, the modeling result shows that B/A gave a very small effect on
the hydrogen capacity value.
Figure 7. Linear Regression Result of B/A on (a) ΔH, (b) C14 Phase Abundance, and (c) Hydrogen Capacity
IV. CONCLUSIONS
The analysis of the dataset resulted in the random forest being the algorithm that
outperforms the other models for all properties prediction with the highest R2 scores, with
the regression of each element reveals Ni as the most desirable element to decrease the heat
of formation, while Cr and Mn being the most contributive element on increasing the C14
a)
b)
c)
14
abundance and hydrogen capacity respectively. It is found that increasing hydrogen capacity
by adjusting the alloying element will come at the cost of higher heat of formation value. The
modeling for grouped A and B datasets yields decision tree algorithm being the best model to
predict phase abundance, random forest model being the best to predict ΔH, and multivariate
regression being the best to predict the hydrogen capacity. The regression of B/A showed an
inversely proportional relation with ΔH, directly proportional relation with C14 phase
abundance, and no relation with hydrogen capacity. The rather high error values and
overfitting on both datasets may be tolerated considering the low consequences imposed by
prediction errors.
ACKNOWLEDGMENTS
The present work was funded by High Impact Research Scheme Institut Teknologi Sepuluh
Nopember (ITS) 2020.
REFERENCES [1] Schlapbach L, Züttel A. Hydrogen-storage materials for mobile applications. Nature 2001;414:353–8.
https://doi.org/10.1038/35104634. [2] Züttel A. Materials for hydrogen storage. Materials Today 2003;6:24–33. https://doi.org/10.1016/S1369-
7021(03)00922-2. [3] Bannenberg LJ, Heere M, Benzidi H, Montero J, Dematteis EM, Suwarno S, et al. Metal (boro-) hydrides
for high energy density storage and relevant emerging technologies. International Journal of Hydrogen Energy 2020;45:33687–730. https://doi.org/10.1016/j.ijhydene.2020.08.119.
[4] Graça Araújo CM. Hydrogen storage materials: design, catalysis, thermodynamics, structure and optics. Acta Universitatis Upsaliensis, 2008.
[5] US DOE. Target Explanation Document: Onboard Hydrogen Storage for Light-Duty Fuel Cell Vehicles n.d. https://www.energy.gov/sites/prod/files/2017/05/f34/fcto_targets_onboard_hydro_storage_explanation.pdf (accessed October 5, 2020).
[6] Hirscher M, editor. Handbook of hydrogen storage: new materials for future energy storage. Weinheim: Wiley-VCH; 2010.
[7] Sandrock G. A panoramic overview of hydrogen storage alloys from a gas reaction point of view. Journal of Alloys and Compounds 1999;293–295:877–88. https://doi.org/10.1016/S0925-8388(99)00384-9.
[8] Feng F. Electrochemical behaviour of intermetallic-based metal hydrides used in Ni/metal hydride (MH) batteries: a review. International Journal of Hydrogen Energy 2001;26:725–34. https://doi.org/10.1016/S0360-3199(00)00127-0.
[9] Klebanoff L. Hydrogen Storage Technology: Materials and Applications. 2016. [10] Huot J, Akiba E, Ogura T, Ishido Y. Crystal structure, phase abundance and electrode performance of
Laves phase compounds (Zr, A) V0. 5Ni1. 1Mn0. 2Fe0. 2 (A$\equiv$ Ti, Nb or Hf). Journal of Alloys and Compounds 1995;218:101–109.
[11] Huot J, Akiba E, Iba H. Crystal structure and phase composition of alloys Zr1 − xTix(Mn1 − yVy)2. Journal of Alloys and Compounds 1995;228:181–7. https://doi.org/10.1016/0925-8388(95)01884-0.
[12] Cuevas F, Joubert J-M, Latroche M, Percheron-Guégan A. Intermetallic compounds as negative electrodes of Ni/MH batteries: Appl Phys A 2001;72:225–38. https://doi.org/10.1007/s003390100775.
[13] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.
[14] Young K-H, Nei J, Wan C, Denys R, Yartys V. Comparison of C14- and C15-Predomiated AB2 Metal Hydride Alloys for Electrochemical Applications. Batteries 2017;3:22. https://doi.org/10.3390/batteries3030022.
[15] Chen C, Zuo Y, Ye W, Li X, Deng Z, Ong SP. A Critical Review of Machine Learning of Energy Materials. Advanced Energy Materials 2020;10:1903242. https://doi.org/10.1002/aenm.201903242.
[16] Liu Y, Zhao T, Ju W, Shi S. Materials discovery and design using machine learning. Journal of Materiomics 2017;3:159–77. https://doi.org/10.1016/j.jmat.2017.08.002.
15
[17] Ward L, Dunn A, Faghaninia A, Zimmermann NER, Bajaj S, Wang Q, et al. Matminer: An open source toolkit for materials data mining. Computational Materials Science 2018;152:60–9. https://doi.org/10.1016/j.commatsci.2018.05.018.
[18] Correa-Baena J-P, Hippalgaonkar K, van Duren J, Jaffer S, Chandrasekhar VR, Stevanovic V, et al. Accelerating Materials Development via Automation, Machine Learning, and High-Performance Computing. Joule 2018;2:1410–20. https://doi.org/10.1016/j.joule.2018.05.009.
[19] Alpaydin E. Introduction to machine learning. 2nd ed. Cambridge, Mass: MIT Press; 2010. [20] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen
storage, part II: Prediction of material class. International Journal of Hydrogen Energy 2019;44:7345–53. https://doi.org/10.1016/j.ijhydene.2019.01.264.
[21] Rahnama A, Zepon G, Sridhar S. Machine learning based prediction of metal hydrides for hydrogen storage, part I: Prediction of hydrogen weight percent. International Journal of Hydrogen Energy 2019;44:7337–44. https://doi.org/10.1016/j.ijhydene.2019.01.261.
[22] Witman M, Ling S, Grant DM, Walker GS, Agarwal S, Stavila V, et al. Extracting an Empirical Intermetallic Hydride Design Principle from Limited Data via Interpretable Machine Learning. J Phys Chem Lett 2020;11:40–7. https://doi.org/10.1021/acs.jpclett.9b02971.
[23] Hattrick-Simpers JR, Choudhary K, Corgnale C. A simple constrained machine learning model for predicting high-pressure-hydrogen-compressor materials. Mol Syst Des Eng 2018;3:509–17. https://doi.org/10.1039/C8ME00005K.
[24] Lundin CE, Lynch FE, Magee CB. A correlation between the interstitial hole sizes in intermetallic compounds and the thermodynamic properties of the hydrides formed from those compounds. Journal of the Less Common Metals 1977;56:19–37. https://doi.org/10.1016/0022-5088(77)90215-6.
[25] Mendelsohn MH, Gruen DM, Dwight AE. The effect of aluminum additions on the structural and hydrogen absorption properties of AB5 alloys with particular reference to the LaNi5−xAlx ternary alloy system. Journal of the Less Common Metals 1979;63:193–207. https://doi.org/10.1016/0022-5088(79)90243-1.
[26] Reilly JJ, Adzic GD, Johnson JR, Vogt T, Mukerjee S, McBreen J. The correlation between composition and electrochemical properties of metal hydride electrodes. Journal of Alloys and Compounds 1999;293–295:569–82. https://doi.org/10.1016/S0925-8388(99)00413-2.
[27] Zhu JH, Liaw PK, Liu CT. Effect of electron concentration on the phase stability of NbCr2-based Laves phase alloys. Materials Science and Engineering: A 1997;239–240:260–4. https://doi.org/10.1016/S0921-5093(97)00590-X.
[28] Souza EC, Ticianelli EA. Effect of partial substitution of nickel by tin, aluminum, manganese and palladium on the properties of LaNi5-type metal hydride alloys. J Braz Chem Soc 2003;14:544–50. https://doi.org/10.1590/S0103-50532003000400009.