Photobucket

Rabu, 03 Juli 2013

Chapter 22 Scientific Data Management in the Cloud: A Survey of Technologies, Approaches and Challenges



Ilmu eksperimental membuat data dalam jumlah besar. Dalam astronomi, data yang dihasilkan oleh proyek Pan-STARRS) diharapkan dapat menghasilkan lebih dari satu petabyte gambar setiap tahun. Dalam fisika energi tinggi, Large Hadron Collider akan menghasilkan 50-100 petabyte data setiap tahunnya, dengan sekitar 20 PB bahwa data yang disimpan dan diproses pada federasi dunia grid nasional menghubungkan 100.000 Cloud computing sangat menarik bagi komunitas ilmiah , yang semakin melihatnya sebagai bagian dari solusi untuk mengatasi berkembang volume data.
Cloud computing memungkinkan skala ekonomi dalam desain fasilitas dan konstruksi hardware. Kelompok pengguna yang diizinkan menjadi tuan rumah, proses, dan menganalisa volume besar data dari berbagai sumber. Ada beberapa vendor yang menawarkan platform komputasi awan, ini termasuk Amazon Web Services, Google App Engine, AT & T Synaptic Hosting, Rackspace, GoGrid dan. Vendor ini menjanjikan gunung yang tampaknya tak terbatas daya komputasi dan penyimpanan yang dapat dibuat tersedia pada permintaan, di bayar hanya untuk apa yang Anda gunakan model harga.
Komunitas ilmu memiliki pengalaman substansial dalam menangani masalah manajemen data dalam lingkungan komputasi terdistribusi. Data Grids, yang didasarkan pada paradigma komputasi grid, telah menyediakan penyimpanan data ilmiah skala besar dengan dukungan untuk penemuan data dan akses atas grid. Demikian pula, banyak cyberinfrastructures dan gateway menyediakan skema mereka sendiri berskala manajemen data untuk memenuhi persyaratan spesifik domain.


Manajemen Data Dalam Percobaan Ilmiah
Manajemen data dalam komputasi ilmiah melibatkan data capture, kurasi, dan analisis dataset. Banyak data ini dihasilkan oleh instrumen observasional atau eksperimental seperti teleskop survei, doppler radar, satelit, dan akselerator partikel seperti Large Hadron Collider. Mengumpulkan sejumlah besar data dari instrumen ini kadang-kadang dapat menyebabkan masalah dalam data mencerna dan mentransfer fase. Mengintegrasikan data dari sumber data yang beragam juga menjadi tantangan karena perbedaan dalam pola pengiriman data serta heterogenitas dalam format data. Selain itu, data juga dihasilkan selama fase komputasi dan selama simulasi berjalan. Selanjutnya, di samping data eksperimen, hasil dan publikasi apapun diproduksi karena eksperimen ini juga dikumpulkan dan dikelola sebagai bagian dari data ilmiah
Analisis data dan simulasi sering melibatkan visualisasi. Data yang dikumpulkan pada umumnya disimpan sebelum sedang diakses oleh analisis data atau proses visualisasi. Proses kurasi melibatkan ekstraksi informasi yang efisien selain organisasi data termasuk pengindeksan dan replikasi. Pertimbangan terkait adalah pelestarian jangka panjang dari data yang dikumpulkan.

Data Clouds: Perpaduan Teknologi
Dataset skala PETA menimbulkan tantangan baru. Di sini, sistem file harus mampu mengelola miliaran file beberapa yang mungkin mereka sendiri beberapa terabyte panjang. Untuk mengatasi hal ini sebuah sintesis dari sistem database dan file sistem telah diusulkan di sini, hirarki file yang akan diganti dengan database katalogisasi berbagai atribut setiap file.
Pemrograman Peta-Mengurangi Model oleh Google memungkinkan pemrosesan konkuren dari dataset tebal pada sejumlah besar mesin. Perhitungan dan data mereka beroperasi pada collocated pada mesin yang sama. Jadi perhitungan hanya perlu melakukan disk lokal I / O untuk mengakses data input. Peta-Mengurangi juga dapat dianggap sebagai contoh dari model SPMD dalam komputasi paralel.


Studi Kasus: Memanfaatkan Cloud Data Ilmiah Manajemen Data
Satu dekade terakhir telah melihat tantangan baru muncul di area komputasi ilmiah. Volume data mendukung beberapa tantangan ini. Hal ini sangat umum bagi para ilmuwan domain untuk bekerja dengan dataset di urutan cenderung terabyte. Dengan cara yang sama, tidak jarang untuk volume data yang berada di urutan petabyte. Masalah berasal dari kenyataan bahwa waktu akses dan kecepatan transfer untuk komoditas hard drive tidak terus berpacu dengan perbaikan dalam kapasitas mereka. Beberapa ini berasal dari sifat elektro-mekanis dari disk drive.
Masalah lebih diperburuk oleh fakta bahwa proses bersamaan untuk data ini juga menjadi komputasi intensif. Untuk satu set N titik data kompleksitas pemrosesan bisa menjadi super-linear. Pengolahan data juga dapat memerlukan koneksi multiple ke dataset yang mendasari. Ada beberapa aplikasi ilmiah yang mengadopsi teknologi cloud data untuk mengatasi tantangan komputasi data-intensif mereka.


Kesimpulan
Cloud computing menawarkan keuntungan yang jelas, seperti co-mencari data dengan perhitungan dan skala ekonomi di hosting layanan. Sementara platform ini jelas tampil sangat baik untuk penggunaan yang dimaksudkan mereka saat ini di mesin pencari atau hosting yang elastis situs Web komersial, peran mereka dalam komputasi ilmiah masih berkembang. Dalam beberapa skenario analisis ilmiah, data perlu menjadi dekat dengan percobaan. Dalam kasus lain, node harus terintegrasi dengan latency yang sangat rendah, sedangkan dalam beberapa kasus I / O bandwidth tinggi diperlukan.
Ada kecenderungan yang kuat untuk memindahkan data ilmiah untuk awan. Kami berharap tren ini akan berlanjut dan mempercepat di masa depan. Karena semakin banyak sistem yang mulai menggunakan data cloud kami berharap bahwa persoalan yang digarisbawahi dalam bagian sebelumnya akan menjadi semakin penting, dan juga menjadi daerah di mana akan ada banyak kegiatan penelitian.