Rabu, 30 Juli 2025
Selular.ID -

Harvard Merilis Kumpulan Data Domain Publik untuk Pelatihan AI

BACA JUGA

SELULAR.ID – Perpustakaan Fakultas Hukum Universitas Harvard mengumumkan, akan merilis hampir 1 juta buku domain publik, sebagai dataset untuk melatih model AI. Proyek ini disebut Inisiatif Data Institusional (IDI) Harvard, sebagai tonggak baru dalam menjembatani dunia institusi pengetahuan dengan komunitas AI.

Inisiasi dari Harvard tersebut bertujuan untuk meratakan peluang bagi para peneliti dan startup AI dengan menyediakan akses ke data pelatihan berkualitas tinggi yang tersedia secara terbuka. Proyek IDI Harvard dalam permulaannya telah didanai oleh Microsoft dan OpenAI.

IDI Harvard fokus untuk merancang dan merilis koleksi data yang dapat mendukung pengembangan AI, sekaligus menjaga prinsip aksesibilitas dan pengelolaan data yang bertanggung jawab, terutama taat pada aturan hukum.

Untuk mengawali perilisan buku tersebut, Harvard melakukan pemindaian untuk buku-buku melalui proyek Google Books. Inisiasi ini sangat bermakna di bidang penelitian dan pengembangan ilmu, terutama yang berkaitan langsung dengan AI.

Baca juga: Google Bagikan Kata Kunci yang Paling Laris Tahun 2024

Selama ini, data pelatihan berkualitas tinggi masih menjadi komponen utama dalam membangun model AI, tetapi akses terhadap data seperti ini sering kali hanya dimiliki oleh perusahaan teknologi besar dengan dana melimpah. IDI mencoba mengubah keadaan dengan menawarkan dataset yang dikurasi dengan baik kepada peneliti, startup, dan pengembang open-source.

Mengutip Maginative, Direktur Eksekutif IDI, Greg Leppert mengatakan, proyek ini mendemokratisasi pengembangan teknologi. Diharapkan, buku yang akan dirilis bisa se-transformasional Linux. Linux yang merupakan sistem operasi open source telah merevolusi dunia teknologi.

Selain dataset buku, IDI Harvard juga bekerja sama dengan Perpustakaan Umum Boston untuk mendigitalkan jutaan artikel surat kabar dari domain publik. Proyek ini menghadapi tantangan teknis seperti mengekstrak teks secara akurat dari tata letak koran yang kompleks.

Langkah ini menunjukkan ambisi IDI untuk memperluas akses ke sumber daya pengetahuan yang beragam dan merepresentasikan budaya, yang pada akhirnya dapat mendukung pengembangan sistem AI yang lebih inklusif.

Era AI pada awal 2024 sangat berkembang pesat. Hal ini juga diramaikan dengan masih belum adanya ketetapan hukum soal pengambilan informasi AI dari sejumlah media massa, penulis, hingga bidang lain yang memiliki hak cipta.

Inisiasi IDI Harvard diharapkan bisa menawarkan alternatif legal yang transparan, bisa menggantikan, bukan sekadar melengkapi pada praktik pengambilan data tanpa izin demi memastikan etika dalam pengembangan AI.

Ikuti informasi menarik lainnya dari Selular.id di Google News

- Advertisement 1-

BERITA TERKAIT

BERITA PILIHAN

BERITA TERBARU