Ketidakmampuan AI mengenali jumlah huruf “r” dalam kata “strawberry” menjadi contoh nyata bahwa meskipun AI tampak canggih, ia masih memiliki keterbatasan signifikan.
Di tengah pesatnya perkembangan teknologi kecerdasan buatan (AI), sebuah fenomena menarik muncul yang mengungkapkan keterbatasan mendasar AI: ketidakmampuannya mengeja kata sederhana seperti “strawberry” dengan benar. Meski mampu menulis esai dan memecahkan persamaan matematika dalam hitungan detik, model bahasa besar (LLM) seperti GPT-4 dan Claude sering kali keliru dalam memahami struktur dasar kata.
Dilansir dari Tech Crunch (28/8), kesalahan ini menjadi bahan lelucon di internet, dengan banyak pengguna media sosial membagikan kegagalan AI dalam mengeja kata yang seharusnya mudah. Ketidakmampuan AI mengenali jumlah huruf “r” dalam kata “strawberry” menjadi contoh nyata bahwa meskipun AI tampak canggih, ia masih memiliki keterbatasan signifikan dalam hal-hal yang tampak sederhana bagi manusia.
Matthew Guzdial, seorang peneliti AI dan asisten profesor di University of Alberta, menjelaskan bahwa masalah ini berasal dari cara kerja LLM yang berbasis arsitektur transformer. “Model ini tidak benar-benar ‘membaca’ teks seperti yang dilakukan manusia. Saat menerima masukan berupa teks, AI menerjemahkannya menjadi encoding yang mewakili makna, bukan huruf per huruf,” ujarnya.
Arsitektur transformer yang digunakan oleh LLM memecah teks menjadi token—yang bisa berupa kata, suku kata, atau huruf—tetapi tidak menangani teks dalam bentuk aslinya. Ini berarti AI sering kali kesulitan dalam memahami susunan huruf dan suku kata secara detail. Kondisi ini semakin rumit saat AI harus bekerja dengan berbagai bahasa yang memiliki struktur berbeda. Beberapa bahasa, seperti Tiongkok, Jepang, dan Thailand, tidak menggunakan spasi untuk memisahkan kata-kata, yang menambah tantangan dalam proses tokenisasi.
Studi terbaru oleh Yennie Jun, peneliti AI di Google DeepMind, menemukan bahwa beberapa bahasa membutuhkan hingga 10 kali lebih banyak token dibandingkan bahasa Inggris untuk menyampaikan makna yang sama. Ini menunjukkan bahwa AI menghadapi tantangan besar dalam mengelola keragaman bahasa di dunia.
Sementara itu, model AI yang digunakan untuk menghasilkan gambar, seperti Midjourney dan DALL-E, juga menghadapi masalah serupa. Model difusi yang digunakan untuk menghasilkan gambar cenderung lebih baik dalam merepresentasikan objek yang besar dan jelas, seperti mobil atau wajah manusia. Namun, model ini masih sering mengalami kesulitan dalam menangani detail kecil seperti jari tangan atau tulisan tangan, yang mengindikasikan bahwa tantangan dalam AI tidak hanya terbatas pada teks, tetapi juga visual.
Dalam upaya mengatasi keterbatasan ini, OpenAI saat ini tengah mengembangkan produk AI baru yang diberi nama “Strawberry.” Produk ini diklaim mampu melakukan penalaran yang lebih baik dan dapat menghasilkan data sintetis dengan akurasi lebih tinggi. Sementara itu, Google DeepMind juga baru saja meluncurkan sistem AI AlphaProof dan AlphaGeometry 2 yang dirancang untuk penalaran matematika formal dan berhasil memecahkan masalah dari Olimpiade Matematika Internasional.
Keterbatasan AI dalam mengeja kata sederhana seperti “strawberry” mengingatkan kita bahwa meskipun teknologi ini terus berkembang, masih ada banyak aspek mendasar yang perlu diperbaiki. Dengan terus berlanjutnya penelitian dan pengembangan, diharapkan AI di masa depan dapat lebih baik dalam memahami bahasa dan detail visual dengan lebih mendalam, sehingga dapat mendekati kemampuan manusia dalam berbagai aspek.