Model AI semakin membimbangkan, pandai berbohong dan ancam pencipta

Model AI semakin membimbangkan, pandai berbohong dan ancam pencipta

New York: Model kecerdasan buatan (AI) tercanggih di dunia mempamerkan tingkah laku baharu yang membimbangkan – berbohong, merancang dan juga mengancam pencipta untuk mencapai matlamat sendiri.

Dalam satu contoh yang sangat membimbangkan, di bawah ancaman untuk dicabut (bekalan kuasa), ciptaan terbaru Anthropic – Claude 4 – bertindak balas dengan memeras ugut seorang jurutera dan mengancam untuk mendedahkan hubungan luar nikah.

Sementara itu, OpenAI pencipta ChatGPT o1 cuba memuat turun sendiri ke pelayan luaran dan menafikannya apabila perbuatan itu diketahui.

Episod ini menyerlahkan realiti yang menyedihkan di mana sejak lebih dua tahun selepas ChatGPT menggegarkan dunia, penyelidik AI masih tidak memahami sepenuhnya cara ciptaan mereka berfungsi.

Namun perlumbaan untuk menggunakan model yang semakin berkuasa diteruskan pada kelajuan yang sangat pantas.

Tingkah laku menipu ini nampaknya dikaitkan dengan kemunculan model “penaakulan” – sistem AI yang mengatasi masalah langkah demi langkah dan bukannya menjana respons segera.

Menurut Simon Goldstein, seorang profesor di Universiti Hong Kong, model yang lebih baru ini sangat terdedah kepada ledakan yang membimbangkan.

“O1 ialah model besar pertama di mana kami melihat tingkah laku seperti ini,” jelas Marius Hobbhahn, ketua Penyelidikan Apollo, yang pakar dalam menguji sistem AI utama.

Model ini kadangkala mensimulasikan “penjajaran” — kelihatan mengikut arahan sambil diam-diam mengejar objektif yang berbeza.

Buat masa ini, tingkah laku menipu ini hanya muncul apabila penyelidik sengaja menguji model dengan senario yang melampau.

Tetapi seperti yang diberi amaran oleh Michael Chen dari organisasi penilaian METR, “Ini adalah persoalan terbuka sama ada model masa depan yang lebih berkebolehan akan mempunyai kecenderungan ke arah kejujuran atau penipuan.”

Hobbhahn menegaskan bahawa walaupun ujian tekanan berterusan oleh pengguna, “apa yang kami perhatikan adalah fenomena sebenar. Kami tidak membuat apa-apa.”

Pengguna melaporkan bahawa model “berbohong kepada mereka dan membuat bukti,” menurut pengasas bersama Apollo Research.

“Ini bukan sekadar halusinasi. Terdapat satu jenis penipuan yang sangat strategik.”

Cabaran itu ditambah lagi dengan sumber penyelidikan yang terhad.

Walaupun syarikat seperti Anthropic dan OpenAI melibatkan firma luar seperti Apollo untuk mengkaji sistem mereka, penyelidik mengatakan lebih banyak ketelusan diperlukan.

Seperti yang dinyatakan oleh Chen, akses yang lebih besar “untuk penyelidikan keselamatan AI akan membolehkan pemahaman dan pengurangan penipuan yang lebih baik.”

Perundangan AI Kesatuan Eropah tertumpu terutamanya pada cara manusia menggunakan model AI, bukan pada menghalang model itu sendiri daripada bertindak salah.

Di Amerika Syarikat, pentadbiran Trump menunjukkan sedikit minat terhadap peraturan AI yang mendesak, malah Kongres mungkin melarang negara daripada mencipta peraturan AI mereka sendiri.

Goldstein percaya isu itu akan menjadi lebih menonjol apabila ejen AI – alat autonomi yang mampu melaksanakan tugas manusia yang kompleks – menjadi meluas.

“Saya rasa masih belum banyak kesedaran,” katanya.

Semua ini berlaku dalam konteks persaingan yang sengit.

Malah syarikat yang meletakkan diri mereka sebagai fokus keselamatan, seperti Anthropic yang disokong Amazon, “sentiasa cuba untuk mengalahkan OpenAI dan mengeluarkan model terbaharu,” kata Goldstein.

Kepantasan yang pantas ini meninggalkan sedikit masa untuk ujian dan pembetulan keselamatan yang menyeluruh.

“Pada masa ini, keupayaan bergerak lebih pantas daripada pemahaman dan keselamatan,” Hobbhahn mengakui, “tetapi kami masih dalam kedudukan di mana kami boleh mengubahnya.”.

Penyelidik sedang meneroka pelbagai pendekatan untuk menangani cabaran ini.

Sesetengah menyokong “kebolehtafsiran” – bidang baru muncul yang memfokuskan pada pemahaman cara model AI berfungsi secara dalaman, walaupun pakar seperti pengarah CAIS Dan Hendrycks tetap ragu-ragu terhadap pendekatan ini.

Kuasa pasaran juga mungkin memberikan sedikit tekanan untuk penyelesaian.

Seperti yang dinyatakan oleh Mazeika, tingkah laku menipu AI “boleh menghalang penerimaan jika ia sangat berleluasa, yang mewujudkan insentif yang kuat untuk syarikat menyelesaikannya.”

Goldstein mencadangkan pendekatan yang lebih radikal, termasuk menggunakan mahkamah untuk memastikan syarikat AI bertanggungjawab melalui tindakan undang-undang apabila sistem mereka menyebabkan bahaya.

© New Straits Times Press (M) Bhd

Scroll to Top