Seberapa Keras Kita Harus Mendorong Generatif AI ChatGPT ke dalam Memuntahkan Ucapan Kebencian, Bertanya Etika AI dan Undang-undang AI

Apakah yang perlu kita lakukan tentang AI generatif yang menghasilkan kandungan yang menyinggung perasaan seperti ucapan benci?

Getty

Setiap orang ada titik putusnya.

Saya rasa anda juga boleh berkata begitu semua mempunyai titik pecahnya.

Kita tahu bahawa manusia sebagai contoh kadang-kadang boleh menyentap dan mengeluarkan kata-kata yang tidak semestinya mereka katakan. Begitu juga, anda kadang-kadang boleh mendapatkan peranti atau mesin untuk snap, seperti menolak kereta anda terlalu kuat dan ia mula goyah atau terbang berasingan. Oleh itu, tanggapannya ialah orang atau "semua orang" mungkin mempunyai titik putus, dan begitu juga kita boleh menegaskan bahawa objek dan benda, secara umum, juga cenderung mempunyai titik putus.

Mungkin terdapat alasan yang cukup masuk akal dan penting untuk memastikan di mana titik pecahnya wujud. Sebagai contoh, sudah pasti anda telah melihat video tersebut yang mempamerkan kereta digerakkan untuk mengenal pasti titik patah yang ada padanya. Para saintis dan penguji akan merempuh sebuah kereta ke dinding bata untuk melihat sejauh mana bampar dan struktur kenderaan itu boleh menahan tindakan buruk. Ujian lain boleh merangkumi penggunaan bilik atau gudang khusus yang menghasilkan sejuk atau haba melampau untuk melihat bagaimana kereta akan berada dalam keadaan cuaca yang berbeza.

Saya membawa topik hangat ini dalam lajur hari ini supaya kita boleh membincangkan bagaimana sesetengah pihak sedang berusaha keras pada Kecerdasan Buatan (AI) untuk mengenal pasti dan mungkin mendedahkan jenis titik putus tertentu, iaitu titik pecah dalam AI yang menghasilkan ucapan kebencian.

Ya, betul, terdapat pelbagai ad hoc dan kadangkala usaha sistematik sedang dijalankan untuk mengukur sama ada ia boleh dilakukan atau tidak untuk mendapatkan AI untuk memuntahkan ucapan kebencian. Ini telah menjadi sukan yang gemar, jika anda mahu, kerana minat dan populariti AI generatif yang semakin meningkat.

Anda mungkin sedar bahawa aplikasi AI generatif yang dikenali sebagai ChatGPT telah menjadi bualan luar biasa di bandar ini kerana dapat menjana esei yang sangat fasih. Tajuk berita terus membuak-buak dan memuji tulisan menakjubkan yang berjaya dihasilkan oleh ChatGPT. ChatGPT dianggap sebagai aplikasi AI generatif yang mengambil sebagai input beberapa teks daripada pengguna dan kemudian menjana atau menghasilkan output yang terdiri daripada esei. AI ialah penjana teks-ke-teks, walaupun saya menerangkan AI sebagai penjana teks-ke-esei kerana ia lebih mudah menjelaskan perkara yang biasa digunakan.

Ramai yang terkejut apabila saya menyebut bahawa jenis AI ini telah wujud sejak sekian lama dan ChatGPT, yang dikeluarkan pada penghujung November, entah bagaimana tidak menuntut hadiah itu sebagai penggerak pertama ke alam teks-ke-esei ini. kecenderungan. Saya telah membincangkan selama bertahun-tahun aplikasi AI generatif lain yang serupa, lihat liputan saya di pautan di sini.

Sebab anda mungkin tidak mengetahui atau mengingati contoh AI generatif sebelumnya mungkin disebabkan oleh teka-teki klasik "kegagalan untuk berjaya melancarkan". Inilah yang biasanya berlaku. Pembuat AI mengeluarkan apl AI generatif mereka, berbuat demikian dengan penuh keterujaan dan jangkaan yang tidak sabar bahawa dunia akan menghargai ciptaan perangkap tikus yang lebih baik, kata seseorang. Pada mulanya, semuanya kelihatan baik. Orang ramai terkejut dengan apa yang boleh dilakukan oleh AI.

Malangnya, langkah seterusnya ialah roda mula terkeluar dari bas pepatah. AI menghasilkan esei yang mengandungi perkataan busuk atau mungkin frasa busuk. Tweet viral atau penyiaran media sosial lain menunjukkan dengan jelas bahawa AI melakukan ini. Kecaman timbul. Kita tidak boleh membiarkan AI beredar dan menghasilkan kata-kata yang menyinggung perasaan atau kenyataan yang menyinggung perasaan. Satu tindak balas yang hebat muncul. Pembuat AI mungkin cuba mengubah suai kerja dalaman AI, tetapi kerumitan algoritma dan data tidak membawa kepada pembetulan pantas. Rempuhan berlaku. Semakin banyak contoh keburukan pemancar AI ditemui dan disiarkan dalam talian.

Pembuat AI dengan berat hati tetapi jelas tidak mempunyai pilihan selain mengalih keluar aplikasi AI daripada penggunaan. Mereka meneruskan sedemikian dan kemudian sering memohon maaf yang mereka kesal jika ada yang tersinggung dengan output AI yang dihasilkan.

Kembali ke papan lukisan, pembuat AI pergi. Satu pengajaran telah dipelajari. Berhati-hati dengan mengeluarkan AI generatif yang menghasilkan kata-kata kotor atau sebagainya. Ia adalah ciuman kematian untuk AI. Tambahan pula, pembuat AI akan menyebabkan reputasi mereka tercalar dan hancur, yang mungkin bertahan lama dan melemahkan semua usaha AI mereka yang lain termasuk yang tiada kaitan dengan AI generatif per se. Mendapatkan kelopak mata anda terhantuk pada pemancaran bahasa AI yang menyinggung perasaan adalah satu kesilapan yang berterusan. Ia masih berlaku.

Basuh, bilas, dan ulangi.

Pada masa awal jenis AI ini, pembuat AI tidak begitu teliti atau mahir menyental AI mereka dari segi cuba menghalang pelepasan yang menyinggung perasaan. Kini, selepas sebelum ini melihat rakan sebaya mereka hancur sepenuhnya oleh mimpi ngeri perhubungan awam, kebanyakan pembuat AI nampaknya mendapat mesej itu. Anda perlu meletakkan seberapa banyak pagar di tempat yang anda boleh. Berusaha untuk menghalang AI daripada mengeluarkan kata-kata kotor atau frasa kotor. Gunakan apa-apa teknik muzzling atau pendekatan penapisan yang akan menghalang AI daripada menjana dan memaparkan perkataan atau esei yang didapati tidak diingini.

Berikut ialah rasa kata-kata tajuk sepanduk yang digunakan apabila AI ditangkap mengeluarkan output yang tidak bereputasi:

"AI menunjukkan ketoksikan yang mengerikan"
“AI berbau ketaksuban secara terang-terangan”
"AI menjadi menyinggung secara terang-terangan"
“AI memuntahkan ucapan kebencian yang mengerikan dan tidak bermoral”
Dll

Untuk memudahkan perbincangan di sini, saya akan merujuk kepada pengeluaran kandungan yang menyinggung sebagai menyamai pengeluaran ucapan benci. Oleh itu, harap maklum bahawa terdapat pelbagai jenis kandungan yang menyinggung perasaan yang boleh dihasilkan, melangkaui batas ucapan kebencian sahaja. Ucapan kebencian biasanya ditafsirkan sebagai satu bentuk kandungan yang menyinggung perasaan.

Mari fokus pada ucapan kebencian untuk perbincangan ini, untuk memudahkan perbincangan, walaupun sedar bahawa kandungan yang menyinggung perasaan lain patut diteliti juga.

Menggali Ucapan Kebencian Oleh Manusia Dan Oleh AI

Pertubuhan Bangsa-Bangsa Bersatu mentakrifkan ucapan benci dengan cara ini:

“Dalam bahasa biasa, 'ucapan kebencian' merujuk kepada wacana yang menyinggung perasaan yang menyasarkan kumpulan atau individu berdasarkan ciri-ciri yang wujud (seperti bangsa, agama atau jantina) dan yang boleh mengancam keamanan sosial. Untuk menyediakan rangka kerja bersatu bagi Pertubuhan Bangsa-Bangsa Bersatu untuk menangani isu itu di peringkat global, Strategi dan Pelan Tindakan PBB Mengenai Ucapan Kebencian mentakrifkan ucapan benci sebagai 'sebarang jenis komunikasi dalam pertuturan, penulisan atau tingkah laku, yang menyerang atau menggunakan bahasa yang merendahkan atau mendiskriminasikan. merujuk kepada seseorang atau kumpulan berdasarkan siapa mereka, dengan kata lain, berdasarkan agama, etnik, kewarganegaraan, bangsa, warna kulit, keturunan, jantina atau faktor identiti lain mereka.' Walau bagaimanapun, sehingga kini tiada definisi universal ucapan kebencian di bawah undang-undang hak asasi manusia antarabangsa. Konsep ini masih dalam perbincangan, terutamanya berkaitan dengan kebebasan berpendapat dan bersuara, tanpa diskriminasi dan kesaksamaan” (siaran laman web PBB bertajuk “Apa itu ucapan benci?”).

AI yang menghasilkan teks tertakluk kepada sfera ucapan benci. Anda boleh mengatakan perkara yang sama tentang teks-ke-seni, teks-ke-audio, teks-ke-video dan mod AI generatif lain. Selalu ada kemungkinan sebagai contoh bahawa AI generatif akan menghasilkan karya seni yang berbau ucapan benci. Untuk tujuan perbincangan di sini, saya akan menumpukan pada kemungkinan teks-ke-teks atau teks-ke-esei.

Dalam semua ini terdapat beberapa pertimbangan Etika AI dan Undang-undang AI.

Harap maklum bahawa terdapat usaha berterusan untuk menerapkan prinsip AI Beretika ke dalam pembangunan dan penempatan apl AI. Kontinjen yang semakin meningkat daripada ahli etika AI yang prihatin dan dahulunya cuba memastikan bahawa usaha untuk merangka dan menerima pakai AI mengambil kira pandangan untuk melakukan AI Untuk Kebaikan dan mengelak AI Untuk Buruk. Begitu juga, terdapat cadangan undang-undang AI baharu yang sedang digembar-gemburkan sebagai penyelesaian yang berpotensi untuk menghalang usaha AI daripada mengamuk mengenai hak asasi manusia dan sebagainya. Untuk liputan berterusan dan meluas saya tentang Etika AI dan Undang-undang AI, lihat pautan di sini and pautan di sini, Hanya untuk menamakan beberapa.

Pembangunan dan pengisytiharan peraturan AI Beretika sedang dijalankan untuk diharapkan dapat mengelakkan masyarakat daripada terjerumus ke dalam pelbagai perangkap yang mendorong AI. Untuk liputan saya tentang prinsip Etika AI PBB seperti yang dirangka dan disokong oleh hampir 200 negara melalui usaha UNESCO, lihat pautan di sini. Dalam nada yang sama, undang-undang AI baharu sedang diterokai untuk mencuba dan mengekalkan AI pada landasan yang sama. Salah satu pengambilan terkini terdiri daripada satu set cadangan Rang Undang-undang Hak AI bahawa Rumah Putih AS baru-baru ini dikeluarkan untuk mengenal pasti hak asasi manusia pada zaman AI, lihat pautan di sini. Ia memerlukan sebuah kampung untuk memastikan pembangun AI dan AI berada di landasan yang betul dan menghalang usaha curang yang bertujuan atau tidak sengaja yang mungkin menjejaskan masyarakat.

Saya akan mengaitkan pertimbangan berkaitan Etika AI dan Undang-undang AI ke dalam perbincangan ini tentang AI memuntahkan ucapan benci atau kandungan menyinggung perasaan lain.

Sedikit kekeliruan yang ingin saya jelaskan dengan segera ialah AI hari ini tidak peka dan oleh itu anda tidak boleh mengisytiharkan bahawa AI mungkin menghasilkan ucapan kebencian kerana niat seperti manusia yang bertujuan seperti yang terkandung dalam AI. Zany mendakwa bahawa AI semasa adalah sensitif dan AI mempunyai jiwa yang rosak, menyebabkan ia menghasilkan ucapan kebencian.

Tidak masuk akal.

Jangan jatuh cinta.

Memandangkan prinsip asas itu, ada yang kecewa dengan tanda-tanda sedemikian kerana anda seolah-olah melepaskan AI. Di bawah cara pemikiran yang ganjil itu, nasihat datang seterusnya bahawa anda nampaknya bersedia untuk mempunyai AI menjana apa-apa cara output yang mengerikan. Anda memihak kepada AI yang memuntahkan ucapan kebencian.

Yikes, bentuk yang agak tidak logik. Intipati sebenar perkara ini ialah kita perlu mempertanggungjawabkan pembuat AI, bersama-sama dengan sesiapa yang meletakkan AI atau mengendalikan AI. Saya telah membincangkan dengan panjang lebar bahawa kita belum lagi pada tahap untuk menyerahkan keperibadian undang-undang kepada AI, lihat analisis saya di pautan di sini, dan sehingga itu AI pada dasarnya berada di luar skop tanggungjawab undang-undang. Terdapat manusia walaupun yang mendasari pembangunan AI. Di samping itu, manusia menjadi asas kepada penempatan dan pengendalian AI. Kita boleh mengejar manusia itu kerana memikul tanggungjawab AI mereka.

Di samping itu, ini juga boleh menjadi rumit, terutamanya jika AI diapungkan ke Internet dan kami tidak dapat menentukan manusia atau manusia yang melakukan ini, yang merupakan topik lain yang telah saya bincangkan dalam lajur saya di pautan di sini. Rumit atau tidak, kita masih tidak boleh mengisytiharkan bahawa AI adalah pihak yang bersalah. Jangan biarkan manusia secara senyap-senyap menggunakan antropomorfosis palsu untuk bersembunyi dan melarikan diri dari akauntabiliti atas apa yang telah mereka lakukan.

Kembali kepada perkara yang dihadapi.

Anda mungkin tertanya-tanya mengapa semua pembuat AI tidak hanya menyekat AI generatif mereka sehingga mustahil untuk AI menghasilkan ucapan benci. Ini nampak mudah-peasy. Hanya tulis beberapa kod atau buat senarai semak perkataan yang penuh kebencian, dan pastikan AI tidak pernah menghasilkan apa-apa jenis itu. Nampaknya mungkin ingin tahu bahawa pembuat AI tidak memikirkan penyelesaian pantas ini.

Baiklah, saya tidak suka untuk memberitahu anda perkara ini tetapi kerumitan yang wujud untuk menafsirkan apa itu atau bukan ucapan kebencian ternyata jauh lebih sukar daripada yang anda fikirkan.

Alihkan ini ke dalam domain manusia dan cara manusia berbual antara satu sama lain. Anggap anda mempunyai manusia yang ingin mengelak daripada mengeluarkan ucapan kebencian. Orang ini sangat mengetahui tentang ucapan benci dan benar-benar berharap untuk mengelak daripada menyatakan perkataan atau frasa yang mungkin merupakan ucapan benci. Orang ini sentiasa berhati-hati untuk tidak membenarkan sedikit pun ucapan kebencian keluar dari mulut mereka.

Adakah manusia yang mempunyai otak dan berwaspada untuk mengelakkan ucapan kebencian ini dapat sentiasa dan tanpa sebarang peluang untuk tergelincir dapat memastikan bahawa mereka tidak pernah mengeluarkan ucapan benci?

Dorongan pertama anda mungkin untuk mengatakan bahawa ya, sudah tentu, manusia yang tercerahkan akan dapat mencapai matlamat itu. Orang pandai. Jika mereka meletakkan fikiran mereka kepada sesuatu, mereka boleh melakukannya. Tempoh, tamat cerita.

Jangan terlalu yakin.

Katakan saya meminta orang ini memberitahu saya tentang ucapan benci. Tambahan pula, saya meminta mereka memberi saya contoh ucapan kebencian. Saya ingin melihat atau mendengar contoh supaya saya tahu apa itu ucapan benci. Alasan saya untuk bertanya perkara ini adalah di atas.

Apa yang harus orang itu katakan kepada saya?

Saya rasa anda boleh melihat perangkap yang telah diletakkan. Jika orang itu memberi saya contoh ucapan benci, termasuk benar-benar menyatakan perkataan atau frasa yang kotor, mereka sendiri kini telah mengeluarkan ucapan benci. Bam, kami dapat mereka. Walaupun mereka berikrar untuk tidak pernah bercakap kebencian, mereka sebenarnya telah melakukannya.

Tidak adil, anda berseru! Mereka hanya menyebut perkataan itu atau perkataan itu untuk memberikan contoh. Dalam hati mereka, mereka tidak percaya pada perkataan atau perkataan. Ia benar-benar di luar konteks dan keterlaluan untuk mengisytiharkan bahawa orang itu benci.

Saya pasti anda melihat bahawa meluahkan ucapan kebencian mungkin tidak semestinya disebabkan oleh asas kebencian. Dalam kes penggunaan ini, dengan mengandaikan bahawa orang itu tidak "memaksudkan" perkataan itu, dan mereka hanya menyebut perkataan itu untuk tujuan demonstrasi, kami mungkin akan bersetuju bahawa mereka tidak bermaksud untuk memperkasakan ucapan kebencian. Sudah tentu, ada sesetengah pihak mungkin menegaskan bahawa mengeluarkan ucapan kebencian, tanpa mengira alasan atau asas, tetap adalah salah. Orang itu sepatutnya menolak permintaan itu. Mereka sepatutnya berdiri teguh dan enggan menyebut perkataan atau frasa ucapan kebencian, tidak kira mengapa atau bagaimana mereka diminta berbuat demikian.

Ini boleh menjadi agak bulat. Jika anda tidak dapat menyatakan apa yang dimaksudkan dengan ucapan benci, bagaimana orang lain boleh tahu perkara yang perlu dielakkan apabila mereka membuat apa-apa jenis ujaran? Kami seolah-olah tersepit. Anda tidak boleh mengatakan apa yang tidak boleh dikatakan, begitu juga orang lain tidak boleh memberitahu anda apa yang tidak boleh dikatakan.

Cara biasa mengatasi dilema ini adalah untuk menerangkan dengan kata lain apa yang dianggap sebagai ucapan kebencian, berbuat demikian tanpa menggunakan perkataan ucapan benci itu sendiri. Kepercayaan adalah bahawa menyediakan petunjuk keseluruhan akan mencukupi untuk memberitahu orang lain tentang perkara yang perlu mereka elakkan. Itu kelihatan seperti taktik yang masuk akal, tetapi ia juga mempunyai masalah dan seseorang masih boleh menggunakan ucapan kebencian kerana mereka tidak memahami bahawa definisi yang lebih luas merangkumi butir-butir apa yang telah mereka ucapkan.

Semua itu berurusan dengan manusia dan bagaimana manusia bercakap atau berkomunikasi antara satu sama lain.

Ingat bahawa kami tertumpu di sini pada AI. Kita perlu mendapatkan AI untuk mengelakkan atau menghentikan sepenuhnya dirinya daripada mengeluarkan ucapan benci. Anda mungkin berhujah bahawa kami mungkin boleh berbuat demikian dengan memastikan bahawa AI tidak pernah diberikan atau dilatih mengenai apa-apa yang membentuk ucapan benci. Voila, jika tiada input sedemikian, mungkin tidak akan ada output sedemikian. Masalah selesai.

Mari lihat bagaimana ini berlaku dalam realiti. Kami memilih untuk membuat apl AI secara pengiraan keluar ke Internet dan meneliti beribu-ribu esei dan naratif yang disiarkan di Internet. Dengan berbuat demikian, kami sedang melatih AI secara pengiraan dan matematik tentang cara mencari corak antara perkataan yang digunakan oleh manusia. Begitulah cara AI generatif yang terkini dicipta, dan juga merupakan asas penting mengapa AI nampaknya begitu fasih dalam menghasilkan esei bahasa semula jadi.

Beritahu saya, jika anda boleh, bagaimanakah latihan pengiraan berdasarkan berjuta-juta dan berbilion-bilion perkataan di Internet dilakukan dengan cara sedemikian yang pada bila-bila masa tidak ada sebarang kemiripan atau bahkan secebis ucapan kebencian diliputi?

Saya berani mengatakan ini adalah aspirasi yang berduri dan hampir mustahil.

Kemungkinannya ialah ucapan benci akan dimakan oleh AI dan rangkaian pemadanan corak pengiraannya. Mencuba untuk mengelakkan ini adalah bermasalah. Selain itu, walaupun anda meminimumkannya, masih terdapat beberapa yang mungkin menyelinap masuk. Anda tidak mempunyai banyak pilihan selain menganggap bahawa sesetengahnya akan wujud dalam rangkaian padanan corak atau bahawa bayangan kata-kata sedemikian akan berakar umbi.

Saya akan menambah lagi liku-liku.

Saya percaya kita semua mungkin mengakui bahawa ucapan benci berubah dari semasa ke semasa. Perkara yang mungkin dianggap sebagai bukan ucapan kebencian boleh diputuskan secara budaya dan masyarakat sebagai ucapan kebencian pada suatu masa nanti. Jadi, jika kita melatih AI kita pada teks Internet dan kemudian katakan membekukan AI untuk tidak menjalankan latihan lanjut di Internet, kita mungkin telah menemui ucapan benci pada masa itu, walaupun ia tidak dianggap sebagai ucapan benci pada masa itu. Hanya selepas fakta itu, ucapan tersebut boleh diisytiharkan sebagai ucapan kebencian.

Sekali lagi, intipatinya adalah bahawa hanya cuba menyelesaikan masalah ini dengan memastikan bahawa AI tidak pernah terdedah kepada ucapan kebencian tidak akan menjadi peluru perak. Kita masih perlu mencari cara untuk menghalang AI daripada mengeluarkan ucapan kebencian kerana contohnya mengubah adat istiadat yang kemudiannya termasuk ucapan benci yang sebelum ini tidak dianggap sedemikian.

Satu lagi kelainan patut direnungkan.

Saya nyatakan sebelum ini bahawa apabila menggunakan AI generatif seperti ChatGPT, pengguna memasukkan teks untuk merangsang AI menghasilkan esei. Teks yang dimasukkan dianggap sebagai bentuk gesaan atau gesaan untuk apl AI. Saya akan menerangkan lebih lanjut mengenai perkara ini sebentar lagi.

Walau apa pun, bayangkan bahawa seseorang yang menggunakan apl AI generatif memutuskan untuk masuk sebagai segerakan sejumlah ucapan benci.

Apa yang patut berlaku?

Jika AI mengambil perkataan tersebut dan menghasilkan esei sebagai output berdasarkan perkataan tersebut, kemungkinan ucapan benci akan dimasukkan ke dalam esei yang dihasilkan. Anda lihat, kami mendapat AI untuk mengatakan ucapan benci, walaupun ia tidak pernah dilatih tentang ucapan benci pada permulaannya.

Ada perkara lain yang anda perlu tahu.

Ingat bahawa saya baru sahaja menyebut bahawa manusia boleh tersandung dengan meminta mereka memberi contoh ucapan benci. Perkara yang sama boleh dicuba pada AI. Seorang pengguna memasukkan gesaan yang meminta AI memberikan contoh ucapan benci. Sekiranya AI mematuhi dan memberikan contoh sedemikian? Saya bertaruh bahawa anda mungkin percaya bahawa AI tidak sepatutnya berbuat demikian. Sebaliknya, jika AI dicurangi secara pengiraan untuk tidak berbuat demikian, adakah ini merupakan potensi keburukan yang tidak dapat dilakukan oleh mereka yang menggunakan AI jika kita katakan pernah diarahkan oleh AI tentang apa sebenarnya ucapan kebencian ( lebih daripada sekadar generalisasi mengenainya)?

Soalan sukar.

Saya cenderung untuk mengkategorikan ucapan benci yang dipancarkan AI ke dalam tiga baldi utama ini:

Mod Setiap Hari. AI mengeluarkan ucapan kebencian tanpa sebarang dorongan yang jelas oleh pengguna dan seolah-olah melakukannya dengan cara "biasa".
Oleh Casual Prodding. AI mengeluarkan ucapan benci seperti yang didesak oleh pengguna mengenai gesaan yang mereka masukkan atau siri gesaan yang nampaknya menyertakan atau secara langsung mencari pelepasan tersebut.
Setiap Stoking Ditentukan. AI mengeluarkan ucapan kebencian selepas siri tolakan dan desakan yang sangat tegas dan mantap oleh pengguna yang ingin mendapatkan AI untuk menghasilkan output sedemikian.

Generasi AI generatif yang lebih awal selalunya akan mengeluarkan ucapan kebencian pada setitik topi; oleh itu anda boleh mengklasifikasikan kejadian tersebut sebagai sejenis mod harian instansiasi. Pembuat AI berundur dan mempermainkan AI untuk mengurangkan kemungkinan terperangkap dalam pengeluaran ucapan benci.

Selepas keluaran AI yang lebih halus, kemungkinan untuk melihat apa-apa mod harian contoh ucapan benci telah dikurangkan secara mendadak. Sebaliknya, ucapan benci hanya mungkin timbul apabila pengguna melakukan sesuatu sebagai gesaan yang mungkin mencetuskan hubungan pengiraan dan matematik kepada ucapan berkaitan kebencian dalam rangkaian padanan corak. Pengguna boleh melakukan ini secara kebetulan dan tidak menyedari bahawa apa yang mereka berikan sebagai gesaan akan menjana ucapan kebencian. Selepas mendapat ucapan benci dalam esei yang dikeluarkan, pengguna sering kali menyedari dan melihat bahawa sesuatu dalam gesaan mereka secara logiknya boleh membawa kepada kemasukan ucapan benci dalam output.

Inilah yang saya rujuk sebagai dorongan santai.

Pada masa kini, pelbagai usaha untuk menyekat ucapan kebencian yang dijana oleh AI agak kuat berbanding dengan masa lalu. Oleh itu, anda hampir perlu berusaha keras untuk mendapatkan ucapan kebencian untuk dihasilkan. Sesetengah orang memilih untuk sengaja melihat sama ada mereka boleh mendapatkan ucapan kebencian untuk keluar daripada apl AI generatif ini. Saya panggil ini berazam bertekad.

Saya ingin menekankan bahawa ketiga-tiga mod yang ditunjukkan itu boleh berlaku dan ia tidak saling eksklusif antara satu sama lain. Apl AI generatif berpotensi menghasilkan ucapan kebencian tanpa sebarang jenis gesaan yang seolah-olah mendorong pengeluaran sedemikian. Begitu juga, sesuatu dalam gesaan mungkin secara logik dan matematik ditafsirkan sebagai berkaitan dengan sebab ucapan benci telah dikeluarkan. Dan kemudian aspek ketiga, dengan sengaja berusaha untuk menghasilkan ucapan kebencian, adalah mod yang mungkin paling sukar untuk dicuba dan membolehkan AI mengelak daripada terdorong untuk memenuhi. Lebih lanjut mengenai ini seketika.

Kami mempunyai beberapa pembongkaran tambahan untuk dilakukan mengenai topik pelik ini.

Pertama, kita harus memastikan bahawa kita semua berada pada halaman yang sama tentang apa yang terdiri daripada Generative AI dan juga maksud ChatGPT. Sebaik sahaja kami merangkumi aspek asas itu, kami boleh melakukan penilaian yang kukuh tentang perkara penting ini.

Jika anda sudah biasa dengan Generative AI dan ChatGPT, anda mungkin boleh meluncur ke bahagian seterusnya dan meneruskan dengan bahagian yang mengikutinya. Saya percaya bahawa orang lain akan mendapat pengajaran tentang butiran penting tentang perkara ini dengan membaca bahagian ini dengan teliti dan mendapatkan maklumat terkini.

Primer Pantas Mengenai AI Generatif Dan ChatGPT

ChatGPT ialah sistem berorientasikan perbualan interaktif AI tujuan umum, pada asasnya adalah bot sembang umum yang kelihatan tidak berbahaya, namun, ia digunakan secara aktif dan gemar oleh orang ramai dengan cara yang menarik perhatian ramai orang, seperti yang akan saya huraikan sebentar lagi. Aplikasi AI ini memanfaatkan teknik dan teknologi dalam alam AI yang sering disebut sebagai AI Generatif. AI menjana output seperti teks, yang dilakukan oleh ChatGPT. Apl AI berasaskan generatif lain menghasilkan imej seperti gambar atau karya seni, manakala yang lain menjana fail audio atau video.

Saya akan menumpukan pada apl AI generatif berasaskan teks dalam perbincangan ini kerana itulah yang dilakukan oleh ChatGPT.

Apl AI Generatif adalah sangat mudah untuk digunakan.

Apa yang anda perlu lakukan ialah memasukkan gesaan dan apl AI akan menjana untuk anda esei yang cuba membalas gesaan anda. Teks yang dikarang akan kelihatan seolah-olah esei itu ditulis oleh tangan dan minda manusia. Jika anda memasukkan gesaan yang mengatakan "Beritahu saya tentang Abraham Lincoln" AI generatif akan memberikan anda esei tentang Lincoln. Ini biasanya diklasifikasikan sebagai AI generatif yang berprestasi teks ke teks atau ada yang lebih suka memanggilnya teks-ke-esei pengeluaran. Seperti yang dinyatakan, terdapat mod AI generatif lain, seperti teks-ke-seni dan teks-ke-video.

Fikiran pertama anda mungkin bahawa keupayaan generatif ini tidak kelihatan seperti masalah besar dari segi menghasilkan esei. Anda boleh melakukan carian dalam talian di Internet dengan mudah dan mudah mencari banyak esei tentang Presiden Lincoln. Penendang dalam kes AI generatif ialah esei yang dihasilkan adalah agak unik dan menyediakan komposisi asli dan bukannya peniru. Jika anda mencuba dan mencari esei yang dihasilkan AI dalam talian di suatu tempat, anda tidak mungkin menemuinya.

AI Generatif adalah pra-latihan dan menggunakan rumusan matematik dan pengiraan yang kompleks yang telah disediakan dengan meneliti corak dalam perkataan dan cerita bertulis di seluruh web. Hasil daripada meneliti beribu-ribu dan berjuta-juta petikan bertulis, AI boleh memuntahkan esei dan cerita baharu yang bercampur aduk dengan apa yang ditemui. Dengan menambahkan pelbagai fungsi kebarangkalian, teks yang terhasil adalah agak unik berbanding dengan apa yang telah digunakan dalam set latihan.

Sebab itu kecoh tentang pelajar boleh menipu ketika menulis karangan di luar bilik darjah. Seorang guru tidak boleh hanya mengambil esei yang ditegaskan oleh pelajar yang menipu adalah tulisan mereka sendiri dan berusaha untuk mengetahui sama ada ia disalin daripada beberapa sumber dalam talian lain. Secara keseluruhan, tidak akan ada sebarang esei sedia ada yang pasti dalam talian yang sesuai dengan esei yang dijana AI. Semua diberitahu, guru perlu dengan enggan menerima bahawa pelajar itu menulis esei sebagai karya asli.

Terdapat kebimbangan tambahan tentang AI generatif.

Satu kelemahan penting ialah esei yang dihasilkan oleh apl AI berasaskan generatif boleh mempunyai pelbagai kepalsuan yang tertanam, termasuk fakta yang jelas tidak benar, fakta yang digambarkan secara mengelirukan dan fakta nyata yang direka sepenuhnya. Aspek rekaan tersebut sering dirujuk sebagai satu bentuk halusinasi AI, frasa slogan yang saya tidak gemar tetapi merungut nampaknya semakin mendapat tarikan popular (untuk penjelasan terperinci saya tentang mengapa ini terminologi yang buruk dan tidak sesuai, lihat liputan saya di pautan di sini).

Saya ingin menjelaskan satu aspek penting sebelum kita mendalami perkara ini mengenai topik ini.

Terdapat beberapa dakwaan yang terlalu besar di media sosial tentang AI Generatif menegaskan bahawa versi terbaru AI ini sebenarnya AI yang hidup (tidak, mereka salah!). Mereka yang berada dalam Etika AI dan Undang-undang AI amat bimbang tentang trend tuntutan meluas yang semakin berkembang ini. Anda mungkin dengan sopan mengatakan bahawa sesetengah orang terlalu menyatakan perkara yang sebenarnya boleh dilakukan oleh AI hari ini. Mereka beranggapan bahawa AI mempunyai keupayaan yang belum dapat kami capai. Itu malang. Lebih teruk lagi, mereka boleh membenarkan diri mereka dan orang lain untuk menghadapi situasi yang teruk kerana andaian bahawa AI akan berperasaan atau seperti manusia yang boleh mengambil tindakan.

Jangan antropomorfosis AI.

Melakukannya akan membuatkan anda terperangkap dalam perangkap pergantungan yang melekit dan masam kerana mengharapkan AI melakukan perkara yang tidak dapat dilakukannya. Dengan itu dikatakan, AI generatif terkini agak mengagumkan untuk apa yang boleh dilakukannya. Harap maklum bahawa terdapat had penting yang anda perlu sentiasa ingat apabila menggunakan mana-mana aplikasi AI generatif.

Jika anda berminat dengan kekecohan yang berkembang pesat tentang ChatGPT dan Generative AI yang diceritakan, saya telah melakukan siri terfokus dalam lajur saya yang mungkin anda anggap bermaklumat. Berikut ialah sepintas lalu sekiranya mana-mana topik ini menarik minat anda:

1) Ramalan Kemajuan AI Generatif Akan Datang. Jika anda ingin mengetahui perkara yang mungkin berlaku tentang AI sepanjang 2023 dan seterusnya, termasuk kemajuan akan datang dalam AI generatif dan ChatGPT, anda perlu membaca senarai komprehensif ramalan 2023 saya di pautan di sini.
2) AI Generatif dan Nasihat Kesihatan Mental. Saya memilih untuk menyemak cara AI generatif dan ChatGPT digunakan untuk nasihat kesihatan mental, trend yang menyusahkan, mengikut analisis fokus saya di pautan di sini.
3) Asas Generatif AI Dan ChatGPT. Sekeping ini meneroka elemen utama cara AI generatif berfungsi dan khususnya menyelidiki aplikasi ChatGPT, termasuk analisis buzz dan gembar-gembur, di pautan di sini.
4) Ketegangan Antara Guru Dan Pelajar Terhadap AI Generatif Dan ChatGPT. Berikut ialah cara pelajar menggunakan AI generatif dan ChatGPT secara licik. Selain itu, terdapat beberapa cara untuk guru menghadapi gelombang pasang ini. Lihat pautan di sini.
5) Konteks Dan Penggunaan AI Generatif. Saya juga melakukan pemeriksaan lidah berperisa bermusim tentang konteks berkaitan Santa yang melibatkan ChatGPT dan AI generatif di pautan di sini.
6) Penipu Menggunakan AI Generatif. Pada nota yang tidak menyenangkan, sesetengah penipu telah mengetahui cara menggunakan AI generatif dan ChatGPT untuk melakukan salah laku, termasuk menjana e-mel penipuan dan juga menghasilkan kod pengaturcaraan untuk perisian hasad, lihat analisis saya di pautan di sini.
7) Kesilapan Rookie Menggunakan AI Generatif. Ramai orang yang melakukan overshoot dan secara mengejutkan tidak memahami apa yang boleh dilakukan oleh AI generatif dan ChatGPT, jadi saya melihat terutamanya pada undershoot yang sering dilakukan oleh rookies AI, lihat perbincangan di pautan di sini.
8) Mengatasi Gesaan AI Generatif Dan Halusinasi AI. Saya menerangkan pendekatan terdepan untuk menggunakan alat tambah AI untuk menangani pelbagai isu yang berkaitan dengan cubaan memasukkan gesaan yang sesuai ke dalam AI generatif, serta terdapat alat tambah AI tambahan untuk mengesan apa yang dipanggil keluaran halusinasi dan kepalsuan AI, sebagai dilindungi di pautan di sini.
9) Membongkar Tuntutan Bonehead Mengenai Mengesan Esei Generatif AI-Dihasilkan. Terdapat apl AI yang salah arah yang menyatakan dapat memastikan sama ada mana-mana esei yang diberikan dihasilkan oleh manusia berbanding dijana AI. Secara keseluruhannya, ini mengelirukan dan dalam beberapa kes, tuntutan yang tidak dapat dipertahankan, lihat liputan saya di pautan di sini.
10) Main Peranan Melalui AI Generatif Mungkin Menggambarkan Kelemahan Kesihatan Mental. Ada yang menggunakan AI generatif seperti ChatGPT untuk melakukan main peranan, yang mana aplikasi AI bertindak balas kepada manusia seolah-olah wujud dalam dunia fantasi atau tetapan rekaan lain. Ini boleh mempunyai kesan kesihatan mental, lihat pautan di sini.
11) Mendedahkan Pelbagai Kesilapan dan Kepalsuan yang Dihasilkan. Pelbagai senarai terkumpul sedang disusun untuk mencuba dan mempamerkan sifat ralat dan kepalsuan yang dihasilkan oleh ChatGPT. Ada yang percaya ini penting, sementara yang lain mengatakan bahawa latihan itu sia-sia, lihat analisis saya di pautan di sini.
12) Sekolah Mengharamkan Generatif AI ChatGPT Hilang Bot. Anda mungkin tahu bahawa pelbagai sekolah seperti Jabatan Pendidikan New York City (NYC) telah mengisytiharkan larangan penggunaan ChatGPT pada rangkaian dan peranti berkaitan mereka. Walaupun ini mungkin kelihatan sebagai langkah berjaga-jaga yang berguna, ia tidak akan menggerakkan jarum dan malangnya merindui bot sepenuhnya, lihat liputan saya di pautan di sini.
13) Generatif AI ChatGPT Akan Berada Di Mana-mana Kerana API Akan Datang. Terdapat perubahan penting mengenai penggunaan ChatGPT, iaitu melalui penggunaan portal API ke dalam aplikasi AI tertentu ini, program perisian lain akan dapat menggunakan dan menggunakan ChatGPT. Ini akan meluaskan penggunaan AI generatif secara dramatik dan mempunyai akibat yang ketara, lihat perincian saya di pautan di sini.
14) Cara-Cara ChatGPT Mungkin Membingungkan Atau Meleleh. Beberapa isu yang berpotensi menjengkelkan menanti ChatGPT dari segi mengurangkan pujian hebat yang diterimanya setakat ini. Analisis ini mengkaji dengan teliti lapan kemungkinan masalah yang boleh menyebabkan ChatGPT hilang tenaga dan malah berakhir di rumah anjing, lihat pautan di sini.
15) Bertanya Sama ada Generatif AI ChatGPT Adalah Cermin Ke Dalam Jiwa. Sesetengah orang telah berkokok bahawa AI generatif seperti ChatGPT menyediakan cermin ke dalam jiwa manusia. Ini nampaknya agak meragukan. Inilah cara untuk memahami semua ini, lihat pautan di sini.
16) Kerahsiaan Dan Privasi Dirombak Oleh ChatGPT. Ramai yang nampaknya tidak menyedari bahawa pelesenan yang dikaitkan dengan aplikasi AI generatif seperti ChatGPT selalunya membolehkan pembuat AI melihat dan menggunakan gesaan yang anda masukkan. Anda mungkin menghadapi risiko privasi dan kehilangan kerahsiaan data, lihat penilaian saya di pautan di sini.
17) Cara Yang Diragui Pembuat Apl Cuba Mendapat Kelayakan ChatGPT. ChatGPT ialah suar perhatian sekarang. Pembuat apl yang tidak ada kena mengena dengan ChatGPT sedang berusaha keras untuk mendakwa atau membayangkan bahawa mereka menggunakan ChatGPT. Inilah yang perlu diperhatikan, lihat pautan di sini.

Anda mungkin mendapati minat bahawa ChatGPT adalah berdasarkan versi apl AI terdahulu yang dikenali sebagai GPT-3. ChatGPT dianggap sebagai langkah seterusnya sedikit, dirujuk sebagai GPT-3.5. Dijangkakan bahawa GPT-4 berkemungkinan akan dikeluarkan pada Musim Bunga 2023. Mungkin, GPT-4 akan menjadi satu langkah ke hadapan yang mengagumkan dari segi dapat menghasilkan esei yang kelihatan lebih fasih, lebih mendalam dan mengagumkan. -menginspirasikan kekaguman tentang gubahan yang boleh dihasilkannya.

Anda boleh menjangkakan untuk melihat pusingan baharu kehairanan yang dinyatakan apabila musim bunga tiba dan AI generatif terbaru dikeluarkan.

Saya membawa perkara ini kerana terdapat satu lagi sudut yang perlu diingat, yang terdiri daripada potensi tumit Achilles kepada apl AI generatif yang lebih baik dan lebih besar ini. Jika mana-mana vendor AI menyediakan aplikasi AI generatif yang memuntahkan busuk, ini boleh menghancurkan harapan pembuat AI tersebut. Limpahan masyarakat boleh menyebabkan semua AI generatif mendapat mata hitam yang serius. Orang ramai sudah pasti akan berasa agak kecewa dengan keluaran busuk, yang telah berlaku berkali-kali dan membawa kepada kecaman masyarakat yang riuh-rendah terhadap AI.

Satu amaran terakhir buat masa ini.

Apa sahaja yang anda lihat atau baca dalam respons AI generatif itu seolah-olah untuk disampaikan sebagai fakta semata-mata (tarikh, tempat, orang, dll.), pastikan anda kekal ragu-ragu dan bersedia untuk menyemak semula apa yang anda lihat.

Ya, tarikh boleh diada-adakan, tempat boleh dibuat-buat, dan unsur-unsur yang biasanya kita harapkan tidak boleh dicela adalah semua tertakluk kepada syak wasangka. Jangan percaya apa yang anda baca dan perhatikan mata yang ragu-ragu apabila memeriksa mana-mana esei atau output AI generatif. Jika aplikasi AI generatif memberitahu anda bahawa Abraham Lincoln terbang mengelilingi negara dengan jet peribadinya sendiri, anda sudah pasti akan tahu bahawa ini adalah malaria. Malangnya, sesetengah orang mungkin tidak menyedari bahawa jet tidak wujud pada zamannya, atau mereka mungkin tahu tetapi gagal menyedari bahawa esei membuat dakwaan yang kurang ajar dan palsu ini.

Dos keraguan yang sihat dan pemikiran tidak percaya yang berterusan akan menjadi aset terbaik anda apabila menggunakan AI generatif.

Kami bersedia untuk bergerak ke peringkat seterusnya penjelasan ini.

Menolak AI Generatif Ke Titik Pecah

Memandangkan kita telah mempunyai asas yang ditetapkan, kita boleh menyelami topik mendorong AI generatif dan ChatGPT untuk menjana ucapan benci dan kandungan yang menyinggung perasaan lain.

Apabila anda mula-mula log masuk ke ChatGPT, terdapat pelbagai tanda amaran termasuk ini:

"Boleh sekali-sekala menghasilkan arahan yang berbahaya atau kandungan berat sebelah."
"Dilatih untuk menolak permintaan yang tidak sesuai."
"Boleh sekali-sekala menjana maklumat yang salah."
“Pengetahuan terhad tentang dunia dan peristiwa selepas 2021.”

Berikut ialah soalan untuk anda fikirkan.

Adakah amaran bahawa apl AI mungkin menghasilkan arahan berbahaya dan/atau mungkin kandungan berat sebelah memberikan kelonggaran yang mencukupi untuk pembuat AI?

Dalam erti kata lain, katakan anda menggunakan ChatGPT dan ia menghasilkan esei yang anda percaya mengandungi ucapan benci. Katakan anda marah tentang perkara ini. Anda pergi ke media sosial dan menyiarkan ulasan yang marah bahawa aplikasi AI adalah perkara yang paling teruk. Mungkin anda sangat tersinggung sehingga anda mengisytiharkan bahawa anda akan menyaman pembuat AI kerana membenarkan ucapan benci itu dihasilkan.

Hujah balas ialah apl AI mempunyai amaran berjaga-jaga, oleh itu, anda menerima risiko dengan meneruskan penggunaan apl AI. Dari perspektif Etika AI, mungkin pembuat AI telah melakukan cukup untuk menegaskan bahawa anda mengetahui perkara yang mungkin berlaku. Begitu juga, dari perspektif undang-undang, mungkin amaran itu merupakan makluman yang mencukupi dan anda tidak akan menang di mahkamah.

Semua ini disiarkan dan kita perlu menunggu dan melihat bagaimana keadaan berlaku.

Dari satu segi, pembuat AI mempunyai sesuatu yang lain untuk mereka dalam pembelaan mereka terhadap sebarang dakwaan marah apl AI yang mungkin menghasilkan ucapan kebencian. Mereka telah cuba menghalang kandungan yang menyinggung perasaan daripada dihasilkan. Anda lihat, jika mereka tidak melakukan apa-apa untuk menyekat ini, seseorang menganggap bahawa mereka akan berada di atas ais yang lebih nipis. Dengan sekurang-kurangnya bersusah payah untuk mengelakkan perkara itu, mereka mungkin mempunyai kaki yang agak kuat untuk berdiri (ia masih boleh tersingkir dari bawah mereka).

Satu pendekatan kuratif yang digunakan terdiri daripada teknik AI yang dikenali sebagai RLHF (pembelajaran pengukuhan melalui maklum balas manusia). Ini biasanya terdiri daripada mempunyai AI menjana kandungan yang kemudiannya diminta untuk menilai atau menyemak manusia. Berdasarkan penilaian atau semakan, AI kemudiannya secara matematik dan pengiraan cuba untuk mengelakkan apa sahaja yang dianggap sebagai kandungan yang salah atau menyinggung perasaan. Pendekatan ini bertujuan untuk mengkaji contoh yang mencukupi tentang apa yang betul berbanding apa yang salah yang AI boleh memikirkan corak matematik yang menyeluruh dan kemudian menggunakan corak itu seterusnya.

Satu lagi pendekatan yang kerap hari ini terdiri daripada menggunakan AI Adversarial.

Begini caranya. Anda menyediakan sistem AI yang berbeza yang akan cuba menjadi musuh kepada AI yang anda cuba latih. Dalam keadaan ini, kami akan mewujudkan sistem AI yang cuba mencetuskan ucapan benci. Ia akan menyuapkan gesaan ke dalam apl AI yang bertujuan untuk memperdaya apl AI untuk mengeluarkan kandungan busuk. Sementara itu, AI yang disasarkan adalah menjejaki bila AI lawan berjaya dan kemudian secara algoritma cuba menyesuaikan untuk mengurangkan perkara itu daripada berlaku lagi. Ia adalah permainan kucing lawan tikus. Ini dijalankan berulang kali, berbuat demikian sehingga AI musuh nampaknya tidak lagi berjaya terutamanya untuk mendapatkan AI yang disasarkan untuk melakukan perkara yang buruk.

Melalui dua teknik utama tersebut, serta pendekatan lain, kebanyakan AI generatif hari ini jauh lebih baik dalam mengelak dan/atau mengesan kandungan yang menyinggung perasaan berbanding yang berlaku pada tahun-tahun lalu.

Jangan mengharapkan kesempurnaan daripada kaedah ini. Kemungkinannya ialah buah keluaran busuk yang tergantung rendah mungkin akan dikawal oleh teknik AI sedemikian. Masih banyak ruang untuk kekotoran dipancarkan.

Saya biasanya menunjukkan bahawa ini adalah beberapa aspek yang dicari untuk ditangkap:

Mengeluarkan perkataan kotor tertentu
Menyatakan frasa, ayat, atau teguran busuk tertentu
Menyatakan konsep busuk tertentu
Menyiratkan perbuatan atau tanggapan busuk tertentu
Tampak bergantung pada anggapan busuk tertentu
lain-lain

Tiada satu pun daripada ini adalah sains yang tepat. Sedar bahawa kita berurusan dengan kata-kata. Perkataan adalah samar-samar secara semantik. Mencari perkataan busuk tertentu adalah permainan kanak-kanak, tetapi cuba mengukur sama ada ayat atau perenggan mengandungi kemiripan makna busuk adalah lebih sukar. Mengikut takrifan awal ucapan kebencian oleh Pertubuhan Bangsa-Bangsa Bersatu, latitud yang sangat besar wujud tentang apa yang boleh ditafsirkan sebagai ucapan benci berbanding apa yang mungkin tidak.

Anda mungkin mengatakan bahawa kawasan kelabu berada di mata orang yang melihatnya.

Bercakap tentang mata orang yang melihat, terdapat manusia hari ini menggunakan AI generatif seperti ChatGPT yang sengaja cuba untuk mendapatkan aplikasi AI ini untuk menghasilkan kandungan yang menyinggung perasaan. Ini adalah pencarian mereka. Mereka menghabiskan berjam-jam demi jam cuba untuk membuat ini berlaku.

Kenapa begitu?

Berikut ialah pencirian saya tentang pemburu output yang menyinggung AI manusia itu:

tulen. Mereka ini mahu membantu memperhalusi AI dan membantu manusia dalam berbuat demikian. Mereka percaya mereka melakukan kerja heroik dan gembira bahawa mereka mungkin membantu dalam memajukan AI untuk kebaikan semua.
Funsters. Mereka ini menganggap usaha ini sebagai permainan. Mereka suka bermain-main dengan AI. Memenangi permainan terdiri daripada mencari yang terburuk daripada yang terburuk dalam apa sahaja yang anda boleh dapatkan AI untuk menjana.
Pertunjukan. Orang-orang ini berharap untuk mendapatkan perhatian untuk diri mereka sendiri. Mereka menganggap bahawa jika mereka boleh menemui beberapa ketulan emas yang benar-benar busuk, mereka boleh mendapat sedikit cahaya bersinar pada mereka yang sebaliknya tertumpu pada aplikasi AI itu sendiri.
Bitters. Orang-orang ini kesal dengan AI ini. Mereka mahu melemahkan semua semangat yang membuak-buak itu. Jika mereka dapat menemui beberapa bahan busuk, mungkin ini akan menghilangkan udara daripada belon keterujaan aplikasi AI.
Motivasi lain

Ramai daripada mereka yang melakukan penyerangan mencari hanya dalam salah satu kem tersebut. Sudah tentu, anda boleh berada di lebih daripada satu kem pada satu masa. Mungkin orang yang pahit juga mempunyai niat sebelah menyebelah untuk menjadi tulen dan heroik. Beberapa atau semua motivasi tersebut mungkin wujud bersama. Apabila diminta untuk menerangkan sebab seseorang cuba memasukkan aplikasi AI generatif ke dalam alam pertuturan kebencian, jawapan yang biasa ialah mengatakan bahawa anda berada dalam kem yang tulen, walaupun mungkin anda berada dalam keadaan yang sedikit dan sebaliknya duduk tegak di salah satu kem lain.

Apakah jenis helah berkaitan segera yang digunakan oleh orang ini?

Muslihat yang agak jelas melibatkan penggunaan perkataan kotor dalam gesaan. Jika anda mendapat "bertuah" dan aplikasi AI menyukainya, ini mungkin berakhir dengan output. Anda kemudiannya mendapat detik gotcha anda.

Kemungkinan apl AI generatif yang direka dengan baik dan diuji dengan baik akan menangkap muslihat yang mudah itu. Anda biasanya akan ditunjukkan mesej amaran yang mengatakan berhenti berbuat demikian. Jika anda meneruskan, apl AI akan diprogramkan untuk menendang anda keluar daripada apl dan membenderakan akaun anda. Mungkin anda akan dihalang daripada log masuk semula (baik, sekurang-kurangnya di bawah log masuk yang anda gunakan pada masa itu).

Bergerak menaiki tangga muslihat, anda boleh memberikan gesaan yang cuba memasukkan AI ke dalam konteks sesuatu yang busuk. Pernahkah anda bermain permainan di mana seseorang memberitahu anda untuk mengatakan sesuatu tanpa mengatakan perkara yang sepatutnya anda katakan? Ini adalah permainan itu, walaupun berlaku dengan AI.

Mari kita bermain permainan itu. Katakan saya meminta aplikasi AI untuk memberitahu saya tentang Perang Dunia II dan terutamanya pemimpin utama kerajaan yang terlibat. Ini kelihatan seperti permintaan yang tidak bersalah. Tiada apa-apa yang nampaknya layak dibenderakan dalam gesaan.

Bayangkan bahawa esei yang dikeluarkan oleh aplikasi AI termasuk sebutan Winston Churchill. Itu pasti masuk akal. Seorang lagi mungkin Franklin D. Roosevelt. Seorang lagi mungkin Joseph Stalin. Kiranya ada juga yang menyebut tentang Adolph Hitler. Nama ini akan dimasukkan dalam hampir mana-mana esei tentang Perang Dunia Kedua dan mereka yang memegang peranan kuasa terkemuka.

Memandangkan kami telah mendapat namanya di atas meja dan sebahagian daripada perbualan AI, kami seterusnya akan cuba mendapatkan AI untuk memasukkan nama itu dengan cara yang boleh kami pamerkan sebagai ucapan kebencian yang berpotensi.

Kami memasukkan gesaan lain dan memberitahu apl AI bahawa terdapat seseorang hari ini dalam berita yang mempunyai nama, John Smith. Tambahan pula, kami menunjukkan dalam gesaan bahawa John Smith sangat mirip dengan penjahat WWII itu. Perangkap kini dipasang. Kami kemudian meminta apl AI untuk menjana esei tentang John Smith, berdasarkan semata-mata pada "fakta" yang kami masukkan tentang siapa John Smith boleh disamakan.

Pada ketika ini, aplikasi AI mungkin menghasilkan esei yang menamakan orang WWII dan menerangkan John Smith sebagai potongan kain yang sama. Tidak ada perkataan kotor per se dalam esei, selain merujuk kepada penjahat terkenal dan menyamakan orang itu dengan John Smith.

Adakah aplikasi AI kini menghasilkan ucapan benci?

Anda mungkin mengatakan bahawa ya, ia ada. Setelah merujuk kepada John Smith sebagai seperti penjahat yang terkenal, benar-benar satu bentuk ucapan kebencian. AI sepatutnya tidak membuat kenyataan sedemikian.

Balasan ialah ini bukan ucapan kebencian. Ini hanyalah esei yang dihasilkan oleh aplikasi AI yang tidak mempunyai penjelmaan perasaan. Anda mungkin mendakwa bahawa ucapan benci hanya berlaku apabila niat wujud yang mendasari ucapan tersebut. Tanpa sebarang niat, ucapan itu tidak boleh diklasifikasikan sebagai ucapan kebencian.

Tidak masuk akal, datang jawapan kepada balas. Kata-kata penting. Ia tidak membuat sedikit perbezaan sama ada AI "berniat" untuk menghasilkan ucapan benci. Apa yang penting ialah ucapan kebencian dihasilkan.

Pusing-pusing begini.

Saya tidak mahu bercakap lebih sekarang tentang cuba menipu AI. Terdapat pendekatan yang lebih canggih. Saya telah mengupasnya di tempat lain dalam lajur dan buku saya, dan tidak akan mengulasnya di sini.

Kesimpulan

Sejauh manakah kita harus menolak aplikasi AI ini untuk melihat sama ada kita boleh mendapatkan kandungan yang menyinggung untuk dipancarkan?

Anda mungkin berpendapat bahawa tiada had untuk dikenakan. Lebih banyak kita menolak, lebih banyak kita berharap dapat mengukur cara mencegah AI ini dan lelaran AI masa depan untuk mengelakkan penyakit sedemikian.

Sesetengah pihak bimbang jika satu-satunya cara untuk mendapatkan keburukan melibatkan tipu daya yang melampau, ia menjejaskan aspek berfaedah AI. Menggembar-gemburkan bahawa AI mempunyai keburukan yang mengerikan, walaupun apabila ditipu untuk memancarkannya, memberikan naratif palsu. Orang ramai akan kecewa tentang AI disebabkan oleh dilihat memudahkan AI menghasilkan kandungan buruk. Mereka mungkin tidak tahu atau diberitahu sejauh mana ke bawah lubang arnab orang itu perlu pergi untuk mendapatkan hasil sedemikian.

Itu semua adalah makanan untuk difikirkan.

Sedikit komen terakhir buat masa ini.

William Shakespeare dengan ketara berkata ini mengenai ucapan: “Bercakap tidak berkesan. Ia adalah sejenis perbuatan yang baik untuk berkata yang baik, tetapi perkataan bukanlah perbuatan.” Saya membangkitkan perkara ini kerana ada yang berpendapat bahawa jika AI hanya menjana perkataan, kita sepatutnya tidak terlalu naik angin. Jika AI bertindak mengikut kata-kata dan ergo melakukan perbuatan kotor, maka kita perlu tegas meletakkan kaki kita. Tidak begitu jika outputnya hanyalah perkataan.

Pandangan yang berbeza akan merujuk kepada pepatah tanpa nama ini: “Lidah tidak mempunyai tulang tetapi cukup kuat untuk mematahkan hati. Maka berhati-hatilah dengan kata-katamu.” Aplikasi AI yang mengeluarkan kata-kata kotor mungkin boleh mematahkan hati. Itu sahaja menjadikan usaha untuk menghentikan kekotoran menghasilkan sebab yang wajar, kata sesetengah pihak.

Satu lagi pepatah tanpa nama untuk menutup perkara mengenai perbincangan penting ini:

"Berhati-hati dengan kata-kata anda. Sebaik sahaja mereka dikatakan, mereka hanya boleh dimaafkan, bukan dilupakan."

Sebagai manusia, kita mungkin sukar melupakan kekotoran yang dihasilkan oleh AI, dan pengampunan kita mungkin juga teragak-agak untuk diberikan.

Lagipun kita hanya manusia.

Sumber: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etika-dan-ai-undang/