Hari Kiamat Undang-undang Untuk Generatif AI ChatGPT Jika Ditangkap Menciplak Atau Melanggar, Memberi Amaran Etika AI Dan Undang-undang AI

Adakah AI generatif seperti ChatGPT merobek tapak web kami dan kandungan rekaan manusia? Sedarlah, jadilah … [+] kecewa, bersedialah.

getty

Beri kredit di mana kredit perlu dibayar.

Itulah sedikit kebijaksanaan bijak yang anda mungkin telah dibesarkan untuk dipercayai dengan kukuh. Memang, seseorang menganggap atau membayangkan bahawa kita semua mungkin agak munasabah bersetuju bahawa ini adalah peraturan yang adil dan wajar dalam kehidupan. Apabila seseorang melakukan sesuatu yang patut mendapat pengiktirafan, pastikan mereka mendapat pengiktirafan yang sewajarnya.

Pandangan yang bertentangan akan kelihatan jauh lebih menarik.

Jika seseorang berjalan-jalan menegaskan bahawa kredit sepatutnya tidak diiktiraf apabila kredit perlu dibayar, anda mungkin menegaskan bahawa kepercayaan sedemikian adalah tidak sopan dan mungkin curang. Kita sering mendapati diri kita terganggu apabila kredit ditipu seseorang yang telah mencapai sesuatu yang ketara. Saya berani mengatakan bahawa kita terutamanya tidak suka apabila orang lain secara palsu mengambil pujian untuk kerja orang lain. Itu adalah serangan berganda yang meresahkan. Orang yang sepatutnya mendapat kredit dinafikan saat mereka di bawah sinar matahari. Di samping itu, penipu itu menikmati perhatian walaupun mereka secara salah memperdayakan kita untuk menyalahgunakan kasih sayang kita.

Mengapa semua wacana ini tentang mendapatkan kredit dengan cara yang paling betul dan mengelakkan cara yang salah dan hina?

Kerana kita seolah-olah menghadapi masalah yang sama apabila ia datang kepada yang terkini dalam Kepintaran Buatan (AI).

Ya, dakwaan adalah bahawa ini berlaku secara nyata melalui sejenis AI yang dikenali sebagai AI Generatif. Terdapat banyak tulisan tangan bahawa Generative AI, AI yang paling hangat dalam berita hari ini, telah mengambil pujian untuk perkara yang tidak layak untuk dipuji. Dan ini mungkin bertambah buruk apabila AI generatif semakin berkembang dan digunakan. Semakin banyak kredit yang diberikan kepada AI generatif, manakala yang menyedihkan mereka yang layak mendapat kredit sebenar ditinggalkan dalam debu.

Cara yang saya tawarkan untuk menyatakan fenomena yang dikatakan ini dengan jelas adalah melalui dua frasa yang menarik:

1) Plagiarisme pada skala
2) Pelanggaran Hak Cipta pada skala

Saya menganggap bahawa anda mungkin mengetahui AI generatif disebabkan oleh aplikasi AI yang popular secara meluas dikenali sebagai ChatGPT yang dikeluarkan pada bulan November oleh OpenAI. Saya akan bercakap lebih lanjut mengenai AI generatif dan ChatGPT buat seketika. Tunggu di situ.

Mari kita segera ke inti dari apa yang mendapat kambing orang, seolah-olah.

Ada yang bersungguh-sungguh mengadu bahawa AI generatif berpotensi merobek manusia yang telah mencipta kandungan. Anda lihat, kebanyakan aplikasi AI generatif adalah data yang dilatih dengan memeriksa data yang terdapat di Internet. Berdasarkan data itu, algoritma boleh mengasah rangkaian pemadanan corak dalaman yang luas dalam apl AI yang kemudiannya boleh menghasilkan kandungan yang kelihatan baharu yang menakjubkan kelihatan seolah-olah ia direka oleh tangan manusia dan bukannya sekeping automasi

Pencapaian yang luar biasa ini sebahagian besarnya disebabkan oleh penggunaan kandungan yang diimbas Internet. Tanpa jumlah dan kekayaan kandungan Internet sebagai sumber untuk latihan data, AI generatif akan menjadi kosong dan kurang atau tidak berminat untuk digunakan. Dengan meminta AI memeriksa berjuta-juta dokumen dan teks dalam talian, bersama-sama dengan semua jenis kandungan yang berkaitan, padanan corak diperoleh secara beransur-ansur untuk mencuba dan meniru kandungan yang dihasilkan manusia.

Lebih banyak kandungan diperiksa, kemungkinan padanan corak akan lebih diasah dan menjadi lebih baik dalam meniru, semua yang lain adalah sama.

Inilah soalan berjuta-juta dolar:

Soalan Besar: Jika anda atau orang lain mempunyai kandungan di Internet yang mana beberapa apl AI generatif telah dilatih, berbuat demikian mungkin tanpa kebenaran langsung anda dan mungkin sepenuhnya tanpa kesedaran anda sama sekali, sekiranya anda berhak mendapat sekeping pai tentang apa jua nilai yang timbul daripada latihan data AI generatif itu?

Ada yang berhujah dengan tegas bahawa satu-satunya jawapan yang betul adalah Ya, terutamanya bahawa pencipta kandungan manusia tersebut sememangnya layak untuk mengambil tindakan tersebut. Masalahnya, anda akan berasa sukar untuk mencari sesiapa sahaja yang telah mendapat bahagian saksama mereka, dan lebih teruk lagi, hampir tiada siapa yang mendapat apa-apa bahagian pun. Pencipta kandungan Internet yang menyumbang secara tidak sengaja dan tidak disedari pada dasarnya dinafikan kredit yang sah mereka.

Ini mungkin disifatkan sebagai kejam dan keterlaluan. Kami hanya melalui pembongkaran kebijaksanaan bijak bahawa kredit harus diberikan di mana kredit perlu dibayar. Dalam kes AI generatif, nampaknya tidak begitu. Peraturan praktikal yang berpanjangan dan murni mengenai kredit nampaknya dilanggar secara tidak sengaja.

Wah, jawabnya, anda benar-benar melebih-lebihkan dan salah nyatakan keadaan. Pasti, AI generatif telah memeriksa kandungan di Internet. Sudah tentu, ini banyak membantu sebagai sebahagian daripada latihan data AI generatif. Diakui, aplikasi AI generatif yang mengagumkan hari ini tidak akan begitu mengagumkan tanpa pendekatan yang dipertimbangkan ini. Tetapi anda telah melangkah terlalu jauh apabila mengatakan bahawa pencipta kandungan harus diperuntukkan sebarang bentuk kredit tertentu.

Logiknya adalah seperti berikut. Manusia pergi ke Internet dan mempelajari sesuatu daripada Internet, melakukannya secara rutin dan tanpa sebarang kekecohan. Seseorang yang membaca blog tentang paip dan kemudian menonton video membaiki paip yang tersedia secara percuma mungkin pada hari berikutnya keluar dan bekerja sebagai tukang paip. Adakah mereka perlu memberikan sebahagian daripada kiriman wang berkaitan paip mereka kepada blogger yang menulis tentang cara memasang sinki? Adakah mereka perlu memberikan bayaran kepada vlogger yang membuat video yang memaparkan langkah-langkah untuk membaiki tab mandi yang bocor?

Hampir pasti tidak.

Latihan data AI generatif hanyalah satu cara untuk membangunkan corak. Selagi output daripada AI generatif bukan sekadar regurgitasi daripada apa yang telah diperiksa, anda boleh berhujah secara meyakinkan bahawa mereka telah "belajar" dan oleh itu tidak tertakluk kepada pemberian kredit khusus kepada mana-mana sumber tertentu. Melainkan anda boleh menangkap AI generatif dalam melakukan regurgitasi yang tepat, tanda-tandanya ialah AI telah digeneralisasikan melebihi mana-mana sumber tertentu.

Tiada kredit perlu dibayar kepada sesiapa. Atau, anda boleh katakan bahawa kredit diberikan kepada semua orang. Teks kolektif dan kandungan manusia lain yang terdapat di Internet mendapat pujian. Kita semua mendapat kredit. Cuba untuk menentukan kredit kepada sumber tertentu adalah tidak masuk akal. Bergembiralah kerana AI sedang maju dan semua manusia yang diberitahu akan mendapat manfaat. Penyiaran tersebut di Internet sepatutnya berasa berbesar hati kerana mereka menyumbang kepada kemajuan masa depan dalam AI dan bagaimana ini akan membantu manusia untuk selama-lamanya.

Saya akan mempunyai lebih banyak perkara untuk dikatakan tentang kedua-dua pandangan yang berbeza itu.

Sementara itu, adakah anda cenderung kepada kem yang mengatakan kredit perlu dibayar dan tertunggak terlambat bagi mereka yang mempunyai tapak web di Internet, atau adakah anda mendapati pihak lawan yang mengatakan pencipta kandungan Internet sudah pasti tidak tercabut adalah postur yang lebih mantap?

Enigma dan teka-teki semuanya tersekat bersama.

Mari kita bongkar ini.

Dalam lajur hari ini, saya akan menangani kebimbangan yang dinyatakan ini bahawa AI generatif pada dasarnya memplagiat atau mungkin melanggar hak cipta kandungan yang telah disiarkan di Internet (dianggap sebagai hak Harta Intelek atau isu IP). Kami akan melihat asas untuk keraguan ini. Saya kadang-kadang merujuk kepada ChatGPT semasa perbincangan ini kerana ia adalah gorila AI generatif seberat 600 paun, walaupun perlu diingat bahawa terdapat banyak apl AI generatif lain dan ia biasanya berdasarkan prinsip keseluruhan yang sama.

Sementara itu, anda mungkin tertanya-tanya apakah sebenarnya AI generatif.

Mari kita mula-mula merangkumi asas-asas AI generatif dan kemudian kita boleh melihat dengan teliti perkara yang mendesak.

Dalam semua ini terdapat beberapa pertimbangan Etika AI dan Undang-undang AI.

Harap maklum bahawa terdapat usaha berterusan untuk menerapkan prinsip AI Beretika ke dalam pembangunan dan penempatan apl AI. Kontinjen yang semakin meningkat daripada ahli etika AI yang prihatin dan dahulunya cuba memastikan bahawa usaha untuk merangka dan menerima pakai AI mengambil kira pandangan untuk melakukan AI Untuk Kebaikan dan mengelak AI Untuk Buruk. Begitu juga, terdapat cadangan undang-undang AI baharu yang sedang digembar-gemburkan sebagai penyelesaian yang berpotensi untuk menghalang usaha AI daripada mengamuk mengenai hak asasi manusia dan sebagainya. Untuk liputan berterusan dan meluas saya tentang Etika AI dan Undang-undang AI, lihat pautan di sini and pautan di sini, Hanya untuk menamakan beberapa.

Pembangunan dan pengisytiharan peraturan AI Beretika sedang dijalankan untuk diharapkan dapat mengelakkan masyarakat daripada terjerumus ke dalam pelbagai perangkap yang mendorong AI. Untuk liputan saya tentang prinsip Etika AI PBB seperti yang dirangka dan disokong oleh hampir 200 negara melalui usaha UNESCO, lihat pautan di sini. Dalam nada yang sama, undang-undang AI baharu sedang diterokai untuk mencuba dan mengekalkan AI pada landasan yang sama. Salah satu pengambilan terkini terdiri daripada satu set cadangan Rang Undang-undang Hak AI bahawa Rumah Putih AS baru-baru ini dikeluarkan untuk mengenal pasti hak asasi manusia pada zaman AI, lihat pautan di sini. Ia memerlukan sebuah kampung untuk memastikan pembangun AI dan AI berada di landasan yang betul dan menghalang usaha curang yang bertujuan atau tidak sengaja yang mungkin menjejaskan masyarakat.

Saya akan menggabungkan pertimbangan berkaitan Etika AI dan Undang-undang AI ke dalam perbincangan ini.

Asas AI Generatif

Contoh AI generatif yang paling terkenal diwakili oleh aplikasi AI bernama ChatGPT. ChatGPT muncul dalam kesedaran awam pada bulan November apabila ia dikeluarkan oleh firma penyelidikan AI OpenAI. Sejak ChatGPT telah mendapat tajuk berita besar dan menakjubkan melebihi lima belas minit kemasyhuran yang diperuntukkan.

Saya rasa anda mungkin pernah mendengar tentang ChatGPT atau mungkin mengenali seseorang yang pernah menggunakannya.

ChatGPT dianggap sebagai aplikasi AI generatif kerana ia mengambil sebagai input beberapa teks daripada pengguna dan kemudian menjana atau menghasilkan output yang terdiri daripada esei. AI ialah penjana teks-ke-teks, walaupun saya menerangkan AI sebagai penjana teks-ke-esei kerana ia lebih mudah menjelaskan perkara yang biasa digunakan. Anda boleh menggunakan AI generatif untuk mengarang gubahan yang panjang atau anda boleh mendapatkannya untuk memberikan komen yang agak pendek. Semuanya atas kehendak anda.

Apa yang anda perlu lakukan ialah memasukkan gesaan dan apl AI akan menjana untuk anda esei yang cuba membalas gesaan anda. Teks yang dikarang akan kelihatan seolah-olah esei itu ditulis oleh tangan dan minda manusia. Jika anda memasukkan gesaan yang mengatakan "Beritahu saya tentang Abraham Lincoln" AI generatif akan memberikan anda esei tentang Lincoln. Terdapat mod AI generatif lain, seperti teks-ke-seni dan teks-ke-video. Saya akan memfokuskan di sini pada variasi teks ke teks.

Fikiran pertama anda mungkin bahawa keupayaan generatif ini tidak kelihatan seperti masalah besar dari segi menghasilkan esei. Anda boleh melakukan carian dalam talian di Internet dengan mudah dan mudah mencari banyak esei tentang Presiden Lincoln. Penendang dalam kes AI generatif ialah esei yang dihasilkan adalah agak unik dan menyediakan komposisi asli dan bukannya peniru. Jika anda mencuba dan mencari esei yang dihasilkan AI dalam talian di suatu tempat, anda tidak mungkin menemuinya.

AI Generatif adalah pra-latihan dan menggunakan rumusan matematik dan pengiraan yang kompleks yang telah disediakan dengan meneliti corak dalam perkataan dan cerita bertulis di seluruh web. Hasil daripada meneliti beribu-ribu dan berjuta-juta petikan bertulis, AI boleh memuntahkan esei dan cerita baharu yang bercampur aduk dengan apa yang ditemui. Dengan menambahkan pelbagai fungsi kebarangkalian, teks yang terhasil adalah agak unik berbanding dengan apa yang telah digunakan dalam set latihan.

Terdapat banyak kebimbangan mengenai AI generatif.

Satu kelemahan penting ialah esei yang dihasilkan oleh aplikasi AI berasaskan generatif boleh mempunyai pelbagai kepalsuan yang disematkan, termasuk fakta yang nyata tidak benar, fakta yang digambarkan secara mengelirukan dan fakta nyata yang direka sepenuhnya. Aspek rekaan tersebut sering dirujuk sebagai satu bentuk halusinasi AI, frasa slogan yang saya tidak gemar tetapi merungut nampaknya semakin mendapat tarikan popular (untuk penjelasan terperinci saya tentang mengapa ini terminologi yang buruk dan tidak sesuai, lihat liputan saya di pautan di sini).

Kebimbangan lain ialah manusia boleh dengan mudah mengambil kredit untuk esei yang dihasilkan AI generatif, walaupun tidak mengarang esei itu sendiri. Anda mungkin pernah mendengar bahawa guru dan sekolah agak bimbang tentang kemunculan aplikasi AI generatif. Pelajar berpotensi menggunakan AI generatif untuk menulis esei yang diberikan kepada mereka. Jika pelajar mendakwa bahawa esei ditulis oleh tangan mereka sendiri, terdapat sedikit peluang untuk guru dapat membezakan sama ada ia dipalsukan oleh AI generatif. Untuk analisis saya tentang aspek mengelirukan pelajar dan guru ini, lihat liputan saya di pautan di sini and pautan di sini.

Terdapat beberapa dakwaan luar biasa zany di media sosial tentang AI Generatif menegaskan bahawa versi terbaru AI ini sebenarnya AI yang hidup (tidak, mereka salah!). Mereka yang berada dalam Etika AI dan Undang-undang AI amat bimbang tentang trend tuntutan meluas yang semakin berkembang ini. Anda mungkin dengan sopan mengatakan bahawa sesetengah orang terlalu menyatakan perkara yang sebenarnya boleh dilakukan oleh AI hari ini. Mereka beranggapan bahawa AI mempunyai keupayaan yang belum dapat kami capai. Itu malang. Lebih teruk lagi, mereka boleh membenarkan diri mereka dan orang lain untuk menghadapi situasi yang teruk kerana andaian bahawa AI akan berperasaan atau seperti manusia yang boleh mengambil tindakan.

Jangan antropomorfosis AI.

Melakukannya akan membuatkan anda terperangkap dalam perangkap pergantungan yang melekit dan masam kerana mengharapkan AI melakukan perkara yang tidak dapat dilakukannya. Dengan itu dikatakan, AI generatif terkini agak mengagumkan untuk apa yang boleh dilakukannya. Harap maklum bahawa terdapat had penting yang anda perlu sentiasa ingat apabila menggunakan mana-mana aplikasi AI generatif.

Satu amaran terakhir buat masa ini.

Apa sahaja yang anda lihat atau baca dalam respons AI generatif itu seolah-olah untuk disampaikan sebagai fakta semata-mata (tarikh, tempat, orang, dll.), pastikan anda kekal ragu-ragu dan bersedia untuk menyemak semula apa yang anda lihat.

Ya, tarikh boleh diada-adakan, tempat boleh dibuat-buat, dan unsur-unsur yang biasanya kita harapkan tidak boleh dicela adalah semua tertakluk kepada syak wasangka. Jangan percaya apa yang anda baca dan perhatikan mata yang ragu-ragu apabila memeriksa mana-mana esei atau output AI generatif. Jika aplikasi AI generatif memberitahu anda bahawa Abraham Lincoln terbang mengelilingi negara dengan jet peribadinya, anda sudah pasti akan tahu bahawa ini adalah malaria. Malangnya, sesetengah orang mungkin tidak menyedari bahawa jet tidak wujud pada zamannya, atau mereka mungkin tahu tetapi gagal menyedari bahawa esei membuat dakwaan yang kurang ajar dan palsu ini.

Dos keraguan yang sihat dan pemikiran tidak percaya yang berterusan akan menjadi aset terbaik anda apabila menggunakan AI generatif.

Kami bersedia untuk bergerak ke peringkat seterusnya penjelasan ini.

Internet Dan Generatif AI Bersama-sama

Memandangkan anda mempunyai persamaan tentang AI generatif, kita boleh meneroka persoalan yang menjengkelkan sama ada AI generatif secara adil atau tidak adil "memanfaatkan", atau ada yang akan berkata secara terang-terangan mengeksploitasi kandungan Internet.

Berikut ialah empat topik penting saya yang berkaitan dengan perkara ini:

1) Masalah Berganda: Plagiarisme Dan Pelanggaran Hak Cipta
2) Cuba Membuktikan Plagiarisme Atau Pelanggaran Hak Cipta Akan Dicuba
3) Membuat Kes Untuk Plagiarisme Atau Pelanggaran Hak Cipta
4) Periuk Api Sah Menanti

Saya akan membincangkan setiap topik penting ini dan memberikan pertimbangan yang bernas yang perlu kita semua fikirkan dengan teliti. Setiap topik ini adalah sebahagian daripada teka-teki yang lebih besar. Anda tidak boleh melihat hanya sekeping. Anda juga tidak boleh melihat mana-mana bahagian secara berasingan daripada kepingan lain.

Ini adalah mozek yang rumit dan keseluruhan teka-teki perlu diberi pertimbangan harmoni yang sewajarnya.

Masalah Berganda: Plagiarisme Dan Pelanggaran Hak Cipta

Masalah berganda yang dihadapi oleh mereka yang membuat dan memajukan AI generatif ialah barangan mereka mungkin melakukan dua perkara buruk:

1) Plagiat. AI generatif boleh ditafsirkan sebagai plagiarizing kandungan yang wujud di Internet mengikut pengimbasan Internet yang berlaku semasa latihan data AI.
2) Pelanggaran Hak Cipta. AI generatif boleh dituntut sebagai usaha pelanggaran hak cipta dikaitkan dengan kandungan Internet yang diimbas semasa latihan data.

Untuk menjelaskannya, terdapat lebih banyak kandungan di Internet daripada yang biasanya diimbas untuk latihan data AI generatif. Hanya sebahagian kecil daripada Internet biasanya digunakan. Oleh itu, kita mungkin boleh menganggap bahawa mana-mana kandungan yang tidak diimbas semasa latihan data tidak mempunyai daging lembu tertentu dengan AI generatif.

Ini agak boleh dipertikaikan walaupun kerana anda berpotensi melukis garis yang menghubungkan kandungan lain yang diimbas dengan kandungan yang tidak diimbas. Selain itu, satu lagi provis penting ialah walaupun terdapat kandungan yang tidak diimbas, ia masih boleh dipertikaikan sebagai diciplak dan/atau dilanggar hak cipta jika output AI generatif mungkin berada pada kata kerja yang sama. Maksud saya adalah bahawa terdapat banyak kegelisahan dalam semua ini.

Pokoknya: AI Generatif penuh dengan teka-teki undang-undang AI Etika dan AI yang berpotensi apabila melibatkan plagiarisme dan pelanggaran hak cipta menyokong amalan latihan data yang lazim.

Setakat ini, pembuat AI dan penyelidik AI telah meluncur melalui ini, walaupun pedang yang menjulang dan tergantung yang tergantung di atas mereka. Hanya beberapa tindakan undang-undang telah dilancarkan setakat ini terhadap amalan ini. Anda mungkin pernah mendengar atau melihat artikel berita tentang tindakan undang-undang tersebut. Satu, sebagai contoh, melibatkan firma teks ke imej Midjourney dan Stability AI kerana melanggar kandungan artistik yang disiarkan di Internet. Satu lagi melibatkan pelanggaran teks-ke-kod terhadap GitHub, Microsoft dan OpenAI disebabkan oleh perisian Copilot yang menghasilkan aplikasi AI. Getty Images juga telah menyasarkan untuk mengejar Stability AI untuk pelanggaran teks ke imej.

Anda boleh menjangkakan bahawa lebih banyak tindakan undang-undang sedemikian akan difailkan.

Pada masa ini, adalah sedikit peluang untuk melancarkan tindakan undang-undang tersebut kerana keputusannya agak tidak diketahui. Adakah mahkamah berpihak kepada pembuat AI atau mereka yang percaya kandungan mereka dieksploitasi secara tidak adil akan menjadi pemenang? Pertempuran undang-undang yang mahal sentiasa menjadi perkara yang serius. Membelanjakan kos undang-undang berskala besar perlu ditimbang dengan peluang menang atau kalah.

Pembuat AI nampaknya hampir tidak mempunyai pilihan selain untuk melawan. Sekiranya mereka menyerah kalah, walaupun sedikit, kemungkinan besar tindakan undang-undang tambahan akan berlaku (pada asasnya, membuka pintu kepada peluang yang lebih tinggi untuk orang lain juga berlaku). Sebaik sahaja terdapat darah yang sah di dalam air, jerung sah yang tinggal akan bergegas ke "skor mudah" yang dianggap dan pertumpahan darah monetari yang membelasah dan memukul pasti akan berlaku.

Sesetengah percaya bahawa kita harus meluluskan undang-undang AI baharu yang akan melindungi pembuat AI. Perlindungan mungkin menjadi retroaktif. Asas untuk ini ialah jika kita ingin melihat kemajuan AI generatif, kita perlu memberi pembuat AI beberapa landasan zon selamat. Sebaik sahaja tindakan undang-undang mula menjaringkan kemenangan terhadap pembuat AI, jika itu berlaku (kita belum tahu lagi), kebimbangannya ialah AI generatif akan hilang kerana tiada siapa yang akan bersedia untuk memberi sokongan kepada firma AI.

Seperti yang dinyatakan dengan tepat dalam artikel Undang-undang Bloomberg baru-baru ini bertajuk "ChatGPT: IP, Keselamatan Siber & Risiko Perundangan Lain AI Generatif" oleh Dr. Ilia Kolochenko dan Gordon Platt, Undang-undang Bloomberg, Februari 2023, berikut adalah dua petikan penting yang mengulangi pandangan ini:

“Perdebatan hangat kini berlaku di kalangan sarjana undang-undang AS dan profesor undang-undang IP mengenai sama ada pengikisan tanpa kebenaran dan penggunaan data berhak cipta yang seterusnya sama dengan pelanggaran hak cipta. Jika pandangan pengamal undang-undang yang melihat pelanggaran hak cipta dalam amalan sedemikian berlaku, pengguna sistem AI tersebut juga mungkin bertanggungjawab atas pelanggaran kedua dan berpotensi menghadapi akibat undang-undang."
"Untuk menangani cabaran secara menyeluruh, penggubal undang-undang harus mempertimbangkan bukan sahaja memodenkan perundangan hak cipta sedia ada, tetapi juga melaksanakan satu set undang-undang dan peraturan khusus AI."

Ingatlah bahawa sebagai sebuah masyarakat kita telah meletakkan perlindungan undang-undang untuk pengembangan Internet, seperti yang disaksikan sekarang oleh Mahkamah Agung yang menyemak Seksyen 230 yang terkenal atau tercela. Oleh itu, nampaknya wajar dan duluan bahawa kita mungkin sanggup melakukan beberapa perlindungan yang serupa untuk kemajuan AI generatif. Mungkin perlindungan boleh disediakan buat sementara waktu, tamat tempoh selepas AI generatif mencapai beberapa tahap kecekapan yang telah ditetapkan. Peruntukan perlindungan lain boleh dirangka.

Saya tidak lama lagi akan menyiarkan analisis saya tentang bagaimana penilaian Mahkamah Agung dan keputusan muktamad mengenai Seksyen 230 mungkin memberi kesan kepada kemunculan AI generatif. Nantikan siaran akan datang itu!

Kembali kepada pendapat yang disuarakan dengan tegas bahawa kita harus memberi kelonggaran untuk inovasi teknologi yang mengagumkan masyarakat yang dikenali sebagai AI generatif. Ada yang akan mengatakan bahawa walaupun pelanggaran hak cipta yang didakwa telah atau sedang berlaku, masyarakat secara keseluruhan sepatutnya bersedia untuk membenarkan ini untuk tujuan khusus memajukan AI generatif.

Harapannya ialah undang-undang AI baharu akan dibuat dengan teliti dan disesuaikan dengan butiran yang berkaitan dengan latihan data untuk AI generatif.

Terdapat banyak hujah balas terhadap tanggapan ini untuk merangka undang-undang AI baharu untuk tujuan ini. Satu kebimbangan ialah mana-mana undang-undang AI baharu sebegitu akan membuka pintu air untuk semua jenis pelanggaran hak cipta. Kami akan mengeluh pada hari kami membenarkan undang-undang AI baharu sebegini untuk digunakan pada buku. Tidak kira betapa sukarnya anda cuba menghadkan ini kepada latihan data AI sahaja, orang lain akan secara senyap-senyap atau bijak mencari kelemahan yang akan mengakibatkan pelanggaran hak cipta yang tidak terkawal dan berleluasa.

Bulat dan bulat hujah pergi.

Satu hujah yang tidak begitu menarik ada kaitan dengan cubaan menyaman AI itu sendiri. Perhatikan bahawa saya telah merujuk kepada pembuat AI atau penyelidik AI sebagai pihak berkepentingan yang bersalah. Ini adalah orang dan syarikat. Ada yang mencadangkan agar kita menyasarkan AI sebagai pihak yang akan didakwa. Saya telah membincangkan dengan panjang lebar dalam lajur saya bahawa kita belum lagi mengaitkan keperibadian undang-undang kepada AI, lihat pautan di sini sebagai contoh, dan oleh itu tindakan undang-undang sedemikian yang ditujukan kepada AI akan dianggap tidak masuk akal sekarang.

Sebagai tambahan kepada persoalan siapa atau apa yang patut didakwa, ini membawa satu lagi topik menarik.

Andaikan bahawa aplikasi AI generatif tertentu direka oleh beberapa pembuat AI yang akan kami panggil Syarikat Widget. Syarikat Widget bersaiz agak kecil dan tidak mempunyai banyak hasil, mahupun banyak dari segi aset. Menyaman mereka tidak mungkin memperoleh kekayaan besar yang mungkin dicari oleh seseorang. Paling banyak, anda hanya akan mendapat kepuasan untuk membetulkan apa yang anda anggap sebagai salah.

Anda mahu mengejar ikan besar.

Begini bagaimana ia akan timbul. Pembuat AI memilih untuk menjadikan AI generatif mereka tersedia kepada Syarikat Big Time, sebuah konglomerat utama dengan banyak doh dan banyak aset. Tuntutan undang-undang yang menamakan Syarikat Widget kini akan mempunyai sasaran yang lebih baik, iaitu juga dengan menamakan Syarikat Masa Besar. Ini adalah pertarungan David dan Goliath yang akan digemari oleh peguam. Sudah tentu, Syarikat Masa Besar sudah pasti akan cuba melepaskan diri dari mata kail. Sama ada mereka boleh berbuat demikian sekali lagi adalah persoalan undang-undang yang tidak pasti, dan mereka mungkin terperosok ke dalam kekotoran.

Sebelum kita pergi lebih jauh mengenai perkara ini, saya ingin mendapatkan sesuatu yang penting di atas meja tentang pencerobohan AI generatif yang dipertikaikan disebabkan oleh latihan data. Saya pasti anda secara intuitif menyedari bahawa plagiarisme dan pelanggaran hak cipta adalah dua binatang yang agak berbeza. Mereka mempunyai banyak persamaan, walaupun mereka juga berbeza dengan ketara.

Berikut ialah penerangan ringkas dari Duke University yang menerangkan kedua-duanya:

“Plagiarisme paling baik ditakrifkan sebagai penggunaan karya orang lain secara tidak diiktiraf. Ia adalah isu etika yang melibatkan tuntutan kredit untuk kerja yang tidak dibuat oleh pihak yang menuntut. Seseorang boleh memplagiat karya orang lain tanpa mengira status hak cipta karya itu. Sebagai contoh, ia adalah plagiarisme untuk menyalin daripada buku atau artikel yang terlalu lama untuk masih berada di bawah hak cipta. Ia juga merupakan plagiarisme untuk menggunakan data yang diambil daripada sumber yang tidak diketahui, walaupun bahan fakta seperti data mungkin tidak dilindungi oleh hak cipta. Plagiarisme, bagaimanapun, mudah diubati - petikan yang betul kepada sumber asal bahan tersebut.
“Pelanggaran hak cipta, sebaliknya, adalah penggunaan tanpa kebenaran karya orang lain. Ini adalah isu undang-undang yang bergantung pada sama ada karya itu dilindungi oleh hak cipta pada mulanya, serta pada perkara khusus seperti jumlah yang digunakan dan tujuan penggunaan. Jika seseorang menyalin terlalu banyak karya yang dilindungi, atau menyalin untuk tujuan yang tidak dibenarkan, hanya dengan mengakui sumber asal tidak akan menyelesaikan masalah. Hanya dengan mendapatkan kebenaran terlebih dahulu daripada pemegang hak cipta, seseorang dapat mengelakkan risiko pertuduhan pelanggaran.”

Saya menunjukkan kepentingan kedua-dua kebimbangan ini supaya anda sedar bahawa remedi boleh berbeza dengan sewajarnya. Selain itu, kedua-duanya terperangkap dalam pertimbangan yang merangkumi Etika AI dan Undang-undang AI, menjadikannya sama berbaloi untuk diperiksa.

Mari kita terokai remedi atau penyelesaian yang dituntut. Anda akan melihat bahawa ia mungkin membantu salah satu daripada masalah berganda, tetapi bukan yang lain.

Ada yang menegaskan bahawa semua pembuat AI perlu lakukan ialah memetik sumber mereka. Apabila AI generatif menghasilkan esei, masukkan sahaja petikan khusus untuk apa sahaja yang dinyatakan dalam esei. Berikan pelbagai URL dan petunjuk lain tentang kandungan Internet yang digunakan. Ini seolah-olah membebaskan mereka daripada keraguan tentang plagiarisme. Esei yang dikeluarkan mungkin akan mengenal pasti dengan jelas sumber yang digunakan untuk perkataan yang dihasilkan.

Terdapat beberapa keraguan dalam penyelesaian yang didakwa itu, tetapi pada paras 30,000 kaki katakan itu berfungsi sebagai penawar separuh memuaskan untuk dilema plagiarisme. Seperti yang dinyatakan di atas dalam penjelasan pelanggaran hak cipta, petikan bahan sumber tidak semestinya membawa anda keluar dari rumah anjing. Dengan mengandaikan bahawa kandungan itu dilindungi hak cipta, dan bergantung pada faktor lain seperti jumlah bahan yang digunakan, pedang yang menunggu pelanggaran hak cipta boleh menurun dengan mendadak dan dengan muktamad.

Masalah berganda adalah kata kunci di sini.

Cuba Membuktikan Plagiarisme Atau Pelanggaran Hak Cipta Akan Dicuba

Buktikan!

Itulah ungkapan lapuk yang kita semua pernah dengar pada pelbagai masa dalam hidup kita.

Anda tahu bagaimana ia berlaku. Anda mungkin mendakwa bahawa sesuatu sedang berlaku atau telah berlaku. Anda mungkin tahu di dalam hati anda bahawa ini telah berlaku. Tetapi apabila ia datang kepada tolak-lawan-tolak, anda perlu mempunyai bukti.

Dalam bahasa hari ini, anda perlu menunjukkan resit, seperti yang mereka katakan.

Soalan saya untuk anda ialah ini: Bagaimanakah kita akan membuktikan dengan jelas bahawa AI generatif telah mengeksploitasi kandungan Internet secara tidak wajar?

Seseorang menganggap bahawa jawapannya harus mudah. Anda meminta atau memberitahu AI generatif untuk menghasilkan esei keluaran. Anda kemudian mengambil esei dan membandingkannya dengan apa yang boleh didapati di Internet. Jika anda menjumpai esei, bam, anda telah mendapat AI generatif dipaku pada dinding peribahasa.

Kehidupan nampaknya tidak pernah begitu mudah.

Bayangkan kita mendapat AI generatif untuk menghasilkan esei yang mengandungi kira-kira 100 patah perkataan. Kami pergi berkeliling dan cuba mencapai semua sudut dan sudut Internet, mencari 100 perkataan itu. Jika kita menjumpai 100 perkataan, ditunjukkan dalam susunan tepat yang sama dan fesyen yang sama, kita nampaknya telah menarik perhatian diri kita sendiri.

Katakan walaupun kita dapati di Internet sebuah esei yang kelihatan "setanding" walaupun ia hanya sepadan dengan 80 daripada 100 perkataan. Ini nampaknya masih mencukupi, mungkin. Tetapi bayangkan bahawa kita mendapati hanya contoh 10 perkataan daripada 100 yang sepadan. Adakah itu cukup untuk menyatakan sama ada plagiarisme telah berlaku atau pelanggaran hak cipta telah berlaku?

Kekelabuan wujud.

Teks lucu seperti itu.

Bandingkan ini dengan keadaan teks-ke-imej atau teks-ke-seni. Apabila AI generatif menyediakan keupayaan teks-ke-imej atau teks-ke-seni, anda memasukkan gesaan teks dan apl AI menghasilkan imej berdasarkan gesaan yang anda berikan. Imej itu mungkin tidak seperti mana-mana imej yang pernah dilihat di planet ini atau mana-mana planet lain.

Sebaliknya, imej itu mungkin mengingatkan imej lain yang wujud. Kita boleh melihat imej yang dihasilkan AI generatif dan agak mengikut naluri mengatakan bahawa ia pasti kelihatan seperti imej lain yang pernah kita lihat sebelum ini. Secara amnya, visual aspek perbandingan dan kontras sedikit lebih mudah dilaksanakan. Walau bagaimanapun, sila ketahui bahawa perdebatan undang-undang yang besar memastikan perkara yang menjadi pertindihan atau replikasi satu imej daripada imej lain.

Satu lagi situasi serupa wujud dengan muzik. Terdapat aplikasi AI generatif yang membolehkan anda memasukkan gesaan teks dan output yang dihasilkan oleh AI ialah muzik audio. Keupayaan AI teks-ke-audio atau teks-ke-muzik ini baru sahaja mula muncul. Satu perkara yang boleh anda pertaruhkan adalah bahawa muzik yang dihasilkan oleh AI generatif akan diteliti dengan teliti untuk pelanggaran. Kami seolah-olah tahu apabila kami mendengar pelanggaran muzik, walaupun sekali lagi ini adalah isu undang-undang yang kompleks yang bukan hanya berdasarkan perasaan kami tentang replikasi yang dilihat.

Izinkan saya satu lagi contoh.

AI generatif teks-ke-kod memberikan anda keupayaan untuk memasukkan gesaan teks dan AI akan menghasilkan kod pengaturcaraan untuk anda. Anda kemudian boleh menggunakan kod ini untuk menyediakan program komputer. Anda mungkin menggunakan kod tepat seperti yang dijana, atau anda mungkin memilih untuk mengedit dan melaraskan kod untuk memenuhi keperluan anda. Terdapat juga keperluan untuk memastikan bahawa kod itu sesuai dan boleh digunakan kerana ada kemungkinan ralat dan kepalsuan boleh timbul dalam kod yang dijana.

Andaian pertama anda mungkin bahawa kod pengaturcaraan tidak berbeza daripada teks. Ia hanya teks. Sudah tentu, ia adalah teks yang menyediakan tujuan tertentu, tetapi ia masih teks.

Nah, tidak betul-betul. Kebanyakan bahasa pengaturcaraan mempunyai format dan struktur yang ketat kepada sifat pernyataan pengekodan bahasa itu. Ini dalam erti kata lain jauh lebih sempit daripada bahasa semula jadi yang mengalir bebas. Anda agak berkotak-kotak tentang bagaimana pernyataan pengekodan dirumuskan. Begitu juga, urutan dan cara penyataan digunakan dan disusun agak berkotak-kotak.

Secara keseluruhannya, kemungkinan untuk mempamerkan bahawa kod pengaturcaraan telah diciplak atau dilanggar adalah hampir lebih mudah daripada bahasa semula jadi yang semua diberitahu. Oleh itu, apabila AI generatif pergi untuk mengimbas kod pengaturcaraan di Internet dan kemudian menjana kod pengaturcaraan, peluang untuk berhujah bahawa kod itu telah direplikasi secara terang-terangan akan menjadi lebih meyakinkan. Bukan slam dunk, jadi harapkan pertempuran pahit akan dilakukan dalam hal ini.

Perkara utama saya ialah kita akan mempunyai isu Etika AI dan Undang-undang AI yang sama yang berhadapan dengan semua mod AI generatif.

Plagiarisme dan pelanggaran hak cipta akan menjadi masalah untuk:

Teks ke teks atau teks ke esei
Teks kepada imej atau teks kepada seni
Teks-ke-audio atau teks-ke-muzik
Teks-ke-video
Teks-ke-kod
Dll

Mereka semua tertakluk kepada kebimbangan yang sama. Sesetengah mungkin lebih mudah untuk "dibuktikan" daripada yang lain. Kesemua mereka akan mengalami pelbagai mimpi buruk mereka sendiri tentang asas Etika AI dan Undang-undang AI.

Membuat Kes Untuk Plagiarisme Atau Pelanggaran Hak Cipta

Untuk tujuan perbincangan, mari fokus pada AI generatif teks-ke-teks atau teks-ke-esei. Saya berbuat demikian sebahagiannya kerana populariti ChatGPT yang luar biasa, iaitu jenis teks-ke-teks AI generatif. Terdapat ramai orang menggunakan ChatGPT, bersama-sama dengan ramai yang lain menggunakan pelbagai aplikasi AI generatif teks-ke-teks yang serupa.

Adakah mereka yang menggunakan apl AI generatif tahu bahawa mereka berpotensi bergantung pada plagiarisme atau pelanggaran hak cipta?

Nampaknya meragukan bahawa mereka melakukannya.

Saya berani mengatakan bahawa andaian yang berlaku ialah jika aplikasi AI generatif tersedia untuk digunakan, pembuat AI atau syarikat yang telah meletakkan AI mesti tahu atau yakin bahawa tiada apa-apa yang tidak diingini tentang barangan yang mereka tawarkan untuk digunakan. Jika anda boleh menggunakannya, ia mesti berada di atas kapal.

Mari kita lihat semula ulasan saya sebelum ini tentang bagaimana kita akan mencuba dan membuktikan bahawa AI generatif tertentu berfungsi secara salah mengenai latihan data.

Saya juga mungkin menambah bahawa jika kita dapat menangkap satu AI generatif berbuat demikian, peluang untuk menangkap yang lain mungkin akan dipertingkatkan. Saya tidak mengatakan bahawa semua aplikasi AI generatif akan berada dalam bot yang sama. Tetapi mereka akan mendapati diri mereka berada di laut yang agak keras apabila salah seorang daripada mereka tersepit ke dinding.

Itulah sebabnya juga adalah sangat berbaloi untuk memerhatikan tindakan undang-undang yang sedia ada. Yang pertama yang menang mengenai pelanggaran yang didakwa, jika ini berlaku, mungkin akan mengeja malapetaka dan kesuraman untuk apl AI generatif yang lain, melainkan jika beberapa kesempitan terlepas daripada isu yang lebih luas yang dihadapi. Yang kalah dalam pelanggaran yang didakwa tidak semestinya bermakna aplikasi AI generatif boleh membunyikan loceng dan meraikannya. Mungkin kerugian itu dikaitkan dengan faktor lain yang tidak begitu relevan dengan apl AI generatif lain, dan sebagainya.

Saya telah menyebut bahawa jika kita mengambil esei 100 perkataan dan cuba mencari perkataan yang tepat dalam urutan yang sama di Internet, kita mungkin mempunyai kes yang agak kukuh untuk plagiarisme atau pelanggaran hak cipta, semuanya adalah sama. Tetapi jika bilangan perkataan yang sepadan adalah rendah, kita kelihatan seperti berada di atas ais nipis.

Saya ingin mendalami perkara itu.

Aspek yang jelas dalam membuat perbandingan terdiri daripada perkataan yang sama dalam urutan yang sama. Ini mungkin berlaku untuk keseluruhan petikan. Ini mudah untuk dikesan, hampir seperti diserahkan kepada kami di atas pinggan perak.

Kami juga mungkin curiga jika hanya secebis perkataan yang sepadan. Ideanya adalah untuk melihat sama ada ia adalah perkataan penting atau mungkin kata pengisi yang boleh kita buang atau abaikan. Kami juga tidak mahu tertipu dengan penggunaan perkataan dalam kala lampau atau masa depan mereka, atau kebodohan lain. Variasi dalam perkataan itu juga harus dipertimbangkan.

Satu lagi tahap perbandingan adalah apabila perkataan-perkataan itu bukan perkataan yang sama pada tahap yang besar, namun perkataan-perkataan walaupun dalam keadaan yang berbeza-beza nampaknya masih menunjukkan perkara yang sama. Sebagai contoh, ringkasan selalunya akan menggunakan perkataan yang agak serupa sebagai sumber asal, tetapi kita dapat melihat bahawa ringkasan itu kelihatan berdasarkan sumber asal.

Tahap perbandingan yang paling sukar adalah berdasarkan konsep atau idea. Katakan kita melihat karangan yang tidak mempunyai perkataan yang sama atau serupa sebagai asas perbandingan, tetapi intipati atau ideanya adalah sama. Kami diakui sedang menuju ke wilayah yang sukar. Jika kita bersedia untuk mengatakan bahawa idea dilindungi rapat, kita akan menutup hampir semua bentuk pengetahuan dan pembesaran pengetahuan.

Kita sekali lagi boleh merujuk kepada penjelasan berguna dari Universiti Duke:

“Hak cipta tidak melindungi idea, hanya ungkapan khusus idea. Sebagai contoh, mahkamah memutuskan bahawa Dan Brown tidak melanggar hak cipta buku terdahulu semasa dia menulis Da Vinci Code kerana semua yang dia pinjam daripada karya terdahulu adalah idea asas, bukan spesifik plot atau dialog. Memandangkan hak cipta bertujuan untuk menggalakkan penghasilan kreatif, menggunakan idea orang lain untuk mencipta karya baharu dan asli menegakkan tujuan hak cipta, ia tidak melanggarnya. Hanya jika seseorang menyalin ungkapan orang lain tanpa kebenaran hak cipta berpotensi dilanggar.”
“Untuk mengelakkan plagiarisme, sebaliknya, seseorang mesti mengakui sumbernya walaupun idea yang dipinjam daripada orang lain, tidak kira sama ada ungkapan idea tersebut dipinjam dengan mereka. Oleh itu, parafrasa memerlukan petikan, walaupun ia jarang menimbulkan sebarang masalah hak cipta.”

Sila ambil perhatian kerana sebelum ini mengenal pasti perbezaan antara aspek masalah berganda.

Sekarang, mempraktikkan pendekatan perbandingan adalah sesuatu yang telah berlaku selama bertahun-tahun. Fikirkan dengan cara ini. Pelajar yang menulis esei untuk kerja sekolah mereka mungkin tergoda untuk mengambil kandungan daripada Internet dan berpura-pura bahawa mereka mengarang perkataan yang memenangi Hadiah Pulitzer gred A.

Guru telah lama menggunakan program penyemakan plagiarisme untuk menangani perkara ini. Seorang guru mengambil karangan pelajar dan memasukkannya ke dalam penyemak plagiarisme. Dalam sesetengah kes, seluruh sekolah akan melesenkan penggunaan program semakan plagiarisme. Setiap kali pelajar membuat esei, mereka perlu menghantar esei terlebih dahulu ke program semakan plagiarisme. Guru dimaklumkan tentang program yang dilaporkan.

Malangnya, anda perlu sangat berhati-hati tentang apa yang dikatakan oleh program penyemakan plagiarisme ini. Adalah penting untuk menilai dengan teliti sama ada petunjuk yang dilaporkan adalah sah. Seperti yang telah disebutkan, keupayaan untuk memastikan sama ada karya disalin boleh menjadi kabur. Jika anda tanpa berfikir panjang menerima keputusan program semakan, anda boleh secara palsu menuduh pelajar menyalin apabila mereka tidak berbuat demikian. Ini boleh meruntun jiwa.

Seterusnya, kami boleh cuba menggunakan program penyemakan plagiarisme dalam bidang menguji output AI generatif. Anggap esei yang dikeluarkan daripada aplikasi AI generatif seolah-olah ia ditulis oleh pelajar. Kami kemudian mengukur apa yang dikatakan oleh penyemak plagiarisme. Ini dilakukan dengan sebutir garam.

Terdapat kajian penyelidikan baru-baru ini yang cuba mengoperasikan jenis perbandingan ini dalam konteks AI generatif dengan cara ini. Saya ingin membincangkan beberapa penemuan menarik dengan anda.

Pertama, beberapa latar belakang tambahan diperlukan. AI Generatif kadangkala dirujuk sebagai LLM (model bahasa besar) atau hanya LM (model bahasa). Kedua, ChatGPT adalah berdasarkan versi pakej AI generatif OpenAI lain yang dipanggil GPT-3.5. Sebelum GPT-3.5, terdapat GPT-3, dan sebelum itu adalah GPT-2. Pada masa kini, GPT-2 dianggap agak primitif berbanding siri terkemudian, dan kita semua tidak sabar-sabar menantikan pelancaran GPT-4 yang akan datang, lihat perbincangan saya di pautan di sini.

Kajian penyelidikan yang ingin saya terokai secara ringkas terdiri daripada mengkaji GPT-2. Itu penting untuk disedari memandangkan kita kini jauh melebihi kemampuan GPT-2. Jangan membuat sebarang kesimpulan terburu-buru tentang keputusan analisis GPT-2 ini. Namun begitu, kita boleh belajar banyak daripada penilaian GPT-2. Kajian ini bertajuk “Adakah Model Bahasa Menciplak?” oleh Jooyoung Lee, Thai Le, Jinghui Chen dan Dongwon Lee, muncul dalam ACM WWW '23, 1–5 Mei 2023, Austin, TX, Amerika Syarikat.

Ini adalah soalan kajian utama mereka:

"Sejauh manakah (tidak terhad kepada hafalan) LM mengeksploitasi frasa atau ayat daripada sampel latihan mereka?"

Mereka menggunakan tiga peringkat atau kategori potensi plagiarisme ini:

“Plagiarisme verbatim: Salinan tepat perkataan atau frasa tanpa perubahan.”
“Parafrasa plagiarisme: Penggantian sinonim, penyusunan semula perkataan dan/atau terjemahan belakang.”
"Plagiarisme idea: Perwakilan kandungan teras dalam bentuk yang memanjang."

GPT-2 sememangnya dilatih mengenai data Internet dan dengan itu calon yang sesuai untuk jenis analisis ini:

“GPT-2 telah dilatih terlebih dahulu pada WebText, mengandungi lebih 8 juta dokumen yang diperoleh daripada 45 juta pautan Reddit. Memandangkan OpenAI tidak mengeluarkan WebText secara terbuka, kami menggunakan OpenWebText yang merupakan rekreasi sumber terbuka korpus WebText. Ia telah digunakan dengan pasti oleh kesusasteraan terdahulu."

Penemuan utama terpilih seperti yang dipetik daripada kajian terdiri daripada:

"Kami mendapati bahawa keluarga GPT-2 yang telah dilatih telah memplagiat daripada OpenWebText."
"Penemuan kami menunjukkan bahawa penalaan halus secara signifikan mengurangkan kes plagiarisme verbatim daripada OpenWebText."
“Selaras dengan Carlini et al. dan Carlini et al., kami mendapati bahawa model GPT-2 yang lebih besar (besar dan xl) umumnya menjana jujukan yang diciplak lebih kerap daripada yang lebih kecil.
"Walau bagaimanapun, LM yang berbeza mungkin menunjukkan corak plagiarisme yang berbeza, dan oleh itu keputusan kami mungkin tidak digeneralisasikan secara langsung kepada LM lain, termasuk LM yang lebih terkini seperti GPT-3 atau BLOOM."
“Selain itu, pengesan plagiarisme automatik diketahui mempunyai banyak mod kegagalan (kedua-duanya dalam negatif palsu dan positif palsu).
"Memandangkan majoriti data latihan LM dikikis daripada Web tanpa memaklumkan pemilik kandungan, pengulangan perkataan, frasa dan juga idea teras mereka daripada set latihan ke dalam teks yang dihasilkan mempunyai implikasi etika."

Kami pasti memerlukan lebih banyak kajian seperti ini.

Jika anda ingin tahu tentang bagaimana GPT-2 dibandingkan dengan GPT-3 mengenai latihan data, terdapat kontras yang ketara.

Menurut petunjuk yang dilaporkan, latihan data untuk GPT-3 adalah lebih luas:

“Model itu dilatih menggunakan pangkalan data teks daripada internet. Ini termasuk 570GB data yang diperoleh daripada buku, teks web, Wikipedia, artikel dan tulisan lain di internet. Lebih tepat lagi, 300 bilion perkataan telah dimasukkan ke dalam sistem” (Fokus Sains BBC majalah, “ChatGPT: Semua yang anda perlu tahu tentang alat GPT-3 OpenAI” oleh Alex Hughes, Februari 2023).

Bagi anda yang berminat dengan penerangan yang lebih mendalam tentang latihan data untuk GPT-3, berikut ialah petikan daripada Kad Model GPT-3 rasmi yang disiarkan di GitHub (tarikh terakhir dikemas kini yang disenaraikan sebagai September 2020):

“Dataset latihan GPT-3 terdiri daripada teks yang disiarkan ke internet, atau teks yang dimuat naik ke internet (cth, buku). Data internet yang telah dilatih dan dinilai sehingga kini termasuk: (1) versi set data CommonCrawl, ditapis berdasarkan persamaan dengan korpora rujukan berkualiti tinggi, (2) versi dikembangkan set data Teks Web, (3 ) dua korpora buku berasaskan internet, dan (4) Wikipedia bahasa Inggeris.”
“Memandangkan data latihannya, output dan prestasi GPT-3 lebih mewakili populasi yang disambungkan ke Internet berbanding mereka yang mendalami budaya lisan dan bukan digital. Populasi yang disambungkan ke Internet lebih mewakili negara maju, kaya, lebih muda, dan pandangan lelaki, dan kebanyakannya berpusat di AS. Negara dan penduduk yang lebih kaya di negara maju menunjukkan penembusan internet yang lebih tinggi. Jurang jantina digital juga menunjukkan lebih sedikit wanita diwakili dalam talian di seluruh dunia. Selain itu, kerana bahagian dunia yang berlainan mempunyai tahap penembusan dan akses internet yang berbeza, set data kurang menggambarkan komuniti yang kurang berhubung.”

Satu rujukan daripada petunjuk di atas tentang GPT-3 ialah peraturan praktikal di kalangan mereka yang membuat AI generatif ialah semakin banyak data Internet yang anda boleh imbas, kemungkinan untuk menambah baik atau memajukan AI generatif akan meningkat.

Anda boleh melihat ini dalam salah satu daripada dua cara.

1) AI yang bertambah baik. Kami akan mempunyai AI generatif yang merangkak merentasi sebanyak mungkin Internet. Hasil yang menarik ialah AI generatif akan menjadi lebih baik daripada yang sedia ada. Itu sesuatu yang dinanti-nantikan.
2) Menyalin Banyak Potensi. Pelebaran pengimbasan Internet ini menjijikkan dan menarik menjadikan masalah plagiarisme dan pelanggaran hak cipta berpotensi menjadi lebih besar dan lebih besar. Walaupun sebelum ini tidak banyak pencipta kandungan yang terjejas, saiznya akan berkembang. Jika anda seorang peguam yang memihak kepada pencipta kandungan, ini membuatkan anda menitiskan air mata (mungkin air mata kecewa, atau air mata kegembiraan melihat prospek yang dibawa dari segi tindakan undang-undang).

Adakah gelas itu separuh penuh atau separuh kosong?

Awak tentukan.

Periuk Api Sah Menanti

Soalan yang mungkin anda fikirkan ialah sama ada kandungan Internet anda yang disiarkan dianggap permainan yang adil untuk diimbas. Jika kandungan anda berada di belakang paywall, mungkin ia bukan sasaran untuk diimbas kerana ia tidak dapat dicapai dengan mudah, bergantung pada kekuatan paywall.

Saya akan meneka bahawa kebanyakan orang setiap hari tidak menyimpan kandungan mereka di belakang paywall. Mereka mahu kandungan mereka tersedia untuk umum. Mereka menganggap bahawa orang akan melihatnya.

Adakah kandungan anda tersedia secara terbuka juga secara aksiomatik bermakna anda meluluskannya untuk diimbas untuk digunakan oleh AI generatif yang sedang dilatih data?

Mungkin ya mungkin tidak.

Ia adalah salah satu daripada perkara undang-undang yang boleh dibincangkan.

Berbalik kepada yang disebut tadi Undang-undang Bloomberg artikel, penulis menyebut kepentingan Terma dan Syarat (T&C) yang dikaitkan dengan banyak tapak web:

“Ranjau darat yang sah—sangat diabaikan oleh syarikat AI tanpa disedari yang mengendalikan bot dalam talian untuk mengikis data—tersembunyi dalam Terma dan Syarat yang lazimnya tersedia pada semua jenis tapak web awam. Berbeza dengan undang-undang IP yang belum diselesaikan pada masa ini dan dilema pelanggaran hak cipta, Terma dan Syarat tapak web disokong oleh undang-undang kontrak yang mantap dan biasanya boleh dikuatkuasakan di mahkamah bergantung pada bilangan preseden yang mencukupi.”

Mereka menunjukkan bahawa dengan andaian tapak web anda mempunyai halaman berkaitan pelesenan, kemungkinan besar jika anda menggunakan templat moden yang standard, ia mungkin mengandungi klausa penting:

“Oleh itu, kebanyakan Terma dan Syarat boilerplate untuk tapak web—tersedia dengan banyaknya dalam akses percuma—mengandungi klausa yang melarang pengikisan data automatik. Ironinya, templat yang tersedia secara percuma itu mungkin telah digunakan untuk latihan ChatGPT. Oleh itu, pemilik kandungan mungkin ingin menyemak Terma dan Syarat mereka dan memasukkan klausa berasingan yang melarang semua penggunaan mana-mana kandungan daripada tapak web untuk latihan AI atau apa-apa tujuan berkaitan, sama ada dikumpulkan secara manual atau automatik, tanpa kebenaran bertulis daripada pemilik laman web terlebih dahulu. .”

Penyepak tambahan disertakan dalam analisis mereka tentang tindakan yang berpotensi untuk dibuat oleh pencipta kandungan tentang tapak web mereka:

“Oleh itu, memasukkan peruntukan ganti rugi terbuai yang boleh dikuatkuasakan bagi setiap pelanggaran klausa larangan mengikis, dipertingkatkan dengan peruntukan injunksi tanpa bon, boleh menjadi penyelesaian yang boleh dipertahankan bagi pengarang kandungan kreatif yang tidak berminat untuk memberikan hasil daripada mereka. buruh intelek untuk tujuan latihan AI tanpa dibayar atau, sekurang-kurangnya, diberi kredit yang sewajarnya untuk kerja mereka.”

Anda mungkin ingin berunding dengan peguam anda tentang perkara ini.

Ada yang mengatakan bahawa ini adalah cara penting untuk mencuba dan memberitahu pembuat AI bahawa pencipta kandungan sangat serius untuk melindungi kandungan mereka. Memastikan pelesenan anda mempunyai perkataan yang betul, nampaknya memberi perhatian kepada pembuat AI.

Yang lain walaupun agak suram. Mereka dengan sedih mengatakan bahawa anda boleh meneruskan untuk meletakkan bahasa undang-undang yang paling keras dan paling mematikan di tapak web anda, tetapi pada akhirnya, pembuat AI akan mengimbasnya. Anda tidak akan tahu mereka berbuat demikian. Anda akan mempunyai syaitan masa yang membuktikan bahawa mereka melakukannya. Anda tidak mungkin mendapati bahawa output mereka mencerminkan kandungan anda. Ia adalah satu perjuangan yang sukar yang anda tidak akan menang.

Hujah balas adalah bahawa anda menyerahkan pertempuran sebelum ia dilancarkan. Jika sekurang-kurangnya anda tidak mempunyai bahasa undang-undang yang mencukupi, dan jika anda pernah menangkapnya, mereka akan menggoyang-goyangkan jalan mereka untuk melepaskan diri dari sebarang tanggungjawab. Semuanya kerana anda tidak menyiarkan jenis bahasa undang-undang yang betul.

Sementara itu, pendekatan lain yang ingin mendapatkan daya tarikan akan terdiri daripada menandakan tapak web anda dengan sesuatu yang mengatakan tapak itu tidak boleh diimbas oleh AI generatif. Ideanya ialah penanda piawai akan dicipta. Laman web mungkin boleh menambah penanda pada tapak mereka. Pembuat AI akan diberitahu bahawa mereka harus mengubah pengimbasan data mereka untuk melangkau tapak web yang ditanda.

Bolehkah pendekatan penanda berjaya? Kebimbangan termasuk kos untuk mendapatkan dan menyiarkan penanda. Bersama-sama dengan sama ada pembuat AI akan mematuhi penanda dan memastikan mereka mengelak daripada mengimbas tapak yang ditanda. Perspektif lain ialah walaupun pembuat AI tidak mengikut tanda, ini memberikan satu lagi petunjuk untuk pergi ke mahkamah dan berhujah bahawa pencipta kandungan telah mencuba dan memberi amaran tentang pengimbasan AI.

Ya, semuanya memeningkan kepala anda.

Kesimpulan

Beberapa teguran terakhir mengenai topik yang berduri ini.

Adakah anda bersedia untuk perspektif yang membebankan minda tentang keseluruhan AI ini sebagai dilema penceroboh dan penceroboh hak cipta?

Kebanyakan andaian tentang "menangkap" AI generatif dalam tindakan plagiarisme atau pelanggaran hak cipta bergantung pada penemuan output yang sangat menyerupai kerja terdahulu seperti kandungan di Internet yang berpotensi diimbas semasa latihan data.

Katakan bahawa muslihat pecah-dan-takluk sedang dimainkan di sini.

Inilah yang saya maksudkan.

Jika AI generatif meminjam sedikit dari sini dan sedikit dari sana, akhirnya mencampurkannya bersama-sama untuk menghasilkan sebarang output tertentu, peluang untuk mendapat momen gotcha sangat berkurangan. Sebarang output nampaknya tidak akan meningkat kepada ambang yang mencukupi yang boleh anda katakan dengan pasti bahawa ia telah dihalang daripada satu item sumber tertentu. Esei terhasil atau mod keluaran lain hanya boleh dipadankan secara pecahan. Dan dengan pendekatan biasa cuba untuk berhujah bahawa plagiarisme atau pelanggaran hak cipta telah berlaku, anda biasanya perlu mempamerkan lebih daripada beberapa perkara kecil yang sedang dimainkan, terutamanya jika potongan itu tidak menonjol dan boleh didapati secara meluas di seluruh Internet (meremehkan sebarang beban bukti penyelewengan yang mencukupi).

Bolehkah anda masih mengisytiharkan secara meyakinkan bahawa latihan data oleh AI generatif telah merobek tapak web dan pencipta kandungan walaupun bukti yang dicadangkan itu adalah bahagian yang seolah-olah tidak material?

Fikirkanlah.

Jika kami menghadapi kemungkinan plagiarisme secara berskala dan pelanggaran hak cipta secara berskala, kami mungkin perlu mengubah pendekatan kami untuk menentukan perkara yang menjadi plagiarisme dan/atau pelanggaran hak cipta. Mungkin ada kes yang perlu dibuat untuk plagiarisme atau pelanggaran hak cipta sama ada secara besar-besaran atau keseluruhannya. Mozek yang terdiri daripada beribu-ribu atau berjuta-juta coretan kecil boleh ditafsirkan sebagai melakukan pelanggaran sedemikian. Masalah yang nyata adalah bahawa ini boleh membuat semua jenis kandungan tiba-tiba berada di bawah payung pelanggaran. Ini mungkin cerun yang licin.

Fikiran berat.

Bercakap tentang pemikiran yang besar, Leo Tolstoy, penulis legenda, dengan terkenal menyatakan: "Erti satu-satunya kehidupan adalah untuk melayani manusia."

Jika tapak web anda dan tapak web orang lain sedang diimbas untuk penambahbaikan AI, dan walaupun anda tidak mendapat satu sen pun untuknya, mungkinkah anda berasa tenang dengan kepercayaan yang kuat bahawa anda menyumbang kepada masa depan umat manusia? Nampaknya harga yang kecil untuk dibayar.

Baiklah, melainkan AI ternyata menjadi risiko kewujudan yang digeruni yang menghapuskan semua manusia daripada kewujudan. Anda sepatutnya tidak mengambil kredit untuk itu. Saya menganggap anda tidak akan menyumbang kepada hasil yang teruk itu. Mengetepikan ramalan buruk itu, anda mungkin berfikir bahawa jika pembuat AI menjana wang daripada AI generatif mereka, dan mereka nampaknya menikmati pencatutan itu, anda sepatutnya mendapat sekeping pai juga. Kongsi dan kongsi sama. Pembuat AI harus meminta kebenaran untuk mengimbas mana-mana laman web dan kemudian juga merundingkan harga yang perlu dibayar kerana dibenarkan melakukan imbasan.

Beri kredit di mana kredit perlu dibayar.

Mari kita berikan kepada Sir Walter Scott perkataan terakhir buat masa ini: “ Oh, betapa kusutnya web yang kita tenun. Apabila mula-mula kita berlatih untuk menipu.”

Ini mungkin terpakai jika anda percaya bahawa penipuan sedang berlaku, atau mungkin tidak terpakai jika anda fikir semuanya baik dan sempurna secara terus terang dan sah. Sila bermurah hati memberi kredit kepada diri anda kerana memikirkan perkara ini. Anda layak mendapatnya.

Sumber: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- and-ai-law/