Kemajuan dalam Autonomi Pengangkutan Penglihatan Komputer

Penglihatan ialah input deria manusia yang berkuasa. Ia membolehkan tugas dan proses kompleks yang kami ambil mudah. Dengan peningkatan dalam AoT™ (Autonomi Perkara) dalam pelbagai aplikasi daripada pengangkutan dan pertanian kepada robotik dan perubatan, peranan kamera, pengkomputeran dan pembelajaran mesin dalam menyediakan penglihatan dan kognisi seperti manusia menjadi penting. Visi komputer sebagai disiplin akademik bermula pada tahun 1960-an, terutamanya di universiti yang terlibat dalam bidang kepintaran buatan (AI) dan pembelajaran mesin yang baru muncul. Ia berkembang secara mendadak dalam empat dekad akan datang apabila kemajuan ketara dalam semikonduktor dan teknologi pengkomputeran telah dibuat. Kemajuan terkini dalam pembelajaran mendalam dan kecerdasan buatan telah mempercepatkan lagi aplikasi penglihatan komputer untuk menyediakan persepsi masa nyata, kependaman rendah dan kognisi alam sekitar, membolehkan autonomi, keselamatan dan kecekapan dalam pelbagai aplikasi. Pengangkutan adalah satu bidang yang telah mendapat manfaat yang besar.

LiDAR (Light Detection and Ranging) ialah pendekatan pengimejan optik aktif yang menggunakan laser untuk menentukan persekitaran 3D di sekeliling objek. Ia adalah salah satu teknologi yang cuba diganggu oleh penyelesaian penglihatan komputer (yang bergantung sepenuhnya pada cahaya ambien dan tidak menggunakan laser untuk persepsi 3D). Tema biasa ialah pemandu manusia tidak memerlukan LiDAR untuk persepsi mendalam, jadi begitu juga mesin. Ciri pemanduan autonomi L3 komersial semasa (autonomi lengkap dalam geografi dan keadaan cuaca tertentu, dengan pemandu bersedia untuk mengawal dalam beberapa saat) produk hari ini gunakan LiDAR. Teknik berasaskan penglihatan tulen masih belum dapat menawarkan keupayaan ini secara komersial.

IKLAN

TeslaTSLA
adalah penyokong dominan menggunakan penglihatan komputer berasaskan kamera pasif untuk memberikan autonomi kenderaan penumpang. Semasa acara Hari AI syarikat baru-baru ini, Elon Musk dan juruteranya memberikan persembahan yang mengagumkan AI, pengurusan data dan keupayaan pengkomputeran yang menyokong, antara inisiatif lain, ciri Pemanduan Sendiri Penuh (FSD) pada berbilang model Tesla. FSD memerlukan pemandu manusia untuk terlibat dalam tugas pemanduan pada setiap masa (yang konsisten dengan autonomi L2). Pada masa ini, pilihan ini tersedia pada 160,000 kenderaan yang dibeli oleh pelanggan di AS dan Kanada. Satu set 8 kamera pada setiap kenderaan menyediakan peta penghunian 360°. Data kamera (dan lain-lain) daripada kenderaan ini digunakan untuk melatih rangkaian sarafnya (yang menggunakan pelabelan automatik) untuk mengecam objek, merancang trajektori kenderaan yang berpotensi, memilih yang optimum dan mengaktifkan tindakan kawalan yang sesuai. ~75K kemas kini rangkaian saraf telah berlaku sepanjang 12 bulan yang lalu (~1 kemas kini setiap 7 minit) kerana data baharu terus dikumpulkan dan ralat pelabelan atau kesilapan manuver dikesan. Rangkaian terlatih melaksanakan tindakan perancangan dan kawalan melalui seni bina atas kapal yang berlebihan bagi elektronik pengiraan yang dibina khas. Tesla menjangkakan FSD akhirnya membawa kepada kenderaan autonomi (AV), yang memberikan autonomi lengkap dalam domain reka bentuk operasi tertentu tanpa penglibatan pemandu manusia diperlukan (juga dirujuk sebagai autonomi L4).

Syarikat lain seperti Phiar, Helm.ai dan NODAR juga mengejar laluan penglihatan komputer. NODAR menyasarkan untuk meluaskan julat pengimejan dan persepsi 3D sistem kamera stereo dengan ketara dengan belajar melaraskan kesan salah jajaran dan getaran kamera melalui algoritma pembelajaran mesin yang dipatenkan. Ia baru-baru ini mengumpul $12 juta untuk pengeluaran produk utamanya, Hammerhead™, yang menggunakan kamera gred automotif dan platform pengiraan standard "di luar rak".

Selain daripada kos dan saiz, hujah yang kerap menentang penggunaan LiDAR ialah ia mempunyai julat dan resolusi yang terhad berbanding dengan kamera. Sebagai contoh, LiDAR dengan julat 200 m dan 5-10 M mata/saat (PPS serupa dengan resolusi) tersedia hari ini. Pada 200 m, halangan kecil seperti batu bata atau serpihan tayar akan mencatatkan sangat sedikit mata (mungkin 2-3 dalam menegak dan 3-5 dalam arah mendatar), menjadikan pengecaman objek sukar. Perkara menjadi lebih kasar pada julat yang lebih panjang. Sebagai perbandingan, kamera megapiksel standard yang berjalan pada 30 Hz boleh menjana 30M piksel/saat, membolehkan pengecaman objek unggul walaupun pada jarak jauh. Kamera yang lebih maju (12 M piksel) boleh meningkatkan lagi ini. Isunya ialah cara menggunakan data besar ini dan menghasilkan persepsi yang boleh diambil tindakan dengan latensi tahap milisaat, penggunaan kuasa yang rendah dan keadaan pencahayaan yang rosak.

IKLAN


Mengenali, sebuah syarikat yang berpangkalan di California, cuba menyelesaikan masalah ini. Menurut Ketua Pegawai Eksekutif Mark Bolitho, misinya adalah untuk “menyampaikan persepsi visual luar biasa untuk kenderaan autonomi sepenuhnya.” Syarikat itu diasaskan pada 2017, telah mengumpulkan $75 juta setakat ini dan mempunyai 70 pekerja. RK Anand, tawas Juniper Networks, adalah salah seorang pengasas bersama dan Ketua Pegawai Produk. Beliau percaya bahawa menggunakan kamera resolusi lebih tinggi, dengan > julat dinamik 120 dB, berjalan pada kadar bingkai tinggi (contohnya, OnSemi, Sony dan Omnivision) menyediakan data yang diperlukan untuk mencipta maklumat 3D resolusi tinggi, yang penting untuk merealisasikan AV. Pemboleh untuk ini adalah:

  1. ASIC yang direka khas untuk memproses data dengan cekap dan menghasilkan peta 3D persekitaran kereta yang tepat dan resolusi tinggi. Ini direka pada proses TSMC 7 nm, dengan saiz cip 100 mm², beroperasi pada frekuensi 1 GHz.
  2. Algoritma pembelajaran mesin proprietari untuk memproses berjuta-juta titik data di luar talian untuk mencipta rangkaian saraf terlatih, yang kemudiannya boleh beroperasi dengan cekap dan belajar secara berterusan. Rangkaian ini menyediakan persepsi dan termasuk pengelasan & pengesanan objek, segmentasi semantik, pengesanan lorong, tanda lalu lintas dan pengecaman lampu isyarat
  3. Meminimumkan penyimpanan luar cip dan operasi pendaraban yang intensif kuasa dan mencipta kependaman tinggi. Reka bentuk ASIC Recogni dioptimumkan untuk matematik logaritma dan menggunakan penambahan. Kecekapan selanjutnya direalisasikan dengan mengelompokkan berat secara optimum dalam rangkaian saraf terlatih.

Semasa fasa latihan, LiDAR komersial digunakan sebagai kebenaran asas untuk melatih data kamera stereo julat dinamik tinggi resolusi tinggi untuk mengekstrak maklumat kedalaman dan menjadikannya teguh terhadap kesan salah jajaran dan getaran. Menurut En. Anand, pelaksanaan pembelajaran mesin mereka sangat cekap sehingga ia boleh mengekstrapolasi anggaran kedalaman melebihi julat latihan yang disediakan oleh LiDAR penentukuran (yang memberikan kebenaran asas kepada julat 100 m).

IKLAN

Data latihan di atas telah dijalankan pada waktu siang dengan sepasang stereo kamera 8.3 megapiksel berjalan pada kadar bingkai 30 Hz (~0.5B piksel sesaat). Ia menunjukkan keupayaan rangkaian terlatih untuk mengekstrak maklumat 3D dalam pemandangan di luar julat 100 m yang dilatih dengannya. Penyelesaian Recogni juga boleh mengekstrapolasi pembelajarannya dengan data siang hari kepada prestasi waktu malam (Rajah 2).

IKLAN

Menurut En. Anand, data julat adalah tepat dalam lingkungan 5% (pada julat panjang) dan hampir 2% (pada julat yang lebih pendek). Penyelesaian itu menyediakan 1000 TOPS (trilion operasi sesaat) dengan kependaman 6 ms dan penggunaan kuasa 25W (40 TOPS/W), yang menerajui industri. Pesaing yang menggunakan matematik integer adalah > 10X lebih rendah pada metrik ini. Penyelesaian Recogni kini dalam percubaan di beberapa pembekal Tahap 1 automotif.

Bernubuat (“meramal dan melihat di mana tindakan itu”), yang berpangkalan di Perancis, menggunakan kamera berasaskan acaranya untuk AV, Sistem Bantuan Pemandu Lanjutan (ADAS), automasi industri, aplikasi pengguna dan penjagaan kesihatan. Ditubuhkan pada 2014, the syarikat baru-baru ini menutup pembiayaan pusingan C sebanyak $50 juta, dengan jumlah $127J dikumpul sehingga kini. Xiaomi, pengeluar telefon bimbit terkemuka, adalah salah satu pelabur. Matlamat Prophesee adalah untuk meniru penglihatan manusia di mana reseptor dalam retina bertindak balas terhadap maklumat dinamik. Otak manusia memberi tumpuan kepada memproses perubahan di tempat kejadian (terutama untuk pemanduan). Idea asas ialah menggunakan seni bina kamera dan piksel yang mengesan perubahan dalam keamatan cahaya di atas ambang (sesuatu peristiwa) dan hanya memberikan data ini kepada timbunan pengiraan untuk pemprosesan selanjutnya. Piksel berfungsi secara tidak segerak (tidak dibingkai seperti dalam kamera CMOS biasa) dan pada kelajuan yang jauh lebih tinggi kerana ia tidak perlu menyepadukan foton seperti dalam kamera berasaskan bingkai konvensional dan menunggu keseluruhan bingkai menyelesaikannya sebelum pembacaan data. Kelebihannya adalah ketara – lebar jalur data yang lebih rendah, kependaman keputusan, storan dan penggunaan kuasa. Sensor penglihatan berasaskan acara VGA gred komersial pertama syarikat menampilkan julat dinamik tinggi (>120 dB), penggunaan kuasa rendah (26 mW pada tahap sensor atau 3 nW/acara). Versi HD (Definisi Tinggi) (dibangunkan bersama dengan Sony), dengan saiz piksel peneraju industri (< 5 μm) juga telah dilancarkan.

IKLAN

Penderia ini membentuk teras platform penderiaan Metavision®, yang menggunakan AI untuk memberikan persepsi pintar dan cekap untuk aplikasi autonomi dan sedang dalam penilaian oleh beberapa syarikat dalam ruang pengangkutan. Selain daripada persepsi menghadap ke hadapan untuk AV dan ADAS, Prophesee terlibat secara aktif dengan pelanggan untuk pemantauan dalam kabin pemandu untuk aplikasi L2 dan L3, lihat Rajah 4:

Peluang automotif adalah lumayan, tetapi kitaran reka bentuk adalah panjang. Sepanjang dua tahun yang lalu, Prophesee telah melihat minat dan daya tarikan yang ketara dalam ruang penglihatan mesin untuk aplikasi industri. Ini termasuk pengiraan berkelajuan tinggi, pemeriksaan permukaan dan pemantauan getaran.

IKLAN

Prophesee baru-baru ini mengumumkan kerjasama dengan pembangun terkemuka sistem penglihatan mesin untuk mengeksploitasi peluang dalam automasi industri, robotik, automotif dan IoT (Internet of Things). Peluang segera lain ialah pembetulan kabur imej untuk telefon mudah alih dan aplikasi AR/VR. Ini menggunakan penderia format yang lebih rendah daripada yang digunakan untuk peluang ADAS/AV jangka panjang, menggunakan kuasa yang lebih rendah dan beroperasi dengan kependaman yang jauh lebih rendah.


Israel ialah peneraju inovator dalam teknologi tinggi, dengan pelaburan usaha niaga yang ketara dan persekitaran permulaan yang aktif. Sejak 2015, kira-kira $70B dalam pelaburan yang diterajui oleh usaha niaga dalam sektor teknologi telah berlaku. Sebahagian daripada ini adalah dalam bidang penglihatan komputer. Mobileye menerajui revolusi ini pada tahun 1999 apabila Amnon Shashua, penyelidik AI terkemuka di Hebrew University, mengasaskan syarikat itu untuk menumpukan pada persepsi berasaskan kamera untuk ADAS dan AV. Syarikat itu memfailkan IPO pada 2014 dan telah diambil alih oleh IntelINTC
pada 2017 untuk $15B. Hari ini, ia mudah menjadi pemain utama dalam visi komputer dan domain AV dan baru-baru ini mengumumkan hasratnya untuk memfailkan IPO dan menjadi entiti bebas. Mobileye mempunyai pendapatan $1.4B/tahun dan kerugian sederhana ($75M). Ia menyediakan keupayaan penglihatan komputer kepada 50 OEM automotif yang menggunakannya merentasi 800 model kereta untuk keupayaan ADAS. Pada masa hadapan, mereka berhasrat untuk menerajui autonomi kenderaan L4 (tiada pemandu diperlukan) menggunakan kepakaran penglihatan komputer ini dan keupayaan LiDAR berdasarkan platform fotonik silikon Intel. Penilaian Mobileye dianggarkan pada ~$50B apabila akhirnya diumumkan.

IKLAN

Modal Champel, yang berpangkalan di Baitulmaqdis, berada di barisan hadapan dalam melabur dalam syarikat yang membangunkan produk berdasarkan visi komputer untuk pelbagai aplikasi daripada pengangkutan dan pertanian kepada keselamatan dan keselamatan. Amir Weitman ialah pengasas bersama dan rakan kongsi pengurusan dan memulakan syarikat terokanya pada 2017. Dana pertama melabur $20 juta dalam 14 syarikat. Salah satu pelaburan mereka adalah dalam Innoviz, yang diumumkan melalui penggabungan SPAC pada 2018 dan menjadi unicorn LiDAR. Diketuai oleh Omer Keilaf (yang berasal dari unit teknologi Kor Perisikan Pasukan Pertahanan Israel), syarikat hari ini adalah peneraju dalam penggunaan LiDAR untuk ADAS dan AV, dengan pelbagai kemenangan reka bentuk di BMW dan Volkswagen.

Dana kedua Champel Capital (Impact Deep Tech Fund II) telah dimulakan pada Januari 2022 dan telah mengumpulkan $30 juta setakat ini (sasaran ialah $100 juta menjelang akhir 2022). Tumpuan dominan adalah pada visi komputer, dengan $12 juta digunakan dalam lima syarikat. Tiga daripadanya menggunakan penglihatan komputer untuk pengangkutan dan robotik.

TankU, berpangkalan di Haifa, memulakan operasi pada 2018 dan telah mengumpulkan $10 juta dalam pembiayaan. Dan Valdhorn ialah Ketua Pegawai Eksekutif dan merupakan graduan Unit 8200, kumpulan berteknologi tinggi elit dalam Pasukan Pertahanan Israel yang bertanggungjawab untuk perisikan isyarat dan penyahsulitan kod. Produk SaaS (Perisian sebagai Perkhidmatan) TankU mengautomasikan dan menjamin proses dalam persekitaran luar yang kompleks yang menservis kenderaan dan pemandu. Produk ini digunakan oleh pemilik armada kenderaan, kereta persendirian, petrol dan stesen pengecas elektrik untuk mengelakkan kecurian dan penipuan dalam transaksi kewangan automatik. Perkhidmatan bahan api kenderaan menjana ~$2T dalam hasil global setiap tahun, yang mana pemilik armada kenderaan persendirian dan komersial menggunakan 40% atau $800B. Peruncit dan pemilik armada kerugian ~$100B setiap tahun disebabkan kecurian dan penipuan (contohnya, menggunakan kad bahan api armada untuk kenderaan persendirian yang tidak dibenarkan). Penipuan dan pengubahan/curi bahan api CNP (Kad tidak hadir) merupakan sumber kerugian tambahan, terutamanya apabila menggunakan butiran kad yang dicuri dalam apl mudah alih untuk pembayaran.

IKLAN

Produk TUfuel syarikat memudahkan pembayaran selamat sekali sentuh, menyekat kebanyakan jenis penipuan dan memaklumkan pelanggan apabila mengesyaki penipuan. Ia melakukan ini berdasarkan enjin AI yang dilatih pada data daripada CCTV sedia ada dalam kemudahan ini dan data transaksi digital (termasuk POS dan data belakang lain). Parameter seperti trajektori dan dinamik kenderaan, ID kenderaan, masa perjalanan, perbatuan, masa mengisi bahan api, kuantiti bahan api, sejarah bahan api dan tingkah laku pemandu ialah beberapa atribut yang dipantau untuk mengesan penipuan. Data ini juga membantu peruncit mengoptimumkan operasi tapak, meningkatkan kesetiaan pelanggan dan menggunakan alat pemasaran berasaskan visi. Menurut Ketua Pegawai Eksekutif Dan Valdhorn, penyelesaian mereka mengesan 70% daripada kumpulan, 90% daripada kad kredit dan 70% daripada peristiwa penipuan yang berkaitan dengan gangguan.

Sonol ialah syarikat perkhidmatan tenaga yang memiliki dan mengendalikan rangkaian 240 stesen dan kedai serbaneka di seluruh Israel. TUfuel digunakan di tapak mereka dan telah menunjukkan keselamatan yang dipertingkatkan, pencegahan penipuan dan kesetiaan pelanggan. Percubaan produk sedang dijalankan di AS dengan kerjasama pembekal terkemuka global stesen minyak dan peralatan kedai serbaneka. Inisiatif serupa juga sedang dijalankan di Afrika dan Eropah.

IKLAN

berasaskan Tel-Aviv ITC telah diasaskan pada 2019 oleh ahli akademik pembelajaran mesin dari Universiti Ben-Gurion. ITC mencipta produk SaaS yang "ukur aliran trafik, ramalkan kesesakan dan kurangkannya melalui manipulasi pintar lampu isyarat - sebelum kesesakan mula terbentuk." Sama seperti TankU, ia menggunakan data daripada kamera luar biasa (sudah dipasang di banyak persimpangan lalu lintas) untuk mendapatkan data trafik langsung. Data daripada beribu-ribu kamera di seluruh bandar dianalisis dan parameter seperti jenis kenderaan, kelajuan, arah pergerakan dan jujukan jenis kenderaan (trak lwn. kereta) diekstrak melalui aplikasi algoritma AI proprietari. Simulasi meramalkan aliran trafik dan situasi kesesakan lalu lintas yang berpotensi sehingga 30 minit lebih awal. Lampu isyarat dilaraskan menggunakan keputusan ini untuk melancarkan aliran trafik dan mengelakkan kesesakan.

Melatih sistem AI mengambil masa satu bulan data visual merentas bandar biasa dan melibatkan gabungan pembelajaran diselia dan tidak diselia. Penyelesaian ITC telah digunakan di Tel-Aviv (menduduki kedudukan ke-25 di bandar paling sesak di dunia pada tahun 2020), dengan beribu-ribu kamera digunakan di ratusan persimpangan yang dikawal oleh lampu isyarat. Sistem ITC kini menguruskan 75K kenderaan, yang dijangka terus berkembang. Syarikat sedang memasang a keupayaan yang sama dalam Luxembourg dan sedang memulakan percubaan di bandar-bandar utama AS. Di peringkat global, penyelesaiannya menguruskan 300,000 kenderaan dengan tapak operasi di Israel, Amerika Syarikat, Brazil dan Australia. Dvir Kenig, CTO, bersemangat untuk menyelesaikan masalah ini - untuk memberi orang kembali masa peribadi, mengurangkan gas rumah hijau, meningkatkan produktiviti keseluruhan dan yang paling penting, mengurangkan kemalangan di persimpangan yang sesak. Menurut Encik Kenig, "Penempatan kami menunjukkan pengurangan 30% dalam kesesakan lalu lintas, mengurangkan masa pemanduan yang tidak produktif, tekanan, penggunaan bahan api dan pencemaran."

IKLAN

Robotik Dalaman adalah diasaskan di 2018 and baru-baru ini mengumpul $18 juta dalam pembiayaan. Syarikat itu, yang berpangkalan berhampiran Tel-Aviv, Israel, membangunkan dan menjual penyelesaian dron autonomi untuk pemantauan keselamatan dalaman, keselamatan dan penyelenggaraan. Ketua Pegawai Eksekutif dan pengasas bersama, Doron Ben-David, mempunyai pengalaman robotik dan aeronautik yang terkumpul di IAIIAI
(sebuah kontraktor utama pertahanan utama) dan MAFAT (sebuah organisasi penyelidikan lanjutan dalam Kementerian Pertahanan Israel), yang serupa dengan DARPA di Amerika Syarikat. Pelaburan yang semakin meningkat dalam bangunan pintar dan pasaran keselamatan komersil mendorong keperluan untuk sistem autonomi yang boleh menggunakan penglihatan komputer dan input deria lain dalam ruang komersial dalaman kecil dan besar (pejabat, pusat data, gudang dan ruang runcit). Robotik Dalaman menyasarkan pasaran ini dengan menggunakan dron dalaman yang dilengkapi dengan kamera luar dan penderia jarak terma dan inframerah.

Ofir Bar-Levav ialah Ketua Pegawai Perniagaan. Dia menjelaskan bahawa kekurangan GPS telah menghalang dron dalaman daripada menyetempatkan diri mereka di dalam bangunan (biasanya GPS-nafi atau tidak tepat). Selain itu, penyelesaian dok dan penjanaan yang mudah dan cekap adalah kurang. Robotik Dalaman menangani perkara ini dengan empat kamera yang dipasang dron (atas, bawah, kiri, kanan) dan penderia julat ringkas yang memetakan ruang dalaman dan kandungannya dengan tepat. Data kamera (kamera menyediakan data penyetempatan dan pemetaan) dan penderia haba (juga dipasang pada dron) dianalisis oleh sistem AI untuk mengesan potensi isu keselamatan, keselamatan dan penyelenggaraan serta memberi amaran kepada pelanggan. Dron itu menggerakkan diri mereka melalui "jubin dok" yang dipasang di siling, yang menjimatkan ruang lantai yang berharga dan membolehkan pengumpulan data semasa mengecas. Kelebihan kewangan untuk mengautomasikan proses biasa ini di mana buruh manusia adalah kompleks dan mahal dari segi pengambilan, pengekalan dan latihan adalah jelas. Menggunakan dron udara berbanding robot berasaskan darat juga mempunyai kelebihan ketara dari segi modal dan kos operasi, penggunaan ruang lantai yang lebih baik, kebebasan untuk bergerak tanpa menghadapi halangan dan kecekapan penangkapan data kamera. Menurut Encik Bar-Levav, TAM (Total Addressable Market) Robotik Dalaman dalam sistem keselamatan pintar dalaman akan menjadi $80B menjelang 2026. Lokasi pelanggan utama hari ini termasuk gudang, pusat data dan kampus pejabat syarikat global terkemuka.

IKLAN


Visi komputer sedang merevolusikan permainan autonomi – dalam automasi pergerakan, keselamatan, pemantauan bangunan pintar, pengesanan penipuan dan pengurusan trafik. Kuasa semikonduktor dan AI adalah pemboleh yang berkuasa. Sebaik sahaja komputer menguasai modaliti deria yang luar biasa ini dengan cara yang boleh skala, kemungkinannya tidak berkesudahan.

Sumber: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/