Wartajakarta. com-Meski Robot ProcessAutomation (RPA)memakai robot untuk mengotomatisasi proses kerja, berhasil menghadirkan pembuatan dokumen dan pengisian data secara otomatis, beberapa pekerjaan seperti menulis minuta rapat dan transkrip pidato masih dilakukan secara manual.
Mari kita mempelajari teknologi kecerdasan buatan (AI) untuk pemindaian percakapan (speech recognition) yang baru dikembangkan Toshiba. Teknologi ini mampu mengubah percakapan menjadi teks dengan akurasi yang baik, serta ikut meningkatkan produktivitas kerja dan bidang-bidang lainnya.
Toshiba juga menyadari potensi penggunaaan AI untuk pemindaian percakapan di sektor manufaktur. Sektor ini membutuhkan pengumpulan dan perekaman suara tanpa bantuan tangan (hands-free) di berbagai pabrik saat kegiatan pemeliharaan dan inspeksi berlangsung. Ke depan, Toshiba ingin memanfaatkan wawasan dan keahliannya di sejumlah fasilitas manufaktur untuk mengintegrasikan pemindaian percakapan secara lancar ke dalam kegiatan operasional pabrik.
Kita dengan cepat mendekati masa di mana akan lebih banyak orang yang dapat hidup lebih dari seratus tahun. Namun, pada saat yang sama, ada kekurangan tenaga kerja karena tingkat kelahiran yang rendah dan populasi yang menua. RPA (Robotics Process Automation) — menggunakan robot untuk mengotomatisasi proses kerja — telah disebut-sebut sebagai suatu cara yang memungkinkan baik untuk menjawab defisit tenaga kerja bersamaan dengan meningkatkan produktivitas melalui perubahan cara kita bekerja. RPA telah diperkenalkan di bidang keuangan dan bidang lainnya, menghasilkan hasil yang luar biasa dalam mengotomatisasi pembuatan dokumen dan pekerjaan data entry.
Namun, banyak perusahaan masih perlu melakukan tugas-tugas seperti mencatat risalah rapat dan menyalin pidato. Sementara AI dan perangkat lunak yang secara otomatis mengubah ucapan ke teks sudah tersedia di pasaran, mengonversi ucapan ke teks secara akurat masih perlu dilakukan secara manual.
Bagaimana kita bisa menyelesaikan masalah ini dan membantu menciptakan lingkungan yang mudah untuk bekerja? Toshiba memberikan jawaban dengan AI pengenalan suara yang baru dikembangkan.
Kami meminta Bp. Ashikawa dan Bp. Fujimura dari Pusat R&D Perusahaan Toshiba, yang mengembangkan AI, untuk memberi tahu kami lebih banyak tentang sejarah pengenalan ucapan menggunakan AI dan terobosan yang mereka buat selama pengembangan.
Toshiba memiliki sejarah dalam bekerja pada kecerdasan media, suatu bidang yang memanfaatkan suara dan gambar manusia yang telah melaluii pemrosesan informasi. fondasi yang telah perusahaan semaikan di bidang itu selama bertahun-tahun memainkan peran besar dalam penciptaan AI pengenalan suara ini.
Toshiba pertama kali mulai mengembangkan AI pada tahun 2015. Pada saat itu, ada peningkatan momentum di seluruh dunia dalam bidang aksesibilitas informasi, yang bertujuan untuk menciptakan lingkungan yang memungkinkan orang yang tuli dan sulit mendengar untuk mengakses dan memasukkan informasi. Toshiba telah memulai “Sistem Penasihat Desain Universal (UD-Universal Design)” sejak 2007 untuk memungkinkan karyawan penyandang cacat berpartisipasi dalam pengembangan produk. Perusahaan percaya untuk mendorong keragaman dan inklusi di tempat kerja dan mengembangkan produk serta layanan yang ramah UD selama bertahun-tahun.
Taira Ashikawa, Kepala Riset, Laboratorium Media AI, Pusat R&D Perusahaan ToshibaTeknologi di balik keakuratan dari pengenalan suara
.Saat Anda mendeskripsikan pidato dari percakapan orang selama rapat dan kuliah, Anda akan berakhir dengan teks yang sulit dibaca. Siapa pun yang pernah menulis pidato dapat memberi tahu Anda hal itu. Ada banyak muatan yang tidak perlu menghalangi diperolehnya informasi seperti kata-kata pengisi yang tidak memiliki arti seperti “Uh,” dan “Umm” dan ekspresi persetujuan yang tidak menambahkan apa pun pada konten.
Pengenalan ucapan yang dikembangkan AI Toshiba mampu mengenali ucapan dengan akurasi tinggi dan mendeteksi pengisi dan penanda keraguan juga. Ini adalah fungsi penting dalam meningkatkan produktivitas. Algoritma membentuk inti dari AI, dan tim pengembangan mengeksplorasi berbagai pendekatan untuk meningkatkan akurasi.
” Pada awalnya kami menabrak dinding karena tingkat akurasi pengenalan tetap tidak akan meningkat tidak peduli atas apapun yang kami lakukan. Tujuan utama kami adalah memberi pengguna sesuatu yang bisa mereka gunakan dengan nyaman. Dengan menggunakan model yang semakin populer yang dikenal sebagai LSTM serta pembelajaran CTC, kami mencoba untuk mengajarkan AI tentang kekhasan ucapan seperti pengisi dan penanda ragu yang eksklusif untuk manusia.”
LSTM (Memori Jangka Pendek-Panjang): salah satu bentuk yang dikembangkan dari RNN (Jaringan Syaraf Berulang), yang memiliki struktur rekursif dalam lapisan tersembunyi. Ia mampu mempelajari hubungan ketergantungan jangka panjang yang sulit dilakukan RNN konvensional.
CTC (Connectionist Temporal Classification) : Suatu metode untuk melatih RNN untuk memecahkan masalah di mana panjang urutan berbeda selama input dengan memperkenalkan karakter nol dan menyesuaikan adanya kehilangan fungsi.
Hiroshi Fujimura, peneliti utama, Laboratorium Media AI, Pusat R&D Perusahaan Toshiba
,”Sampai sekarang, pengenalan suara telah bekerja dengan menganalisis pola gelombang suara dan menguraikannya dengan mengidentifikasi bahwa bagian ini adalah “a”, bagian lain adalah “i” dan seterusnya. Namun, pengisi dan penanda keraguan memiliki beragam pola yang tidak ada habisnya, dan perlu waktu lama untuk mempelajarinya satu per satu.
“Kami menggunakan LSTM untuk menangkap informasi seperti ‘ini adalah apa yang disebut pengisi,’ ‘ini adalah apa yang terdengar seperti ketika seseorang ragu-ragu akan sebuah kata,’ sebagai model statistik dan kemudian menggunakan pembelajaran CTC untuk membuat AI mempelajarinya sebagai sebuah model. Melalui itu, AI menjadi mampu mendeteksi pola yang tak terhitung dari pengisi dan penanda keraguan juga.
Masih ada banyak ruang untuk perbaikan dalam pengembangan dan teknologi untuk mencapai apa yang ditawarkan dari sebuah pengenalan suara yang sepenuhnya akurat. AI pengenalan ucapan kami untuk saat ini dapat mengenali ucapan dalam bahasa Jepang, Inggris, dan Cina. Kami berusaha untuk mengembangkan lingkungan di mana penutur berbagai bahasa akan dapat menikmati percakapan yang lancar satu sama lain. Ketika kami mengembangkan AI, kami bermimpi mengambil sesuatu seperti itu, yang hanya Anda lihat dalam fiksi ilmiah futuristik atau buku komik, dan menjadi kenyataan.”
Inilah bagaimana AI berevolusi menjadi pengenalan suara AI dengan akurasi superior. Ketika tim pengembangan menggunakan ceramah sebagai kesempatan untuk pengujian verifikasi, AI mencapai rasio pengenalan suara rata-rata 85%. Itu berarti mampu mengenali isi pembicaraan di atas level tertentu tanpa mengedit atau pembelajaran yang maju. Sekarang setelah mereka meningkatkan keakuratan pengenalan ucapan, mereka mempertimbangkan untuk menerapkannya pada komunikasi AI yang dikenal sebagai RECAIUS.
Mereka mengembangkan aplikasi di mana masalah keterwakilan adalah fungsi tampilan subtitle real-time untuk orang-orang dengan gangguan pendengaran. Mereka memanfaatkan AI untuk menampilkan ucapan dengan jelas dengan pengisi dan penanda ragu-ragu yang tercermin dalam subtitle yang samar dan tidak mengganggu. Ini adalah spesifikasi yang ramah pengguna yang diperkenalkan setelah diskusi rinci dengan pengguna.
“Sejauh yang kami ketahui, kata-kata pengisi seperti” umm “dan” uhh “hanya menghalanginya. Namun, apa yang benar-benar diinginkan orang-orang dengan gangguan pendengaran adalah untuk mendapatkan informasi sebanyak mungkin. Ketika mereka membaca subtitle sementara mengikuti gerakan bibir pembicara, mereka menjadi stres ketika pengisi dan tanda keraguan dipotong karena mereka merasa bahwa pembicara mengatakan sesuatu yang tidak tercermin dalam teks.
Jadi kami memutuskan untuk meninggalkan pengisi dan penanda ragu-ragu di subtitle tetapi ditampilkan dengan samar untuk membuat teks lebih mudah dibaca. Namun, ketika kami merekamnya sebagai dokumen transkrip, kami menghapus penanda dan penanda ragu. Dengan begitu, kita mendapatkan dokumen yang singkat dan ringkas. ”
Pada bulan Maret 2019, Toshiba berkolaborasi dengan DWANGO Co., Ltd. dan mengadakan siaran langsung Konvensi Nasional ke-81 Masyarakat Pemrosesan Informasi Jepang di situs web video “niconico”. Video dengan subtitle didistribusikan secara online secara real-time. Mereka berencana untuk menyebarkannya tidak hanya untuk tugas kantor tetapi juga untuk digunakan dalam pengaturan manufaktur.
“Jarang terlihat pengenalan ucapan digunakan sebagai layanan di kantor saat ini. Jadi itu akan tepat bagi kami jika pengguna mempercayai produk kami dan menggunakannya, dan jika itu bisa menjadi sesuatu yang mereka gunakan dalam bisnis sehari-hari tanpa sadar bahwa itu adalah pengenal ucapan AI. Misalnya, kata-kata yang kita ucapkan saat ini dapat menjadi teks yang cukup lancar untuk digunakan sebagai dokumen bisnis, dengan pembicara yang diidentifikasi dengan jelas untuk menunjukkan siapa yang mengatakan apa. Kami berharap dapat membuat pengenal ucapan AI yang berguna dan dapat diandalkan. “tutur Ashikawa.
“Penggunaan pengenalan suara belum diterapkan di lokasi pabrik. Namun ada kebutuhan untuk pengumpulan dan perekaman suara hands-free di pabrik selama pemeliharaan dan inspeksi. Jadi saya pikir ada ruang untuk pengenalan suara AI ini untuk penerapannya di sana juga.
Kami berharap dapat menggunakan pengetahuan dan know-how kami tentang fasilitas manufaktur untuk mengintegrasikan pengenalan suara ke dalam operasi mereka. Kita dapat melakukan itu karena kita telah menghabiskan waktu yang lama untuk mengembangkan pengenalan suara AI dan mengumpulkan pengetahuan tentang pengaturan manufaktur dan infrastruktur. “Mengapa Toshiba bekerja pada pengenalan ucapan?” Saya pikir ini akan memberikan salah satu jawaban untuk pertanyaan mendasar itu. “imbuh Fujimura.
Dengan berbagai potensi aplikasi dan manfaatnya, tidak ada keraguan bahwa perangkat lunak pengenalan suara ini akan membuat kehadirannya semakin terasa di lebih banyak kantor dan lokasi pabrik dalam waktu dekat.