بهبود سیستم ترجمۀ ماشینی عصبیِ انگلیسی-فارسی با استفاده از روش ترجمۀ روبهعقبِ تصفیه شده
چکیده
هدف پژوهش حاضر از رویکرد ترجمۀ ماشین عصبی در بهبود سیستم ترجمۀ ماشینی عصبی انگلیسی-فارسیِ ویآریو استفاده کرده است. در یک سیستم ترجمۀ ماشینی عصبی، رمزگذار دنبالهای از کلمات منبع را به عنوان ورودی دریافت میکند و رمزگشا بردارهای منبع را از طریق مکانیزم توجه به عنوان ورودی میگیرد و کلمات هدف را برمی گرداند. از آنجایی که زبان انگلیسی-فارسی یک جفت زبان کممنبع است و تحقیقات کمی در مورد این جفت زبان انجام شده، تقویت سیستم ترجمۀ ماشینی عصبی با دادههای مختلف حائز اهمیت است. در این پژوهش از دو روش برای تقویت سیستم ترجمۀ ماشینی عصبی ویآریو استفاده شدهاست: ترجمۀ روبهعقب و تصفیه کردن دادهها. در ابتدا مدلهای ترجمۀ ماشینی عصبی با استفاده از دو پیکرۀ امیرکبیر و پرسیکا ایجاد شدند. در بررسی اینکه آیا نسبتهای بالاتر دادههای مصنوعی منجر به کاهش یا افزایش عملکرد ترجمه میشود، نسبتهای مختلف را با استفاده از روش ترجمۀ روبهعقب مدلسازی کردیم. نتایج پژوهش نشان داد ترجمۀ روبهعقب به طور قابل توجهی سیستم ترجمۀ ماشینی عصبی انگلیسی-فارسیِ ویآریو را بهبود بخشید. دوم، روش تصفیه کردن برای حذف دادههای نویزی را با اعمال جمله-بلو، میانگین شباهت همترازی، حداکثر شباهت تراز، ترکیب میانگین شباهت همترازی، حداکثر شباهت تراز و ترکیب میانگین شباهت همترازی، حداکثر شباهت تراز و جمله-بلو استفاده می شود. نتایج نشان داد ترکیب میانگین شباهت همترازی، حداکثر شباهت تراز و جمله-بلو بیشترین رشد را بلوی 30.65 ایجاد کرد. این پژوهش نشان میدهد روشهای پیشنهادی به طور مؤثر سیستم ترجمۀ ماشینی عصبی انگلیسی-فارسیِ ویآریو را بهبود می بخشند.
واژههای راهنما: بلو، ترجمۀ روبهعقب، ترجمۀ ماشینی عصبی، تصفیه، تنسوربهتنسور، حداکثر شباهت تراز، میانگین شباهت همترازی
مراجع
Abdulmumin, I., Galadanci, B.S., Isa, A., Kakudi, H.A., & Sinan, II. (2021). A Hybrid Approach for Improved Low Resource Neural Machine Translation using Monolingual Data. Engineering Letters, 29 (4), 1478–1493.
Ahmadnia, B., & Aranovich, R. (2020). An Effective Optimization Method for Neural Machine Translation: The Case of English-Persian Bilingually Low-Resource Scenario. Proceedings of the 7th Workshop on Asian Translation (WAT 2020).
Ahmadnia, B., & Dorr, B. J. (2019). Augmenting Neural Machine Translation through Round-Trip Training Approach. Open Computer Science, 9, 268–278.
Ahmadnia, B., Dorr, B. J., & Aranovich, R. (2021). Impact of Filtering Generated Pseudo Bilingual Texts in Low-Resource Neural Machine Translation Enhancement: The Case of Persian-Spanish. Procedia Computer Science, 189, 136–141.
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation, Conference on Empirical Methods in Natural Language Processing.
Currey, A., & Heafield, K. (2019). Zero-Resource Neural Machine Translation with Monolingual Pivot Data. Proceedings of the 3rd Workshop on Neural Generation and Translation (WNGT 2019), Association for Computational Linguistic, 99–107.
Edunov, S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 489–500.
Eghbalzadeh, H, B., Khadivi, Sh., & Khodabakhsh, A. (2012). Persica: A Persian Corpus for Multipurpose Text Mining and Natural Language Processing. In Sixth International Symposium Telecommunication (IST), IEEE, Tehran.
Fadaee, M., & Monz, C. (2018). Back-Translation Sampling by Targeting Difficult Words in Neural Machine Translation. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 436–446.
Gülçehre, C., Firat, O., Xu, K., Cho, K., Barrault, L., Lin H., Bougares, F., Schwenk, Hand Bengio, Y. (2015). On Using Monolingual Corpora in Neural Machine Translation.1503.03535v2.
He, D., Xia Y., Qin, T., Wang, L., Yu, L., Liu, T., & Ma, W. (2016). Dual Learning for Machine Translation. 30th Conference on Neural Information Processing Systems (NIPS).
Hoang, C., Haffari, Gh., & Cohn, T. (2018). Improved Neural Machine Translation using Side Information. In Proceedings of the Australasian Language Technology Association Workshop 2018, Dunedin, New Zealand, 6–16.
Jabbari, F., Bakhshaei S., Ziabary S. M. M., & Khadivi, Sh. (2012, November). Developing an Open-domain English-Farsi Translation System Using AFEC: Amirkabir Bilingual Farsi-English Corpus. In The Fourth Workshop on Computational Approaches to Arabic Script-based Languages.
Jaiswal, N., Patidar, M., Kumari, S., Patwardhan, M., Karande, S., Agarwal, P., & Vig, L. (2020, December). Improving NMT via Filtered Back-translation. In Proceedings of the 7th Workshop on Asian Translation, 154–159.
Koehn, P., & Knowles, R. (2017). Six challenges for neural machine translation. In Proceedings of the First Workshop on Neural Machine Translation, pages 28–39, Vancouver. Association for Computational Linguistics.
Lambert, P., Schwenk, H., Servan, Ch., & Abdul-Rauf, S. (2011). Investigations on translation model adaptation using monolingual data. In Proceedings of the Sixth Workshop on Statistical Machine Translation, WMT ’11, Stroudsburg, PA, USA. Association for Computational Linguistics, 284–293.
Lample, G., Conneau, A., Denoyer, L., & Aurelio, R.M. (2018). Unsupervised Machine Translation Using Monolingual Corpora Only. ICLR, 280–290.
Papineni, K., Roukos, S., Ward, T., and Zhu, W. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 311–318.
Sabbagh-Jafari, M., & Ramezani, S. (2019). Filtering low quality parallel corpora, to improve the performance of neural machine translation by using the combination of sentence pair similarity criteria. Proceedings of the First National Interdisciplinary Conference on Iranian Studies, Linguistics and Translation Studies, Vali-e-Asr University (AJ) Rafsanjan.
Sennrich, R., Firat, O., Cho, K., Birch, A., Haddow, B., Hitschler, J., & Nădejde, M. (2017). Nematus: A Toolkit for Neural Machine Translation. In Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 65–68, Valencia, Spain. Association for Computational Linguistics.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Sub Word Units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 1715–1725.
Song, Y., & Roth, D. (2015). Unsupervised sparse vector densification for short text similarity. In Proceedings of the 2015 conference of the North American chapter of the association for computational linguistics: human language technologies, 1275–1280.
Downloads
چاپشده
ارجاع به مقاله
شماره
نوع مقاله
DOR
مجوز
حق نشر 2023 Pariya Razmdideh, Fatemeh Pour-Ali Momen-Abadi, Sajjad Ramezani
این پروژه تحت مجوز بین المللی Creative Commons Attribution-NonCommercial 4.0 می باشد.
Copyright Licensee: Iranian Journal of Translation Studies. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution–NonCommercial 4.0 International (CC BY-NC 4.0 license).