Preview

Russian Technological Journal

Расширенный поиск

Автоматизация поиска юридической информации на арабском языке: подход к поиску документов

https://doi.org/10.32362/2500-316X-2024-12-5-7-16

EDN: CBEERK

Аннотация

Цели. Поиск юридической информации, например, информации, связанной с различными юридическими вопросами, такими как наказание за преступления, является сложной задачей. Предлагаемый авторами подход может быть эффективным и действенным способом автоматизации поиска юридической информации без необходимости использования большого количества размеченных данных или значительных вычислительных ресурсов. Целью статьи является анализ возможности использования подхода к поиску документов в контексте юридических текстов на арабском языке, с применением методов обработки естественного языка и неконтролируемой кластеризации.

Методы. Использован подход Top2Vec – алгоритм моделирования темы, который создает вложения документов на основе семантического контекста, чтобы группировать юридические тексты на арабском языке в соответствующие темы. Использован алгоритм кластеризации на основе плотности для определения подтем внутри каждого кластера. Решаются проблемы работы с арабским юридическим текстом, такие как морфологическая сложность, двусмысленность и отсутствие стандартизированной терминологии. Предложен конвейер предварительной обработки, включающий в себя токенизацию, нормализацию, выделение корней и удаление стоп-слов.

Результаты. Результаты оценки подхода с использованием набора данных юридических текстов на арабском языке, основанного на ключевых словах, показали его эффективность и превосходство с точки зрения точности и запоминаемости. Предлагаемый подход обеспечивает точность поиска – 87% и полноту поиска – 80%. Применение этого подхода может значительно улучшить поиск юридических документов, сделав его более быстрым и точным.

Выводы. Предложенный подход может быть ценным инструментом для юристов и исследователей, которым необходимо ориентироваться в обширном и сложном ландшафте арабской юридической информации, повышая эффективность и точность ее поиска.

Об авторах

К. С. Жафар
МИРЭА – Российский технологический университет
Россия

Жафар Камел С., аспирант, кафедра корпоративных информационных систем, Институт информационных технологий

Scopus Author ID 57552322300

119454, Москва, пр-т Вернадского, д. 78



А. А. Мохаммад
Национальный исследовательский университет «Высшая школа экономики»
Россия

Мохаммад Али А., магистрант, Факультет компьютерных наук

109028, Москва, Покровский бульвар, д. 11



А. Х. Исса
РОСБИОТЕХ – Российский биотехнологический университет
Россия

Исса Али Х., аспирант, кафедра автоматизированных систем управления биотехнологическими процессами

125080, Москва, Волоколамское шоссе, д. 11



А. В. Панов
МИРЭА – Российский технологический университет
Россия

Панов Александр Владимирович, к.т.н. доцент, профессор кафедры корпоративных информационных систем, Институт информационных технологий

119454, Москва, пр-т Вернадского, д. 78



Список литературы

1. Sleimi A., Sannier N., Sabetzadeh M., Briand L., Dann J. Automated extraction of semantic legal metadata using natural language processing. In: 2018 IEEE 26th International Requirements Engineering Conference (RE). IEEE; 2018. P. 124–135. https://doi.org/10.1109/RE.2018.00022

2. Rogers A., Gardner M., Augenstein I. QA dataset explosion: A taxonomy of NLP resources for question answering and reading comprehension. ACM Comput. Surveys. 2023;55(10):1–45. https://doi.org/10.1145/3560260

3. Alanazi S.S., Elfadil N., Jarajreh M., Algarni S. Question Answering Systems: A Systematic Literature Review. International Journal of Advanced Computer Science and Applications (IJACSA). 2021;12(3):359. https://doi.org/10.14569/IJACSA.2021.0120359

4. Sansone C., Sperl ́ı G. Legal Information Retrieval systems: State-of-the-art and open issues. Inform. Syst. 2022;106:101967. https://doi.org/10.1016/j.is.2021.101967

5. Sartor G., Araszkiewicz M., Atkinson K., et al. Thirty years of Artificial Intelligence and Law: the second decade. Artif. Intell. Law. 2022;30(4):521–557. https://doi.org/10.1007/s10506-022-09326-7

6. Zhong H., Xiao C., Tu C., et al. How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence. 2020. arXiv:2004.12158 [cs.CL]. https://arxiv.org/abs/2004.12158v5

7. Abu Shamma S., Ayasa A., Yahya A., et al. Information extraction from Arabic law documents. In: 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT). IEEE; 2020;1–6. https://doi.org/10.1109/AICT50176.2020.9368577

8. Hammami E., Faiz R. Topic Modelling of Legal Texts Using Bidirectional Encoder Representations from Sentence Transformers. In: Advances in Information Systems, Artificial Intelligence and Knowledge Management. Conference paper. International Conference on Information and Knowledge Systems. Cham: Springer Nature Switzerland; 2023. V. 486. P. 333–343. https://doi.org/10.1007/978-3-031-51664-1_24

9. Angelov D. Top2Vec: Distributed Representations of Topics. 2020. arXiv:2008.09470 [cs.CL]. https://arxiv.org/abs/2008.09470v1

10. Karas B., Qu S., Xu Y., Zhu Q. Experiments with LDA and Top2Vec for embedded topic discovery on social media data—A case study of cystic fibrosis. Front. Artif. Intell. 2022;5:948313. https://doi.org/10.3389/frai.2022.948313

11. Vianna D., de Moura E.S., da Silva A.S. A topic discovery approach for unsupervised organization of legal document collections. Artif. Intell. Law. 2023;Online First. https://doi.org/10.1007/s10506-023-09371-w

12. McInnes L., Healy J., Astels S. hdbscan: Hierarchical density-based clustering. J. Open Source Softw. 2017;2(11):205. https://doi.org/10.21105/joss.00205

13. Devlin J., Chang M.W., Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018. arXiv, preprint arXiv:1810.04805. https://arxiv.org/abs/1810.04805v2

14. Salton G., McGill M.J. Introduction to Modern Information Retrieval. N.Y.: McGraw-Hill; 1983. 472 p.

15. Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge, England: Cambridge University Press; 2008. 492 p.


Дополнительные файлы

1. Поиск плотных областей документов с помощью пространственной кластеризации приложений на основе иерархической плотности с шумом
Тема
Тип Исследовательские инструменты
Посмотреть (121KB)    
Метаданные ▾
  • Авторами предложен способ автоматизации поиска юридической информации без необходимости использования большого количества размеченных данных или значительных вычислительных ресурсов.
  • Произведен анализ возможности использования подхода к поиску юридических текстов на арабском языке с применением методов обработки естественного языка и неконтролируемой кластеризации.
  • Предложенный подход решает проблемы работы с арабским юридическим текстом, такие как морфологическая сложность, двусмысленность и отсутствие стандартизированной терминологии.
  • Подход обеспечивает точность поиска – 87% и полноту поиска – 80%.

Рецензия

Для цитирования:


Жафар К.С., Мохаммад А.А., Исса А.Х., Панов А.В. Автоматизация поиска юридической информации на арабском языке: подход к поиску документов. Russian Technological Journal. 2024;12(5):7-16. https://doi.org/10.32362/2500-316X-2024-12-5-7-16. EDN: CBEERK

For citation:


Jafar K.S., Mohammad A.A., Issa A.H., Panov A.V. Automating the search for legal information in Arabic: A novel approach to document retrieval. Russian Technological Journal. 2024;12(5):7-16. https://doi.org/10.32362/2500-316X-2024-12-5-7-16. EDN: CBEERK

Просмотров: 385


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2782-3210 (Print)
ISSN 2500-316X (Online)