Автоматическое обезличивание конфиденциальной информации
https://doi.org/10.32362/2500-316X-2023-11-5-7-18
Аннотация
Цели. В то время как объем персональных данных, передаваемых по сети, продолжает расти, законодательные органы все более жестко регулируют процессы хранения и обработки цифровой информации. В работе рассматривается проблема защиты персональных данных и другой конфиденциальной информации (КИ), например, банковской или врачебной тайны, физических лиц. Одним из способов защиты конфиденциальных данных является их обезличивание – преобразование, в результате которого становится невозможно установить принадлежность этих данных конкретному субъекту. Цель работы – построение автоматической системы, позволяющей быстро и безопасно обезличивать данные с помощью технологий машинного обучения.
Методы. Предлагается использовать модели искусственного интеллекта для реализации системы автоматического обезличивания КИ, т.к. это дает возможность распознавать КИ даже в неструктурированных данных с достаточно высокой точностью без привлечения человеческого труда. Для повышения точности всей системы обезличивания предлагается использовать алгоритмы на основе правил.
Результаты. На конфиденциальных данных, размеченных авторами для решения данной задачи, обучена модель распознавания именованных сущностей, которая в связке с алгоритмами на основе правил в результате имеет значение F1-меры больше, чем 0.9. Реализовано несколько вариаций алгоритмов обезличивания, что позволяет выбирать между ними для каждой конкретной задачи.
Выводы. Разработанная система решает задачу автоматического обезличивания КИ. Это открывает возможность для безопасной обработки и передачи КИ во многих областях, например, в банковской деятельности, государственном управлении, рекламных кампаниях. Также автоматизация процесса обезличивания делает возможной передачу КИ в тех случаях, когда это необходимо, но невозможно в силу правовых ограничений. Отличительная особенность разработанного решения заключается в том, что обезличиваются как структурированные данные, так и неструктурированные, в т.ч. с сохранением контекста.
Об авторах
Н. Г. БабакРоссия
Бабак Никита Григорьевич, аспирант, кафедра вычислительных машин, систем и сетей; главный эксперт по защите данных, Департамент кибербезопасности
111250, Москва, Красноказарменная ул., д. 14, стр. 1; 117312, Москва, ул. Вавилова, д. 19
ResearcherID HHY-9372-2022
Конфликт интересов:
Авторы заявляют об отсутствии конфликта интересов.
Л. Ю. Белорыбкин
Россия
Белорыбкин Леонид Юрьевич, директор проектов по защите данных, Департамент кибербезопасности
117312, Москва, ул. Вавилова, д. 19
Конфликт интересов:
Авторы заявляют об отсутствии конфликта интересов.
Ш. А. Оцоков
Россия
Оцоков Шамиль Алиевич, д.т.н., профессор, кафедра КБ-4 «Интеллектуальные системы информационной безопасности» Института кибербезопасности и цифровых технологий
119454, Москва, пр-т Вернадского, д. 78
Scopus Author ID 57212622267
Конфликт интересов:
Авторы заявляют об отсутствии конфликта интересов.
А. А. Теренин
Россия
Теренин Алексей Алексеевич, к.т.н., управляющий директор, Департамент кибербезопасности
117312, Москва, ул. Вавилова, д. 19
Конфликт интересов:
Авторы заявляют об отсутствии конфликта интересов.
А. И. Шаброва
Россия
Шаброва Анастасия Игоревна, архитектор по защите данных, Департамент кибербезопасности
117312, Россия, Москва, ул. Вавилова, д. 19
Конфликт интересов:
Авторы заявляют об отсутствии конфликта интересов.
Список литературы
1. Шаброва А.И., Теренин А.А, Бабак Н.Г. Методика оценки риска от разглашения конфиденциальной информации в источниках данных с использованием интеллектуального анализа данных. Современные информационные технологии и ИТ-образование. 2022;18(3):666–679. https://doi.org/10.25559/SITITO.18.202203.666-679
2. Столбов А.П. Обезличивание персональных данных в здравоохранении. Врач и информационные технологии. 2017;3:76–91. URL: https://elibrary.ru/zgyvot
3. Спеваков А.Г., Калуцкий И.В., Никулин Д.А., Шумайлова В.А. Обезличивание персональных данных при обработке в автоматизированных информационных системах. Телекоммуникации. 2016;10:16–20. URL: https://www.elibrary.ru/wwvxmt
4. Oleksy M., Ropiak N., Walkowiak T. Automated anonymization of text documents in Polish. Procedia Computer Science. 2021;192(1):1323–1333. https://doi.org/10.1016/j.procs.2021.08.136
5. Saluja B., Kumar G., Sedoc J., Callison-Burch C. Anonymization of Sensitive Information in Medical Health Records. In: CEUR Workshop Proceedings. 2019;2421:647–653. URL: https://ceur-ws.org/Vol-2421/MEDDOCAN_paper_2.pdf
6. Roy A. Recent Trends in Named Entity Recognition (NER). arXiv. 2021. https://doi.org/10.48550/arxiv.2101.11420
7. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need. In: Advances in Neural Information Processing Systems. 2017. https://doi.org/10.48550/arXiv.1706.03762
8. Ratinov L., Roth D. Design Challenges and Misconceptions in Named Entity Recognition. In: Proceedings of the Thirteenth Conference on Computational Natural Language Learning (CoNLL 2009). 2009. P. 147–155. URL: https://aclanthology.org/W09-1119.pdf
9. Fisher J., Vlachos A. Merge and label: A novel neural network architecture for nested NER. arXiv. 2019. https://doi.org/10.48550/arXiv.1907.00464
10. Fu Y., Tan C., Chen M., Huang S., Huang F. Nested named entity recognition with partially-observed TreeCRFs. In: Proceedings of the AAAI Conference on Artificial Intelligence. 2021;35(14):12839–12847. https://doi.org/10.1609/aaai.v35i14.17519
11. Dai X., Karimi S., Hachey B., Paris C. An effective transition-based model for discontinuous NER. arXiv. 2020. https://doi.org/10.48550/arXiv.2004.13454
12. Lothritz C., Allix K., Veiber L., Klein J., BissyandeT.F.D.A. Evaluating pretrained transformer-based models on the task of fine-grained named entity recognition. In: Proceedings of the 28th International Conference on Computational Linguistics. 2020. P. 3750–3760. http://doi.org/10.18653/v1/2020.coling-main.334
13. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language. arXiv. 2019. https://doi.org/10.48550/arXiv.1905.07213
14. Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzman F., Grave E., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised cross-lingual representation learning at scale. arXiv. 2020. https://doi.org/10.48550/arXiv.1911.02116
15. Patel A.A., Arasanipalai A.U. Applied Natural Language Processing in the Enterprise. O’Reilly Media, Inc.; 2021. 336 p. ISBN 978-1-4920-6257-8. URL: https://spacy.io/universe/project/applied-nlp-in-enterprise/
16. Singco V.Z., Trillo J., Abalorio C., Bustillo J.C., Bojocan J., Elape M. OCR-based Hybrid Image Text Summarizer using Luhn Algorithm with Finetune Transformer Models for Long Document. Int. J. Emerging Technol. Adv. Eng. 2023;13(02):47–56. http://doi.org/10.46338/ijetae0223_07
17. Soltau H., Shafran I., Wang M., Shafey L.E. RNN Transducers for Nested Named Entity Recognition with constraints on alignment for long sequences. arXiv. 2022. https://doi.org/10.48550/arXiv.2203.03543
18. Абирхаев Е.А., Ерохин А.Ф., Пушкин П.Ю. Методы обезличивальных данных: обзор и анализ. Наукосфера. 2021;6(2):57–31. URL: https://www.elibrary.ru/item.asp?id=46561812
19. Кротов А.Д., Серышев А.С., Ефанова Н.В. Разработка приложения для обезличивания персональных данных. В сб.: Цифровизация экономики: направления, методы, инструменты: сб. материалов III всероссийской научно-практической конференции. Краснодар: Кубанский государственный аграрный университет; 2021. С. 294–297. ISBN 978-5-9074-3005-1. URL: https://www.elibrary.ru/item.asp?id=44891383
20. Фот Ю.Д., Коробова Е.О. Обезличивание персональных данных в системе управления персоналом предприятий нефтегазового сектора. В сб.: Роль нефтегазового сектора в технико-экономическом развитии Оренбуржья: сб. трудов научно-практической конференции. Саратов: ООО «Амирит»; 2021. С. 161–168. ISBN 978-5-0014-0888-8. URL: https://www.elibrary.ru/item.asp?id=48392659
21. Williams C.K.I. The effect of class imbalance on Precision-Recall Curves. Neural Computation. 2021;33(4): 853–857. https://doi.org/10.1162/neco_a_01362
22. Du Y., Li C., Guo R., Yin X., Liu W., Zhou J., Bai Y., Yu Z., Yang Y., Dang Q., Wang H. PP-OCR: A practical ultra lightweight OCR system. arXiv. 2020. https://doi.org/10.48550/arXiv.2009.09941
23. Pan J., Shapiro J., Wohlwend J., Han K.J., Lei T., Ma T. ASAPP-ASR: Multistream CNN and self-attentive SRU for SOTA speech recognition. arXiv. 2020. https://doi.org/10.48550/arXiv.2005.10469
24. Ryffel T., Trask A., Dahl M., Wagner B., Mancuso J., Rueckert D., Passerat-Palmbach J. A generic framework for privacy preserving deep learning. arXiv. 2018. https://doi.org/10.48550/arXiv.1811.04017
Дополнительные файлы
|
1. Обработка данных системой обезличивания | |
Тема | ||
Тип | Исследовательские инструменты | |
Посмотреть
(92KB)
|
Метаданные |
- В работе рассматривается проблема защиты персональных данных и другой конфиденциальной информации (КИ), например, банковской или врачебной тайны, физических лиц.
- Предложено использовать модели искусственного интеллекта для реализации системы автоматического обезличивания КИ, т.к. это дает возможность распознавать КИ даже в неструктурированных данных с достаточно высокой точностью без привлечения человеческого труда.
- На конфиденциальных данных, размеченных авторами для решения данной задачи, обучена модель распознавания именованных сущностей, которая в связке с алгоритмами на основе правил в результате имеет значение F1-меры больше, чем 0.9.
- Отличительная особенность разработанного решения заключается в том, что обезличиваются как структурированные данные, так и неструктурированные, в т.ч. с сохранением контекста.
Рецензия
Для цитирования:
Бабак Н.Г., Белорыбкин Л.Ю., Оцоков Ш.А., Теренин А.А., Шаброва А.И. Автоматическое обезличивание конфиденциальной информации. Russian Technological Journal. 2023;11(5):7-18. https://doi.org/10.32362/2500-316X-2023-11-5-7-18
For citation:
Babak N.G., Belorybkin L.Yu., Otsokov S.A., Terenin A.T., Shabrova A.I. Automatic depersonalization of confidential information. Russian Technological Journal. 2023;11(5):7-18. https://doi.org/10.32362/2500-316X-2023-11-5-7-18