Способы обработки неструктурированных данных
https://doi.org/10.32362/2500-316X-2021-9-1-7-17
Аннотация
Термин «неструктурированные данные» подразумевает данные, неупорядоченные и произвольные по форме, однако этот тип информации все же обладает определенной структурой. На сегодняшний день существует большое разнообразие данных и, как следствие, появляется необходимость их интерпретировать. Среди задач интерпретации можно выделить прогнозирование, классификацию, кластеризацию, ассоциацию, поиск последовательностей, визуализацию данных, анализ отклонений. Сложность обработки заключается в том, что сами данные могут различаться не только с точки зрения формата, но и с точки зрения своей структуры. Одной из ключевых задач при работе с неструктурированными данными является поиск и выявление закономерностей с целью их понимания и разработки шаблонов заполнения. В работе проводится анализ правил оформления библиографических источников с целью выявления общих закономерностей. Затрагиваются понятия структурированных и неструктурированных данных. Рассматриваются существующие направления работы с неструктурированными данными и способы их обработки, в частности, правила оформления библиографических списков литературных источников. На основании этих правил сформированы шаблоны, состоящие из смысловых групп, на основе примеров соответствующих списков библиографических источников. При итоговом сравнении полученных шаблонов выявлены как общие черты, объединяющие все рассмотренные шаблоны, так и черты, их разделяющие.
Об авторах
В. С. ТомашевскаяРоссия
Томашевская Валерия Сергеевна, кандидат технических наук, доцент кафедры корпоративных информацион-ных систем Института информационных технологий ФГБОУ ВО
119454, Россия, Москва, пр-т Вернадского, д. 78
Д. А. Яковлев
Россия
Яковлев Дмитрий Андреевич, аспирант кафедры корпоративных информационных систем Института информационных технологий ФГБОУ ВО
119454, Россия, Москва, пр-т Вернадского, д. 78
Список литературы
1. Николаев А.А. Разнообразие структур данных в современной информации. Молодой ученый. 2019;23(261):21–23. URL: https://moluch.ru/archive/261/60410/
2. Антонов С.И., Редько С.Г. Автоматизация управления неструктурированными данными в рамках системы управления контентом на предприятии. Научно-технические ведомости СПбГПУ. Инноватика. 2009;5:277–282.
3. Татур М.М., Лукашевич М.М., Перцев Д.Ю., Искра Н.А. Интеллектуальный анализ данных и облачные вычисления. Доклады БГУИР. 2019;6(124):62–71. https://doi.org/10.35596/1729-7648-2019-124-6-62-71
4. Дядичев В.В., Ромашка Е.В., Голуб Т.В., Задачи и методы интеллектуального анализа данных. Геополитика и экогеодинамика регионов. 2015;1-11(3):23–29.
5. Амаева Л.А. Сравнительный анализ методов интеллектуального анализа данных. Инновационная наука. 2017;2(1):27–29.
6. Климко Е.Г. Программно-алгоритмические средства интеллектуального анализа данных. Радиоэлектроника и информатика. 2001;3:64–67.
7. Юсков В.С., Баранникова И.В. Сравнительный анализ платформ обработки естественного языка. Горный информационно-аналитический бюллетень. 2017:3:272–278.
8. Цитульский А.М., Иванников А.В., Рогов И.С. Интеллектуальный анализ текста. Научно-образовательный журнал для студентов и преподавателей «StudNet». 2020;6:476–483.
9. Укуев Б.Т. Особенности обработки неструктурированных данных в информационной базе научных исследований ВУЗа. Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2018;03:75–76.
10. Цитульский А.М., Иванников А.В., Рогов И.С. NLP – Обработка естественных языков. Научно-образовательный журнал для студентов и преподавателей «StudNet». 2020;6:467–475.
11. Кузнецов С.А., Скребцова Т.Г., Суворов С.Г., Клементьева А.В. Лингвистический анализатор: преобразование текста в метаязыковую структуру данных. СПб: Изд-во СПбГУ; 2019. 238 с. ISBN 978-5-288-05927-8
Одной из ключевых задач при работе с неструктурированными данными является поиск и выявление закономерностей с целью их понимания и разработки шаблонов заполнения. В работе проводится анализ правил оформления библиографических источников с целью выявления общих закономерностей. Рассматриваются существующие направления работы с неструктурированными данными и способы их обработки, в частности, правила оформления библиографических списков литературных источников. На основании этих правил сформированы шаблоны, состоящие из смысловых групп.
Рецензия
Для цитирования:
Томашевская В.С., Яковлев Д.А. Способы обработки неструктурированных данных. Russian Technological Journal. 2021;9(1):7-17. https://doi.org/10.32362/2500-316X-2021-9-1-7-17
For citation:
Tomashevskaya V.S., Yakovlev D.A. Research of unstructured data interpretation problems. Russian Technological Journal. 2021;9(1):7-17. (In Russ.) https://doi.org/10.32362/2500-316X-2021-9-1-7-17