Preview

Russian Technological Journal

Расширенный поиск

Способы обработки неструктурированных данных

https://doi.org/10.32362/2500-316X-2021-9-1-7-17

Аннотация

Термин «неструктурированные данные» подразумевает данные, неупорядоченные и произвольные по форме, однако этот тип информации все же обладает определенной структурой. На сегодняшний день существует большое разнообразие данных и, как следствие, появляется необходимость их интерпретировать. Среди задач интерпретации можно выделить прогнозирование, классификацию, кластеризацию, ассоциацию, поиск последовательностей, визуализацию данных, анализ отклонений. Сложность обработки заключается в том, что сами данные могут различаться не только с точки зрения формата, но и с точки зрения своей структуры. Одной из ключевых задач при работе с неструктурированными данными является поиск и выявление закономерностей с целью их понимания и разработки шаблонов заполнения. В работе проводится анализ правил оформления библиографических источников с целью выявления общих закономерностей. Затрагиваются понятия структурированных и неструктурированных данных. Рассматриваются существующие направления работы с неструктурированными данными и способы их обработки, в частности, правила оформления библиографических списков литературных источников. На основании этих правил сформированы шаблоны, состоящие из смысловых групп, на основе примеров соответствующих списков библиографических источников. При итоговом сравнении полученных шаблонов выявлены как общие черты, объединяющие все рассмотренные шаблоны, так и черты, их разделяющие.

Для цитирования:


Томашевская В.С., Яковлев Д.А. Способы обработки неструктурированных данных. Russian Technological Journal. 2021;9(1):7-17. https://doi.org/10.32362/2500-316X-2021-9-1-7-17

For citation:


Tomashevskaya V.S., Yakovlev D.A. Research of unstructured data interpretation problems. Russian Technological Journal. 2021;9(1):7-17. (In Russ.) https://doi.org/10.32362/2500-316X-2021-9-1-7-17

Просмотров: 2260


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2782-3210 (Print)
ISSN 2500-316X (Online)