Розробка інформаційної системи для формування нових методів представлення даних у чотирьох та більше вимірах

Розробка інформаційної системи для формування нових методів представлення даних у чотирьох та більше вимірах
Розробка інформаційної системи для формування нових методів представлення даних у чотирьох та більше вимірах 24.04.2019

Розробка інформаційної системи для формування нових методів представлення даних у чотирьох та більше вимірах

Анализ информации – это довольно трудный и трудоемкий процесс. Когда информация избыточная и получена с многих источников, ее довольно тяжело анализировать, сравнивать и строить любые заключения. Поэтому методы представления данных в нескольких измерениях могут существенным образом упростить процесс анализа и систематизации информации, визуализируя ее.

Визуализация – это процесс представления данных в виде изображения с целью максимального удобства их понимания; предоставление зримой формы любого мыслимому объекту, субъекту, процесса и т.д. Существует большое разнообразие способов визуального представления данных. От выбора способа визуализации зависит процесс понимания информации пользователем.

Визуальный анализ данных это наиболее быстрый способ получить представление о характере данных. Он позволяет получить картину «в целом» и иногда увидеть наличие разнообразных зависимостей и аномалий, которые достаточно тяжело выявить другим способом. Визуальный анализ очень эффективно позволяет обнаруживать группировки данных, выбросы и прочие проблемы в данных.

Представление информации в четырех и более измерениях недоступно для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации. Наиболее распространенные из этих методов и будут рассмотрены и проанализированы в данной работе.

Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании подобных программ пользователь наталкивается на целый ряд проблем.

Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям, вообще говоря, приводит к недостоверным результатам обработки.
Во-вторых, пользователь – специалист в определенной области знаний - зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает.

И, наконец, значительная часть задач в астрономии, биологии, медицине, экономике и др. науках просто не поддается чисто аналитическому описанию и требует дополнительного описания на качественном образном уровне.

Всё это говорит о необходимости создания простых, удобных в использовании средств визуализации данных.

Суть визуализации состоит в проецировании многомерных данных на заданную определённым образом двумерную плоскость.

Рассмотрим пространство объектов с размерностью, равной числу параметров исходного множества и мощностью равной количеству объектов.

В многомерном пространстве зададим двумерную плоскость проекции. Нормаль плоскости проекции задаётся своими направляющими косинусами. Исходное множество объектов образует в пространстве параметров так называемое облако объектов или облако точек, которое и проецируется на заданную плоскость проекции вдоль направления нормали.

В результате такого проецирования на плоскости проекции (а для пользователя на экране дисплея) возникает образ проекции исходного множества объектов. Однако, это пока ещё только статичная картинка. 
Подобные методы статичного проецирования уже давно широко используются в статистических программах. Они являют собой пример традиционной машинной графики, не затрагивающей образное интуитивное мышление пользователя. Говоря другими словами, данные методы статичного проецирования не являются когнитивными.
Принципиальным же отличием разработанных в данном проекте средств визуализации, является то, что используются алгоритмы, обладающие свойством когнитивности.

Одним из аспектов визуального представления данных является нормировка значений исходного множества объектов по каждому из параметров (т.е. по осям многомерного пространства). В программе предусмотрен режим ранжирования исходных значений, т.е. переход по всем осям от реальных значений к ранговым. Благодаря использованию этой процедуры достигается статистически естественная нормировка, которая обеспечивает сохранение свойств выборки.

Данные, которые представлены в четырех и более измерениях, необходимо либо преобразовывать к трехмерному пространству, либо использовать специальные методы: например, «лица Чернова», базирующиеся на концепции кодировании значений различных переменных в характеристиках человеческого лица; лепестковые диаграммы в виде круга, отображающего данные с помощью углов; диаграммы с параллельными координатами, где каждая из осей отображает значения по выбранному показателю.

Каждый из методов имеет свой ареал применения, разработаны приложения для сравнения методов и выбора лучшего при визуализации конкретных данных. В то же время ни одно из существующих программных средств не позволяет пользователю самому создать визуализатор согласно собственным предпочтениям.

Была поставлена задача проектирования системы – приложения, позволяющего пользователю при помощи графических примитивов создать некий рисунок (схему) и определить его параметры (для измерений). При этом рисунок-схема со всеми описаниями должен сохраняться в специальном файле, а потом использоваться для визуализации данных.

Объектом исследования являются методы представления данных в четырех и более измерениях. Предмет исследования – создание новых визуализаторов для отображения таких данных.

Вид визуализации выбирается в зависимости от целей анализа, от структуры массива данных, от количества переменных, от аналитических инструментов, которые собирается применять исследователь/пользователь. В случае интерактивности роль играет также фактор экранного представления и операций, который накладывает свои ограничения.

Д. Кейм разработал классификацию для визуализации мультивариативных данных, основанную на обобщении функциональных черт визуализаций. Классификация делит виды визуализации на

·         геометрические приемы

·         иконографические приемы

·         пиксельно-ориентированные приемы

·         иерархические приемы

·         графо-основанные приемы

гибридные приемы (комбинирующие вышеназванные)

Многомерные пиктографики – не очень простой, но мощный исследовательский инструмент разведывательного анализа данных. Главная идея такого метода анализа основанная на человеческой способности «автоматически» фиксировать сложные связи между многими сменными, если они проявляются в последовательности элементов. С помощью пиктографиков можно представить элементарные наблюдения отдельныvb графическими объектами, где значения переменных отвечают определенным чертам или размерами объекта. [6-8]

Американский математик Герман Чернов в 1973 году опубликовал работу, в которой изложил концепцию использования способности восприятия лица человека для построения пиктографиков. Их применяют, как правило, в двух случаях:

– когда нужно проявить характерные зависимости или группы наблюдений;

– когда необходимо исследовать сложные взаимосвязи между несколькими переменными.

Способ представления многомерных данных в «лицах Чернова» разрешает показать информацию, например, о любом экономическом объекте, в виде «лица». При этом черты «лица» демонстрируют разные значения параметров данного объекта. «Лицо» представляет собой массив из 18 элементов, каждый из которых принимает значение от 0 до 1. Значению отвечает внешний вид соответствующей части «лица». Параметры исследуемых объектов приводятся к этим значениям. Экстремумы реальных данных будут приняты как 0 и 1, все другие значения лежат в промежутке от 0 до 1. В 1981 году Бернард Флури и Ганс Ридвил (Bernhard Flury and Hans Riedwyl) улучшили концепцию и прибавили лицам Чернова асимметрию, которое разрешило увеличить вдвое количество переменных (до 36).

Таким образом, проектируемая система должна предоставить пользователю-исследователю данных такие же возможности визуализации, как любое приложение, использущее метод лиц Чернова, но при этом разрешить добавление собственного метода представления данных – то есть создать новый визуализатор.

В настоящее время осуществляется работа по реализации модели в среде визуального программирования. Созданное приложение позволяет:

– работать с данными: загрузить (импортировать из редактора электронных таблиц, при этом автоматически рассчитывается число измерений), нормализовать, сохранить;

– работать с визуализаторами;

– строить многомерные диаграммы.

Работа с визуализаторами, в свою очередь, предполагает или использование стандартных методов, или создание собственных визуализаторов.


Назва конкурсу:  Конкурс «Кращий інноваційний диплом (проект)»
ПІБ Співвиконавців:  Мельников Олександр Юрійович
ПІБ конкурсанта:  Баган Софія Вячеславівна
Країна:  Україна
Область:  Донецка область
Назва НЗ:  Донбаська державна машинобудівна академія
Учасник фіналу:  Ні
Файл статті (pdf):  Завантажити

Повернення до списку