Национальный исследовательский институт
Московский Энергетический Институт (Технический Университет)
Институт автоматики и вычислительной техники Кафедра Прикладной математики
РЕФЕРАТ
на тему:
Средства OLAP
Выполнил:
Бочаров Иван Андреевич Проверила:
доц. Сидорова Наталья Петровна
Москва
2011 г.
Оглавление |
|
Введение................................................................................................................... | 3 |
Процесс анализа на предприятии .......................................................................... | 4 |
Базовые концепции OLAP...................................................................................... | 5 |
Варианты хранения информации в OLAP ............................................................ | 7 |
Признаки OLAP-продукта...................................................................................... | 8 |
Правила Кодда...................................................................................................... | 9 |
Тест FASMI........................................................................................................... | 9 |
Обзор программных продуктов ........................................................................... | 12 |
Примеры областей применения ........................................................................... | 12 |
Продажи .............................................................................................................. | 12 |
Результаты выборов........................................................................................... | 15 |
Потребление электроэнергии............................................................................ | 15 |
Заключение ............................................................................................................ | 17 |
2
Введение
Трудно найти в современном компьютерном мире человека, который хотя бы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. В отличие от традиционных реляционных СУБД, концепция OLAP не так широко известна, хотя этот загадочный термин периодически встречается в публикациях технической направленности. Далее мы попробуем разобраться более детально, что конкретно следует понимать под термином Online Analytical Processing.
OLAP - это не отдельно взятый программный продукт, не язык программирования и даже не конкретная технология. Если постараться охватить OLAP во всех его проявлениях, то это, скорее всего, некая совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным. Несмотря на то, что с таким определением вряд ли кто-нибудьне согласится, сомнительно, чтобы оно хоть немного приблизило нас к пониманию нашего предмета обсуждения. Для начала мы выясним, зачем аналитикам надо както специально облегчать доступ к данным.
3
Процесс анализа на предприятии
В первую очередь следует отметить, что аналитики - это особые потребители корпоративной информации. Задача аналитика - находить закономерности в больших массивах данных. Поэтому аналитик не будет обращать внимания на отдельно взятый факт, что однажды некоему покупателю был продан, к примеру, чайник. Аналитику нужна информация о сотнях и тысячах подобных событий. Одиночные факты в базе данных могут заинтересовать, к примеру, бухгалтера или начальника отдела продаж, в компетенции которого находится сделка. Аналитику одной записи мало - ему, к примеру, могут понадобиться все сделки данного филиала или представительства за месяц, год. Заодно аналитик отбрасывает ненужные ему подробности вроде ИНН покупателя, его точного адреса и номера телефона, индекса контракта и тому подобного. В то же время данные, которые требуются аналитику для работы, обязательно содержат числовые значения - это обусловлено самой сущностью его деятельности.
Итак, как мы только что выяснили, аналитику нужно много данных, эти данные являются выборочными, а также носят характер "набор атрибутов - число". Последнее означает, что аналитик работает с таблицами следующего типа:
Здесь "Страна", "Товар", "Год" являются атрибутами, а "Объем продаж" - тем самым числовым значением. Задачей аналитика, повторимся, является выявление стойких взаимосвязей между атрибутами и числовыми параметрами. Посмотрев на таблицу, можно заметить, что ее легко можно перевести в три измерения, отложив страны по одной из осей, товары – по другой, годы – по третьей. Значениями в этом трехмерном массиве у нас будут соответствующие объемы продаж.
4
Теперь, в общих чертах рассмотрев примерный перечень задач, решаемых аналитиком и основные принципы его работы, перейдем к рассмотрению базовых концепций OLAP.
Базовые концепции OLAP
Рассмотренный трехмерный массив в терминах OLAP называется кубом. На самом деле, с точки зрения строгой математики кубом такой массив будет далеко не всегда: у настоящего куба количество элементов во всех измерениях должно быть одинаковым, а у кубов OLAP такого ограничения нет. Тем не менее, несмотря на эти детали, термин "кубы OLAP" ввиду своей краткости и образности стал общепринятым. Куб OLAP совсем не обязательно должен быть трехмерным. Он может быть и двух-,и многомерным - в зависимости от решаемой задачи. Особо матерым аналитикам может понадобиться порядка 20 измерений (большее количество уже вряд ли будет востребовано) - и серьезныеOLAP-продукты(такие, как
SAP BW, Microsoft Analysis Services) именно на такое количество и рассчитаны. Более простые настольные приложения поддерживают обычно около 6 измерений.
Измерения OLAP-кубовсостоят из так называемых меток или членов (members). Например, измерение "Страна" состоит из меток "Аргентина", "Бразилия", "Венесуэла" и так далее.
Должны быть заполнены далеко не все элементы куба: если нет информации о продажах резиновых изделий в Аргентине в 1988 году, значение в соответствующей ячейке просто не будет определено. Совершенно необязательно также, чтобы приложение OLAP хранило данные непременно в многомерной структуре - главное, чтобы для пользователя эти данные выглядели именно так. Кстати, именно благодаря специальным
5
способам компактного хранения многомерных данных, "вакуум" (незаполненные элементы) в кубах не приводят к бесполезной трате памяти.
Следует заметить, что куб сам по себе для анализа не пригоден. Если еще можно адекватно представить или изобразить трехмерный куб, то с шестиили девятнадцатимерным дело обстоит значительно хуже. Поэтому перед употреблением из многомерного куба извлекают обычные двумерные таблицы. Эта операция называется "разрезанием" куба. Термин этот, опять же, образный. Аналитик как бы берет и "разрезает" измерения куба по интересующим его меткам. Этим способом аналитик получает двумерный срез куба и с ним работает. Примерно так же лесорубы считают годовые кольца на спиле.
Соответственно, "неразрезанными", как правило, остаются только два измерения - по числу измерений таблицы. Бывает, "неразрезанным" остается только измерение - если куб содержит несколько видов числовых значений, они могут откладываться по одному из измерений таблицы.
Если еще внимательнее всмотреться в таблицу, которую мы изобразили первой, можно заметить, что находящиеся в ней данные, скорее всего, не являются первичными, а получены в результате суммирования по более мелким элементам. Например, год делится на кварталы, кварталы на месяцы, месяцы на недели, недели на дни. Страна состоит из регионов, а регионы - из населенных пунктов. Наконец в самих городах можно выделить районы и конкретные торговые точки. Товары можно объединять в товарные группы и так далее. В терминах OLAP такие многоуровневые объединения совершенно логично называется иерархиями. Средства OLAP дают возможность в любой момент перейти на нужный уровень иерархии. Причем, как правило, для одних и тех же элементов поддерживается несколько видов иерархий: например день-неделя-месяцилидень-декада-квартал.Исходные данные берутся из нижних уровней иерархий, а затем суммируются для получения значений более высоких уровней. Для того чтобы ускорить процесс перехода, просуммированные значения для разных уровней хранятся в кубе. Таким образом, то, что со стороны пользователя выглядит одним кубом, грубо говоря, состоит из множества более примитивных кубов.
6
Пример иерархии
Концепция OLAP появилась именно для разрешения проблем, связанных, к примеру, с построением отчетных данных. Кубы OLAP представляют собой, по сути, мета-отчеты.Разрезаямета-отчеты(кубы, то есть) по измерениям, аналитик получает, фактически, интересующие его "обычные" двумерные отчеты (это не обязательно отчеты в обычном понимании этого термина - речь идет о структурах данных с такими же функциями). Преимущества кубов очевидны - данные необходимо запросить из реляционной СУБД всего один раз - при построении куба. Поскольку аналитики, как правило, не работают с информацией, которая дополняется и меняется "на лету", сформированный куб является актуальным в течение достаточно продолжительного времени. Благодаря этому, не только исключаются перебои в работе сервера реляционной СУБД (нет запросов с тысячами и миллионами строк ответов), но и резко повышается скорость доступа к данным для самого аналитика. Кроме того, как уже отмечалось, производительность повышается и за счет подсчета промежуточных сумм иерархий и других агрегированных значений в момент построения куба. То есть, если изначально наши данные содержали информацию о дневной выручке по конкретному товару в отдельно взятом магазине, то при формировании кубаOLAP-приложениесчитает итоговые суммы для разных уровней иерархий (недель и месяцев, городов и стран).
Конечно, за повышение таким способом производительности надо платить. Иногда говорят, что структура данных просто "взрывается" - куб OLAP может занимать в десятки, и даже сотни раз больше места, чем исходные данные. Для решения проблемы хранения агрегатов применяются подчас сложные схемы, позволяющие при вычислении далеко не всех возможных агрегатов достигать значительного повышения производительности выполнения запросов.
Дадим краткие характеристики существующим вариантам хранения информации
Варианты хранения информации в OLAP
Как детальные данные, так и агрегаты могут храниться либо в реляционных (одномерных по своей сути), либо в многомерных структурах. Многомерное хранение позволяет обращаться с данными как с многомерным массивом, благодаря чему обеспечиваются одинаково быстрые вычисления суммарных показателей и различные многомерные преобразования по любому из измерений. Некоторое время назад OLAP-продуктыподдерживали либо реляционное, либо многомерное хранение. Сегодня, как
7
правило, один и тот же продукт обеспечивает оба этих вида хранения, а также третий вид - смешанный. Применяются следующие термины:
MOLAP (Multidimensional OLAP) - и детальные данные, и
агрегаты хранятся в многомерной БД. В этом случае получается наибольшая избыточность, так как многомерные данные полностью содержат реляционные. Примеры таких продуктов —
Microsoft Analysis Services, Oracle OLAP Option, Essbase, SAS OLAP Server, TM1, PowerPlay.
ROLAP (Relational OLAP) - детальные данные остаются там, где они "жили" изначально - в реляционной БД; агрегаты хранятся в той же БД в специально созданных служебных таблицах.
HOLAP (Hybrid OLAP) - детальные данные остаются на месте (в реляционной БД), а агрегаты хранятся в многомерной БД.
Примеры таких продуктов — SAP BW, Microstrategy Intelligence Server, Mondrian.
Каждый из этих способов имеет свои преимущества и недостатки и должен применяться в зависимости от условий - объема данных, мощности реляционной СУБД и т. д.
При хранении данных в многомерных структурах возникает потенциальная проблема "разбухания" за счет хранения пустых значений. Ведь если в многомерном массиве зарезервировано место под все возможные комбинации меток измерений, а реально заполнена лишь малая часть (например, ряд продуктов продается только в небольшом числе регионов), то большая часть куба будет пустовать, хотя место будет занято. Современными OLAP-продуктамиэта проблема решается довольно эффективно.
Теперь перейдем к описанию тех признаков, по которым тот или иной программный продукт можно отнести к средствам OLAP.
Признаки OLAP-продукта
Проблема, которая вставшая перед учеными с самого начала исследований OLAP, заключалась в решении того, какой продукт правомерно относить к категории OLAP. Решить является ли продукт "именно OLAP" становилось все сложнее в связи с тем, что все больше и больше поставщиков утверждали, что они имеют "именно OLAP", в то время как это могло означать все что угодно. Нельзя было полагаться на собственные описания поставщиков независимо от их членства в Совете OLAP (OLAP Council). Такое членство не являлось надежным индикатором
8
того, что компания действительно производит OLAP продукт. Например, несколько известных поставщиков OLAP не являются членами Совета, в то же время существуют члены Совета, которые не являются поставщиками
OLAP.
Правила Кодда
В 1993 Е. Ф. Кодд с партнерами опубликовали статью, инициированную компанией Arbor Software(сегодня это Hyperion Solutions), озаглавленную «Обеспечение OLAP (оперативной аналитической обработки) для пользователей - аналитиков», как некий "мандат" информационной технологии. Доктор Кодд, конечно, хорошо известен, как классик теории реляционных баз данных, созданной в период 60-80-хгодов, однако его требования к OLAP оказались достаточно спорными, так как были спонсированы поставщиком, а не обоснованы математически. Кроме того, не очень ясно, насколько велика роль самого Кодда в написании этой статьи, есть основания полагать, что его роль, вероятно, не очень значительна. Эта статья воспринимается как документ, опубликованный поставщиком (а так оно и есть) скорее, нежели как научный труд (каковой эта публикация и не является).
Эта статья включала 12 правил, которые теперь хорошо известны. В 1995 году к ним были добавлены еще шесть (которые известны в значительно меньшей степени). Доктор Кодд разбил на четыре группы эти правила, назвав их "особенностями". Заметим, что сегодня они редко цитируются и мало используются.
Тест FASMI
Было бы крайне желательно определить характеристики OLAP приложения специфическим образом без указания на то, каким образом оно должно быть осуществлено. Имеется много путей реализации OLAP приложений, следовательно, никакая конкретная технология не должна быть обязательной, или даже рекомендованной. Очевидно, что при разных условиях и обстоятельствах один подход может быть предпочтительнее другого.
Построенное определение должно было быть коротким и простым. Помнить 12 правил или 18 особенностей слишком обременительно для большинства людей. В результате специалистами была разработана концепция FASMI:
Fast
Analysis
9
of Shared
Multidimensional
Information
Это определение впервые было сформулировано в начале 1995 года и с тех пор не нуждалось в пересмотре.
Дадим более развернутое описание каждому из пунктов:
FAST(Быстрый) - означает, что система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд. При этом самые простые запросы обрабатываются в течение одной секунды и очень немногие - более20-тисекунд. Недавнее исследование в Нидерландах показало, что конечные пользователи воспринимают процесс неудачным, если результаты не получены по истечении 30 секунд. Они способны нажать "Alt+Ctrl+Del", если система не предупредит их, что обработка данных требует больше времени. Даже если система предупредит, что процесс будет длиться существенно дольше, пользователи, могут отвлечься и потерять мысль, при этом качество анализа страдает. Такую скорость не просто достигнуть с большими количествами данных, особенно, если требуются специальные вычисления "на лету". Поставщики прибегают к широкому разнообразию методов, чтобы достигнуть этой цели, включая специализированные формы хранения данных, обширные предварительные вычисления, или же ужесточая аппаратные требования. Впрочем, не существует единого оптимального подхода к решению проблемы сокращения времени ожидания ответа. В частности, подход предварительных вычислений дает сбои с очень большими, разреженными приложениями, так как базы данных просто становятся слишком большими (проблема взрыва базы данных). Следует принять во внимание, что выполнение вычислений "на лету" - слишком медленное при работе с большими базами данных, даже при использовании экзотических аппаратных средств. На первый взгляд может казаться удивительным, что при получении отчета за минуту, на который не так давно требовались дни, пользователь очень быстро начинает скучать во время ожиданий, и проект оказывается намного менее успешным, чем в случае мгновенного ответа, даже ценой менее детального анализа.
ANALYSIS (Анализ) означает, что система может справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивает его сохранение в виде, доступном для конечного пользователя. Кроме того, необходимо позволить пользователю определять новые специальные вычисления как часть анализа и формировать отчеты любым желательным способом, без необходимости программирования, поэтому по этому пункту обычно исключаются продукты (подобно Oracle
10
studfiles.net
3
Министерство культуры и туризма Украины
Харьковская государственная академия культуры
Кафедра информационных технологий
Реферат
по дисциплине «Электронный документооборот»
«Системы оперативного анализа данных OLAP»
Выполнила
Студентка І гр.
Факультета ДИД
Голик Ольга
Харьков - 2009
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
1. Основа концепции OLAP
2. Общие требования к OLAP-системам и способы хранения данных в них
3. OLAP на клиенте и на сервере
Заключение
Список использованной литературы
ВВЕДЕНИЕ
Трудно найти в компьютерном мире человека, который хотя бы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. В отличие от традиционных реляционных СУБД, концепция OLAP не так широко известна.
OLAP (On-Line Analytical Processing) -- оперативная аналитическая обработка данных. Иногда аналитическую обработку называют и онлайновой, и интерактивной, однако прилагательное «оперативная» как нельзя более точно отражает смысл технологии OLAP.
OLAP -- это не отдельно взятый программный продукт, а целая технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих доступ к данным.
Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehousing) -- местом OLAP в информационной структуре предприятия.
Эта технология применяется в хранилищах данных для повышения эффективности анализа данных. Причём анализ данных происходит в режиме реального времени.
1. ОСНОВА КОНЦЕПЦИИ OLAP
OLAP -- представляет собой инструмент для анализа больших объёмов данных. Взаимодействуя с OLAP-системой, пользователь сможет осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свёртки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области.
OLAP-системы являются часть более общего понятия Business Intelligence, которое включает в себя помимо традиционного OLAP-сервиса средства организации совместного использования документов, возникающих в процессе работы пользователей хранилища. Технология Business Intelligence обеспечивает электронный обмен отчётными документами, разграничение прав пользователей, доступ к аналитической информации из Internet/Intranet.
В основе концепции OLAP лежит принцип многомерного представления данных. По измерениям в многомерной модели выделяют факторы, влияющие на деятельность предприятия (например, время, продукты, отделения компании и т.п.) и получают гиперкуб, который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т.п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных, то есть данных, накопленных за определённый период времени.
Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым, просматривая данные в различных разделах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»).
Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, то есть информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.
2. ОБЩИЕ ТРЕБОВАНИЯ К OLAP-СИСТЕМАМ И СПОСОБЫ ХРАНЕНИЯ ДАНЫХ В НИХ
В 1993 году Е.Ф. Коддом -- создателем концепции реляционных СУБД и, по совместительству, OLAP -- были сформулированы критерии OLAP. Они заключаются в недостатках реляционной модели и, в первую очередь, указывают на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом». Общие требования к системам OLAP, расширяют функциональность реляционных СУБД и включают многомерный анализ как одну из своих характеристик.
Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP:
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View). Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции «анализа вдоль и поперёк» («slice and dice»), вращения (rotate) и размещения (pivot) направлений консолидации.
Прозрачность (Transparency). Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
Доступность (Accessibility). Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при всём этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при всём этом привязанными к общей аналитической модели. То есть, инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность (Consistent Reporting Performance). С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
Клиент - серверная архитектура (Client-Server Architecture). Главная идея работы в среде клиент - сервер -- это то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью стоить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
Равноправие измерений (Generic Dimensionality). Все измерения данных должны быть равноправными. Дополнительные характеристики могут быть предоставлены отдельным измерениям. Но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчётов не должны опираться на какое-то одно измерение.
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling). Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
Поддержка многопользовательского режима (Multi-User Support). Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-Dimensional Operations). Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными (Intuitive Data Manipulation). Детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчётов (Flexible Reporting). Должны поддерживаться различные способы визуализации данных, то есть отчёты должны представляться в любой возможности ориентации.
Неограниченное количество измерений и уровней агрегации (ed Dimensions and Aggregation Levels). Настоятельно рекомендуется допущение в каждом серьёзном OLAP инструменте как минимум пятнадцати измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определённых пользователем уровней агрегации.
Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.
Позднее все эти требования были переработаны в так называемый тест FASMI, который также определяет требования к продуктам OLAP. FASMI -- это аббревиатура от названия каждого пункта теста:
Fast (Быстрый). Приложение OLAP должно обеспечивать минимальное время доступа к аналитическим данным -- в среднем порядка 5 секунд;
Analysis (Анализ). Приложение OLAP должно давать пользователю возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ). Приложение OLAP должно предоставлять возможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность). Приложение должно обеспечивать многомерное концептуальное представление данных, включая полную поддержку для иерархий.
Information (Информация). Приложение OLAP должно давать пользователю возможность получать нужную информацию, в каком бы электронном хранилище данных она не находилась.
Данные могут храниться либо в реляционных, либо в многомерных структурах. Поэтому сегодня применяются три способа хранения данных:
MOLAP (Multidimensional OLAP) --- исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. При этом в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные.
ROLAP (Relational OLAP) -- исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) -- исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые -- только в многомерных. При этом большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.
Отметим также, что подавляющее большинство современных OLAP-средств не хранит «пустых» значений (примером «пустого» значения может быть отсутствие продаж сезонного товара вне сезона).
Одним из популярных средств разработки OLAP-систем является семейство программных продуктов Oracle Express OLAP компании Oracle. Программное обеспечение Oracle Express предоставляет широкие возможности для создания аналитических систем на основе сервера многомерных баз данных -- Oracle Express Server. В состав инструментальных средств Oracle Express входят средства создания и администрирования многомерных баз данных --Express Administrator, средство визуального создания “облегченных” клиентских приложений и презентаций -- Express Analyzer, профессиональная инструментальная среда объектно-ориентированной разработки OLAP-приложений -- Express Objects, позволяющая создавать сложные интегрированные клиентские приложения, и другие средства, связанные с публикацией данных в Интернете.
3. OLAP НА КЛИЕНТЕ И НА СЕРВЕРЕ
Многомерный анализ данных может быть произведен с помощью различных средств, которые условно можно разделить на клиентские и серверные OLAP-средства.
Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при всём этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства.
Если исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных -- серверная СУБД, многие из клиентских OLAP-средств посылают на сервер запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере.
Как правило, OLAP-функциональность реализована в средствах статистической обработки данных (из продуктов этого класса на российском рынке широко распространены продукты компаний StatSoft и SPSS) и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000.
Многие средства разработки содержат библиотеки классов или компонентов, позволяющие создавать приложения, реализующие простейшую OLAP-функциональность. Помимо этого многие компании предлагают элементы управления ActiveX и другие библиотеки, реализующие подобную функциональность.
Отметим, что клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, -- ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.
Многие клиентские OLAP-средства позволяют сохранить агрегатные данные в виде файла, что, в свою очередь, позволяет не производить их повторное вычисление. Отметим, что нередко такая возможность используется для отчуждения агрегатных данных с целью передачи их другим организациям или для публикации. Типичным примером таких отчуждаемых агрегатных данных является статистика заболеваемости в разных регионах и в различных возрастных группах, которая является открытой информацией, публикуемой министерствами здравоохранения различных стран и Всемирной организацией здравоохранения. При этом собственно исходные данные, представляющие собой сведения о конкретных случаях заболеваний, являются конфиденциальными данными медицинских учреждений, которые ни в коем случае не должны попадать в руки страховых компаний и тем более становиться достоянием гласности.
Идея сохранения агрегатных данных в файле получила свое дальнейшее развитие в серверных OLAP-средствах. В них сохранение и изменение агрегатных данных, а также поддержка содержащего их хранилища осуществляются отдельным приложением или процессом, называемым OLAP-сервером. Клиентские приложения могут запрашивать подобное многомерное хранилище и в ответ получать те или иные данные. Некоторые клиентские приложения могут также создавать такие хранилища или обновлять их в соответствии с изменившимися исходными данными.
Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Поскольку все ведущие производители серверных СУБД производят (либо лицензировали у других компаний) те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всех случаях можно приобрести OLAP-сервер того же производителя, что и у самого сервера баз данных.
Отметим, что многие клиентские OLAP-средства позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы. Помимо этого имеется немало продуктов, представляющих собой клиентские приложения к OLAP-средствам различных производителей.
ЗАКЛЮЧЕНИЕ
В последние годы аналитическая обработка данных привлекает все большее внимание в мире. Например, аналитические модули появились в составе всех основных западных и российских финансово-производственных приложений -- ведь в условиях рыночной экономики качество информационной поддержки деятельности руководителей и аналитиков является одним из факторов достижения успеха предприятия. OLAP и является той технологией, которая превращает "сырые" данные OLTP в информацию и знание для конечных пользователей.
В заключение, можно определить OLAP как совокупность средств анализа данных, накопленных в хранилище, а также его основные особенности:
Выделение из большого объёма исторических данных содержательной информации (знаний) с использованием средств обработки информации на основе методов искусственного интеллекта
Использование мощной вычислительной техники и специального хранилища данных, которое накапливает информацию из различных источников за большой период времени, а также обеспечение оперативного доступа к данным.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. -- К.: Кондор, 2007. -- 500 с.
2. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. -- Х.: ХДАК, 2000. -- 470 с.
3. Заботнев М.С. Методы представления информации в разреженных гиперкубах данных [Электронный ресурс]. -- Режим доступа: http://www.olap.ru/basic/theory.asp
4. ВВЕДЕНИЕ в OLAP. [Электронный ресурс]. -- Режим доступа: http://www.olap.ru/basic/oolap.asp
5. Стариков. Ядро OLAP системы. [Электронный ресурс]. -- Режим доступа: http://www.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htm
6. Альперович М. ВВЕДЕНИЕ в OLAP и многомерные базы данных. [Электронный ресурс]. -- Режим доступа: http://www.olap.ru/basic/alpero2i.asp
referatwork.ru
Министерство культуры и туризма Украины
Харьковская государственная академия культуры
Кафедра информационных технологий
Реферат
по дисциплине «Электронный документооборот»
«Системы оперативного анализа данных OLAP»
Выполнила
Студентка І гр.
Факультета ДИД
Голик Ольга
Харьков – 2009
СОДЕРЖАНИЕ
Введение
1. Основа концепции OLAP
2. Общие требования к OLAP-системам и способы хранения данных в них
3. OLAP на клиенте и на сервере
Заключение
Список использованной литературы
ВВЕДЕНИЕ
Трудно найти в компьютерном мире человека, который хотя бы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. В отличие от традиционных реляционных СУБД, концепция OLAP не так широко известна.
OLAP (On-Line Analytical Processing) — оперативная аналитическая обработка данных. Иногда аналитическую обработку называют и онлайновой, и интерактивной, однако прилагательное «оперативная» как нельзя более точно отражает смысл технологии OLAP.
OLAP — это не отдельно взятый программный продукт, а целая технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих доступ к данным.
Термин «OLAP» неразрывно связан с термином «хранилище данных» (Data Warehousing) — местом OLAP в информационной структуре предприятия.
Эта технология применяется в хранилищах данных для повышения эффективности анализа данных. Причём анализ данных происходит в режиме реального времени.
1. ОСНОВА КОНЦЕПЦИИ OLAP
OLAP — представляет собой инструмент для анализа больших объёмов данных. Взаимодействуя с OLAP-системой, пользователь сможет осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свёртки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области.
OLAP-системы являются часть более общего понятия Business Intelligence, которое включает в себя помимо традиционного OLAP-сервиса средства организации совместного использования документов, возникающих в процессе работы пользователей хранилища. Технология Business Intelligence обеспечивает электронный обмен отчётными документами, разграничение прав пользователей, доступ к аналитической информации из Internet/Intranet.
В основе концепции OLAP лежит принцип многомерного представления данных. По измерениям в многомерной модели выделяют факторы, влияющие на деятельность предприятия (например, время, продукты, отделения компании и т.п.) и получают гиперкуб, который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т.п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных, то есть данных, накопленных за определённый период времени.
Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым, просматривая данные в различных разделах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»).
Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, то есть информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.
2. ОБЩИЕ ТРЕБОВАНИЯ К OLAP-СИСТЕМАМ И СПОСОБЫ ХРАНЕНИЯ ДАНЫХ В НИХ
В 1993 году Е.Ф. Коддом — создателем концепции реляционных СУБД и, по совместительству, OLAP — были сформулированы критерии OLAP. Они заключаются в недостатках реляционной модели и, в первую очередь, указывают на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом». Общие требования к системам OLAP, расширяют функциональность реляционных СУБД и включают многомерный анализ как одну из своих характеристик.
Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP:
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View). Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции «анализа вдоль и поперёк» («slice and dice»), вращения (rotate) и размещения (pivot) направлений консолидации.
Прозрачность (Transparency). Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
Доступность (Accessibility). Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть, инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность (Consistent Reporting Performance). С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
Клиент – серверная архитектура (Client-Server Architecture). Главная идея работы в среде клиент – сервер — это то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью стоить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
Равноправие измерений (Generic Dimensionality). Все измерения данных должны быть равноправными. Дополнительные характеристики могут быть предоставлены отдельным измерениям. Но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчётов не должны опираться на какое-то одно измерение.
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling). Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
Поддержка многопользовательского режима (Multi-User Support). Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-Dimensional Operations). Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными (Intuitive Data Manipulation). Детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчётов (Flexible Reporting). Должны поддерживаться различные способы визуализации данных, то есть отчёты должны представляться в любой возможности ориентации.
Неограниченное количество измерений и уровней агрегации (ed Dimensions and Aggregation Levels). Настоятельно рекомендуется допущение в каждом серьёзном OLAP инструменте как минимум пятнадцати измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определённых пользователем уровней агрегации.
Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.
Позднее все эти требования были переработаны в так называемый тест FASMI, который также определяет требования к продуктам OLAP. FASMI — это аббревиатура от названия каждого пункта теста:
Fast (Быстрый). Приложение OLAP должно обеспечивать минимальное время доступа к аналитическим данным — в среднем порядка 5 секунд;
Analysis (Анализ). Приложение OLAP должно давать пользователю возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ). Приложение OLAP должно предоставлять возможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность). Приложение должно обеспечивать многомерное концептуальное представление данных, включая полную поддержку для иерархий.
Information (Информация). Приложение OLAP должно давать пользователю возможность получать нужную информацию, в каком бы электронном хранилище данных она не находилась.
Данные могут храниться либо в реляционных, либо в многомерных структурах. Поэтому в настоящее время применяются три способа хранения данных:
MOLAP (Multidimensional OLAP) –— исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные.
ROLAP (Relational OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
--PAGE_BREAK--Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые — только в многомерных. Однако большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.
Отметим также, что подавляющее большинство современных OLAP-средств не хранит «пустых» значений (примером «пустого» значения может быть отсутствие продаж сезонного товара вне сезона).
Одним из популярных средств разработки OLAP-систем является семейство программных продуктов Oracle Express OLAP компании Oracle. Программное обеспечение Oracle Express предоставляет широкие возможности для создания аналитических систем на основе сервера многомерных баз данных — Oracle Express Server. В состав инструментальных средств Oracle Express входят средства создания и администрирования многомерных баз данных —Express Administrator, средство визуального создания “облегченных” клиентских приложений и презентаций — Express Analyzer, профессиональная инструментальная среда объектно-ориентированной разработки OLAP-приложений — Express Objects, позволяющая создавать сложные интегрированные клиентские приложения, и другие средства, связанные с публикацией данных в Интернете.
3. OLAP НА КЛИЕНТЕ И НА СЕРВЕРЕ
Многомерный анализ данных может быть произведен с помощью различных средств, которые условно можно разделить на клиентские и серверные OLAP-средства.
Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства.
Если исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных — серверная СУБД, многие из клиентских OLAP-средств посылают на сервер запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере.
Как правило, OLAP-функциональность реализована в средствах статистической обработки данных (из продуктов этого класса на российском рынке широко распространены продукты компаний StatSoft и SPSS) и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000.
Многие средства разработки содержат библиотеки классов или компонентов, позволяющие создавать приложения, реализующие простейшую OLAP-функциональность. Помимо этого многие компании предлагают элементы управления ActiveX и другие библиотеки, реализующие подобную функциональность.
Отметим, что клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, — ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.
Многие клиентские OLAP-средства позволяют сохранить агрегатные данные в виде файла, что, в свою очередь, позволяет не производить их повторное вычисление. Отметим, что нередко такая возможность используется для отчуждения агрегатных данных с целью передачи их другим организациям или для публикации. Типичным примером таких отчуждаемых агрегатных данных является статистика заболеваемости в разных регионах и в различных возрастных группах, которая является открытой информацией, публикуемой министерствами здравоохранения различных стран и Всемирной организацией здравоохранения. При этом собственно исходные данные, представляющие собой сведения о конкретных случаях заболеваний, являются конфиденциальными данными медицинских учреждений, которые ни в коем случае не должны попадать в руки страховых компаний и тем более становиться достоянием гласности.
Идея сохранения агрегатных данных в файле получила свое дальнейшее развитие в серверных OLAP-средствах. В них сохранение и изменение агрегатных данных, а также поддержка содержащего их хранилища осуществляются отдельным приложением или процессом, называемым OLAP-сервером. Клиентские приложения могут запрашивать подобное многомерное хранилище и в ответ получать те или иные данные. Некоторые клиентские приложения могут также создавать такие хранилища или обновлять их в соответствии с изменившимися исходными данными.
Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Поскольку все ведущие производители серверных СУБД производят (либо лицензировали у других компаний) те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всех случаях можно приобрести OLAP-сервер того же производителя, что и у самого сервера баз данных.
Отметим, что многие клиентские OLAP-средства позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы. Помимо этого имеется немало продуктов, представляющих собой клиентские приложения к OLAP-средствам различных производителей.
ЗАКЛЮЧЕНИЕ
В последние годы аналитическая обработка данных привлекает все большее внимание в мире. Например, аналитические модули появились в составе всех основных западных и российских финансово-производственных приложений — ведь в условиях рыночной экономики качество информационной поддержки деятельности руководителей и аналитиков является одним из факторов достижения успеха предприятия. OLAP и является той технологией, которая превращает «сырые» данные OLTP в информацию и знание для конечных пользователей.
В заключение, можно определить OLAP как совокупность средств анализа данных, накопленных в хранилище, а также его основные особенности:
Выделение из большого объёма исторических данных содержательной информации (знаний) с использованием средств обработки информации на основе методов искусственного интеллекта
Использование мощной вычислительной техники и специального хранилища данных, которое накапливает информацию из различных источников за большой период времени, а также обеспечение оперативного доступа к данным.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — К.: Кондор, 2007. — 500 с.
2. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — Х.: ХДАК, 2000. — 470 с.
3. Заботнев М.С. Методы представления информации в разреженных гиперкубах данных [Электронный ресурс]. — Режим доступа: www.olap.ru/basic/theory.asp
4. Введение в OLAP. [Электронный ресурс]. — Режим доступа: www.olap.ru/basic/oolap.asp
5. Стариков. Ядро OLAP системы. [Электронный ресурс]. — Режим доступа: www.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htm
6. Альперович М. Введение в OLAP и многомерные базы данных. [Электронный ресурс]. — Режим доступа: www.olap.ru/basic/alpero2i.asp
Ссылки (links): mailto:[email protected]/basic/theory.aspwww.olap.ru/basic/oolap.aspwww.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htmwww.olap.ru/basic/alpero2i.aspwww.ronl.ru
Министерство культуры и туризма Украины
Харьковская государственная академия культуры
Кафедра информационных технологий
Реферат
по дисциплине «Электронный документооборот»
«Системы оперативного анализа данных OLAP»
Выполнила
Студентка І гр.
Факультета ДИД
Голик Ольга
Харьков – 2009
СОДЕРЖАНИЕ
Введение
1. Основа концепции OLAP
2. Общие требования к OLAP-системам и способы хранения данных в них
3. OLAP на клиенте и на сервере
Заключение
Список использованной литературы
ВВЕДЕНИЕ
Трудно найти в компьютерном мире человека, который хотя бы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. В отличие от традиционных реляционных СУБД, концепция OLAP не так широко известна.
OLAP (On-Line Analytical Processing) — оперативная аналитическая обработка данных. Иногда аналитическую обработку называют и онлайновой, и интерактивной, однако прилагательное «оперативная» как нельзя более точно отражает смысл технологии OLAP.
OLAP — это не отдельно взятый программный продукт, а целая технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих доступ к данным.
Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehousing) — местом OLAP в информационной структуре предприятия.
Эта технология применяется в хранилищах данных для повышения эффективности анализа данных. Причём анализ данных происходит в режиме реального времени.
1. ОСНОВА КОНЦЕПЦИИ OLAP
OLAP — представляет собой инструмент для анализа больших объёмов данных. Взаимодействуя с OLAP-системой, пользователь сможет осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свёртки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области.
OLAP-системы являются часть более общего понятия Business Intelligence, которое включает в себя помимо традиционного OLAP-сервиса средства организации совместного использования документов, возникающих в процессе работы пользователей хранилища. Технология Business Intelligence обеспечивает электронный обмен отчётными документами, разграничение прав пользователей, доступ к аналитической информации из Internet/Intranet.
В основе концепции OLAP лежит принцип многомерного представления данных. По измерениям в многомерной модели выделяют факторы, влияющие на деятельность предприятия (например, время, продукты, отделения компании и т.п.) и получают гиперкуб, который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т.п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных, то есть данных, накопленных за определённый период времени.
Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым, просматривая данные в различных разделах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»).
Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, то есть информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.
2. ОБЩИЕ ТРЕБОВАНИЯ К OLAP-СИСТЕМАМ И СПОСОБЫ ХРАНЕНИЯ ДАНЫХ В НИХ
В 1993 году Е.Ф. Коддом — создателем концепции реляционных СУБД и, по совместительству, OLAP — были сформулированы критерии OLAP. Они заключаются в недостатках реляционной модели и, в первую очередь, указывают на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом». Общие требования к системам OLAP, расширяют функциональность реляционных СУБД и включают многомерный анализ как одну из своих характеристик.
Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP:
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View). Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции «анализа вдоль и поперёк» («slice and dice»), вращения (rotate) и размещения (pivot) направлений консолидации.
Прозрачность (Transparency). Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
Доступность (Accessibility). Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть, инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность (Consistent Reporting Performance). С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
Клиент – серверная архитектура (Client-Server Architecture). Главная идея работы в среде клиент – сервер — это то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью стоить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
Равноправие измерений (Generic Dimensionality). Все измерения данных должны быть равноправными. Дополнительные характеристики могут быть предоставлены отдельным измерениям. Но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчётов не должны опираться на какое-то одно измерение.
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling). Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
Поддержка многопользовательского режима (Multi-User Support). Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-Dimensional Operations). Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными (Intuitive Data Manipulation). Детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчётов (Flexible Reporting). Должны поддерживаться различные способы визуализации данных, то есть отчёты должны представляться в любой возможности ориентации.
Неограниченное количество измерений и уровней агрегации (ed Dimensions and Aggregation Levels). Настоятельно рекомендуется допущение в каждом серьёзном OLAP инструменте как минимум пятнадцати измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определённых пользователем уровней агрегации.
Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.
Позднее все эти требования были переработаны в так называемый тест FASMI, который также определяет требования к продуктам OLAP. FASMI — это аббревиатура от названия каждого пункта теста:
Fast (Быстрый). Приложение OLAP должно обеспечивать минимальное время доступа к аналитическим данным — в среднем порядка 5 секунд;
Analysis (Анализ). Приложение OLAP должно давать пользователю возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ). Приложение OLAP должно предоставлять возможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность). Приложение должно обеспечивать многомерное концептуальное представление данных, включая полную поддержку для иерархий.
Information (Информация). Приложение OLAP должно давать пользователю возможность получать нужную информацию, в каком бы электронном хранилище данных она не находилась.
Данные могут храниться либо в реляционных, либо в многомерных структурах. Поэтому в настоящее время применяются три способа хранения данных:
MOLAP (Multidimensional OLAP) –— исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные.
ROLAP (Relational OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые — только в многомерных. Однако большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.
Отметим также, что подавляющее большинство современных OLAP-средств не хранит «пустых» значений (примером «пустого» значения может быть отсутствие продаж сезонного товара вне сезона).
Одним из популярных средств разработки OLAP-систем является семейство программных продуктов Oracle Express OLAP компании Oracle. Программное обеспечение Oracle Express предоставляет широкие возможности для создания аналитических систем на основе сервера многомерных баз данных — Oracle Express Server. В состав инструментальных средств Oracle Express входят средства создания и администрирования многомерных баз данных —Express Administrator, средство визуального создания “облегченных” клиентских приложений и презентаций — Express Analyzer, профессиональная инструментальная среда объектно-ориентированной разработки OLAP-приложений — Express Objects, позволяющая создавать сложные интегрированные клиентские приложения, и другие средства, связанные с публикацией данных в Интернете.
3. OLAP НА КЛИЕНТЕ И НА СЕРВЕРЕ
Многомерный анализ данных может быть произведен с помощью различных средств, которые условно можно разделить на клиентские и серверные OLAP-средства.
Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства.
Если исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных — серверная СУБД, многие из клиентских OLAP-средств посылают на сервер запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере.
Как правило, OLAP-функциональность реализована в средствах статистической обработки данных (из продуктов этого класса на российском рынке широко распространены продукты компаний StatSoft и SPSS) и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000.
Многие средства разработки содержат библиотеки классов или компонентов, позволяющие создавать приложения, реализующие простейшую OLAP-функциональность. Помимо этого многие компании предлагают элементы управления ActiveX и другие библиотеки, реализующие подобную функциональность.
Отметим, что клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, — ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.
Многие клиентские OLAP-средства позволяют сохранить агрегатные данные в виде файла, что, в свою очередь, позволяет не производить их повторное вычисление. Отметим, что нередко такая возможность используется для отчуждения агрегатных данных с целью передачи их другим организациям или для публикации. Типичным примером таких отчуждаемых агрегатных данных является статистика заболеваемости в разных регионах и в различных возрастных группах, которая является открытой информацией, публикуемой министерствами здравоохранения различных стран и Всемирной организацией здравоохранения. При этом собственно исходные данные, представляющие собой сведения о конкретных случаях заболеваний, являются конфиденциальными данными медицинских учреждений, которые ни в коем случае не должны попадать в руки страховых компаний и тем более становиться достоянием гласности.
Идея сохранения агрегатных данных в файле получила свое дальнейшее развитие в серверных OLAP-средствах. В них сохранение и изменение агрегатных данных, а также поддержка содержащего их хранилища осуществляются отдельным приложением или процессом, называемым OLAP-сервером. Клиентские приложения могут запрашивать подобное многомерное хранилище и в ответ получать те или иные данные. Некоторые клиентские приложения могут также создавать такие хранилища или обновлять их в соответствии с изменившимися исходными данными.
Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Поскольку все ведущие производители серверных СУБД производят (либо лицензировали у других компаний) те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всех случаях можно приобрести OLAP-сервер того же производителя, что и у самого сервера баз данных.
Отметим, что многие клиентские OLAP-средства позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы. Помимо этого имеется немало продуктов, представляющих собой клиентские приложения к OLAP-средствам различных производителей.
ЗАКЛЮЧЕНИЕ
В последние годы аналитическая обработка данных привлекает все большее внимание в мире. Например, аналитические модули появились в составе всех основных западных и российских финансово-производственных приложений — ведь в условиях рыночной экономики качество информационной поддержки деятельности руководителей и аналитиков является одним из факторов достижения успеха предприятия. OLAP и является той технологией, которая превращает "сырые" данные OLTP в информацию и знание для конечных пользователей.
В заключение, можно определить OLAP как совокупность средств анализа данных, накопленных в хранилище, а также его основные особенности:
Выделение из большого объёма исторических данных содержательной информации (знаний) с использованием средств обработки информации на основе методов искусственного интеллекта
Использование мощной вычислительной техники и специального хранилища данных, которое накапливает информацию из различных источников за большой период времени, а также обеспечение оперативного доступа к данным.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — К.: Кондор, 2007. — 500 с.
2. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — Х.: ХДАК, 2000. — 470 с.
3. Заботнев М.С. Методы представления информации в разреженных гиперкубах данных [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/theory.asp
4. Введение в OLAP. [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/oolap.asp
5. Стариков. Ядро OLAP системы. [Электронный ресурс]. — Режим доступа: http://www.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htm
6. Альперович М. Введение в OLAP и многомерные базы данных. [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/alpero2i.asp
Ссылки (links):bukvasha.ru
Министерство культуры и туризма Украины
Харьковская государственная академия культуры
Кафедра информационных технологий
Реферат
по дисциплине «Электронный документооборот»
«Системы оперативного анализа данных OLAP»
Выполнила
Студентка І гр.
Факультета ДИД
Голик Ольга
Харьков – 2009
СОДЕРЖАНИЕ
Введение
1. Основа концепции OLAP
2. Общие требования к OLAP-системам и способы хранения данных в них
3. OLAP на клиенте и на сервере
Заключение
Список использованной литературы
ВВЕДЕНИЕ
Трудно найти в компьютерном мире человека, который хотя бы на интуитивном уровне не понимал, что такое базы данных и зачем они нужны. В отличие от традиционных реляционных СУБД, концепция OLAP не так широко известна.
OLAP (On-Line Analytical Processing) — оперативная аналитическая обработка данных. Иногда аналитическую обработку называют и онлайновой, и интерактивной, однако прилагательное «оперативная» как нельзя более точно отражает смысл технологии OLAP.
OLAP — это не отдельно взятый программный продукт, а целая технология. Если постараться охватить OLAP во всех его проявлениях, то это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих доступ к данным.
Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehousing) — местом OLAP в информационной структуре предприятия.
Эта технология применяется в хранилищах данных для повышения эффективности анализа данных. Причём анализ данных происходит в режиме реального времени.
1. ОСНОВА КОНЦЕПЦИИ OLAP
OLAP — представляет собой инструмент для анализа больших объёмов данных. Взаимодействуя с OLAP-системой, пользователь сможет осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свёртки, сквозного распределения, сравнения во времени. Вся работа с OLAP-системой происходит в терминах предметной области.
OLAP-системы являются часть более общего понятия Business Intelligence, которое включает в себя помимо традиционного OLAP-сервиса средства организации совместного использования документов, возникающих в процессе работы пользователей хранилища. Технология Business Intelligence обеспечивает электронный обмен отчётными документами, разграничение прав пользователей, доступ к аналитической информации из Internet/Intranet.
В основе концепции OLAP лежит принцип многомерного представления данных. По измерениям в многомерной модели выделяют факторы, влияющие на деятельность предприятия (например, время, продукты, отделения компании и т.п.) и получают гиперкуб, который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т.п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных, то есть данных, накопленных за определённый период времени.
Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым, просматривая данные в различных разделах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»).
Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, то есть информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.
2. ОБЩИЕ ТРЕБОВАНИЯ К OLAP-СИСТЕМАМ И СПОСОБЫ ХРАНЕНИЯ ДАНЫХ В НИХ
В 1993 году Е.Ф. Коддом — создателем концепции реляционных СУБД и, по совместительству, OLAP — были сформулированы критерии OLAP. Они заключаются в недостатках реляционной модели и, в первую очередь, указывают на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом». Общие требования к системам OLAP, расширяют функциональность реляционных СУБД и включают многомерный анализ как одну из своих характеристик.
Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP:
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View). Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции «анализа вдоль и поперёк» («slice and dice»), вращения (rotate) и размещения (pivot) направлений консолидации.
Прозрачность (Transparency). Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
Доступность (Accessibility). Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть, инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
Устойчивая производительность (Consistent Reporting Performance). С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
Клиент – серверная архитектура (Client-Server Architecture). Главная идея работы в среде клиент – сервер — это то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью стоить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
Равноправие измерений (Generic Dimensionality). Все измерения данных должны быть равноправными. Дополнительные характеристики могут быть предоставлены отдельным измерениям. Но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчётов не должны опираться на какое-то одно измерение.
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling). Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
Поддержка многопользовательского режима (Multi-User Support). Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-Dimensional Operations). Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
Интуитивное манипулирование данными (Intuitive Data Manipulation). Детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
Гибкий механизм генерации отчётов (Flexible Reporting). Должны поддерживаться различные способы визуализации данных, то есть отчёты должны представляться в любой возможности ориентации.
Неограниченное количество измерений и уровней агрегации (ed Dimensions and Aggregation Levels). Настоятельно рекомендуется допущение в каждом серьёзном OLAP инструменте как минимум пятнадцати измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определённых пользователем уровней агрегации.
Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.
Позднее все эти требования были переработаны в так называемый тест FASMI, который также определяет требования к продуктам OLAP. FASMI — это аббревиатура от названия каждого пункта теста:
Fast (Быстрый). Приложение OLAP должно обеспечивать минимальное время доступа к аналитическим данным — в среднем порядка 5 секунд;
Analysis (Анализ). Приложение OLAP должно давать пользователю возможность осуществлять числовой и статистический анализ;
Shared (Разделяемый доступ). Приложение OLAP должно предоставлять возможность работы с информацией многим пользователям одновременно;
Multidimensional (Многомерность). Приложение должно обеспечивать многомерное концептуальное представление данных, включая полную поддержку для иерархий.
Information (Информация). Приложение OLAP должно давать пользователю возможность получать нужную информацию, в каком бы электронном хранилище данных она не находилась.
Данные могут храниться либо в реляционных, либо в многомерных структурах. Поэтому в настоящее время применяются три способа хранения данных:
MOLAP (Multidimensional OLAP) –— исходные и агрегатные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные.
ROLAP (Relational OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) — исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
Некоторые OLAP-средства поддерживают хранение данных только в реляционных структурах, некоторые — только в многомерных. Однако большинство современных серверных OLAP-средств поддерживают все три способа хранения данных. Выбор способа хранения зависит от объема и структуры исходных данных, требований к скорости выполнения запросов и частоты обновления OLAP-кубов.
Отметим также, что подавляющее большинство современных OLAP-средств не хранит «пустых» значений (примером «пустого» значения может быть отсутствие продаж сезонного товара вне сезона).
Одним из популярных средств разработки OLAP-систем является семейство программных продуктов Oracle Express OLAP компании Oracle. Программное обеспечение Oracle Express предоставляет широкие возможности для создания аналитических систем на основе сервера многомерных баз данных — Oracle Express Server. В состав инструментальных средств Oracle Express входят средства создания и администрирования многомерных баз данных —Express Administrator, средство визуального создания “облегченных” клиентских приложений и презентаций — Express Analyzer, профессиональная инструментальная среда объектно-ориентированной разработки OLAP-приложений — Express Objects, позволяющая создавать сложные интегрированные клиентские приложения, и другие средства, связанные с публикацией данных в Интернете.
3. OLAP НА КЛИЕНТЕ И НА СЕРВЕРЕ
Многомерный анализ данных может быть произведен с помощью различных средств, которые условно можно разделить на клиентские и серверные OLAP-средства.
Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений) и их отображение, при этом сами агрегатные данные содержатся в кэше внутри адресного пространства такого OLAP-средства.
Если исходные данные содержатся в настольной СУБД, вычисление агрегатных данных производится самим OLAP-средством. Если же источник исходных данных — серверная СУБД, многие из клиентских OLAP-средств посылают на сервер запросы, содержащие оператор GROUP BY, и в результате получают агрегатные данные, вычисленные на сервере.
Как правило, OLAP-функциональность реализована в средствах статистической обработки данных (из продуктов этого класса на российском рынке широко распространены продукты компаний StatSoft и SPSS) и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000.
Многие средства разработки содержат библиотеки классов или компонентов, позволяющие создавать приложения, реализующие простейшую OLAP-функциональность. Помимо этого многие компании предлагают элементы управления ActiveX и другие библиотеки, реализующие подобную функциональность.
Отметим, что клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений этих параметров, — ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому даже самые примитивные клиентские OLAP-средства, как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.
Многие клиентские OLAP-средства позволяют сохранить агрегатные данные в виде файла, что, в свою очередь, позволяет не производить их повторное вычисление. Отметим, что нередко такая возможность используется для отчуждения агрегатных данных с целью передачи их другим организациям или для публикации. Типичным примером таких отчуждаемых агрегатных данных является статистика заболеваемости в разных регионах и в различных возрастных группах, которая является открытой информацией, публикуемой министерствами здравоохранения различных стран и Всемирной организацией здравоохранения. При этом собственно исходные данные, представляющие собой сведения о конкретных случаях заболеваний, являются конфиденциальными данными медицинских учреждений, которые ни в коем случае не должны попадать в руки страховых компаний и тем более становиться достоянием гласности.
Идея сохранения агрегатных данных в файле получила свое дальнейшее развитие в серверных OLAP-средствах. В них сохранение и изменение агрегатных данных, а также поддержка содержащего их хранилища осуществляются отдельным приложением или процессом, называемым OLAP-сервером. Клиентские приложения могут запрашивать подобное многомерное хранилище и в ответ получать те или иные данные. Некоторые клиентские приложения могут также создавать такие хранилища или обновлять их в соответствии с изменившимися исходными данными.
Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Поскольку все ведущие производители серверных СУБД производят (либо лицензировали у других компаний) те или иные серверные OLAP-средства, выбор их достаточно широк и почти во всех случаях можно приобрести OLAP-сервер того же производителя, что и у самого сервера баз данных.
Отметим, что многие клиентские OLAP-средства позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы. Помимо этого имеется немало продуктов, представляющих собой клиентские приложения к OLAP-средствам различных производителей.
ЗАКЛЮЧЕНИЕ
В последние годы аналитическая обработка данных привлекает все большее внимание в мире. Например, аналитические модули появились в составе всех основных западных и российских финансово-производственных приложений — ведь в условиях рыночной экономики качество информационной поддержки деятельности руководителей и аналитиков является одним из факторов достижения успеха предприятия. OLAP и является той технологией, которая превращает "сырые" данные OLTP в информацию и знание для конечных пользователей.
В заключение, можно определить OLAP как совокупность средств анализа данных, накопленных в хранилище, а также его основные особенности:
Выделение из большого объёма исторических данных содержательной информации (знаний) с использованием средств обработки информации на основе методов искусственного интеллекта
Использование мощной вычислительной техники и специального хранилища данных, которое накапливает информацию из различных источников за большой период времени, а также обеспечение оперативного доступа к данным.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — К.: Кондор, 2007. — 500 с.
2. Асеев Г.Г. Электронный документооборот /Г.Г. Асеев. — Х.: ХДАК, 2000. — 470 с.
3. Заботнев М.С. Методы представления информации в разреженных гиперкубах данных [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/theory.asp
4. Введение в OLAP. [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/oolap.asp
5. Стариков. Ядро OLAP системы. [Электронный ресурс]. — Режим доступа: http://www.masters.donntu.edu.ua/2004/kita/petrov/library/lec8.htm
6. Альперович М. Введение в OLAP и многомерные базы данных. [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/alpero2i.asp
superbotanik.net
Финансовая Академия при правительстве РФ
Кафедра «Информационных технологий»
Реферат на тему
«Olap – технологии»
Выполнил студент
группы ГМУ 1-1
Стефанов ОлегОглавление Оглавление 2
Olap - технологии 3
Что такое хранилище данных? 4
Типичная структура хранилищ данных 4
Таблица фактов 5
Таблицы измерений 5
Кубы 6
“Разрезание” куба 6
Метки 6
Иерархии и уровни 7
Архитектура OLAP приложений 7
Список использованных материалов 9^ Olap - технологии Согласно недавно проведенному опросу финансовых директоров, большинство из них (81%) считает, что сегодня наиболее важной задачей является достижение высокой точности прогнозирования доходов и поступлений. Примечательно, что при этом более половины из них (63%) не удовлетворены качеством своих систем бюджетирования и прогнозирования. Чем объясняются подобные пессимистичные настроения работников финансовой сферы? Дело в том, что сегодня финансовые директора оказываются под постоянно растущим "давлением" - новые реалии бизнеса требуют более надежной, значимой и точной финансовой информации:
Технологии Internet создают новые бизнес-модели, для которых необходимы новые финансовые модели.
Изменение бизнес-среды вызвало обострение конкурентной борьбы, когда неоспоримым преимуществом можно считать возможность проведения динамического анализа конкурентной среды.
Бухгалтерские скандалы и реакция надзорных органов повысили требования к целостности и точности данных.
При этом, как выяснилось в результате еще одного опроса, две трети "мировых" и 90% "средних" компаний не уверены в точности и надежности своих прогнозов и отчетов. Возникает вопрос: почему? В качестве ответа необходимо рассмотреть два момента:
несовместимость многочисленных ERP-систем, используемых для сбора данных для бюджетирования, прогнозирования и отчетности, является основной причиной неточности данных;
электронные таблицы по-прежнему широко используются в финансовых отделах при проведении бюджетирования, прогнозирования и подготовке отчетности.
Все больше и больше исследований свидетельствуют о наличие проблем, связанные с использованием электронных таблиц. Другими словами, электронные системы, вероятно, далеко не самая лучшая система для финансовых отделов. Здесь логично задать вопрос: "Могут ли другие технологии заменить электронные таблицы, используемые в финансовом отделе?"
Да. В наше время доступны новые технологии, одна из таких - OLAP-технология, которая стала мощной альтернативой электронным таблицам.
Термин OLAP - расшифровывается как OnLine Analytical Processing. То есть примерно можно перевести как “Обработка данных в реальном времени”. Это не упоминание какой то конкретной технологии или архитектуры, а как бы формулировка задачи.
OLAP также можно определить как особый способ анализа данных и получения отчетов. Сам термин OLAP появился уже гораздо позже появления промышленных серверов, которые называются сейчас OLAP-серверами. Термин был введен в употребление в 1993 году Эдгаром Коддом, “отцом” реляционных СУБД (система управления базами данных). Он также сформулировал 12 правил OLAP1, которым должна удовлетворять OLAP система. Они на экране.^ Что такое хранилище данных? Информационные системы масштаба предприятия, как правило, содержат приложения, предназначенные для комплексного многомерного анализа данных, их динамики, тенденций и т.п. Такой анализ в конечном итоге призван содействовать принятию решений. Нередко эти системы так и называются — системы поддержки принятия решений.
Принять любое управленческое решение невозможно не обладая необходимой для этого информацией, обычно количественной. Для этого необходимо создание хранилищ данных (Data warehouses), то есть процесс сбора, отсеивания и предварительной обработки данных с целью предоставления результирующей информации пользователям для статистического анализа (а нередко и создания аналитических отчетов). Основные требования к хранилищам данных на экране.^ Типичная структура хранилищ данных
Конечной целью использования OLAP является анализ данных и представление результатов этого анализа в виде, удобном для восприятия и принятия решений. Основная идея OLAP заключается в построении многомерных кубов, которые будут доступны для пользовательских запросов. Однако исходные данные для построения OLAP-кубов обычно хранятся в реляционных базах данных. Нередко это специализированные реляционные базы данных, называемые также хранилищами данных (Data Warehouse). В отличие от так называемых оперативных баз данных, с которыми работают приложения, модифицирующие данные, хранилища данных предназначены исключительно для обработки и анализа информации, поэтому проектируются они таким образом, чтобы время выполнения запросов к ним было минимальным. Обычно данные копируются в хранилище из оперативных баз данных согласно определенному расписанию.
Типичная структура хранилища приведена на слайде.
^ Таблица фактов Таблица фактов является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно говорят о четырех наиболее часто встречающихся типах фактов. Они показаны на экране. Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно — лучше поместить их в меньшие по объему таблицы измерений. При этом как ключевые, так и некоторые не ключевые поля должны соответствовать будущим измерениям OLAP-куба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные. ^ Таблицы измерений Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения. Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на «родителя» данного члена в этой иерархии. Нередко (но не всегда) таблица измерений может содержать и поля, указывающие на «прародителей», и иных «предков» в данной иерархии (это обычно характерно для сбалансированных иерархий), а также дополнительные атрибуты членов измерений, содержавшиеся в исходной оперативной базе данных (например, адреса и телефоны клиентов).
Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов. Пример на экране.Кубы OLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой информации. Пользователь получает естественную, интуитивно понятную модель данных, организуя их в виде многомерных кубов (Cubes). Осями многомерной системы координат служат основные атрибуты анализируемого бизнес-процесса. Например, для продаж это могут быть товар, регион, тип покупателя. В качестве одного из измерений используется время. На пересечениях осей - измерений (Dimensions) - находятся данные, количественно характеризующие процесс - меры (Measures). Это могут быть объемы продаж в штуках или в денежном выражении, остатки на складе, издержки и т. п. Пользователь, анализирующий информацию, может “разрезать” куб по разным направлениям, получать сводные (например, по годам) или, наоборот, детальные (по неделям) сведения и осуществлять прочие манипуляции, которые ему придут в голову в процессе анализа.^ “Разрезание” куба Даже трехмерный куб сложно отобразить на экране компьютера так, чтобы были видны значения интересующих мер. Что уж говорить о кубах с количеством измерений, большим трех? Для визуализации данных, хранящихся в кубе, применяются, как правило, привычные двумерные, т. е. табличные, представления, имеющие сложные иерархические заголовки строк и столбцов.
Двумерное представление куба можно получить, “разрезав” его поперек одной или нескольких осей (измерений): мы фиксируем значения всех измерений, кроме двух, - и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) - другое, а в ячейках таблицы - значения мер. При этом набор мер фактически рассматривается как одно из измерений - мы либо выбираем для показа одну меру (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько мер (и тогда одну из осей таблицы займут названия мер, а другую - значения единственного “неразрезанного” измерения).Метки Значения, “откладываемые” вдоль измерений, называются членами или метками (members). Метки используются как для “разрезания” куба, так и для ограничения (фильтрации) выбираемых данных - когда в измерении, остающемся “неразрезанным”, нас интересуют не все значения, а их подмножество, например три города из нескольких десятков. Значения меток отображаются в двумерном представлении куба как заголовки строк и столбцов^ Иерархии и уровни
Метки могут объединяться в иерархии, состоящие из одного или нескольких уровней (levels). Например, метки измерения “Магазин” (Store) естественно объединяются в иерархию с уровнями:
All (Мир)
Country (Страна)
State (Штат)
City (Город)
Store (Магазин).
В соответствии с уровнями иерархии вычисляются агрегатные значения, например объем продаж для USA (уровень “Country”) или для штата California (уровень “State”). В одном измерении можно реализовать более одной иерархии - скажем, для времени: {Год, Квартал, Месяц, День} и {Год, Неделя, День}.
Отметим, что иерархии могут быть сбалансированными (balanced), плюс иерархии, основанные на данных типа "дата—время", и несбалансированными (unbalanced). Типичный пример несбалансированной иерархии — иерархия типа "начальник—подчиненный".
Существуют также иерархии, занимающие промежуточное положение между сбалансированными и несбалансированными (они обозначаются термином ragged — "неровный"). Обычно они содержат такие члены, логические "родители" которых находятся не на непосредственно вышестоящем уровне (например, в географической иерархии есть уровни Country, City и State, но при этом в наборе данных имеются страны, не имеющие штатов или регионов между уровнями Country и City.^ Архитектура OLAP приложений Как данные хранятся, грубо говоря, не волнует ни конечного пользователя, ни разработчиков инструмента, которым клиент пользуется.
Многомерность в OLAP-приложениях может быть разделена на три уровня:
Многомерное представление данных - средства конечного пользователя, обеспечивающие многомерную визуализацию и манипулирование данными; слой многомерного представления абстрагирован от физической структуры данных и воспринимает данные как многомерные.
Многомерная обработка - средство (язык) формулирования многомерных запросов (традиционный реляционный язык SQL здесь оказывается непригодным) и процессор, умеющий обработать и выполнить такой запрос.
Многомерное хранение - средства физической организации данных, обеспечивающие эффективное выполнение многомерных запросов.
Первые два уровня в обязательном порядке присутствуют во всех OLAP-средствах. Третий уровень, хотя и является широко распространенным, не обязателен, так как данные для многомерного представления могут извлекаться и из обычных реляционных структур.
.
В отличие от большинства предлагаемых сегодня на рынке решений, приобретение которых заранее предполагает использование какой-то определенной архитектуры хранилища, Microsoft OLAP Services не ограничивает выбор администратора, предлагая гибкую модель хранения. Если для нас являются критичными вопросы быстродействия, мы можем выбрать MOLAP, если мы не хотим забирать дополнительное место на диске за счет переноса детальных данных - можно выбрать ROLAP, если мы хотим взять лучшее из двух - то HOLAP. Более того, в Microsoft OLAP Services разные чаcти одного куба могут храниться в разных форматах, что позволяет более четко и аккуратно подстроиться под требования пользователя. Например, куб, содержащий данные о продажах, может быть разбит на несколько фрагментов, один из которых с данными за текущий год, запрашивается довольно часто, а остальные - не очень. Список использованных материалов
http://www.infology.ru/2008/06/03/447/
http://www.olap.ru/basic/OLAP_intro1.asp
http://corportal.ru/Articles/DataTech/OLAP/OLAPDI.aspx
http://www.olap.ru/home.asp?artId=92
http://www.tconto.ru/node/12
1 Он сделал это в своей работе “Providing OLAP to User-Analysts: An IT Mandate”.
31 октября 2008 года
www.ronl.ru