Лекция посвящена теме хранилища данных и OLAP. В теоретической части Презентацию к данной лекции вы можете скачать здесь. Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического. Хранилища данных Причины возникновения Концепция хранилищ данных Применение. Хранилище данных состоит из четырех компонентов: источники данных (как правило. База данных в области презентации данных спроектирована в .
Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование. Аннотация: Лекция посвящена теме хранилища данных и OLAP.
В теоретической части рассказывается о том, что такое хранилища данных, приводятся их основные характеристики. Рассказывается о преимуществах, основных элементах и операциях OLAP, о типах OLAP, их преимуществах и недостатках, о моделировании многомерных кубов на реляционной модели данных.
А также, рассматриваются практические задания по теме. Хранилище данных и OLAP. Основные характеристики. Презентацию к данной лекции вы можете скачать здесь. Хранилище данных (Data Warehouse) - предметно - ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержкипринятия решений.
Хранилище данных содержит непротиворечивые консолидированные исторические данные и предоставляет инструментальные средства для их анализа с целью поддержки принятия стратегических решений. Информационные ресурсы хранилища данных формируются на основе фиксируемых на протяжении продолжительного периода времени моментальных снимков баз данных оперативной информационной системы и, возможно, различных внешних источников. В хранилищах данных применяются технологии баз данных, OLAP, глубинного анализа данных, визуализации данных.
Основные характеристики хранилищ данных. Термин. OLAP (On- Line Analytical Processing) служит для описания модели представления данных и соответственно технологии их обработки в хранилищах данных. В OLAP применяется многомерное представлениеагрегированных данных для обеспечения быстрого доступа к стратегически важной информации в целях углубленного анализа. Приложения OLAP должны обладать следующими основными свойствами: многомерное представление данных; поддержка сложных расчетов; правильный учет фактора времени. Преимущества OLAP: повышение производительности производственного персонала, разработчиков прикладных программ.
Своевременный доступ к стратегической информации. OLAP опираются на хранилища данных и системы OLTP, получая от них актуальные данные, что дает сохранение контроля целостности корпоративных данных.
OLTP и хранилища данных. OLAP и OLTP. Характеристики и основные отличия. OLAPOLTPХранилище данных должно включать как внутренние корпоративные данные, так и внешние данныеосновным источником информации, поступающей в оперативную БД, является деятельностькорпорации, а для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов)Объем аналитических БД как минимум на порядок больше объема оперативных. Необходима компонента для извлечения и . Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую. Набор запросов к аналитической базе данных предсказать невозможно.
Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т. Системы обработки данных создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. При малой изменчивости аналитических БД (только при загрузке данных) оказываются разумными упорядоченность массивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных. Системы обработки данных по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно, B- деревья для индексации, транзакционность)Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты (индивидуальные права доступа к определенным строкам и/или столбцам таблицы)Для систем обработки данных обычно хватает защиты информации на уровне таблиц.
Правила Кодда для OLAP систем. В 1. 99. 3 году Кодд опубликовал труд под названием .
В нем он изложил основные концепции оперативной аналитической обработки и определил 1. Концептуальное многомерное представление. OLAP- модель должна быть многомерной в своей основе. Многомерная концептуальная схема или пользовательское представление облегчают моделирование и анализ так же, впрочем, как и вычисления.
Презентация на тему: «Хранилища данных». Облачное хранилище данных - это принципиально новый вид хранения и Презентация была опубликована 3 года назад пользователемНина. 21–22 ноября 2012 года. Корпоративные хранилища данных. Анализ больших объемов информации (Big .
Прозрачность. Пользователь способен получить все необходимые данные из OLAP- машины, даже не подозревая, откуда они берутся. Вне зависимости от того, является OLAP- продукт частью средств пользователя или нет, этот факт должен быть незаметен для пользователя. Если OLAP предоставляется клиент- серверными вычислениями, то этот факт также, по возможности, должен быть невидим для пользователя. OLAP должен предоставляться в контекстеистинно открытой архитектуры, позволяя пользователю, где бы он ни находился, связываться при помощи аналитического инструмента с сервером.
В дополнение к этому прозрачность должна достигаться и при взаимодействии аналитического инструмента с гомогенной и гетерогенной средами БД. Доступность. OLAP должен предоставлять свою собственную логическую схему для доступа в гетерогенной среде БД и выполнять соответствующие преобразования для предоставления данных пользователю. Более того, необходимо заранее позаботиться о том, где и как, и какие типы физической организации данных действительно будут использоваться. OLAP- система должна выполнять доступ только к действительно требующимся данным, а не применять общий принцип . Производительность формирования отчетов не должна существенно падать с ростом количества измерений и размеров базы данных. Клиент- серверная архитектура. Требуется, чтобы продукт был не только клиент- серверным, но и чтобы серверный компонент был бы достаточно интеллектуальным для того, чтобы различные клиенты могли подключаться с минимумом усилий и программирования.
Общая многомерность. Все измерения должны быть равноправны, каждое измерение должно быть эквивалентно и в структуре, и в операционных возможностях.
Правда, допускаются дополнительные операционные возможности для отдельных измерений (видимо, подразумевается время), но такие дополнительные функции должны быть предоставлены любому измерению. Не должно быть так, чтобы базовые структуры данных, вычислительные или отчетные форматы были более свойственны какому- то одному измерению. Динамическое управление разреженными матрицами. OLAP системы должны автоматически настраивать свою физическую схему в зависимости от типа модели, объемов данных и разреженности базы данных.
Многопользовательская поддержка. OLAP- инструмент должен предоставлять возможности совместного доступа (запроса и дополнения), целостности и безопасности.
Неограниченные перекрестные операции. Все виды операций должны быть дозволены для любых измерений.
Интуитивная манипуляция данными. Манипулирование данными осуществлялось посредством прямых действий над ячейками в режиме просмотра без использования меню и множественных операций. Гибкие возможности получения отчетов. Измерения должны быть размещены в отчете так, как это нужно пользователю. Неограниченная размерность и число уровней агрегации. Исследование о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до 1. Отсюда вытекает настоятельная рекомендация, чтобы аналитический инструмент был способен одновременно предоставить как минимум 1.
Более того, каждое из общих измерений не должно быть ограничено по числу определяемых пользователем- аналитиком уровней агрегации и путей консолидации. Основные элементы и операции OLAPВ основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые данные. Факт - это числовая величина которая располагается в ячейкахгиперкуба. Один OLAP- куб может обладать одним или несколькими показателями. Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя.
Измерение принято визуализировать в виде ребра многомерного куба. Объекты, совокупность которых и образует измерение, называются членами измерений (members). Члены измерений визуализируют как точки или участи, откладываемые на осях гиперкуба. Ячейка (cell) - атомарная структура куба, соответствующая полному набору конкретный значений измерений.
Иерархия - группировка объектов одного измерения в объекты более высокого уровня. Например - день- месяц- год. Иерархии в измерениях необходимы для возможности агрегации и детализации значений показателей согласно их иерархической структуре. Иерархия целиком основывается на одном измерении и формируется из уровней. В OLAP- системах поддерживаются следующие базовые операции: поворот; проекция. При проекции значения в ячейках, лежащих на оси проекции, суммируются по некоторому предопределенному закону; раскрытие ( drill- down ). Одно из значений измерения заменяется совокупностью значений из следующего уровня иерархии измерения; соответственно заменяются значения в ячейкахгиперкуба; свертка ( roll- up/drill- up ).
Операция, обратная раскрытию; сечение ( slice- and- dice ).