Агрегирование и систематизация данных. Агрегация в программировании

28.04.2019 Железо

Процедура Агрегировать данные позволяет преобразовать группы наблюдений в наблюдения, содержащие агрегированную информацию по соответствующей группе, и создавать новый - агрегированный - файл данных или создавать новые переменные в активном наборе данных, содержащие агрегированную информацию. Наблюдения агрегируются на основе значений нуля или большего числа группирующих переменных. Если группирующие переменные не заданы, то весь набор данных представляет собой единую группу для агрегирования.

 Если вы создаете новый агрегированный файл данных, то новый файл будет содержать по одному наблюдению на каждую группу, определяемую группирующей переменной. Например, если имеется одна группирующая переменная с двумя значениями, то новый файл данных будет содержать только два наблюдения. Если не заданы группирующие переменные, то новый файл данных будет содержать одно наблюдение.

 Если агрегированные переменные добавляются в активный набор данных, сам

файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных. Например, если имеется единственная группирующая переменная gender , то все мужчины будут иметь одинаковое значение новой агрегированной переменной, представляющей средний возраст. Если не задано группирующих переменных, то все наблюдения будут получать одно и то же значение для новой агрегируемой переменной, представляющей средний возраст.

Работа с файлами

Рисунок 9-7

Диалоговое окно Агрегировать данные

Группирующие переменные. Наблюдения группируются на основе значений группирующих переменных. Каждая уникальная комбинация значений группирующих переменных определяет группу. Если создается новый, агрегированный файл данных, все группирующие переменные сохраняются в новом файле под своими прежними именами и с информацией из словаря данных. Группирующая переменная, если задана, может быть числовой или текстовой.

Агрегируемые переменные. Для создания новых переменных используются исходные переменные с функциями агрегирования. За именем агрегированной переменной идет необязательная метка переменной, имя агрегирующей функции и имя исходной переменной в скобках.

Можно изменять имена агрегируемых переменных, заданные по умолчанию, добавлять описательные метки переменных, а также изменять функции, используемые для расчета агрегированных значений. Можно также создать переменную, содержащую число наблюдений, попавших в каждую группу при агрегировании.

Как агрегировать файл данных

E Выберите в меню:

Данные > Агрегировать данные...

E Можно задать группирующие переменные, определяющие, как наблюдений группируются при агрегировании данных. Если группирующие переменные не заданы, то весь набор данных является единой группой для агрегирования.

E Выберите одну или несколько агрегируемых переменных.

E Выберите агрегирующую функцию для каждой агрегируемой переменной.

Сохранение агрегированных результатов

Вы можете добавить агрегированные переменные в активный набор данных или создать новый, агрегированный файл данных.

 Добавить агрегированные переменные в активный набор данных. В активный набор данных добавляются новые переменные, основанные на функциях агрегирования. Сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных.

 Создать новый набор данных, содержащие только агрегированные переменные.

Сохраняет агрегированные данные в новом наборе данных в текущем сеансе работы. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

 Записать новый файл данных, содержащий только агрегированные переменные.

Сохраняет агрегированные данные во внешнем файле данных. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.

Параметры сортировки для больших файлов данных

Для очень больших файлов данных более эффективным может быть агрегирование предварительно отсортированных данных.

Данные уже отсортированы по группирующей(им) переменной(ым). Если данные уже отсортированы по значениям группирующих переменных, то этот параметр позволяет процедуре выполняться быстрее и использовать меньше памяти. Пользуйтесь этим параметром с осторожностью.

 Данные должны быть отсортированы по значениям группирующих переменных в том же порядке, в котором группирующие переменные указаны в процедуре Агрегировать данные.

 Если Вы добавляете переменные в активный набор данных, выбирайте этот параметр, только если данные отсортированы в порядке возрастания значений группирующих переменных.

Работа с файлами

Отсортировать данные перед агрегированием. В очень редких случаях с большими файлами данных вам, возможно, потребуется отсортировать файл данных по значениям группирующих переменных до агрегирования. Использовать этот параметр не рекомендуется, пока у вас не возникнут проблемы с памятью или быстродействием.

Агрегирование данных: Агрегирующая функция

В этом диалоговом окне задается функция, используемая для вычисления агрегированных значений данных для выбранных переменных из списка Агрегируемые переменные в диалоговом окне Агрегировать данные. Агрегирующие функции включают:

 Подытоживающие функции для числовых переменных, включая среднее, медиану, стандартное отклонение и сумму.

 Число наблюдений, включая не взвешенные, взвешенные, не пропущенные и пропущенные.

 Процент или доля значений больше или меньше указанного значения.

 Процент или доля значений внутри или вне указанного диапазона значений

Рисунок 9-8

Диалоговое окно Агрегировать данные: Агрегирующая функция

Агрегирование данных: Имя и метка переменной

При агрегировании данных имена агрегированных переменных в новом файле данных задаются по умолчанию. Диалоговое окно Агрегировать данные: Имя и метка переменной дает возможность изменить имя и метку переменной, выбранной в списке Агрегируемые переменные. Дополнительную информацию см. данная тема Имена переменных в Данная глава 5 на стр. 79.

Агрегирование данных состоит в формировании промежуточных итогов , а также создании сводных и консолидированных таблиц .)

Агрегирование данных выполняется в тех таблицах, в которых имеются поля с повторяющимися по смыслу значениями. Наиболее типичными задачами подобного типа являются задачи получения различного вида статистических итогов. Поясним подробнее назначение каждой из отмеченных процедур.

· Промежуточные итоги . Эта опция позволят сформировать промежуточные итоговые результаты определенного вида (сумма, среднее значение, максимум, минимум, количество значащих записей и т.д.) для выделенного ряда данных (группы записей). При формировании промежуточных итогов требуется предварительно произвести сортировку таблицы по полям группировки записей. К полученным промежуточным итогам можно также добавить новые итоги с сохранением предыдущих итогов.

· Сводные таблицы. Этот инструмент табличного процессора обеспечивает формирование сводной (агрегированной) информации и представление табличных данных в структурированном виде (в определенной внешней форме с упорядочением местоположения фрагментов), а также построение связанной со сводной таблицей сводной диаграммы. Распределение информации в сводной таблице можно задать, указывая какие поля и элементы должны в ней содержаться. Поле - это некоторая общая категория (поименованный столбец), а элемент - это отдельное значение, содержащееся внутри некоторой категории значений. Источником данных для сводной таблицы может быть электронная таблица, данные из внешних баз и т.д. Помимо «базовых» полей из источников данных, сводная таблица допускает формирование вычисляемых полей в области данных, а также вычисляемых элементов для полей группировки. Элементы полей группирования далее могут объединяться в группы, для которых можно указать тип итоговой функции.

Примечание.

Сводная таблица - это средство только для отображения информации и данные, расположенные в теле сводной таблицы, нельзя изменить. Чтобы малейшие изменения данных в источниках информации оперативно отражались в сводной таблице как в ее ячейках, напрямую связанных с источниками данных, так и ячейках, отображающих итоговые расчеты, необходимо установить автоматический режим обновления сводной таблицы.

· Консолидация данных . Это особый способ вычисления итогов для диапазона ячеек. Консолидируемые данные могут находится на одном и том же или нескольких листах рабочей книги, а также на листах нескольких разных рабочих книг. При консолидации доступны все типичные функции статистических итогов (сумма, среднее значение, максимум, минимум и т.п.). Результат консолидации записывается на лист рабочей книги, причем на одном и том же листе могут быть записаны несколько результатов консолидации с одними и теми же исходными диапазонами ячеек с данными, но с разными итоговыми функциями. Однако, если исходные диапазоны ячеек отличаются, результаты консолидации должны располагаться на разных листах. Различают следующие виды консолидации:

· Консолидация по расположению ячеек - состав и порядок следования консолидируемых данных во всех диапазонах постоянный, т.е. данных исходных областей находятся в одном и том же месте и размещены в одном и том же порядке. Этот способ используется для консолидации данных нескольких рабочих листов, созданных на основе одного шаблона.

· Консолидация по категориям - когда данные исходных областей не упорядочены, но имеют одни и те же заголовки столбцов и строк. Этот способ применяется при консолидации данных рабочих листов, имеющих разную структуру, но одинаковые заголовки.

· Консолидация с помощью трехмерных ссылок - исходные области располагаются на любом листе, в любой книге, на других открытых листах или книгах, а также зачастую на листах других табличных процессоров. Этот способ является наиболее предпочтительным, т.к. он снимает ограничения на расположение данных в исходных областях.

Примечание.

После создания консолидированной итоговой таблицы можно добавлять, удалять или изменять исходные области данных . Кроме этого, можно создать связи итоговой таблицы с исходными данными, с тем, чтобы данные области назначения итоговой таблицы автоматически обновлялись при изменении данных в исходных областях.

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Издательство СПбГПУ
УДК 681.3 (075) Рекомендовано к изданию Научно-методическим советом Псковского государственного политехнического института Рецензенты: - Ил

Основы информатики
1. Информация и информационные процессы Основные понятия: информация, информационные процессы, информационное общество, и

Информационные технологии
7. Технологии обработки текстовой информации Основные понятия: текстовый редактор и процессор, Формат текстового файла, Т

Типовая структура пользовательского интерфейса текстового процессора приведена на рис. 7.1 и она включает следующие элементы: § Строка главного меню содержит имена групп к

Текстовый файл. Основные элементы текстового документа
Утверждение. Текстовые файлы - наиболее простая и наглядная форма представления алфавитно-цифровой информации, позволяющая вводить, хранить, редактировать, читать на экране и печат

Этапы формирования текстового электронного документа
Любой текстовый документ в процессе своего формирования проходит следующие этапы (рис.7.2):) 1. Создание документа. 2. Вво

Редактирование текста
Операция редактированиятекста состоит в замене или корректировке неправильно введенных текстовых фрагментов, изменении некоторых атрибутов этих фрагментов и прочее. При выполнении

Выделение, удаление, копированиеи перемещение текста
Все эти перечисленные операции выполняются над отдельными символами, словами, фрагментами текста, абзацами целиком, страницами, несколькими страницами и даже документом в целом. Однако, необходимо

Поиск и замена фрагментов текста
Зачастую при форматировании текста возникает необходимость оперативного поиска и замены по всему набранному тексту документа неправильно набранных слов или словосочетаний, отдельных служебных симво

Стили и шаблоны
Наиболее мощным средством автоматизации форматирования в текстовых редакторах является механизм под названием «стиль». Известно два основных подхода к оформлению текстовог

Средства автоматизации ввода текста
При вводе текста эффективными средствами автоматизации являютсяавтозамена, автотекст, автопроверка орфографии и грамматики. Функция автозамена позволяет с

Автоматическое форматирование текстового документа
Под автоформатированиемпонимается автоматическое оформление текстового документа либо сразу при вводе текста, либо по окончании в случае активизации соответствующей команды. Систем

Создание таблиц
Определение. Таблица- это совокупность ячеек, расположенных в строках и столбцах, которые можно заполнять произвольным текстом или графикой.Ячейкойназывается прямо

Создание графических объектов с помощью встроенных средств
В современных текстовых процессорах можно создавать рисованные объекты, не закрывая документа, в который они должны быть, вставлены. Рисование происходит прямо в документе с использованием внутренн

Вставка объектов из других приложений
Как уже упоминалось, главным принципиальным достоинством современных текстовых процессоров является возможность создания сложных составных документов. Под сложным составным докумен

Основы издательского делопроизводства
Подготовка сложных составных документов к их изданию в виде брошюр, технических отчетов, сборников документов, журналов, книг и иной печатной продукции до недавнего времени достаточно сложным, труд

Теоретические основы представления графических данных
Представление компьютерных данных в графическом виде впервые было реализовано еще в середине 50-х годов 20-го века в задачах научных и военных исследований. С тех пор графический способ отображения

Форматы графических данных
В компьютерной графике используется несколько десятков различных форматов файлов для хранения изображений, но лишь часть из них стала стандартом и применяется в подавляющем большин

Растровая графика
Растровые изображения формируются в процессе преобразования графической информации из аналоговой формы в цифровую, например, при сканировании существующих на бумаге или фотопленк

Векторная графика
Векторные изображения формируются из объектов (точка, линия, окружность, треугольник, прямоугольник и пр.), которые хранятся в памяти компьютера в виде графических примити

Фрактальная графика
Фрактальная графика, как и векторная, основана на математических вычислениях. Однако её базовым элементом является сама математическая формула, то

Цвет и способы его описания
8.7.1. Понятие цвета и его характеристики.) Цвет чрезвычайно важен в компьютерной графике как средство усиления зритель

Способы описания цвета
Цвета в природе образуются различным образом. С одной стороны, световые источники (Солнце, лампочки, экраны компьютеров и телевизоров) излучают свет различных длин волн, воспринима

Цветовая палитра
Электронная цветовая палитра в компьютерной графике по предназначению подобна палитре художника, но включает в себя гораздо большее число цветов. Это своеобразная таблица данных, в

Системы управления цветом
При создании и обработке элементов компьютерной графики необходимо стремиться к тому, чтобы изображение выглядело практически одинаково на всех стадиях этого процесса, на любом устройстве отображен

Цветовая модель RGB
Цветовая модель RGB (Рис. 8.3.) является аддитивной, т.е. в ней любой цвет представляет собой сочетание в

Цветовая модель CMYK
Несветящиеся объекты поглощают часть спектра белого света, отражая цвета, определяющие окраску этих объектов. Цвета, которые образуются из белого света путем вычитания из него определенных участков

Цветовая модель CIE Lab
Модели RGB и CMYK являются аппаратно-зависимыми (в RGB значения базовых цветов определяются, как правило, качеством монит

Видеосистема персонального компьютера
Основным техническим средством для оперативного формирования и отображения как текстовой, так и графической информации в компьютере является видеосистема. Видеосистема ком

Графические редакторы и их возможности
Для создания, просмотра и редактирования графических изображений на компьютере используются специальные программы - графические редакторы, подразделяемые, как правило, на две кат

Растровые графические редакторы
Среди растровых графических редакторов есть простые, например приложение Windows Paint, и мощные профессиональные графические системы, такие как пакет Ad

Векторные графические редакторы
К простейшим векторным графическим редакторам относятся, например, графические программные приложения в составе текстового процессора Microsoft Word и редактора эл

Редакторы электронных таблиц и табличные процессоры
9.1.1.Назначение, Основные функции, Классификация, Ценность любой информации в значительной мере определяется качеством её организации, и, более того, существенная

Форматы табличных файлов
Электронные таблицы, также как и другие электронные документы (текстовые, графические, комплексные), хранятся на внешних носителях в виде файлов. Как правило, при сохранении файлов электронных табл

Типовая структура пользовательского интерфейса
При работе с электронной таблицей на экране монитора выводятся рабочее поле таблицы и панель управления (рис.9.1). Панель управления обычно включа

Этапы формирования электронной таблицы
Любой табличный документ в процессе своего формирования проходит следующие этапы:) 1. Создание таблицы или ее загрузка. 2.

Ввод данных в ячейки
Ввод данных в ячейки таблицы производится стандартным технологическим приемом - путемнабора данных (чисел, текста, формул) с помощью клавиатуры. Ввод может осущест

Редактирование электронной таблицы
Редактирование электронной таблицы состоит в замене или корректировке неправильно введенных данных, изменении некоторых их атрибутов, изменении содержимого отдельных ячеек, их удал

Форматирование таблицы
Легкость восприятия информации в электронных таблицах резко улучшается при применении различных приемов форматирования, т.е. при оформлении таблицы в определенномпрофессиональном стиле

Сортировка, поиск и замена данных
Электронные таблицы позволяют осуществлять сортировку данных. Данные в электронных таблицах можно сортировать по возрастанию или по убыванию. Стро

Относительная и абсолютная адресация ячеек
При копировании или перемещении формулы в другое место таблицы необходимо организовать управление формированием адресов исходных данных. Очевидно, что в зависимости от внутренней логики выражений в

Средства автоматизации ввода данных
При вводе данных обычно используются следующие приемы автоматизации: · Повторный ввод (копирование)уже существующих данных путем использования буфера обме

Автоматическое форматирование электронных таблиц
Для обеспечения быстрого форматирования как содержимого ячеек, так и внешнего вида таблицы используются средства автоматического форматирования. К этим средствам можно отнести: · С

Автоматизация циклических вычислений и создания формул
Как уже отмечалось, современные табличные процессоры представляют собой мощные программные системы, ориентированные в первую очередь на эффективную математическую обработку разнообразной числовой и

Деловая графика в табличных процессорах
Деловая графика состоит в визуализации больших массивов числовых данных, т.е. в представлении их в наглядной графической форме, в виде диаграмм. Определение. Диаг

Использование электронных таблиц для решения задач
Качественная и глубокая проработка математических и алгоритмических возможностей современных табличных процессоров превратила их мощный математический инструмент подготовки и проведения прикладных

Статистическая обработка данных и решение задач прогнозирования
Статистическая обработка данных - это самый распространенный прием анализа числовой информации, с помощью которого вычисляются разнообразные статистические оценки рядов данных, которые в общем случ

Решение задач моделирования объектов, процессов, явлений
Кроме рассмотренных в пп. 9.8.1 и 9.8.2 задач, табличные процессоры позволяют решить и много других задач моделирования финансово-экономи-ческих, управленч

Базы данных
С самого начала развития вычислительной техники образовались два основных направления ее использования: § Первое - это применение вычислительной техники для выполнения численных ра

Требования, предъявляемые к БД и информации, хранящейся в ней
Для того, чтобы компьютерная БД приносила людям пользу, она должна отвечать следующему ряду требований: § Адекватность

Типы баз данных
За время использования компьютерных БД было предложено несколько типовых структур (по-другому называемых видами или типами БД), н

Основные объекты в базах данных
К основным объектам баз данныхотносятсятаблицы (отношения, relations), метаданные (metadata), индексы (indexes) и представления (view) )

Виды запросов и способы их организации
Определение. Любые манипуляции с данными в базах данных, такие как выбор, вставка, удаление, обновление данных, изменение или выбор метаданных, называются запросами к базе данных (query)

Понятие мультимедиа. Гипертекст и гипермедиа. Объекты мультимедиа
Термин мультимедиа (от англ. multimedia) можно перевести как «много сред» или «много носителей», т.е.: Определение.

Схемы хранения и воспроизведения мультимедиа-файлов
Для реализации мультимедиа компьютер должен быть оснащен следующими компонентами: § Аппаратными средствами, реализующими доступ к мультимедиа-данным, их создание и воспроизведение - иными

Средства создания мультимедиа документов (обзор)
В настоящее мультимедиа-технологии нашли широкое применение при создании разнообразных документов делового и развлекательного характера, презентационного назначения, когда возникает необходимость п

Компьютерные сети
Телекоммуникации в широком смысле этого понятия - это общение между субъектами, которыми могут быть люди, приборы, компьютеры, любые технические системы, находящимися на таком

Топология сети
Определение. Структура связей абонентов (узлов) вычислительной сети или, иными словами, метод их соединения в распределенную вычислительную среду, образующий некоторую физическую г

Архитектура сети
Определение. Системное описание вычислительной сети, определяющее функциональное назначение сетевых узлов при взаимодействии их друг с другом с целью обмена данными и организации у

Средства реализации сетей
В структуре сети любого масштаба легко выделить основные компоненты, без которых она не может быть реализована. Это, прежде всего: · Аппаратные средства, которые включают:

Основные пользовательские функции Internet
Развивая глобальные распределенные вычислительные среды (РВС) человечество создает на планете Земля новую универсальную интеллектуальную информационную среду. Одним из самых ярких

Структура Internet
Определение. Internet- это объединенная сеть, использующая технологию статистического мультиплексирования и устройства маршрутизации пакетов типа

Адресация в Internet
С точки зрения пользователя Internet - это совокупность крупных сетевых узлов (хостов или информационных серверов), объединенных между собой

Базовые информационные службы Интернет
Изначально сеть Internet была задумана и построена с целью автоматизациипроцессов обработки данных. Термин «обработка данных» озн

Off-line-сервисы Internet
§ Служба электронной почты e-mail, предоставляющая пользователю возможность обмена сообщения с другими абонентами по электронными коммуникациям. Можно пересылать текстовые сообщени

On-line-сервисs Internet
§ Служба удаленного файлового обмена FTP (File Transfer Protocol), предоставляющая FTP-клиенту механизм интерактивного доступа к файлохран

Internet-провайдеры
Интернет-провайдерами (от англ. to provide - предоставлять) называются сетевые компании, предоставляющие доступ к услугам глобальной сети Интернет

Web-браузеры
Как уже упоминалось ранее для просмотра WWW-ресурсовглобальной сетиИнтернет необходимо на клиентских станциях, подключенных к сети, установить клиентские программн

Основы технологии WWW
12.6.1.Архитектура распределенной Web-системы. Фундаментом Web-систем являются четыре компоненты:)

Пособие для поступающих в вуз
Под общей редакцией доцента, к.т.н. В.С. Белова Технический редактор В.С. Белов Компьютерная верстка: авторский коллектив

Предложение ROLLUP позволяет в команде SELECT вычислять многоуровневые частичные суммы для специфицированных групп измерений. Также вычисляется итоговая сумма. Предложение ROLLUP является простым расширением предложения GROUP BY , поэтому синтаксис для его применения прост. Использование предложения ROLLUP очень эффективно.

Синтаксис:

SELECT ... GROUP BY ROLLUP(grouping_column_reference_list)

Действия ROLLUP являются следующими: создаются частичные суммы для каждого из раскрываемых уровней от наиболее низкого уровня иерархии к более высокому уровню и вычисляется итоговая сумма в соответствии с указанным списком колонок в предложении ROLLUP . Предложение ROLLUP рассматривает свои аргументы как упорядоченный список колонок группировки. Сначала вычисляется стандартное агрегатное значение, указанное в предложении GROUP BY . Затем создаются частичные суммы для уровней атрибутов из списка группировки GROUP BY в порядке возрастания их значений, справа налево по списку колонок группировки. И окончательно создается итоговая сумма (grand total).

Предложение ROLLUP создает частичные суммы для n+1 уровней, где n есть число колонок группировки. Например, если в запросе указан ROLLUP на колонки группировки измерений "Время" (Time), "Регион" (Region) и "Отдел продаж" (Department) (n=3 ), то результирующее множество (result set) будет включать в себя строки для 4-х уровней агрегации.

Рассмотрим примеры.

Пример 22.3 . Пусть руководству компании требуется отчет о прибыли по всем регионам по всем отделам продаж за 2007-08 гг. Предложение SELECT для приведенной на рис. 22.3 схемы ХД может выглядеть следующим образом.

SELECT Time, Region, Department, SUM(Profit) AS Profit FROM sales GROUP BY ROLLUP(Time, Region, Department);

Вывод 1 : Агрегирование в ROLLUP для трех измерений

Time	Region	Department	Profit
2007	Центральный	VideoRental	75,00
2007	Центральный	VideoSales	74,00
2007	Центральный	NULL	149,00
2007	Восточный	VideoRental	89,00
2007	Восточный	VideoSales	115,00
2007	Восточный	NULL	204,00
2007	Западный	VideoRental	87,00
2007	Западный	VideoSales	86,00
2007	Западный	NULL	173,00
2007	NULL	NULL	526,00
2008	Центральный	VideoRental	82,00
2008	Центральный	VideoSales	85,00
2008	Центральный	NULL	167,00
2008	Восточный	VideoRental	101,00
2008	Восточный	VideoSales	137,00
2008	Восточный	NULL	238,00
2008	Западный	VideoRental	96,00
2008	Западный	VideoSales	97,00
2008	Западный	NULL	193,00
2008	NULL	NULL	598,00
NULL	NULL	NULL	1124,00

Как видно из примера выше, запрос возвращает следующий набор строк:

предложением GROUP BY без использования ROLLUP ;
частичные суммы 1-го уровня, агрегированные для "Отдела продаж" (Department) для каждой комбинации измерений "Время" (Time) и "Регион" (Region);
частичные суммы 2-го уровня, агрегированные для измерений "Регион" (Region) и "Отдела продаж" (Department) для каждого значения измерения "Время" (Time);
строку с итоговой суммой.

Заметим, что NULL-значения показываются только для ясности. В действительности при выводе будут показаны пробелы.

NULL-значения, возвращаемые в результате выполнения предложений ROLLUP и CUBE , не всегда могут толковаться в общепринятом смысле, как неопределенные значения. NULL-значения могут указывать, что строка содержит частичную сумму. Например, первое NULL-значение в Выводе 1 появляется в колонке "Отдел продаж" (Department). Это NULL-значение означает, что строка есть частичная сумма для всех отделов продаж для Центрального региона за 2007 год.

Использование ROLLUP для вычисления частичных сумм

Можно использовать предложение ROLLUP только для вычисления некоторых частичных сумм. Такие команды с применением ROLLUP используют синтаксис как показано ниже:

GROUP BY expr1, ROLLUP(expr2, expr3);

В этом случае предложение ROLLUP создает частичные суммы для (2+1=3) уровней агрегации (aggregation levels), т.е. для уровней (expr1, expr2, expr3) , (expr1, expr2) и (expr1) . Итоговая сумма (grand total) не создается.

Пример 22.4 . Пусть руководству компании требуется отчет о прибыли по всем регионам по всем отделам продаж за 2007-2008 гг. без итоговой суммы прибыли. Предложение SELECT для приведенной на рис. 22.3 схемы ХД может выглядеть следующим образом:

SELECT Time, Region, Department, SUM(Profit) AS Profit FROM sales GROUP BY Time, ROLLUP (Region, Department);

Вывод 2 . Использование предложения ROLLUP для вывода частичных сумм

Time	Region	Department	Profit
2007	Центральный	VideoRental	75,00
2007	Центральный	VideoSales	74,00
2007	Центральный	NULL	149,00
2007	Восточный	VideoRental	89,00
2007	Восточный	VideoSales	115,00
2007	Восточный	NULL	204,00
2007	Западный	VideoRental	87,00
2007	Западный	VideoSales	86,00
2007	Западный	NULL	173,00
2007	NULL	NULL	526,00
2008	Центральный	VideoRental	82,00
2008	Центральный	VideoSales	85,00
2008	Центральный	NULL	167,00
2008	Восточный	VideoRental	101,00
2008	Восточный	VideoSales	137,00
2008	Восточный	NULL	238,00
2008	Западный	VideoRental	96,00
2008	Западный	VideoSales	97,00
2008	Западный	NULL	193,00
2008	NULL	NULL	598,00

Как видно, запрос возвращает следующее множество строк:

обычные строки агрегации, которые выдаются предложением GROUP BY без использования ROLLUP ;
частичную сумму 1-го уровня агрегации по "Отделам продаж" (Department) для каждой комбинации "Время" (Time) и "Регион" (Region);
частичную сумму 2-го уровня агрегации по измерениям "Регион" (Region) и "Отдел продаж" (Department) для каждого значения измерения "Время" (Time);
нет строки с итоговой суммой.

Можно вычислить частичные суммы без использования предложения ROLLUP следующим образом:

SELECT Time, Region, Department, SUM(Profit) FROM Sales GROUP BY Time, Region, Department UNION ALL SELECT Time, Region, "" , SUM(Profit) FROM Sales GROUP BY Time, Region UNION ALL SELECT Time, "", "", SUM(Profit) FROM Sales GROUP BY Time UNION ALL SELECT "", "", "", SUM(Profit) FROM Sales;

Как видно из примера выше, для этого требуется для n измерений n+1 SELECT с UNION ALL .

ROLLUP-предложение целесообразно использовать для задач, в которых вычисляются промежуточные или частичные суммы:

в измерениях с иерархической структурой, таких как "время" или "географическое расположение": ROLLUP(y, m, day) или ROLLUP(country, state, city) .
для быстрой генерации отчетов с суммарными данными.

Предложение CUBE

Частичные суммы, генерируемые предложением ROLLUP , представляют только часть возможных комбинаций частичных сумм в измерениях. Например, в перекрестном отчете (см. табл. 22.1) итоги работы отделов продаж по регионам (279,000 и 319,000) не могут быть вычислены в предложении ROLLUP(Time, Region, Department) . Для этого нужно изменить порядок колонок группировки в предложении ROLLUP: ROLLUP(Time, Department, Region) . Простой способ генерации полного набора частичных сумм для перекрестных отчетов состоит в использовании расширения CUBE предложения GROUP BY .

Предложение CUBE позволяет команде SELECT вычислить частичные суммы для всех возможных комбинаций групп измерений. Оно также вычисляет итоговую сумму. Подобно ROLLUP , предложение CUBE является расширением предложения GROUP BY .

Синтаксис:

SELECT ... GROUP BY CUBE (grouping_column_reference_list)

Из примера ниже видно, что CUBE берет указанный набор колонок группировки и создает частичные суммы для всех возможных комбинаций значений этих колонок. С точки зрения многомерного анализа, предложение CUBE генерирует все частичные суммы, которые могут быть вычислены для куба данных с указанными измерениями. Если указывается CUBE(Time, Region, Department) , то результирующее множество запроса будет включать все значения, которые входят в аналогичную конструкцию 2007

Центральный VideoSales 74,00 2007 Центральный NULL 149,00 2007 Восточный VideoRental 89,00 2007 Восточный VideoSales 115,00 2007 Восточный NULL 204,00 2007 Западный VideoRental 87,00 2007 Западный VideoSales 86,00 2007 Западный NULL 173,00 2007 NULL NULL 526,00 2008 Центральный VideoRental 82,00 2008 Центральный VideoSales 85,00 2008 Центральный NULL 167,00 2008 Восточный VideoRental 101,00 2008 Восточный VideoSales 137,00 2008 Восточный NULL 238,00 2008 Западный VideoRental 96,00 2008 Западный VideoSales 97,00 2008 Западный NULL 193,00 2008 NULL VideoRental 279,00 2008 NULL VideoSales 319,00 2008 NULL NULL 598,00 NULL Центральный VideoRental 157,00 NULL Центральный VideoSales 159,00 NULL Центральный NULL 316,00 NULL Восточный VideoRental 190,00 NULL Восточный VideoSales 252,00 NULL Восточный NULL 442,00 NULL Западный VideoRental 183,00 NULL Западный VideoSales 183,00 NULL Западный NULL 366,00 NULL NULL VideoRental 530,00 NULL NULL VideoSales 594,00 NULL NULL NULL 1124,00

Данные в ХД хранятся как в детализированном, так и в агрегированном виде. Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения, попытка дополнительно детализировать которые лишает их логического смысла.

Многие задачи анализа (например, прогнозирование) требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным. Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные - агрегированными (иногда - агрегатами). Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно. Например, набор, содержащий данные о продажах по дням в течение года, помимо своих 360 значений, порождает 52 значения с обобщением по неделям и 12 - по месяцам. Если при этом вычисляются все виды агрегации - сумма, среднее, максимальное и минимальное значения за соответствующий период, - то количество хранящихся агрегированных значений составит уже (52 + 12) 4 = 256. Иногда это приводит к «взрывному», неконтролируемому росту ХД и вызывает серьезные технические проблемы: хранилище «распухает», из-за того что непрерывный поток входных данных автоматически агрегируется в соответствии с настройками ХД. Однако с этим приходится мириться: если бы агрегированные данные не содержались в ХД, а вычислялись в процессе выполнения запросов, время выполнения запроса увеличилось бы в несколько раз.

Метаданные

Слово «метаданные» (от греч. meta и лат. data) буквально переводится как «данные о данных». Метаданные в широком смысле необходимы для описания значения и свойств информации с целью лучшего ее понимания, использования и управления ею. Любой человек, который читал книги или пользовался библиотекой, в той или иной мере имел дело с метаданными.

Пример

Всем хорошо известно, что в любой книге, помимо собственно текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю быстрее ознакомиться с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска нужной информации. Для решения первой задачи служат такие элементы, как аннотация, комментарии, глоссарий, примечания и т.д. Для поиска нужной информации используются оглавление, названия глав, параграфов и разделов, номера страниц, колонтитулы, предметный указатель и т.д. Кроме этого, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные. В библиотеке метаданные применяются для поиска нужных изданий и отслеживания их перемещений, например, систематический или алфавитный каталоги, в которых используются названия книг, фамилии авторов, год издания и т.д. Таким образом, метаданные имеют очень большое значение при работе с различного рода информацией.

С точки зрения IT-технологий метаданные - любая информация, необходимая для анализа, проектирования, построения, внедрения и применения компьютерной информационной системы. Одно из основных назначений метаданных - повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение сложных операций по фильтрации и отбору данных.

Метаданные - высокоуровневые средства отражения информационной модели и описания структуры данных, используемой в ХД. Метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в так называемом репозитарии метаданных.

Метаданные являются ключевым фактором успеха при разработке и внедрении ХД. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации данных, содержащихся в ХД.

Два уровня метаданных:

технический (административный)

бизнес-уровень.

Технический уровень содержит метаданные, необходимые для обеспечения функционирования хранилища (статистика загрузки данных и их использования, описание модели данных и т.д.).

Бизнес-метаданные обеспечивают пользователю возможность концентрироваться на процессе анализа, а не на технических аспектах работы с хранилищем; они включают бизнес-термины и определения, которыми привык оперировать пользователь.

Фактически бизнес-метаданные представляют собой описание предметной области, для работы в которой создается аналитическая система или ХД. К формированию бизнес-метаданных должны активно привлекаться эксперты и аналитики, которые впоследствии и будут использовать систему для получения аналитических отчетов.

Бизнес-метаданные описывают объекты предметной области, информация о которых содержится в ХД, - атрибуты объектов и их возможные значения, соответствующие поля в таблицах и т.д. Бизнес-метаданные образуют так называемый семантический слой. Пользователь оперирует близкими ему терминами предметной области: товар, клиент, продажи, покупки и т.д., а семантический слой транслирует бизнес-термины в низкоуровневые запросы к данным в хранилище.

"...Агрегирование данных (data aggregation): процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и изучения здоровья населения..."

Источник:

"ИНФОРМАТИЗАЦИЯ ЗДОРОВЬЯ. ТРЕБОВАНИЯ К АРХИТЕКТУРЕ ЭЛЕКТРОННОГО УЧЕТА ЗДОРОВЬЯ. ГОСТ Р ИСО/ТС 18308-2008"

(утв. Приказом Ростехрегулирования от 11.03.2008 N 44-ст)

- 1. Один из символов данных, представленных в двоичной позиционной системе счисления Употребляется в документе: Приложение № 1 к ГОСТ 17657-79 Передача данных...
Телекоммуникационный словарь
- англ. aggregation; нем. Aggregation. 1...
Энциклопедия социологии
- объединение, соединение однородных показателей для получения совокупных показателей...
Словарь бизнес терминов
- концентрирование отдельных потоков информации в единый сводный агрегат, что дает возможность получить общую картину ситуации в экономике для конкретного числа агрегированных переменных, включая капитал, труд,...
Словарь бизнес терминов
- способ получения и обработки информации при решении глобальных экономических задач на основе совокупностей подзадач, исходные данные для которых известны с разной степенью детализации. А.и. представляет...
Словарь бизнес терминов
- англ.aggregatus market стратегия маркетинга, при которой весь рынок представляется как однородная структура, к ней подходят со стандартными ходами. Метод противоположный сегментации рынка...
Словарь бизнес терминов
- моделирование данных, используемых в теории управления, для адекватности существующей ситуации...
Словарь бизнес терминов
- Переориентирование политических требований в альтернативные русла, что часто наблюдается в деятельности политических партий...
Политология. Словарь.
- в корпоративном финансовом планировании - суммирование малых инвестиционных предложений каждой из операционных единиц инвестиционной компании...
Финансовый словарь
- характеристика набора данных, которая определяет: - диапазон возможных значений данных из набора; - допустимые операции, которые можно выполнять над этими значениями; - способ хранения этих значений в памяти...
Финансовый словарь
- соединение отдельных единиц или данных в единый показатель...
Большой экономический словарь
- преобразование детализированной информации в "пакеты" данных, что позволяет анализировать экономику в терминах небольшого числа соответствующих агрегированных переменных, которые включают капитал, труд, товары,...
Большой экономический словарь
- действие, противоположное сегментации рынка, или стратегия, с помощью которой фирма рассматривает весь рынок как однородную сферу и стандартизирует маркетинговые мероприятия...
Большой экономический словарь
- метод организации информации при решении больших планово-экономических задач на основе итеративной увязки подзадач, показатели которых даны с разной степенью детализации...
Большой экономический словарь
- укрупнение экономических показателей посредством их объединения в единую группу. Агрегированные показатели представляют обобщенные, синтетические измерители, объединяющие в одном общем показателе многие частные...
Энциклопедический словарь экономики и права
- сущ., кол-во синонимов: 2 агрегация объединение...
Словарь синонимов

"Агрегирование данных" в книгах

Проект «Хранилище данных» и проект «Технология выявления скрытых взаимосвязей внутри больших баз данных»

Из книги автора

Проект «Хранилище данных» и проект «Технология выявления скрытых взаимосвязей внутри больших баз данных» Оба этих проекта были интегрированы в 1999 г. Благодаря им начались разработка и проведение кампаний по продаже банковских продуктов. Эти проекты создали большие

Глава 10 АГРЕГИРОВАНИЕ ПЕРЕМЕННЫХ

автора Форрестер Джей

Глава 10 АГРЕГИРОВАНИЕ ПЕРЕМЕННЫХ Ценность модели во многом обусловлена разграничением в системе важных и несущественных факторов. Частично такое обособление основного содержания системы достигается путем агрегирования однородных факторов, которое желательно и

10. 2. Агрегирование на основе подобия функций решений

Из книги Основы кибернетики предприятия автора Форрестер Джей

10. 2. Агрегирование на основе подобия функций решений Функции решений, управляющих темпами потока, наилучшим образом раскрывают допустимость агрегирования.Можно агрегировать в одном канале любые два элемента или группы элементов при наличии следующих условий:- если

Экспорт данных из базы данных Access 2007 в список SharePoint

автора Лондер Ольга

Экспорт данных из базы данных Access 2007 в список SharePoint Access 2007 позволяет экспортировать таблицу или другой объект базы данных в различных форматах, таких как внешний файл, база данных dBase или Paradox, файл Lotus 1–2–3, рабочая книга Excel 2007, файл Word 2007 RTF, текстовый файл, документ XML

Перемещение данных из базы данных Access 2007 на узел SharePoint

Из книги Microsoft Windows SharePoint Services 3.0. Русская версия. Главы 9-16 автора Лондер Ольга

Перемещение данных из базы данных Access 2007 на узел SharePoint Потребности многих приложений Access 2007 превышают простую потребность в управлении и сборе данных. Часто такие приложения используются многими пользователями организации, а значит, имеют повышенные потребности в

Спасение данных из поврежденной базы данных

Из книги Мир InterBase. Архитектура, администрирование и разработка приложений баз данных в InterBase/FireBird/Yaffil автора Ковязин Алексей Николаевич

Спасение данных из поврежденной базы данных Возможно, что все вышеприведенные действия не приведут к восстановлению базы данных. Это означает, что база серьезно повреждена и либо совсем не подлежит восстановлению как единое целое, либо для ее восстановления понадобится

Проверка введенных данных на уровне процессора баз данных

автора Мак-Манус Джеффри П

Проверка введенных данных на уровне процессора баз данных Помимо проверки данных во время ввода информации, следует знать о том, что можно также выполнять проверку и на уровне процессора баз данных. Такая проверка обычно более надежна, поскольку применяется независимо

Из книги Обработка баз данных на Visual Basic®.NET автора Мак-Манус Джеффри П

Обновление базы данных с помощью объекта адаптера данных

Из книги Язык программирования С# 2005 и платформа.NET 2.0. автора Троелсен Эндрю

Обновление базы данных с помощью объекта адаптера данных Адаптеры данных могут не только заполнять для вас таблицы объекта DataSet. Они могут также поддерживать набор объектов основных SQL-команд, используя их для возвращения модифицированных данных обратно в хранилище

Глава 2 Ввод данных. Типы, или форматы, данных

Из книги Excel. Мультимедийный курс автора Мединов Олег

Глава 2 Ввод данных. Типы, или форматы, данных Работа с документами Excel сопряжена с вводом и обработкой различных данных, то есть ин формации, которая может быть текстовой, числовой, финансовой, статистической и т. д. МУЛЬТИМЕДИЙНЫЙ КУРС Методы ввода и обработки данных

3.2. Экспорт данных из ERwin в BPwin и связывание объектов модели данных со стрелками и работами

Из книги Моделирование бизнес-процессов с BPwin 4.0 автора Маклаков Сергей Владимирович

Базы данных (классы для работы с базами данных)

Из книги Microsoft Visual C++ и MFC. Программирование для Windows 95 и Windows NT автора Фролов Александр Вячеславович

Базы данных (классы для работы с базами данных) В MFC включены несколько классов, обеспечивающую поддержку приложений, работающих с базами данных. В первую очередь это классы ориентированные на работу с ODBC драйверами – CDatabase и CRecordSet. Поддерживаются также новые средства для

Агрегирование

Из книги Основы объектно-ориентированного программирования автора Мейер Бертран

Агрегирование В некоторых областях информатики - базах данных, моделировании, анализе требований - разработана классификация отношений, имеющих место между элементами моделируемой системы. В этих контекстах часто встречается отношение "агрегирования" (aggregation),

Из книги Комментарий к Федеральному закону от 27 июля 2006г. N 152-ФЗ "О персональных данных" автора Петров Михаил Игоревич

Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных Комментарий к статье 161. Комментируемая статья определяет права субъектов персональных данных по отношению к принятию

2. Определение типа сравнения данных (от идеи к сравнению данных)

Из книги Говори на языке диаграмм: пособие по визуальным коммуникациям автора Желязны Джин

2. Определение типа сравнения данных (от идеи к сравнению данных) Данный шаг – это связующее звено между идеей и готовой диаграммой.Очень важно уяснить, что любая идея – любой аспект данных, на который вы хотите обратить внимание, – может быть выражена посредством