...

Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных Программное обеспечение IBM

by user

on
Category: Documents
26

views

Report

Comments

Transcript

Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных Программное обеспечение IBM
Программное обеспечение IBM
Применение IBM InfoSphere Biglnsights
для ускорения окупаемости анализа
Больших данных
2
Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных
Содержание
2 Обзор IBM InfoSphere Biglnsights 2.1
3 Ускорение развертывания за счет применения
инноваций, предлагаемых сообществом Hadoop
3 Применение существующих решений и навыков
SQL
4 Поддержка пользовательской аналитики
и предоставления данных
5 IBM BigSheets
6 Web-консоль InfoSphere BigInsights
7 Ускорители аналитики
10 Аналитика над потоковыми и хранимыми
данными
10 Интеграция с популярными решениями для
моделирования и предиктивного анализа
10 Заключение
Обзор IBM InfoSphere Biglnsights 2.1
IBM® InfoSphere® Biglnsights™ 2.1 представляет собой
независимую от специфических аппаратных средств
программную платформу на основе Apache Hadoop, которая предлагает новые способы обработки разнообразных
коллекций данных большого объема. Настоящий документ описывает широко используемые возможности
InfoSphere BigInsights 2.1, которые позволяют организациям экономически эффективно анализировать данные
большого объема различной структуры для получения
недоступных ранее сведений1.
InfoSphere BigInsights 2.1 предоставляет предприятиям
возможности, необходимые им для удовлетворения критически важных коммерческих требований, одновременно
сохраняя совместимость с проектом Hadoop. InfoSphere
BigInsights 2.1 использует множество технологий компании
IBM, улучшающих и расширяющих возможности программного обеспечения Hadoop с открытым исходным
кодом, и содержит ускорители приложений, аналитические функции, средства разработки, улучшения платформы и средства интеграции корпоративного программного обеспечения. И хотя InfoSphere BigInsights предлагает
широкий диапазон возможностей, далеко выходящих за
пределы базовой функциональности Hadoop, компания
IBM придерживается здесь так называемого "подхода
opt-in": при необходимости вы можете использовать расширения IBM для Hadoop, и можете не ограничиваться расширениями, входящими в комплект поставки InfoSphere
BigInsights 2.1.
Чтобы вы могли быстро начинать проекты, связанные
с обработкой больших объемов данных, InfoSphere
BigInsights 2.1 предлагает множество усовершенствований, включая набор популярных технологий с открытым
исходным кодом и технологий IBM, которые можно разделить на следующие категории:

Ускорение развертывания за счет применения инноваций, предлагаемых сообществом Hadoop.

Применение существующих навыков и решений SQL.

Поддержка пользовательской аналитики и предоставления данных.

Поддержка возможности обнаружения знаний при
помощи обычного «человеческого» поиска.

Аналитика над потоковыми и хранимыми данными.

Интеграция с популярными решениями для моделирования и предиктивного анализа.
Программное обеспечение IBM
InfoSphere BigInsights: платформа с высокой
совместимостью
Приложения третьих фирм, партнерские решения и проекты заказной разработки, совместимые со следующими
версиями InfoSphere BigInsights, должны работать без
каких-либо изменений кроме обновления местоположения данных.
• Apache Hadoop (1.1.1), 64-разрядная Linux-версия IBM
SDK для Java 6 и Java.
• Avro (1.7.2), подсистема сериализации данных
• Chukwa (0.5.0), система сбора данных для мониторинга
больших распределенных файловых систем.
• Fair Scheduler, базовое управление отправкой заданий.
• Flume (1.3.0), распределенная надежная служба с высоким уровнем доступности для эффективного перемещения больших объемов данных в пределах кластера.
• HBase (0.94.3), нереляционная распределенная база
данных, написанная на Java.
• HCatalog (0.4.0), служба управления таблицами и дисковым пространством для Hadoop.
• Hive (0.9.0), инфраструктура хранилища данных, облегчающая извлечение, преобразование, загрузку (ETL)
и анализ больших наборов данных, сохраненных в распределенной файловой системе (HDFS).
• IBM InfoSphere BigInsights Jaql, язык запросов, предназначенный для JavaScript Object Notation (JSON) и
используемый, в первую очередь, для анализа частично
структурированных данных большого объема.
• Lucene (3.3.0), высокопроизводительная полнофункциональная система текстового поиска, целиком написанная на Java.
• Oozie (3.2.0), координатор workflow.
• Orchestrator, расширенная система управления заданиями MapReduce, использующая формат JSON для описания блок-схем заданий и взаимодействия между ними.
• Pig (0.10.0), платформа для анализа больших наборов
данных, состоящая из языка высокого уровня для написания программ анализа данных и инфраструктуры для
проверки этих программ.
• Sqoop (1.4.2), инструмент, импортирующий данные из
структурированных БД и иных Hadoop-систем в кластеры Hadoop.
• ZooKeeper (3.4.5), централизованная служба для поддержки конфигурационной информации распределенной синхронизации и групповых служб.
3
Настоящий документ рассказывает, как эти усовершенствования помогают повысить ценность Hadoop с открытым исходным кодом с помощью функций, необходимых
организациям для экономически эффективной обработки
больших данных.
Ускорение развертывания за счет
применения инноваций, предлагаемых
сообществом Hadoop
Вклад компании IBM в разработку компонентов Hadoop
с открытым исходным кодом в InfoSphere BigInsights 2.1
помогает достичь совместимости с продуктами третьих
фирм и обеспечивает поддержку разработки новых функций и возможностей. Организации с существующими
проектами MapReduce, Hive, Pig и Sqoop при условии
совместимости всех версий и совпадения структуры
каталогов могут существенно улучить работу при
использовании InfoSphere BigInsights 2.1.
Применение существующих навыков
и решений SQL
Унаследованные приложения используют для доступа
к данным язык SQL, и SQL фактически является языком,
используемым для обращения с запросами к структурированным данным. В результате большинство организаций обладает глубокими и обширными навыками в
использовании SQL. Клиенты IBM интересуются возможностями применения своих навыков SQL в проектах
Hadoop для упрощения начала работы с Hadoop и упрощения достижения совместимости с существующими
инструментами и приложениями, ориентированными
на работу с SQL. Компания IBM дала клиентам эту
возможность, предложив IBM Big SQL - систему хранения и обработки больших данных для Hadoop, которая
используется для агрегации и анализа данных, сохраненных в InfoSphere BigInsights 2.1.
Для доступа к данным, сохраненным в InfoSphere
BigInsights, Big SQL использует драйверы JDBC или
ODBC, причем делает это тем же способом, что и пользователи, обращающиеся к базам данных из своих корпоративных приложений. Вы можете использовать сервер Big SQL
для выполнения стандартных запросов SQL и для одновременного выполнения нескольких запросов (рисунок 1).
4
Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных
Big SQL обеспечивает поддержку больших ad-hoc запросов
за счет применения параллелизма MapReduce и точечных
запросов, которые представляют собой запросы с малым
временем отклика, сокращающие время получения ответа
и улучшающие доступ к данным. Сервер Big SQL является
многопоточным, поэтому масштабируемость ограничивается только производительностью и числом ЦП в аппаратных серверах. Если вы хотите использовать “тяжелые”
запросы, вы можете или увеличить производительность
оборудования сервера, на котором работает Big SQL, или
объединить несколько серверов Big SQL между собой для
повышения производительности обработки.
Big SQL позволяет всем, кто знаком с SQL, немедленно
приступить к работе, что минимизирует сроки исполнения проекта и снижает финансовые риски в подобных
проектах. В Big SQL все данные доступны через SQL, что
позволяет выбрать формат хранения, наилучшим образом
соответствующий вашему приложению.
Поддержка пользовательской
аналитики и предоставления данных
Рисунок 1. Обзор IBM Big SQL.
Чтобы получить новые знания и добиться лучших бизнес-результатов, вам нужна среда, хорошо приспособленная для исследования и выявления взаимосвязей и корреляции данных. Выбрав правильную технологию, вы
можете повысить ценность своего хранилища данных,
добавив новые типы данных и применив новые типы
анализа. Один из наиболее распространенных шаблонов
развертывания InfoSphere BigInsights известен под названием Зона исследования данных. Зона исследования
данных предлагает среду с функциями, необходимыми
для анализа информации в необработанной форме, будь
то структурированные или неструктурированные данные, с помощью таких инструментов как текстовый анализ, дата майнинг, анализ логических объектов и машинное обучение. Данные этой зоны можно использовать для
исследовательского анализа или отправлять их в хранилище данных для углубленного анализа, повышая гибкость работы с данными.
Программное обеспечение IBM
Для максимально быстрого получения корректной
информации хранилище данных, поддерживающее эти
системы, должно иметь оптимальный баланс производительности аналитических и операционных запросов.
InfoSphere BigInsights 2.1 предлагает множество возможностей для создания наборов из необработанных данных,
расширения существующие наборов данных из традиционных реляционных источников и выполнения ad-hoc
анализа данных без помощи ИТ.
В процессе подготовки к анализу «сырые» данные
должны быть отфильтрованы, преобразованы, связаны
друг с другом и агрегированы. По окончанию этих процессов данные можно публиковать в общих структурах,
таких как Hive, или делать доступными для использования внешними решениями, такими как IBM PureData™
System for Analytics.
IBM BigSheets
IBM BigSheets представляет собой аналитический инструмент на базе браузера, предназначенный для разделения
больших объемов данных на удобный для работы, зависящий от ситуации коммерческий контекст. При поддержке
легкого доступа с консоли InfoSphere BigInsights, BigSheets
может собирать данные из нескольких источников,
включая Интернет, выполнять импорт/экспорт данных,
выборки данных, сбор и анализ данных социальных сетей,
машинную обработку / анализ данных, ad-hoc запросы и
многое другое (рисунок 2). Кроме того, BigSheets можно
использовать с данными, загруженными другими средствами, такими как Flume или IBM InfoSphere Information
Server.
Наведите мышь, чтобы увидеть
пошаговые инструкции
Анализ данных с помощью BigSheets
Загрузка
Построение
Файл с результатами
Теперь нужно выполнить
операции с полным набором
данных массива, который вы
определили. Чтобы создать
лист результатов:
1. Щелкните на Save (сохранить)
2. При поступлении запроса,
щелкните на Save and Exit
(сохранить и выйти)
3. Щелкните на Run (пуск),
чтобы запустить анализ всего
набора данных в массиве
Визуализация
Диаграммы
Рисунок 2. Обзор IBM BigSheets.
5
Пуск
Лист результатов
6
Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных
Когда InfoSphere BigInsights соберет данные, пользователи BigSheets загружают интересующие их данные в
главную книгу. Здесь BigSheets позволяет форматировать
и исследовать данные путем создания листов (напоминающих листы электронных таблиц) в книгах, основанных
на главной книге. Вы можете комбинировать столбцы
разных книг, выполнять расчеты по формулам и фильтровать данные. Эти манипуляции и составляют основу
вашего анализа.
BigSheets генерирует и исполняет код, необходимый для
автоматического выполнения всех операций с данными,
позволяя вам работать в визуальном представлении,
а не на уровне сценариев или описаний Java. Кроме того,
вы можете объединять данные с функциями текстового
анализа InfoSphere BigInsights для фильтрации и обработки данных и для углубленного анализа информации и
извлечения ценных сведений из необработанных данных.
После обработки и анализа данных можно применить
средства визуализации, такие как облако тэгов, линейчатые диаграммы, карты и круговые диаграммы. Эти
средства визуализации предоставляют готовые представления данных, показывающие их взаимосвязь
и выделяющие информацию из ранее несвязанных
данных.
Web-консоль InfoSphere BigInsights
Страница приветствия InfoSphere BigInsights 2.1, формируемая для каждого ппользователя, содержит ссылки на
его наборы данных и процессы. BigInsights также содержит готовые приложения, которые можно использовать
для выполнения различных операций по обработке
данных. Эти заранее установленные приложения обладают теми же свойствами, что и приложения, которые
вы создаете, и могут использоваться в качестве отправной точки для проектов, связанных с обработкой больших данных. Пользователи могут создавать и разделять
с коллегами новые процессы по мере их разработки, что
превращает Web-консоль в мощную отправную точку
для работы с InfoSphere BigInsights. Ниже перечислены
лишь некоторые приложения, входящие в комплект
поставки:
Ad hoc Hive Query: используйте приложение Ad hoc Hive

Query для создания собственных Hive-запросов для
анализа данных.
Ad hoc Jaql Query: используйте приложение Ad hoc Jaql

Query для создания собственных Jaql-запросов для
анализа данных.
Ad hoc Pig Query: используйте приложение Ad hoc Pig

Query для создания собственных Pig-запросов для
анализа данных.
Ad hoc R Script: это приложение используется для запуска

R-сценария. Поскольку Oozie назначает R-сценарий к
запуску на менее загруженном узле кластера, R-сценарий
должен быть установлен на всех узлах вашего кластера.
R-сценарий считывает и записывает файлы в локальных
директориях, а не в директориях HDFS. Таким образом,
приложение Ad hoc R Script может копировать входные
файлы в требуемые локальные каталоги и перемещать
выходные файлы в каталоги HDFS.
BoardReader: приложение BoardReader ищет, извлекает

и отображает информацию из нескольких Webисточников, таких как онлайновые форумы, доски
объявлений, блоги, новостные сайты и видеозаписи.
Data Download: приложение используется для заг
рузки данных из ресурса для разработчиков IBM
developerWorks®. Подтвердив приятие условий
developerWorks, вы можете выбрать образцовый набор
данных из выпадающего списка наборов или обратиться к другим данным, указав их URL.
Data Sampling: это приложение использует большой

набор данных или параметров для генерации репрезентативного набора данных. Приложение делает выборки
входных данных, используя равномерные случайные
выборки (без замены). Итогом работы является вывод
результатов в файл, формат которого совпадает с форматом входного файла.
Data Subset: приложение Data Subset используется для

создания подмножества ваших данных. Затем, анализируя структуру, контент и формат подмножества данных, вы можете повысить производительность.
Database Export: это приложение записывает данные из

файлов HDFS в систему управления реляционной базой
данных и использует программу Java для экспорта
данных, сохраненных в HDFS, в таблицу базы данных.
Входные данные сохраняются в файлах на DFS. Входные файлы могут иметь формат CSV или JSON.
Database Import: это приложение загружает данные из

системы управления реляционной базой данных в файл
на HDFS. Оно использует программу Java для импорта
данных из базы данных и их записи в файл на HDFS.
Для определения данных, которые будут импортироваться из базы данных, можно использовать запрос SQL
(Select). Затем данные, извлеченные из базы данных,
записываются в файл на HDFS в формате CSV или JSON.
Программное обеспечение IBM

Distributed Copy: с помощью операции MapReduce можно
копировать данные из удаленного источника в HDFS
или из HDFS в удаленный источник. Для копирования
файлов и каталогов из одного источника в другой
можно использовать приложение Distributed Copy
HBase: приложение HBase позволяет экспортировать

строки данных из таблицы HBase через консоль
InfoSphere BigInsights. Строки данных можно экспортировать из таблицы HBase в виде файла JSON. Для экспорта данных в приложение нужно передать параметры; работа с запросами HBase не поддерживается.
Web Crawler: приложение Web Crawler представляет

собой работающую в автоматическом режиме программу, которая систематически просматривает страницы в Интернет и ведет сбор данных. Кроме того, она
сравнивает размер и содержимое файлов с версиями
этих файлов, сохраненными в InfoSphere BigInsights.
Web REST Import: это приложение извлекает контент из

указанного адреса URL и сохраняет его в указанной
директории HDFS.
Эти приложения можно модифицировать и затем публиковать для конкретных пользователей или групп пользователей в зависимости от их прав в отношении безопасности, обеспечивая их множеством возможностей для
запуска проектов.
Ускорители аналитики
Компания IBM предлагает несколько ускорителей анализа, которые существенно сокращают сроки окупаемости
приложений, работающих с Большими данными. Эти
ускорители содержат в себе уже закодированные: бизнеслогику, функции обработки данных и визуализацию для
конкретных бизнес-сценариев. С помощью этих ускорителей вы можете использовать расширенные методы анализа,
помогающие интегрировать и управлять многообразием,
скоростью и объемом данных, непрерывно поступающих в
вашу организацию. Кроме того, ускорители создают среду
разработки для построения новых специализированных
аналитических приложений, адаптированных к специфическим потребностям вашей организации.
7
В комплект поставки InfoSphere BigInsights входят два
ускорителя: IBM Accelerator for Machine Data Analytics и
IBM Accelerator for Social Data Analytics. В комплект
поставки InfoSphere Streams тоже входят два ускорителя:
IBM Accelerator for Social Data Analytics и IBM Accelerator
for Telecommunications Event Data Analytics. Эти ускорители охватывают многие широко распространенные сценарии использования и легко расширяются в соответствии с требованиями конкретного предприятия.
IBM Accelerator for Social Data Analytics
Данные из форумов в социальных сетях содержат ценную
информацию о предпочтениях пользователей. Однако
доступ к этой информации и ее обработка требует масштабного функционала по импорту, настройке и анализу.
IBM Accelerator for Social Data Analytics, имеющий встроенные знания о том, как работать с источниками данных
в социальных сетях, извлекает нужную информацию из
сообщений Twitter, досок объявлений и блогов и затем
создает социальные профили пользователей в зависимости от отрасли и конкретного сценария использования.
Типичный рабочий процесс состоит из импорта файлов
данных и последующей настройки, индексирования и
анализа этих данных.
С помощью IBM Accelerator for Social Data Analytics можно:

Импортировать и анализировать данные социальных
сетей, выявляя такие характеристики пользователей,
как пол, местоположение, имя и увлечения.

Создавать подробные профили пользователей на основе
анализа ресурсов и сообщений.

Привязывать профили к структуре поведения, разговорам, намерениям или сведениям о владении продуктами определенных брендов и пользовании услугами
тех или иных компаний.
8
Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных
IBM Accelerator for Social Data Analytics обычно используется для сбора данных с целью расширения возможностей анализа клиентов и, в отличие от многих других
инструментов сбора информации из социальных медиа,
может использоваться для выявления социальной активности вплоть до известного пользователя.
IBM Accelerator for Machine Data Analytics
IBM Accelerator for Machine Data Analytics может принимать, интерпретировать и извлекать разнообразные
машинные данные из таких источников как файлы данных, файлы журналов, интеллектуальные, телеметрические устройства и позволяет обрабатывать эти данные
в считанные минуты вместо дней и недель. Это приложение помогает организациям анализировать операции,
восприятие контента, транзакции и поведение, которые
могут свидетельствовать о наличии проблем в инфраструктуре и изменений в предпочтениях пользователей,
или порождать события, которые могут приводить в
действие иные системы. Многие заказчики IBM используют IBM Accelerator for Machine Data Analytics для повышения эксплуатационной эффективности в проактивном
режиме, диагностики проблем, исследования нарушений
безопасности и сквозного мониторинга инфраструктуры
для предотвращения деградации или отключения служб.
Типичный подготовительный рабочий процесс выполняет
организацию и импорт данных, а затем извлекает, индексирует, ищет, преобразует и анализирует данные. С помощью IBM Accelerator for Machine Data Analytics можно:

Выполнять поиск данных с помощью функций текстового поиска, фасеточного поиска или поиска по временным параметрам.

Обогащать контекст машинных данных путем добавления и извлечения типов журналов в существующий
репозиторий

Связывать и сопоставлять события в пределах нескольких систем

Выявлять шаблоны
InfoSphere BigInsights Text Analytics
InfoSphere BigInsights Text Analytics представляет собой
мощную декларативную систему извлечения информации, которая превосходно справляется с созданием
структурированной информации из текстовых данных.
Модуль InfoSphere BigInsights Text Analytics специально
разработан для использования модели обработки, ориентированной на Hadoop. Он имеет высокое быстродействие и может обрабатывать большие объемы неструктурированной информации быстрее, чем традиционные
методы анализа текста. Кроме того, модуль InfoSphere
BigInsights Text Analytics является декларативным, то
есть он может адаптироваться к вашим конкретным
потребностям анализа с помощью метода, подобного
SQL, что просто невозможно реализовать в обычных
текстовых инструментах. Это помогает снизить затраты
и обеспечивает уникальный для окружения Apache
Hadoop уровень комфорта,.
Text Analytics входит в состав среды разработки Eclipse
как часть InfoSphere BigInsights Text Analytics Workflow.
Инструменты Text Analytics Eclipse можно использовать
для разработки и тестирования экстракторов в Eclipse.
После выбора желаемого экстрактора, вы можете опубликовать его в консоли InfoSphere BigInsights как приложение, которое администратор может развернуть и
сделать доступным для всех пользователей InfoSphere
BigInsights.
Страница приветствия консоли InfoSphere BigInsights
содержит информацию о том, как использовать среду
Eclipse для разработки приложений с помощью InfoSphere
BigInsights. После опубликования экстрактора и развертывания приложения в консоли InfoSphere BigInsights, его
можно запустить как функцию BigSheets или как часть
воркфлоу.
Программное обеспечение IBM
Разработчик
Администратор приложения
Развертывание
Входные данные
Создание
подмножества
Локальные данные
9
Бизнес-аналитик
Файл с результатами
Приложение
Запуск
Jaqlворкфлоу
Разработка
экстрактора
Запуск
функции
BigSheets
Визуализация
Отобранные данные
Экстрактор
Результирующие данные
Загрузка
Публикация
Индексирование
Web-консоль
Eclipce
Отображение книги и диаграмм BigSheets на
информационной панели, которая представлена
виджетами. Каждый виджет имеет URL-ссылку,
которую можно использовать для совместного
доступа к книге или диаграмме. Информационная
панель позволяет одновременно рассматривать
несколько диаграмм и сравнивать результаты в
разных представлениях.
Представление информационной
панели
Рисунок 3. Обзор воркфлоу InfoSphere BigInsights Text Analytics.
Результаты работы приложения Text Analytics для дальнейшего анализа можно экспортировать в BigSheets,
Dashboard и другие компоненты InfoSphere BigInsights
(рисунок 3).
IBM InfoSphere Data Explorer
Основными аспектами исследования данных являются
обеспечение возможности исследования специалистом и
быстрая оценка имеющейся информации. Это облегчает
создание тем и автоматическое обнаружение относя-
щейся к делу информации, а также позволяет пользователю быстро создавать и развертывать интерактивные
Web-приложения, широко применяемые в средах анализа
и обслуживания клиентов. Серверы InfoSphere Data
Explorer Engine могут получать данные в реальном времени от серверов кластера InfoSphere BigInsights или
серверов InfoSphere Streams. Кроме того, InfoSphere Data
Explorer может продвигать данные пользователям информационных приложений и обеспечивает федеративный
доступ к другим продуктам IBM.
10 Применение IBM InfoSphere Biglnsights для ускорения окупаемости анализа Больших данных
Аналитика над потоковыми
и хранимыми данными
Организации всё чаще используют аналитические программы и приложения, которые обрабатывают Большие
данные в движении (потоковые данные), так и данные
в покое (сохраненные на дисках). Анализ, охватывающий
перечисленные типы больших данных, требует применения аналитических инструментов, поддерживающих
оба типов больших данных одновременно. InfoSphere
BigInsights 2.1 расширяет возможности охвата потоковых
больших данных вместе с большими данными в покое
за счет интеграции с IBM InfoSphere Streams.
InfoSphere Streams представляет собой высокопроизводительную вычислительную платформу, которая позволяет
приложениям, разработанным пользователем, быстро
принимать, анализировать и сопоставлять информацию
в процессе поступления ее из тысяч источников, работающих в реальном масштабе времени. Для потоковых
данных InfoSphere Streams может непрерывно анализировать большие объемы данных с очень малой задержкой,
позволяя быстро реагировать на тенденции и события
по мере их появления. Разработчики могут настроить
InfoSphere Streams так, чтобы данные записывались
по мере необходимости в InfoSphere BigInsights для глубокого анализа тенденций. Результаты этого анализа
можно регистрировать и отправлять обратно в InfoSphere
Streams для уточнения логики приложения. Для ускорения развертывания и снижения затрат, приложения
InfoSphere Streams естественным образом распределяются по среде хранения InfoSphere BigInsights.
Интеграция с популярными решениями
для моделирования и предиктивного
анализа
Клиентам IBM нужны простые способы применения
различных решений для предиктивного моделирования
с основанными на Hadoop зонами обнаружения для
сокращения сроков окупаемости и повышения утилизации существующих решений и имеющихся ресурсов.
InfoSphere BigInsights отвечает этому требованию, под-
держивая большинство широко распространенных пакетов моделирования и анализа, включая приложения SAS,
IBM SPSS® и R. Пользователи, знакомые с этими средами
моделирования, могут использовать для анализа данные
в InfoSphere BigInsights. Это позволяет продолжить
работу в знакомой среде, одновременно получая доступ
к новой, обогащенной информации.
Каждый аналитический пакет имеет разный уровень
поддержки Hadoop в среде InfoSphere BigInsights. SAS
и другие среды в качестве источника данных в основном
используют BigInsights, позволяя применять информацию
в таких структурах, как Hive. Некоторые пакеты, такие
как SPSS Catalyst для InfoSphere BigInsights, позволяют
создавать и исполнять модели прямо в платформе
InfoSphere BigInsights.
SPSS Catalyst повышает продуктивность анализа и сокращает сроки окупаемости, помогая автоматизировать подготовку данных, автоматически интерпретировать результаты и представлять их в интерактивной визуальной
форме с четкими лаконичными представлениями. SPSS
Analytic Catalyst, работающий с InfoSphere BigInsights,
позволяет автоматически идентифицировать ключевые
драйверы с помощью выверенных алгоритмов, а также
автоматически тестировать и применять методы, основанные на регрессивном анализе. Кроме того, для подведения
итогов предиктивного анализа SPSS Analytic Catalyst
предлагает интерактивные визуальные представления
и простой язык, что позволяет сразу увидеть общую картину с соответствующими пояснениями и статистическими подробностями.
Заключение
InfoSphere BigInsights 2.1 предлагает уникальный набор
возможностей, который сочетает инновации экосистемы
Apache Hadoop с эффективной поддержкой традиционных знаний и уже установленных инструментов. Возможность применения существующих знаний и инструментов с помощью функций с открытым исходным кодом
помогает снизить эксплуатационные расходы и сократить
сроки окупаемости.
Примечания
Дополнительная информация
Дополнительную информацию о InfoSphere BigInsights и
InfoSphere BigInsights for Hadoop Quick Start Edition можно
получить в торговом представительстве IBM, у партнеров
IBM или посетив следующие сайты:
ibm.com/software/data/infosphere/biginsights
ibm.com/infosphere/quickstart
Об авторе
Том Дойч (Tom Deutsch) (@thomasdeutsch) является руководителем программы в группе IBM Big Data. Он играет
ведущую роль в переносе основанных на Hadoop технологий из IBM Research в IBM Software Group и продолжает
участвовать в проектах IBM Research, связанных с обработкой Больших данных, а также в проектах перехода от
IBM Research к серийно выпускаемым продуктам. Дойч
создал основанный на Hadoop продукт InfoSphere
BigInsights и несколько лет помогал клиентам в освоении
технологий Hadoop, InfoSphere BigInsights и InfoSphere
Streams, включая определение набора архитектур, разработку стратегии бизнеса и управление проектами на
начальной стадии, взаимодействуя более чем с 200 клиентами. Обладая более чем 20-летним опытом работы в этой
отрасли и являясь ветераном запуска двух проектов, Дойч
является экспертом в сфере проблем управления технической, стратегической и коммерческой информацией, с
которыми приходится сталкиваться современным предприятиям.
IBM Восточная Европа/Азия 2013
123317, Москва
Пресненская наб., 10
Тел.: +7 (495) 775-8800, +7 (495) 940-2000, +7 (495) 258-6465
Факс.: +7 (495) 940-2070
ibm.com/ru
Все права защищены
Декабрь 2013 г.
IBM, логотип IBM logo, ibm.com, BigInsights, developerWorks, InfoSphere,
PureData и SPSS являются товарными знаками или зарегистрированными товарными знаками корпорации International Business Machines
Corporation в США и/или других странах. Другие наименования
продуктов и услуг могут быть товарными знаками IBM или других
компаний. Актуальный список товарных знаков IBM представлен
на странице «Информация об авторском праве и товарных знаках»
и товарных знаках» по адресу: ibm.com/legal/copytrade.shtml
Java и все основанные на Java товарные знаки и логотипы, являются
товарными знаками или зарегистрированными товарными знаками
компании Oracle и/или ее филиалов.
Linux является зарегистрированным товарным знаком, принадлежащим Линусу Торвальдсу в США и/или других странах.
Настоящий документ является актуальным на момент первой
публикации и может изменяться компанией IBM в любое время.
Не все предложения доступны во всех странах, в которых компания
IBM осуществляет свою деятельность.
Пользователь сам несет ответственность за оценку и проверку
работоспособности других продуктов или программ с продуктами
и программами компании IBM.
ИНФОРМАЦИЯ, ПРИВЕДЕННАЯ В НАСТОЯЩЕМ ДОКУМЕНТЕ, ПРЕДОСТАВЛЯЕТСЯ НА УСЛОВИЯХ «КАК ЕСТЬ» БЕЗ
КАКИХ БЫ ТО НИ БЫЛО ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ, ВКЛЮЧАЯ, СРЕДИ ПРОЧЕГО, ПОДРАЗУМЕВАЕМЫЕ ГАРАНТИИ НЕНАРУШЕНИЯ ПРАВ, КОММЕРЧЕСКОЙ
ВЫГОДНОСТИ И ПРИГОДНОСТИ ДЛЯ КОНКРЕТНЫХ
ЦЕЛЕЙ. На продукты компании IBM распространяется гарантия в
соответствии с условиями соглашений, по которым они поставлялись.
1 В настоящей статье описываются не все функции InfoSphere BigInsights
(которых больше 30), а только те, которые входят в дистрибутивы
Hadoop с открытым исходным кодом. Полное описание всех возможностей InfoSphere BigInsights 2.1 можно найти на странице:
http://pic.dhe.ibm.com/infocenter/bigins/v2r1/index.jsp? topic=%2Fcom.ibm.
swg.im.infosphere.biginsights.tut.doc%2Fdoc% 2Ftut_Introduction.html
Подлежит повторной переработке.
IMW14684RURU-00
Fly UP