Интернет является феноминальной технологией, которая смогла ворваться в нашу жизнь и кардинально ее изменить всего за 20 лет своего существования. Интеренет изменила то как мы получаем информацию, как развлекаемся, проводим свободное время, покупаем, учимся, общаемся друг с другом и т.д. Возрастающая популярность и широкое использование Интернет-сервисов и услуг сопровождается постоянным производством колосальных объемов данных. На сегодняшний день человечество владееет объемом цифровой информации около 7 ZettaByte (зетта-байт), а к 2020 году ожидается увеличение до 44 ZettaByte.
Попытаемся раскрыть эту единицу измерения, чтобы представить его в более привычных для нас единицах: 1 ZettaByte = 1000 ExaByte = 1000 PetaByte = 1000 TeraByte = 1000 GigaByte = 1000 MegaByte (1 ZB = 10**21 Byte). Для того чтобы понять много это или мало приведем такой пример: если всю эту информацию записать на стандартные DVD диски (емкость 4.7 GB, а толшина диска около 1 мм) и сложить все эти диски один на другой, то высота полученной колонны будет вдвое превосходить расстояние от Земли до Луны. А если всю эту информацию распечатать в виде книг, то этих книг хватило бы для покрытия всей территории России в пять слоев.
Темпы производства данных растут с каждым годом, и получается что реальность превосходит самые смелые прогнозы. Интересный факт был озвучен президентом компании Google Эриком Шмидтом, согласно которому с момента зарождения цивилизации и до 2003 года человечеством было произведено 5 ExaByte данных, а сегодня этот же объем данных мы производим каждый день.
Возникает естественный вопрос: что является причиной такого драматического роста объемов данных и что делается этими данными?
Наиболее значимой причиной способствующей росту объемов данных являтся стремительный рост числа пользователей сети Интернет и пользователей мобильной связи. Согласно последним данным количество Интернет пользователей в мире перевалило за 3 млрд, что составляет более 40% жителей земли. Россия является 6-ой страной в мире по количеству Интернет-пользователей с уровнем проникновением около 65% к общему числу жителей. Каждый из 3 млрд пользователей ежедневно посещая Интернет-страницы, отправляя письма по элекронной почте, комментируя статьи, переписываясь и отправляя фотограции в социальных сетях, и т.д. производит тот или иной объем данных.
Что касается мобильной связи, то на сегодняшний день в мире насчитывается более 6.8 млрд зарегистрированных пользователей мобильных телефонов, при этом около 2-х млрд из них пользуются телефонами с расширенными возможностями так называемыми смартфонами. Благодаря новым технологиям скоростного обмена данными 3G и 4G, а также в связи с удобством и предоставлением практически неограниченных функциональных возможностей, пользователи все активнее используют смартфоны для доступа в Интернет, что в свою очередь способствует еще большему производству данных. Кстати, ожидается что к концу текущего года Россия опередив Японию станет 4-ой страной в мире (после Китая, США и Индии) по количеству смартфонов.
В результате такого широкого соучастия в процессе производства данных, каждую секунду в Интернет происходит следующее:
- Более 2-х млн. писем электронной почты
- Более 1500 Скайп (Skype) звонков
- Более 45 тыс. поисков в Google
- Более 92 тыс. просмотров видео на Ютубе (YouTube)
- Более 55 тыс. лайков в Фейсбуке (Facebook)
- Более 5 тысю фотографий на Инстаграмме (Instagram)
- Более 25 TerraByte данных передаются в Интернет
Кроме осознанных или неосознанных действий совершаемых человеком, которые приводят к производству данных, необходимо учесть миллионы датчиком, компьютерных програм, камер наблюдения и т.д. Эти устройства в режиме 24/7 (24 часа 7 дней) неустанно снабжают нас данными, которые позволяют принимать правильные решения обеспечивать безопасность. Согласно самым скромным подсчетам сегодня в мире насчитывается около 250 млн. камер наблюдения, которые производит около 2-х ExaByte видео ежедневно. К примеру, в Англии на каждые 11 жителей приходится одна камера.
Так что-же происходит с этими колосальными объемами данных и насколько эффективно они используются? Если коротко, то сегодня человечество использует всего несколько процентов из этих данных. Чтобы понять суть проблемы, нужно понять разницу между структурированными и неструктурированными данными. Не будем вдавться в технические детали, а только подчеркну что неструктурированные это данные которые не прошли предварительную обработку и представляют собой просто поток букв, цифр и символов. Проблема в том что более 90% данных в Интернет являются неструктурированными, что делает невозможным или очень сложным их непосредственное использование. А чтобы использовать, эти данные должны пройти сложную переработку, называемую Добычей данных или Извлечением данных. Нетрудно представить, если такие компании как Google, Yandex, Facebook, Twitter, … зарабатывают миллиарды используя только несколько процентов доступных данных, то какие возможности откроются если использовать 40%-50% данных. Поэтому, с уверенностью можно сказать что от того как будут развиваться технологии обработки, хранения, добычи и извлечения данных, во многом будут зависеть и наше с вами будущее. А также в заключении можно подчеркнуть что специалисты по обработке больших данных, будут одними из самых затребованных в ближайщие годы.
Доц. кафедры копьютерной инженерии
Университета «Кавказ», г. Баку
Абзетдин Адамов
№ 31, 31.07.2015 г.