Добавить в цитаты Настройки чтения

Страница 45 из 53

И все же основным делом жизни Тьюки был исследовательский анализ данных (Exploratory Data Analysis, EDA), служащий инструментом для изучения основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий. Этот тип анализа отличается от, например, более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, – в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. В 1962 году Тьюки написал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно одной статистики, мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».

Работы Тьюки стали предпосылкой к интеллектуальному анализу данных – направлению, открытому Ильей Иосифовичем Пятецким-Шапиро (1929–2009), советским, а позже израильским и американском математиком. В 1989, покинув СССР, Илья Иосифович провел первый семинар Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD). Его дело продолжает сын Григорий Пятецкий-Шапиро (1958), живущий в США

Название Data Science предложил Петер Наур (Peter Naur, 1928–2016) в 1974 году. Датчанин Наур более всего известен как создатель одного из первых алгоритмических языков ALGOL 60 и нотации Бэкуса-Наура (Backus—Naur form, BNF). Он определил Data Science не совсем так, мы ее понимает сейчас, в его представлении это наука, изучающая жизненный цикл цифровых данных.

Крупнейший специалист в области баз данных Джим Грей (James Gray, 1944 – признан погибшим в 2012) радикально переосмыслил роль данных. За несколько недель до своего бесследного исчезновения на борту яхты у Калифорнийского побережья (2007) он выступил с речью, в которой представил свои соображения о качественных изменениях в современной науке, связанных с возможностью собирать и анализировать большие объемы экспериментальных данных. Для характеристики нового периода в науке Грей использовал термин «четвертая парадигма» (fourth paradigm). По Грею, тремя предыдущими парадигмами были экспериментальная, теоретическая и вычислительная.

Стартовым выстрелом для нынешнего периода в истории DS стало интервью Главного экономиста Google Хала Вариана (Hal Varian) изданию McKinsey Quarterly, где он выдал многократно повторенную сентенцию: «Статистик – самая привлекательная работа (sexy job). Колоссальную важность приобретет его способность взять данные, понять их обработать, выделить нужное, визуализировать и передать другим».

У DS находится общее с кибернетикой, это тоже не традиционная наука в науковедческом представлении, а междисциплинарный подход, объединяющий методы, процессы, алгоритмы, системы и другие средства, служащие для извлечения информации из сырых данных, в том числе структурированных и не структурированных. DS объединяет Data mining (иногда переводится как Интеллектуальный анализ данных или Добыча данных), Большие данные, CV и NLP как методы, используемые для извлечения информации из изображений и текстов.

Несколько слов о data mining

Историю DM можно начать с теоремы Томаса Байеса (1763), позволяющей вычислить вероятность события с учетом ранее известных и новых данных. Можно также вспомнить основополагающие работы в области регрессионного анализа Ариена-Мари Лежандра (1805) и Карла Гаусса (1809). С тех пор и поныне статистические методы извлечения полезной информации из данных были и остаются краеугольным камнем для DM. Собственно термин data mining был предложен в середине 80-х Робертом Хехт-Нильсеном (Robert Hecht-Nielsen, 1947–2019) основателем компании HNC (Hecht-Nielsen Neurocomputer Corporation), позже она вошла в состав компании FICO, признанного крупнейшего финансового аналитика. HNC первой разрабатывала ПО для прогнозов, основанное на нейронных сетях. В нем моделировалось распознавание информации, скрытой в данных, по образу и подобию человеческого сознания. Эти разработки имели оборонное назначение, что естественно для компании, находящейся в Сан-Диего, центре ВМС США, но позже областью приложения стала финансовая индустрия, страхование, розничная торговля.





Современный интеллектуальный анализ данных имеет в основе три составляющие – собственно данные, извлекаемая из данных информация и полученные из данных знания.

Метаданные и гипертекст

Художественные тексты и особенно стихи содержат в себе скрытые метаданные. Обычно символьные данные сами по себе никакого смысла не имеют, они становятся полезным источником информации в том случае, если сопровождаются вспомогательными данными, указывающими на то, как их интерпретировать. Простейший вид явных метаданных – запись данных в предопределенную структуру, например в СУБД или в электронную таблицу, где нахождение числа или слова в определенной позиции придает ему значение и открывает возможность для поиска и анализа. Такие метаданные можно назвать структурными. Есть альтернативный способ явного представления метаданных, он по идее прост – достаточно можно снабдить данные ярлыками-метками, указывающими на смысл, который имеют следующие за ним записи. Такая разметка удобна для неструктурированных данных, в том числе и записей на естественном языке.

С момента появления самых первых компьютерных систем для работы с текстами все электронные документы содержали те или иные символы для управления печатью (CR, LF и др.). Однако их возможности оставались весьма ограниченными, методы разметки были привязаны к определенным принтерам, а с появлением новых устройств с более широкими возможностями (такими, скажем, как принтер с шаровой головкой) потребовались новые средства управления печатью. Чтобы преодолеть этого ограничение исследовательская группа корпорации IBM, возглавляемая Чарльзом Гольдфарбом, разработала язык разметки GML, «отвязавший» текст от формата печати.

Последующие исследования Гольдфарб вел самостоятельно; в конечном итоге они привели его к созданию языка Standard Generalized Markup Language (SGML). В период с 1978-го по 1985 год язык проходил сложный процесс стандартизации. В конечном итоге он был принят и American National Standards Institute (ANSI), и европейским агентством Computer Office of Official Publications. На следующем этапе SGML попал в европейский центр исследований физики элементарных частиц (CERN). Здесь первое средство для использования SGML разработал Андерс Берглунд (Anders Berglund). В CERN была разработана и технология CERNDOC на основе SGML, которая в последующем оказалась столь успешной, что была принята американской ассоциацией издателей American Association of Publishers. Одним из активных пользователей этой технологии был Тим Бернерс-Ли (1955), создавший совместно с Робертом Кайо (Robert Cailliau, 1947) Всемирную паутину WWW, поэтому нет ничего удивительного в том, что при разработке HTML он использовал свой опыт работы с SGML.

И все же SGML оказался весьма сложен, поэтому широкого распространения не получил, зато стал прототипом для двух широко известных языков. Первый – XML (eXtensible Markup Language), служащий для кодирования документов в World Wide Web, второй – Hypertext Markup Language (HTML), используемый для кодирования документов, воспроизводимых браузерами.

К разметке близок гипертекст, этот термин был предложен в 1965 году Тедом Нельсоном (Ted» Nelson, 1937 года) который определил его следующим образом: «Массив текстов или графики, объединенных сложными связями, которые с достаточной полнотой не могут быть представлены в бумажной форме. Связи могут включать карты контента, ссылки, аннотации, комментарии и другие инструменты для указания». В истории гипертекста сложилась вполне устоявшаяся хронология событий. Точкой отсчета обычно называют Ванневара Буша и его гипотетическую машину Memex (Memory Extender), далее переходят к Дагу Энгельбарту, затем к Теду Нельсону и, наконец, к Тиму Бернерсу-Ли, работашему совместно с Робертом Калио.