Глоссарий

CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных data-mining проектах независимо от конкретной задачи и индустрии.

Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

F-мера – это метрика оценки, которая сопоставляет точность и полноту.

Pipeline – это все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и обучения. После обучения конвейер становится моделью.

Алгоритм – это метод, функция или серия инструкций, используемых для создания модели машинного обучения. Примеры включают линейную регрессию, деревья принятия решений, машины опорных векторов и нейронные сети.

Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.

Ассоциация – это степень, в которой значения одного поля зависят от значений другого поля или предсказываются ими.

Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», или сокращенно KDD, относится к широкому процессу поиска знаний в данных, и подчеркивает «высокоуровневое» применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, распознавания образов, баз данных, статистики, искусственный интеллекта, получения знаний для экспертных систем.

Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из спектра 0-255 в спектр 0-1.

Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами.

Бот – это автономная программа, которая может взаимодействовать с компьютерными системами, программами или пользователями. В большинстве случаев находится под прямым или косвенным управлением человека.

Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных.

Валидация – это необязательный заключительный этап построения модели, на котором уточненная модель, полученная на этапе тестирования, проверяется на соответствие дополнительному набору исходных данных. Смотрите также построение модели, тестирование, обучение.

Визуализация данных – это процесс представления шаблонов данных в графическом формате, включая использование традиционных графиков, а также усовершенствованной интерактивной графики. Во многих случаях визуализация выявляет шаблоны, которые было бы трудно найти другими методами.

Входные данные — это информация, поступающая в систему из различных источников, для обработки или хранения.

Выброс – это наблюдение, которое значительно отличается от других наблюдений в наборе данных.

Выходные данные — это результат работы алгоритма после его выполнения. Выходные данные могут быть числами, строками, объектами или другими значениями, которые представляют результат решения задачи машинного обучения.

Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно привести число деревьев, которые изучаются в лесе решений или размер шага в алгоритме градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, и они управляют процессом поиска параметров для функции прогнозирования, например точек сравнения в дереве принятия решений или весов в модели линейной регрессии.

Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То есть одним компьютером, одной программой переработать столько информации просто невозможно. Поэтому используются нейронные сети.

Данные – это центральный элемент любого приложения машинного обучения. Объекты представления данных состоят из:

Двоичная классификация – это сценарий классификации, в котором значение метки может быть только одним из двух классов.

Дерево решений – это древовидный граф, состоящий из узлов и листьев, соединённых между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы. Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья решений подразделяются на два типа: деревья классификации и деревья регрессии. Определяющим фактором, от которого зависит тип дерева, является выходное значение, непрерывное или категориальное.

Диаграмма рассеяния - график двух переменных, в которых каждая точка определяется по ее координатам (X, Y). Например, высота и вес.

Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке. Общими мерами вариабельности данных являются дисперсия, стандартное отклонение, межквартильный размах.

Доверительный интервал – это интервал, вычисленный из выборки, который содержит значение определенного параметра совокупности с определенной вероятностью.

Зависимая переменная - переменная (обычно обозначенная как Y), которая предсказана независимой переменной в регрессионном анализе, также называется откликом.

Интеллектуальный агент – это бот, используемый при решении задач искусственным интеллектом.

Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей в данных для получения новой информации.

Интерполяция - оценка неизвестного значения, которое лежит между двумя известными значениями.

Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и технология разработки компьютеров, выполняющих функции, которые до недавнего времени считались прерогативой человеческого интеллекта.

Итерация – это обновление весов после анализа пакета входных записей.

Калибровка — это процесс сопоставления необработанной оценки на членство в классе для двоичной и мультиклассовой классификации.

Каталог — это совокупность функций расширения, сгруппированных по общей цели. Например, каждая задача машинного обучения (двоичная классификация, регрессия, ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих).

Категориальные переменные – это переменные с дискретным набором возможных значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не имеет значения).

Квартили – это значения, которые делят упорядоченные наблюдения на четыре равные части. Различают нижний, верхний квартиль, а также медиану выборки.

Классификация – это задача контролируемого машинного обучения. Двоичная классификация обозначает прогнозирование только по двум категориям (например, разделение изображений на группы «кошки» и «собаки»). Многоклассовая классификация обозначает прогнозирование по нескольким категориям (например, разделение изображений на группы конкретных пород собак).

Кластеризация – это неконтролируемая группировка данных в сегменты.

Кластеры данных – это часть высокой концентрации групп данных в наборе данных, скопление однотипных объектов, которые близки между собой и отличаются от других объектов выборки.

Коллинеарность – это пары независимых переменных в регрессионном анализе высоко коррелируют, если их корреляции по модулю близки к единице.

Компьютерное зрение – это междисциплинарная научная предметная область ИИ и информатики, посвященная изучению и разработке компьютеров, способных к визуальному распознаванию информации на входе.

Контролируемое машинное обучение – это подкласс машинного обучения, в котором нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать классификацию, регрессию и структурированный прогноз.

Контрольная группа – это термин, применяемый в сравнительных исследованиях, например, в клинических испытаниях, для обозначения группы сравнения.

Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, которая влияет как на зависимую переменную, так и на независимую переменную, искажая результаты исследования.

Корень среднеквадратичной погрешности – это метрика оценки, вычисляемая как квадратный корень из среднего значения квадратов погрешностей.

Корреляция – это статистический показатель связи между двумя числовыми полями. Значения варьируются от -1 до +1. Корреляция, равная 0, означает, что между двумя полями нет взаимосвязи.

Коэффициент вариации – это стандартное отклонение, делённое на среднее, часто выражено в процентах, является мерой вариабельности данных.

Коэффициент детерминации – это метрика оценки, которая позволяет понять, насколько хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0 означает, что данные полностью случайны или по другим причинам не могут соответствовать модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто обозначают как r2, R2 или R-квадрат.

Линейная регрессия – это метод анализа данных, который предсказывает ценность неизвестных данных с помощью другого связанного и известного значения данных.

Логарифмические потери – это метрика оценки, которая характеризующий точность классификатора. Чем меньше логарифмические потери, тем точнее классификатор.

Логистическая регрессия – это метод анализа данных, который использует математику для поиска взаимосвязей между двумя факторами данных.

Машинное обучение (англ. machine learning, ML) — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт применения решений множества сходных задач.

Машинное обучение без учителя – это обучение, которое строится на том, что человеку и программе неизвестны правильные ответы заранее, имеется только некий массив данных. Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе оказываются получены неочевидные и нетривиальные решения.

Машинное обучение с учителем – это один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость (построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов, так же, как и в обучении на примерах, может вводиться функционал качества.

Метка – это элемент, который прогнозируется с помощью модели машинного обучения. Например, порода собаки или будущая цена акций.

Метод обратного распространения ошибки – это метод обучения нейронных сетей с учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов нейронов в соответствии с правилом.

Многоклассовая классификация – это значение метки может быть только одним из трех или больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме Задачи машинного обучения.

Моделирование – это параметры для прогнозирующей функции. Например, значения веса в модели линейной регрессии или точки разбиения в дереве принятия решений.

Модель – это структура данных, которая хранит представление набора данных (веса и отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных. Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для экземпляра.

Набор данных – это записи в виде столбцов (полей) и строк, содержащихся в файле или таблице базы данных.

Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Нейронные сети – это математические алгоритмы, смоделированные на основе архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в данных.

Неконтролируемое машинное обучение – это подкласс машинного обучения, в котором нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами можно считать кластеризацию, тематическое моделирование и сокращение размерности.

Нерафинированная модель – это модель, которая содержит информацию, извлеченную из данных, но которая не предназначена непосредственно для генерации прогнозов. Нормализация – это ограничение значений весов в регрессии во избежание переобучения и повышения скорости вычислений.

Нормализация — это процесс масштабирования данных с плавающей точкой до значений от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных входных функций. ML.NET предоставляет ряд преобразований для нормализации.

Обучение – это процесс поиска модели для заданного набора данных для обучения. Для линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает определение точек разбиения.

Относительная абсолютная погрешность – это метрика оценки, представляющая собой сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными значениями метки и средним значением всех правильных значений метки.

Относительная квадратичная погрешность – это метрика оценки, представляющая собой сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний между правильными значениями метки и средним значением всех правильных значений метки.

Оценка — это процесс применения новых данных к обученной модели машинного обучения и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа модели оценка может быть необработанным значением, вероятностью или категорией.

Очистка данных – это обеспечение качества наборов данных. Для нахождения и исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно проверяются.

Параметры – это свойства обучающих данных, полученных при обучении модели машинного обучения или классификатора. Они настраиваются с использованием алгоритмов оптимизации и уникальны для каждого эксперимента.

Переобучение – это процесс, когда модель слишком хорошо усваивает обучающие данные и включает детали и шумы, характерные для вашего набора данных. Вы можете сказать, что модель переоснащена, когда она отлично работает с вашим набором для обучения / проверки, но плохо с вашим набором тестов (или с новыми реальными данными).

Переоснащение – это непреднамеренное моделирование случайных изменений в данных, приводящее к моделям, которые плохо работают при применении к другим наборам данных.

Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения переобучения. Смотрите также пакетирование, перекрестная проверка.

Площадь под кривой (AUC) – это метрика оценки, обозначающая площадь под кривой, которая соотносит количество истинных положительных результатов (по оси Y) и ложных положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1 (наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений правильного и ложного обнаружения).

Повышение эффективности – это метод моделирования, который создает последовательность моделей, а не одну модель, для получения более точных прогнозов. Случаи классифицируются путем применения к ним всего набора моделей, а затем объединен ия отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты.

Построение модели – это процесс создания моделей данных с использованием алгоритмов. Построение модели обычно состоит из нескольких этапов: обучение, тестирование и (необязательно) валидация оценки. Смотрите также тестирование, обучение, валидация.

Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, связанных с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие разнообразные дисциплины, как вероятность, статистика, машинное обучение и искусственный интеллект, к решению бизнес-задач, чтобы найти наилучшее действие для данной ситуации.

Проектирование признаков – это процесс, в котором определяется набор признаков и разрабатывается программное обеспечение, которое создает векторы признаков на основе доступных данных о явлении, то есть извлекает признаки

Развертывание – это процесс обеспечения широкого использования проекта прогнозной аналитики в организации.

Регрессия – это задача контролируемого машинного обучения, которая выводит реальное значение, например в формате двойной точности.

Регуляризация – это «наказывает» линейную модель за слишком большую сложность. Регуляризация использует нули как весовые коэффициенты для незначащих признаков. Размер сохраненной модели может уменьшиться после регуляризации такого рода. Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих признаков. Это более общий процесс, который менее чувствителен к выбросам.

Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети, использующей для обработки сложных последовательностей свою внутреннюю память.

Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей изначально разрабатывалась для обработки распознавания образов.

Скорость обучения – это размер шагов обновления, которые необходимо выполнить во время циклов оптимизации, таких как градиентный спуск. При высокой скорости обучения мы можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его пересчитываем. Низкая скорость обучения является более точной, но вычисление градиента отнимает много времени, поэтому нам потребуется очень много времени, чтобы разобраться в сути.

Средство оценки — это спецификация преобразования (преобразование подготовки данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку — конвейер преобразований.

  • строк и столбцов;
  • схем, которые определяют тип, формат и длину каждого столбца;
  • средств оценки.

Точность – это соотношение количества правильно классифицированных элементов и общего числа элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до 1 (наибольшая точность). Точность является одной из метрик оценки для производительности модели.

Тензоры — это тип структуры данных, который может более точно представлять сложные структуры данных. Их можно использовать для моделирования отношений между нелинейными или хаотическими переменными. Это делает их идеальными для использования в алгоритмах машинного обучения.

Тест Тьюринга – это тест, который признается пройденным только в том случае, если в ходе общения человек не смог отличить машину от человека.

Тестовый набор данных – это набор данных, который независим от обучающего набора данных, но который соответствует такому же распределению вероятностей, как и обучающий набор данных.

Трансформация – это формула, которая применяется к значениям поля для изменения распределения значений. Некоторые статистические методы требуют, чтобы поля имели определенное распределение. Когда распределение поля отличается от требуемого, преобразование (например, получение логарифмов значений) часто может устранить проблему.

Тренинговый набор данных – это набор данных, используемый для обучения моделей машинного обучения.

Функции потери — это разница между значениями меток обучения и прогноза, сделанного с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь.

Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны алгоритмы, содержимое и процессы принятия решений.

Числовой вектор признака – это вектор признака, который состоит только из числовых значений.

Числовые переменные — это переменные, в которых измерения или числа имеют числовое значение.

Шум – это любая нерелевантная информация или случайность в наборе данных, которая скрывает лежащий в основе шаблон.

Эвристика – это процесс, поиска решения методом проб и шибок в процессе которой формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее, но, как правило, оптимальный результат достигают при применении классических методов.

Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных. Например, моя собака лает, поэтому все собаки должны лаять. В машинном обучении мы часто сталкиваемся с проблемами, когда экстраполируем данные за пределы диапазона наших обучающих данных.

Эпоха – это количество раз, когда алгоритм просматривает весь набор данных.

Ссылки

Печать/экспорт