Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
ml:glossary [2024/04/09 11:20]
admin
ml:glossary [2024/04/09 11:58] (текущий)
admin
Строка 1: Строка 1:
 ====== Глоссарий ====== ====== Глоссарий ======
 +
 +CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных data-mining проектах
 +независимо от конкретной задачи и индустрии.
 +
 +Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в
 +данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
 +
 +F-мера – это метрика оценки, которая сопоставляет точность и полноту.
 +
 +Pipeline – это все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и
 +обучения. После обучения конвейер становится моделью.
 +
 +Алгоритм – это метод, функция или серия инструкций, используемых для создания модели машинного обучения. Примеры включают линейную регрессию, деревья принятия решений, машины опорных векторов и нейронные сети.
 +
 +Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на
 +теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.
 +
 +Ассоциация – это степень, в которой значения одного поля зависят от значений другого поля или предсказываются ими.
 +
 +Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», или сокращенно KDD, относится к широкому процессу поиска знаний в данных, и подчеркивает «высокоуровневое»
 +применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, распознавания образов, баз данных, статистики, искусственный интеллекта, получения
 +знаний для экспертных систем.
 +
 +Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из
 +спектра 0-255 в спектр 0-1.
 +
 +Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно
 +обрабатываемых горизонтально масштабируемыми программными инструментами.
 +
 +Бот – это автономная программа, которая может взаимодействовать с компьютерными системами, программами или пользователями. В большинстве случаев находится под прямым или
 +косвенным управлением человека.
 +
 +Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных.
 +
 +Валидация – это необязательный заключительный этап построения модели, на котором уточненная модель, полученная на этапе тестирования, проверяется на соответствие
 +дополнительному набору исходных данных. Смотрите также построение модели, тестирование, обучение.
 +
 +Визуализация данных – это процесс представления шаблонов данных в графическом
 +формате, включая использование традиционных графиков, а также усовершенствованной
 +интерактивной графики. Во многих случаях визуализация выявляет шаблоны, которые было бы
 +трудно найти другими методами.
 +
 +Входные данные — это информация, поступающая в систему из различных источников, для
 +обработки или хранения.
 +
 +Выброс – это наблюдение, которое значительно отличается от других наблюдений в наборе
 +данных.
 +
 +Выходные данные — это результат работы алгоритма после его выполнения. Выходные
 +данные могут быть числами, строками, объектами или другими значениями, которые представляют
 +результат решения задачи машинного обучения.
 +
 +Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно
 +привести число деревьев, которые изучаются в лесе решений или размер шага в алгоритме
 +градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, и они
 +управляют процессом поиска параметров для функции прогнозирования, например точек
 +сравнения в дереве принятия решений или весов в модели линейной регрессии.
 +
 +Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То
 +есть одним компьютером, одной программой переработать столько информации просто
 +невозможно. Поэтому используются нейронные сети.
 +
 +Данные – это центральный элемент любого приложения машинного обучения. Объекты
 +представления данных состоят из:
 +
 +Двоичная классификация – это сценарий классификации, в котором значение метки может
 +быть только одним из двух классов.
 +
 +Дерево решений – это древовидный граф, состоящий из узлов и листьев, соединённых
 +между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы.
 +Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья
 +решений подразделяются на два типа: деревья классификации и деревья регрессии.
 +Определяющим фактором, от которого зависит тип дерева, является выходное значение,
 +непрерывное или категориальное.
 +
 +Диаграмма рассеяния - график двух переменных, в которых каждая точка определяется по
 +ее координатам (X, Y). Например, высота и вес.
 +
 +Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке.
 +Общими мерами вариабельности данных являются дисперсия, стандартное отклонение,
 +межквартильный размах.
 +
 +Доверительный интервал – это интервал, вычисленный из выборки, который содержит
 +значение определенного параметра совокупности с определенной вероятностью.
 +
 +Зависимая переменная - переменная (обычно обозначенная как Y), которая предсказана
 +независимой переменной в регрессионном анализе, также называется откликом.
 +
 +Интеллектуальный агент – это бот, используемый при решении задач искусственным
 +интеллектом.
 +
 +Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей
 +в данных для получения новой информации.
 +
 +Интерполяция - оценка неизвестного значения, которое лежит между двумя известными
 +значениями.
 +
 +Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и
 +технология разработки компьютеров, выполняющих функции, которые до недавнего времени
 +считались прерогативой человеческого интеллекта.
 +
 +Итерация – это обновление весов после анализа пакета входных записей.
 +
 +Калибровка — это процесс сопоставления необработанной оценки на членство в классе для
 +двоичной и мультиклассовой классификации.
 +
 +Каталог — это совокупность функций расширения, сгруппированных по общей цели.
 +Например, каждая задача машинного обучения (двоичная классификация, регрессия,
 +ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих).
 +
 +Категориальные переменные – это переменные с дискретным набором возможных
 +значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не
 +имеет значения).
 +
 +Квартили – это значения, которые делят упорядоченные наблюдения на четыре равные
 +части. Различают нижний, верхний квартиль, а также медиану выборки.
 +
 +Классификация – это задача контролируемого машинного обучения. Двоичная
 +классификация обозначает прогнозирование только по двум категориям (например, разделение
 +изображений на группы "кошки" и "собаки"). Многоклассовая классификация обозначает
 +прогнозирование по нескольким категориям (например, разделение изображений на группы
 +конкретных пород собак).
 +
 +Кластеризация – это неконтролируемая группировка данных в сегменты.
 +
 +Кластеры данных – это часть высокой концентрации групп данных в наборе данных,
 +скопление однотипных объектов, которые близки между собой и отличаются от других объектов
 +выборки.
 +
 +Коллинеарность – это пары независимых переменных в регрессионном анализе высоко
 +коррелируют, если их корреляции по модулю близки к единице.
 +
 +Компьютерное зрение – это междисциплинарная научная предметная область ИИ и
 +информатики, посвященная изучению и разработке компьютеров, способных к визуальному
 +распознаванию информации на входе.
 +
 +Контролируемое машинное обучение – это подкласс машинного обучения, в котором
 +нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать
 +классификацию, регрессию и структурированный прогноз.
 +
 +Контрольная группа – это термин, применяемый в сравнительных исследованиях,
 +например, в клинических испытаниях, для обозначения группы сравнения.
 +
 +Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, которая влияет как на зависимую переменную, так и на независимую переменную,
 +искажая результаты исследования.
 +
 +Корень среднеквадратичной погрешности – это метрика оценки, вычисляемая как
 +квадратный корень из среднего значения квадратов погрешностей.
 +
 +Корреляция – это статистический показатель связи между двумя числовыми
 +полями. Значения варьируются от -1 до +1. Корреляция, равная 0, означает, что между двумя
 +полями нет взаимосвязи.
 +
 +Коэффициент вариации – это стандартное отклонение, делённое на среднее, часто
 +выражено в процентах, является мерой вариабельности данных.
 +
 +Коэффициент детерминации – это метрика оценки, которая позволяет понять, насколько
 +хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0
 +означает, что данные полностью случайны или по другим причинам не могут соответствовать
 +модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто
 +обозначают как r2, R2 или R-квадрат.
 +
 +Линейная регрессия – это метод анализа данных, который предсказывает ценность
 +неизвестных данных с помощью другого связанного и известного значения данных.
 +
 +Логарифмические потери – это метрика оценки, которая характеризующий точность
 +классификатора. Чем меньше логарифмические потери, тем точнее классификатор.
 +
 +Логистическая регрессия – это метод анализа данных, который использует математику для
 +поиска взаимосвязей между двумя факторами данных.
 +
 +Машинное обучение (англ. machine learning, ML) — класс методов искусственного
 +интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт
 +применения решений множества сходных задач.
 +
 +Машинное обучение без учителя – это обучение, которое строится на том, что человеку и
 +программе неизвестны правильные ответы заранее, имеется только некий массив данных.
 +Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе
 +оказываются получены неочевидные и нетривиальные решения.
 +
 +Машинное обучение с учителем – это один из способов машинного обучения, в ходе
 +которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С
 +точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между
 +входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но
 +она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция»,
 +называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость
 +(построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить
 +алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения
 +точности ответов, так же, как и в обучении на примерах, может вводиться функционал качества.
 +
 +Метка – это элемент, который прогнозируется с помощью модели машинного обучения.
 +Например, порода собаки или будущая цена акций.
 +
 +Метод обратного распространения ошибки – это метод обучения нейронных сетей с
 +учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он
 +способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного
 +обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом
 +методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый
 +выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется
 +ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном
 +проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов
 +нейронов в соответствии с правилом.
 +
 +Многоклассовая классификация – это значение метки может быть только одним из трех или
 +больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме
 +Задачи машинного обучения.
 +
 +Моделирование – это параметры для прогнозирующей функции. Например, значения веса
 +в модели линейной регрессии или точки разбиения в дереве принятия решений.
 +
 +Модель – это структура данных, которая хранит представление набора данных (веса и
 +отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных.
 +Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для
 +экземпляра.
 +
 +Набор данных – это записи в виде столбцов (полей) и строк, содержащихся в файле или
 +таблице базы данных.
 +
 +Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики,
 +изучающий проблемы анализа, обработки и представления данных в цифровой форме.
 +Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня
 +параллелизма, статистические методы, методы интеллектуального анализа данных и приложения
 +искусственного интеллекта для работы с данными, а также методы проектирования и разработки
 +баз данных.
 +
 +Нейронные сети – это математические алгоритмы, смоделированные на основе
 +архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в
 +данных.
 +
 +Неконтролируемое машинное обучение – это подкласс машинного обучения, в котором
 +нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами
 +можно считать кластеризацию, тематическое моделирование и сокращение размерности.
 +
 +Нерафинированная модель – это модель, которая содержит информацию, извлеченную из
 +данных, но которая не предназначена непосредственно для генерации прогнозов.
 +Нормализация – это ограничение значений весов в регрессии во избежание переобучения
 +и повышения скорости вычислений.
 +
 +Нормализация — это процесс масштабирования данных с плавающей точкой до значений
 +от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных
 +входных функций. ML.NET предоставляет ряд преобразований для нормализации.
 +
 +Обучение – это процесс поиска модели для заданного набора данных для обучения. Для
 +линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает
 +определение точек разбиения.
 +
 +Относительная абсолютная погрешность – это метрика оценки, представляющая собой
 +сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными
 +значениями метки и средним значением всех правильных значений метки.
 +
 +Относительная квадратичная погрешность – это метрика оценки, представляющая собой
 +сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний
 +между правильными значениями метки и средним значением всех правильных значений метки.
 +
 +Оценка — это процесс применения новых данных к обученной модели машинного обучения
 +и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа
 +модели оценка может быть необработанным значением, вероятностью или категорией.
 +
 +Очистка данных – это обеспечение качества наборов данных. Для нахождения и
 +исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно
 +проверяются.
 +
 +Параметры – это свойства обучающих данных, полученных при обучении модели
 +машинного обучения или классификатора. Они настраиваются с использованием алгоритмов
 +оптимизации и уникальны для каждого эксперимента.
 +
 +Переобучение – это процесс, когда модель слишком хорошо усваивает обучающие данные
 +и включает детали и шумы, характерные для вашего набора данных. Вы можете сказать, что модель
 +переоснащена, когда она отлично работает с вашим набором для обучения / проверки, но плохо с
 +вашим набором тестов (или с новыми реальными данными).
 +
 +Переоснащение – это непреднамеренное моделирование случайных изменений в данных,
 +приводящее к моделям, которые плохо работают при применении к другим наборам данных.
 +
 +Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения
 +переобучения. Смотрите также пакетирование, перекрестная проверка.
 +
 +Площадь под кривой (AUC) – это метрика оценки, обозначающая площадь под кривой,
 +которая соотносит количество истинных положительных результатов (по оси Y) и ложных
 +положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1
 +(наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений
 +правильного и ложного обнаружения).
 +
 +Повышение эффективности – это метод моделирования, который создает
 +последовательность моделей, а не одну модель, для получения более точных прогнозов. Случаи
 +классифицируются путем применения к ним всего набора моделей, а затем объединен ия
 +отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты.
 +
 +Построение модели – это процесс создания моделей данных с использованием
 +алгоритмов. Построение модели обычно состоит из нескольких этапов: обучение, тестирование и
 +(необязательно) валидация оценки. Смотрите также тестирование, обучение, валидация.
 +
 +Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, связанных
 +с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие
 +разнообразные дисциплины, как вероятность, статистика, машинное обучение и искусственный
 +интеллект, к решению бизнес-задач, чтобы найти наилучшее действие для данной ситуации.
 +
 +Проектирование признаков – это процесс, в котором определяется набор признаков и
 +разрабатывается программное обеспечение, которое создает векторы признаков на основе
 +доступных данных о явлении, то есть извлекает признаки
 +
 +Развертывание – это процесс обеспечения широкого использования проекта прогнозной
 +аналитики в организации.
 +
 +Регрессия – это задача контролируемого машинного обучения, которая выводит реальное
 +значение, например в формате двойной точности.
 +
 +Регуляризация – это "наказывает" линейную модель за слишком большую сложность.
 +Регуляризация использует нули как весовые коэффициенты для незначащих признаков.
 +Размер сохраненной модели может уменьшиться после регуляризации такого рода.
 +Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих
 +признаков. Это более общий процесс, который менее чувствителен к выбросам.
 +
 +Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети,
 +использующей для обработки сложных последовательностей свою внутреннюю память.
 +
 +Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для
 +распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей
 +изначально разрабатывалась для обработки распознавания образов.
 +
 +Скорость обучения – это размер шагов обновления, которые необходимо выполнить во
 +время циклов оптимизации, таких как градиентный спуск. При высокой скорости обучения мы
 +можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую
 +точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы
 +можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его
 +пересчитываем. Низкая скорость обучения является более точной, но вычисление градиента
 +отнимает много времени, поэтому нам потребуется очень много времени, чтобы разобраться в
 +сути.
 +
 +Средство оценки — это спецификация преобразования (преобразование подготовки
 +данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку
 +— конвейер преобразований.
 +  * строк и столбцов;
 +  * схем, которые определяют тип, формат и длину каждого столбца;
 +  * средств оценки.
 +
 +Точность – это соотношение количества правильно классифицированных элементов и общего числа
 +элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до
 +1 (наибольшая точность). Точность является одной из метрик оценки для производительности
 +модели.
 +
 +Тензоры — это тип структуры данных, который может более точно представлять сложные
 +структуры данных. Их можно использовать для моделирования отношений между нелинейными
 +или хаотическими переменными. Это делает их идеальными для использования в алгоритмах
 +машинного обучения.
 +
 +Тест Тьюринга – это тест, который признается пройденным только в том случае, если в ходе
 +общения человек не смог отличить машину от человека.
 +
 +Тестовый набор данных – это набор данных, который независим от обучающего набора
 +данных, но который соответствует такому же распределению вероятностей, как и обучающий набор
 +данных.
 +
 +Трансформация – это формула, которая применяется к значениям поля для изменения
 +распределения значений. Некоторые статистические методы требуют, чтобы поля имели
 +определенное распределение. Когда распределение поля отличается от требуемого,
 +преобразование (например, получение логарифмов значений) часто может устранить проблему.
 +
 +Тренинговый набор данных – это набор данных, используемый для обучения моделей
 +машинного обучения.
 +
 +Функции потери — это разница между значениями меток обучения и прогноза, сделанного
 +с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь.
 +
 +Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны
 +алгоритмы, содержимое и процессы принятия решений.
 +
 +Числовой вектор признака – это вектор признака, который состоит только из числовых
 +значений.
 +
 +Числовые переменные — это переменные, в которых измерения или числа имеют числовое
 +значение.
 +
 +Шум – это любая нерелевантная информация или случайность в наборе данных, которая
 +скрывает лежащий в основе шаблон.
 +
 +Эвристика – это процесс, поиска решения методом проб и шибок в процессе которой
 +формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее,
 +но, как правило, оптимальный результат достигают при применении классических методов.
 +
 +Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных.
 +Например, моя собака лает, поэтому все собаки должны лаять. В машинном обучении мы часто
 +сталкиваемся с проблемами, когда экстраполируем данные за пределы диапазона наших
 +обучающих данных.
 +
 +Эпоха – это количество раз, когда алгоритм просматривает весь набор данных.
  
  
Печать/экспорт