Вы находитесь здесь: Full stack разработка веб-приложений » Машинное обучение » Глоссарий

Различия

Показаны различия между двумя версиями страницы.

--- ml:glossary [2024/04/09 11:20]
admin
+++ ml:glossary [2024/04/09 11:58] (текущий)
admin
@@ Строка 1: / Строка 1: @@
 ====== Глоссарий ======
+CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных data-mining проектах
+независимо от конкретной задачи и индустрии.
+Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в
+данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
+F-мера – это метрика оценки, которая сопоставляет точность и полноту.
+Pipeline – это все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и
+обучения. После обучения конвейер становится моделью.
+Алгоритм – это метод, функция или серия инструкций, используемых для создания модели машинного обучения. Примеры включают линейную регрессию, деревья принятия решений, машины опорных векторов и нейронные сети.
+Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на
+теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.
+Ассоциация – это степень, в которой значения одного поля зависят от значений другого поля или предсказываются ими.
+Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», или сокращенно KDD, относится к широкому процессу поиска знаний в данных, и подчеркивает «высокоуровневое»
+применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, распознавания образов, баз данных, статистики, искусственный интеллекта, получения
+знаний для экспертных систем.
+Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из
+спектра 0-255 в спектр 0-1.
+Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно
+обрабатываемых горизонтально масштабируемыми программными инструментами.
+Бот – это автономная программа, которая может взаимодействовать с компьютерными системами, программами или пользователями. В большинстве случаев находится под прямым или
+косвенным управлением человека.
+Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных.
+Валидация – это необязательный заключительный этап построения модели, на котором уточненная модель, полученная на этапе тестирования, проверяется на соответствие
+дополнительному набору исходных данных. Смотрите также построение модели, тестирование, обучение.
+Визуализация данных – это процесс представления шаблонов данных в графическом
+формате, включая использование традиционных графиков, а также усовершенствованной
+интерактивной графики. Во многих случаях визуализация выявляет шаблоны, которые было бы
+трудно найти другими методами.
+Входные данные — это информация, поступающая в систему из различных источников, для
+обработки или хранения.
+Выброс – это наблюдение, которое значительно отличается от других наблюдений в наборе
+данных.
+Выходные данные — это результат работы алгоритма после его выполнения. Выходные
+данные могут быть числами, строками, объектами или другими значениями, которые представляют
+результат решения задачи машинного обучения.
+Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно
+привести число деревьев, которые изучаются в лесе решений или размер шага в алгоритме
+градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, и они
+управляют процессом поиска параметров для функции прогнозирования, например точек
+сравнения в дереве принятия решений или весов в модели линейной регрессии.
+Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То
+есть одним компьютером, одной программой переработать столько информации просто
+невозможно. Поэтому используются нейронные сети.
+Данные – это центральный элемент любого приложения машинного обучения. Объекты
+представления данных состоят из:
+Двоичная классификация – это сценарий классификации, в котором значение метки может
+быть только одним из двух классов.
+Дерево решений – это древовидный граф, состоящий из узлов и листьев, соединённых
+между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы.
+Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья
+решений подразделяются на два типа: деревья классификации и деревья регрессии.
+Определяющим фактором, от которого зависит тип дерева, является выходное значение,
+непрерывное или категориальное.
+Диаграмма рассеяния - график двух переменных, в которых каждая точка определяется по
+ее координатам (X, Y). Например, высота и вес.
+Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке.
+Общими мерами вариабельности данных являются дисперсия, стандартное отклонение,
+межквартильный размах.
+Доверительный интервал – это интервал, вычисленный из выборки, который содержит
+значение определенного параметра совокупности с определенной вероятностью.
+Зависимая переменная - переменная (обычно обозначенная как Y), которая предсказана
+независимой переменной в регрессионном анализе, также называется откликом.
+Интеллектуальный агент – это бот, используемый при решении задач искусственным
+интеллектом.
+Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей
+в данных для получения новой информации.
+Интерполяция - оценка неизвестного значения, которое лежит между двумя известными
+значениями.
+Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и
+технология разработки компьютеров, выполняющих функции, которые до недавнего времени
+считались прерогативой человеческого интеллекта.
+Итерация – это обновление весов после анализа пакета входных записей.
+Калибровка — это процесс сопоставления необработанной оценки на членство в классе для
+двоичной и мультиклассовой классификации.
+Каталог — это совокупность функций расширения, сгруппированных по общей цели.
+Например, каждая задача машинного обучения (двоичная классификация, регрессия,
+ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих).
+Категориальные переменные – это переменные с дискретным набором возможных
+значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не
+имеет значения).
+Квартили – это значения, которые делят упорядоченные наблюдения на четыре равные
+части. Различают нижний, верхний квартиль, а также медиану выборки.
+Классификация – это задача контролируемого машинного обучения. Двоичная
+классификация обозначает прогнозирование только по двум категориям (например, разделение
+изображений на группы "кошки" и "собаки"). Многоклассовая классификация обозначает
+прогнозирование по нескольким категориям (например, разделение изображений на группы
+конкретных пород собак).
+Кластеризация – это неконтролируемая группировка данных в сегменты.
+Кластеры данных – это часть высокой концентрации групп данных в наборе данных,
+скопление однотипных объектов, которые близки между собой и отличаются от других объектов
+выборки.
+Коллинеарность – это пары независимых переменных в регрессионном анализе высоко
+коррелируют, если их корреляции по модулю близки к единице.
+Компьютерное зрение – это междисциплинарная научная предметная область ИИ и
+информатики, посвященная изучению и разработке компьютеров, способных к визуальному
+распознаванию информации на входе.
+Контролируемое машинное обучение – это подкласс машинного обучения, в котором
+нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать
+классификацию, регрессию и структурированный прогноз.
+Контрольная группа – это термин, применяемый в сравнительных исследованиях,
+например, в клинических испытаниях, для обозначения группы сравнения.
+Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, которая влияет как на зависимую переменную, так и на независимую переменную,
+искажая результаты исследования.
+Корень среднеквадратичной погрешности – это метрика оценки, вычисляемая как
+квадратный корень из среднего значения квадратов погрешностей.
+Корреляция – это статистический показатель связи между двумя числовыми
+полями. Значения варьируются от -1 до +1. Корреляция, равная 0, означает, что между двумя
+полями нет взаимосвязи.
+Коэффициент вариации – это стандартное отклонение, делённое на среднее, часто
+выражено в процентах, является мерой вариабельности данных.
+Коэффициент детерминации – это метрика оценки, которая позволяет понять, насколько
+хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0
+означает, что данные полностью случайны или по другим причинам не могут соответствовать
+модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто
+обозначают как r2, R2 или R-квадрат.
+Линейная регрессия – это метод анализа данных, который предсказывает ценность
+неизвестных данных с помощью другого связанного и известного значения данных.
+Логарифмические потери – это метрика оценки, которая характеризующий точность
+классификатора. Чем меньше логарифмические потери, тем точнее классификатор.
+Логистическая регрессия – это метод анализа данных, который использует математику для
+поиска взаимосвязей между двумя факторами данных.
+Машинное обучение (англ. machine learning, ML) — класс методов искусственного
+интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт
+применения решений множества сходных задач.
+Машинное обучение без учителя – это обучение, которое строится на том, что человеку и
+программе неизвестны правильные ответы заранее, имеется только некий массив данных.
+Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе
+оказываются получены неочевидные и нетривиальные решения.
+Машинное обучение с учителем – это один из способов машинного обучения, в ходе
+которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С
+точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между
+входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но
+она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция»,
+называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость
+(построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить
+алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения
+точности ответов, так же, как и в обучении на примерах, может вводиться функционал качества.
+Метка – это элемент, который прогнозируется с помощью модели машинного обучения.
+Например, порода собаки или будущая цена акций.
+Метод обратного распространения ошибки – это метод обучения нейронных сетей с
+учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он
+способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного
+обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом
+методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый
+выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется
+ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном
+проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов
+нейронов в соответствии с правилом.
+Многоклассовая классификация – это значение метки может быть только одним из трех или
+больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме
+Задачи машинного обучения.
+Моделирование – это параметры для прогнозирующей функции. Например, значения веса
+в модели линейной регрессии или точки разбиения в дереве принятия решений.
+Модель – это структура данных, которая хранит представление набора данных (веса и
+отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных.
+Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для
+экземпляра.
+Набор данных – это записи в виде столбцов (полей) и строк, содержащихся в файле или
+таблице базы данных.
+Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики,
+изучающий проблемы анализа, обработки и представления данных в цифровой форме.
+Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня
+параллелизма, статистические методы, методы интеллектуального анализа данных и приложения
+искусственного интеллекта для работы с данными, а также методы проектирования и разработки
+баз данных.
+Нейронные сети – это математические алгоритмы, смоделированные на основе
+архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в
+данных.
+Неконтролируемое машинное обучение – это подкласс машинного обучения, в котором
+нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами
+можно считать кластеризацию, тематическое моделирование и сокращение размерности.
+Нерафинированная модель – это модель, которая содержит информацию, извлеченную из
+данных, но которая не предназначена непосредственно для генерации прогнозов.
+Нормализация – это ограничение значений весов в регрессии во избежание переобучения
+и повышения скорости вычислений.
+Нормализация — это процесс масштабирования данных с плавающей точкой до значений
+от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных
+входных функций. ML.NET предоставляет ряд преобразований для нормализации.
+Обучение – это процесс поиска модели для заданного набора данных для обучения. Для
+линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает
+определение точек разбиения.
+Относительная абсолютная погрешность – это метрика оценки, представляющая собой
+сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными
+значениями метки и средним значением всех правильных значений метки.
+Относительная квадратичная погрешность – это метрика оценки, представляющая собой
+сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний
+между правильными значениями метки и средним значением всех правильных значений метки.
+Оценка — это процесс применения новых данных к обученной модели машинного обучения
+и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа
+модели оценка может быть необработанным значением, вероятностью или категорией.
+Очистка данных – это обеспечение качества наборов данных. Для нахождения и
+исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно
+проверяются.
+Параметры – это свойства обучающих данных, полученных при обучении модели
+машинного обучения или классификатора. Они настраиваются с использованием алгоритмов
+оптимизации и уникальны для каждого эксперимента.
+Переобучение – это процесс, когда модель слишком хорошо усваивает обучающие данные
+и включает детали и шумы, характерные для вашего набора данных. Вы можете сказать, что модель
+переоснащена, когда она отлично работает с вашим набором для обучения / проверки, но плохо с
+вашим набором тестов (или с новыми реальными данными).
+Переоснащение – это непреднамеренное моделирование случайных изменений в данных,
+приводящее к моделям, которые плохо работают при применении к другим наборам данных.
+Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения
+переобучения. Смотрите также пакетирование, перекрестная проверка.
+Площадь под кривой (AUC) – это метрика оценки, обозначающая площадь под кривой,
+которая соотносит количество истинных положительных результатов (по оси Y) и ложных
+положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1
+(наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений
+правильного и ложного обнаружения).
+Повышение эффективности – это метод моделирования, который создает
+последовательность моделей, а не одну модель, для получения более точных прогнозов. Случаи
+классифицируются путем применения к ним всего набора моделей, а затем объединен ия
+отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты.
+Построение модели – это процесс создания моделей данных с использованием
+алгоритмов. Построение модели обычно состоит из нескольких этапов: обучение, тестирование и
+(необязательно) валидация оценки. Смотрите также тестирование, обучение, валидация.
+Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, связанных
+с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие
+разнообразные дисциплины, как вероятность, статистика, машинное обучение и искусственный
+интеллект, к решению бизнес-задач, чтобы найти наилучшее действие для данной ситуации.
+Проектирование признаков – это процесс, в котором определяется набор признаков и
+разрабатывается программное обеспечение, которое создает векторы признаков на основе
+доступных данных о явлении, то есть извлекает признаки
+Развертывание – это процесс обеспечения широкого использования проекта прогнозной
+аналитики в организации.
+Регрессия – это задача контролируемого машинного обучения, которая выводит реальное
+значение, например в формате двойной точности.
+Регуляризация – это "наказывает" линейную модель за слишком большую сложность.
+Регуляризация использует нули как весовые коэффициенты для незначащих признаков.
+Размер сохраненной модели может уменьшиться после регуляризации такого рода.
+Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих
+признаков. Это более общий процесс, который менее чувствителен к выбросам.
+Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети,
+использующей для обработки сложных последовательностей свою внутреннюю память.
+Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для
+распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей
+изначально разрабатывалась для обработки распознавания образов.
+Скорость обучения – это размер шагов обновления, которые необходимо выполнить во
+время циклов оптимизации, таких как градиентный спуск. При высокой скорости обучения мы
+можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую
+точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы
+можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его
+пересчитываем. Низкая скорость обучения является более точной, но вычисление градиента
+отнимает много времени, поэтому нам потребуется очень много времени, чтобы разобраться в
+сути.
+Средство оценки — это спецификация преобразования (преобразование подготовки
+данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку
+— конвейер преобразований.
+  * строк и столбцов;
+  * схем, которые определяют тип, формат и длину каждого столбца;
+  * средств оценки.
+Точность – это соотношение количества правильно классифицированных элементов и общего числа
+элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до
+(наибольшая точность). Точность является одной из метрик оценки для производительности
+модели.
+Тензоры — это тип структуры данных, который может более точно представлять сложные
+структуры данных. Их можно использовать для моделирования отношений между нелинейными
+или хаотическими переменными. Это делает их идеальными для использования в алгоритмах
+машинного обучения.
+Тест Тьюринга – это тест, который признается пройденным только в том случае, если в ходе
+общения человек не смог отличить машину от человека.
+Тестовый набор данных – это набор данных, который независим от обучающего набора
+данных, но который соответствует такому же распределению вероятностей, как и обучающий набор
+данных.
+Трансформация – это формула, которая применяется к значениям поля для изменения
+распределения значений. Некоторые статистические методы требуют, чтобы поля имели
+определенное распределение. Когда распределение поля отличается от требуемого,
+преобразование (например, получение логарифмов значений) часто может устранить проблему.
+Тренинговый набор данных – это набор данных, используемый для обучения моделей
+машинного обучения.
+Функции потери — это разница между значениями меток обучения и прогноза, сделанного
+с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь.
+Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны
+алгоритмы, содержимое и процессы принятия решений.
+Числовой вектор признака – это вектор признака, который состоит только из числовых
+значений.
+Числовые переменные — это переменные, в которых измерения или числа имеют числовое
+значение.
+Шум – это любая нерелевантная информация или случайность в наборе данных, которая
+скрывает лежащий в основе шаблон.
+Эвристика – это процесс, поиска решения методом проб и шибок в процессе которой
+формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее,
+но, как правило, оптимальный результат достигают при применении классических методов.
+Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных.
+Например, моя собака лает, поэтому все собаки должны лаять. В машинном обучении мы часто
+сталкиваемся с проблемами, когда экстраполируем данные за пределы диапазона наших
+обучающих данных.
+Эпоха – это количество раз, когда алгоритм просматривает весь набор данных.

Вы посетили:

Различия

Поиск

Навигация

Печать/экспорт

Инструменты