Различия
Показаны различия между двумя версиями страницы.
Предыдущая версия справа и слева Предыдущая версия | |||
ml:glossary [2024/04/09 11:20] admin |
ml:glossary [2024/04/09 11:58] (текущий) admin |
||
---|---|---|---|
Строка 1: | Строка 1: | ||
====== Глоссарий ====== | ====== Глоссарий ====== | ||
+ | |||
+ | CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, | ||
+ | независимо от конкретной задачи и индустрии. | ||
+ | |||
+ | Data mining (рус. добыча данных, | ||
+ | данных ранее неизвестных, | ||
+ | |||
+ | F-мера – это метрика оценки, | ||
+ | |||
+ | Pipeline – это все операции, | ||
+ | обучения. После обучения конвейер становится моделью. | ||
+ | |||
+ | Алгоритм – это метод, функция или серия инструкций, | ||
+ | |||
+ | Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на | ||
+ | теории вероятности, | ||
+ | |||
+ | Ассоциация – это степень, | ||
+ | |||
+ | Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», | ||
+ | применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, | ||
+ | знаний для экспертных систем. | ||
+ | |||
+ | Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из | ||
+ | спектра 0-255 в спектр 0-1. | ||
+ | |||
+ | Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, | ||
+ | обрабатываемых горизонтально масштабируемыми программными инструментами. | ||
+ | |||
+ | Бот – это автономная программа, | ||
+ | косвенным управлением человека. | ||
+ | |||
+ | Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных. | ||
+ | |||
+ | Валидация – это необязательный заключительный этап построения модели, | ||
+ | дополнительному набору исходных данных. Смотрите также построение модели, | ||
+ | |||
+ | Визуализация данных – это процесс представления шаблонов данных в графическом | ||
+ | формате, | ||
+ | интерактивной графики. Во многих случаях визуализация выявляет шаблоны, | ||
+ | трудно найти другими методами. | ||
+ | |||
+ | Входные данные — это информация, | ||
+ | обработки или хранения. | ||
+ | |||
+ | Выброс – это наблюдение, | ||
+ | данных. | ||
+ | |||
+ | Выходные данные — это результат работы алгоритма после его выполнения. Выходные | ||
+ | данные могут быть числами, | ||
+ | результат решения задачи машинного обучения. | ||
+ | |||
+ | Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно | ||
+ | привести число деревьев, | ||
+ | градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, | ||
+ | управляют процессом поиска параметров для функции прогнозирования, | ||
+ | сравнения в дереве принятия решений или весов в модели линейной регрессии. | ||
+ | |||
+ | Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То | ||
+ | есть одним компьютером, | ||
+ | невозможно. Поэтому используются нейронные сети. | ||
+ | |||
+ | Данные – это центральный элемент любого приложения машинного обучения. Объекты | ||
+ | представления данных состоят из: | ||
+ | |||
+ | Двоичная классификация – это сценарий классификации, | ||
+ | быть только одним из двух классов. | ||
+ | |||
+ | Дерево решений – это древовидный граф, состоящий из узлов и листьев, | ||
+ | между собой рёбрами. В узлах графа происходит принятие решений, | ||
+ | Граф дерева решений должен быть ациклический, | ||
+ | решений подразделяются на два типа: деревья классификации и деревья регрессии. | ||
+ | Определяющим фактором, | ||
+ | непрерывное или категориальное. | ||
+ | |||
+ | Диаграмма рассеяния - график двух переменных, | ||
+ | ее координатам (X, Y). Например, | ||
+ | |||
+ | Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке. | ||
+ | Общими мерами вариабельности данных являются дисперсия, | ||
+ | межквартильный размах. | ||
+ | |||
+ | Доверительный интервал – это интервал, | ||
+ | значение определенного параметра совокупности с определенной вероятностью. | ||
+ | |||
+ | Зависимая переменная - переменная (обычно обозначенная как Y), которая предсказана | ||
+ | независимой переменной в регрессионном анализе, | ||
+ | |||
+ | Интеллектуальный агент – это бот, используемый при решении задач искусственным | ||
+ | интеллектом. | ||
+ | |||
+ | Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей | ||
+ | в данных для получения новой информации. | ||
+ | |||
+ | Интерполяция - оценка неизвестного значения, | ||
+ | значениями. | ||
+ | |||
+ | Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и | ||
+ | технология разработки компьютеров, | ||
+ | считались прерогативой человеческого интеллекта. | ||
+ | |||
+ | Итерация – это обновление весов после анализа пакета входных записей. | ||
+ | |||
+ | Калибровка — это процесс сопоставления необработанной оценки на членство в классе для | ||
+ | двоичной и мультиклассовой классификации. | ||
+ | |||
+ | Каталог — это совокупность функций расширения, | ||
+ | Например, | ||
+ | ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих). | ||
+ | |||
+ | Категориальные переменные – это переменные с дискретным набором возможных | ||
+ | значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не | ||
+ | имеет значения). | ||
+ | |||
+ | Квартили – это значения, | ||
+ | части. Различают нижний, | ||
+ | |||
+ | Классификация – это задача контролируемого машинного обучения. Двоичная | ||
+ | классификация обозначает прогнозирование только по двум категориям (например, | ||
+ | изображений на группы " | ||
+ | прогнозирование по нескольким категориям (например, | ||
+ | конкретных пород собак). | ||
+ | |||
+ | Кластеризация – это неконтролируемая группировка данных в сегменты. | ||
+ | |||
+ | Кластеры данных – это часть высокой концентрации групп данных в наборе данных, | ||
+ | скопление однотипных объектов, | ||
+ | выборки. | ||
+ | |||
+ | Коллинеарность – это пары независимых переменных в регрессионном анализе высоко | ||
+ | коррелируют, | ||
+ | |||
+ | Компьютерное зрение – это междисциплинарная научная предметная область ИИ и | ||
+ | информатики, | ||
+ | распознаванию информации на входе. | ||
+ | |||
+ | Контролируемое машинное обучение – это подкласс машинного обучения, | ||
+ | нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать | ||
+ | классификацию, | ||
+ | |||
+ | Контрольная группа – это термин, | ||
+ | например, | ||
+ | |||
+ | Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, | ||
+ | искажая результаты исследования. | ||
+ | |||
+ | Корень среднеквадратичной погрешности – это метрика оценки, | ||
+ | квадратный корень из среднего значения квадратов погрешностей. | ||
+ | |||
+ | Корреляция – это статистический показатель связи между двумя числовыми | ||
+ | полями. Значения варьируются от -1 до +1. Корреляция, | ||
+ | полями нет взаимосвязи. | ||
+ | |||
+ | Коэффициент вариации – это стандартное отклонение, | ||
+ | выражено в процентах, | ||
+ | |||
+ | Коэффициент детерминации – это метрика оценки, | ||
+ | хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0 | ||
+ | означает, | ||
+ | модели. Значение 1 означает, | ||
+ | обозначают как r2, R2 или R-квадрат. | ||
+ | |||
+ | Линейная регрессия – это метод анализа данных, | ||
+ | неизвестных данных с помощью другого связанного и известного значения данных. | ||
+ | |||
+ | Логарифмические потери – это метрика оценки, | ||
+ | классификатора. Чем меньше логарифмические потери, | ||
+ | |||
+ | Логистическая регрессия – это метод анализа данных, | ||
+ | поиска взаимосвязей между двумя факторами данных. | ||
+ | |||
+ | Машинное обучение (англ. machine learning, ML) — класс методов искусственного | ||
+ | интеллекта, | ||
+ | применения решений множества сходных задач. | ||
+ | |||
+ | Машинное обучение без учителя – это обучение, | ||
+ | программе неизвестны правильные ответы заранее, | ||
+ | Аналитическая машина, | ||
+ | оказываются получены неочевидные и нетривиальные решения. | ||
+ | |||
+ | Машинное обучение с учителем – это один из способов машинного обучения, | ||
+ | которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С | ||
+ | точки зрения кибернетики, | ||
+ | входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, | ||
+ | она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», | ||
+ | называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость | ||
+ | (построить модель отношений стимул-реакция, | ||
+ | алгоритм, | ||
+ | точности ответов, | ||
+ | |||
+ | Метка – это элемент, | ||
+ | Например, | ||
+ | |||
+ | Метод обратного распространения ошибки – это метод обучения нейронных сетей с | ||
+ | учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он | ||
+ | способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного | ||
+ | обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом | ||
+ | методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый | ||
+ | выходной вектор, | ||
+ | ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном | ||
+ | проходе эта ошибка распространяется от выхода сети к ее входам, | ||
+ | нейронов в соответствии с правилом. | ||
+ | |||
+ | Многоклассовая классификация – это значение метки может быть только одним из трех или | ||
+ | больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме | ||
+ | Задачи машинного обучения. | ||
+ | |||
+ | Моделирование – это параметры для прогнозирующей функции. Например, | ||
+ | в модели линейной регрессии или точки разбиения в дереве принятия решений. | ||
+ | |||
+ | Модель – это структура данных, | ||
+ | отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных. | ||
+ | Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для | ||
+ | экземпляра. | ||
+ | |||
+ | Набор данных – это записи в виде столбцов (полей) и строк, содержащихся в файле или | ||
+ | таблице базы данных. | ||
+ | |||
+ | Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики, | ||
+ | изучающий проблемы анализа, | ||
+ | Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня | ||
+ | параллелизма, | ||
+ | искусственного интеллекта для работы с данными, | ||
+ | баз данных. | ||
+ | |||
+ | Нейронные сети – это математические алгоритмы, | ||
+ | архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в | ||
+ | данных. | ||
+ | |||
+ | Неконтролируемое машинное обучение – это подкласс машинного обучения, | ||
+ | нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами | ||
+ | можно считать кластеризацию, | ||
+ | |||
+ | Нерафинированная модель – это модель, | ||
+ | данных, | ||
+ | Нормализация – это ограничение значений весов в регрессии во избежание переобучения | ||
+ | и повышения скорости вычислений. | ||
+ | |||
+ | Нормализация — это процесс масштабирования данных с плавающей точкой до значений | ||
+ | от 0 до 1. Многие алгоритмы обучения, | ||
+ | входных функций. ML.NET предоставляет ряд преобразований для нормализации. | ||
+ | |||
+ | Обучение – это процесс поиска модели для заданного набора данных для обучения. Для | ||
+ | линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает | ||
+ | определение точек разбиения. | ||
+ | |||
+ | Относительная абсолютная погрешность – это метрика оценки, | ||
+ | сумму всех абсолютных значений ошибки, | ||
+ | значениями метки и средним значением всех правильных значений метки. | ||
+ | |||
+ | Относительная квадратичная погрешность – это метрика оценки, | ||
+ | сумму квадратов всех абсолютных значений ошибки, | ||
+ | между правильными значениями метки и средним значением всех правильных значений метки. | ||
+ | |||
+ | Оценка — это процесс применения новых данных к обученной модели машинного обучения | ||
+ | и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа | ||
+ | модели оценка может быть необработанным значением, | ||
+ | |||
+ | Очистка данных – это обеспечение качества наборов данных. Для нахождения и | ||
+ | исправления ошибочных записей данных в базе данных (базах данных), | ||
+ | проверяются. | ||
+ | |||
+ | Параметры – это свойства обучающих данных, | ||
+ | машинного обучения или классификатора. Они настраиваются с использованием алгоритмов | ||
+ | оптимизации и уникальны для каждого эксперимента. | ||
+ | |||
+ | Переобучение – это процесс, | ||
+ | и включает детали и шумы, характерные для вашего набора данных. Вы можете сказать, | ||
+ | переоснащена, | ||
+ | вашим набором тестов (или с новыми реальными данными). | ||
+ | |||
+ | Переоснащение – это непреднамеренное моделирование случайных изменений в данных, | ||
+ | приводящее к моделям, | ||
+ | |||
+ | Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения | ||
+ | переобучения. Смотрите также пакетирование, | ||
+ | |||
+ | Площадь под кривой (AUC) – это метрика оценки, | ||
+ | которая соотносит количество истинных положительных результатов (по оси Y) и ложных | ||
+ | положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1 | ||
+ | (наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений | ||
+ | правильного и ложного обнаружения). | ||
+ | |||
+ | Повышение эффективности – это метод моделирования, | ||
+ | последовательность моделей, | ||
+ | классифицируются путем применения к ним всего набора моделей, | ||
+ | отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты. | ||
+ | |||
+ | Построение модели – это процесс создания моделей данных с использованием | ||
+ | алгоритмов. Построение модели обычно состоит из нескольких этапов: | ||
+ | (необязательно) валидация оценки. Смотрите также тестирование, | ||
+ | |||
+ | Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, | ||
+ | с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие | ||
+ | разнообразные дисциплины, | ||
+ | интеллект, | ||
+ | |||
+ | Проектирование признаков – это процесс, | ||
+ | разрабатывается программное обеспечение, | ||
+ | доступных данных о явлении, | ||
+ | |||
+ | Развертывание – это процесс обеспечения широкого использования проекта прогнозной | ||
+ | аналитики в организации. | ||
+ | |||
+ | Регрессия – это задача контролируемого машинного обучения, | ||
+ | значение, | ||
+ | |||
+ | Регуляризация – это " | ||
+ | Регуляризация использует нули как весовые коэффициенты для незначащих признаков. | ||
+ | Размер сохраненной модели может уменьшиться после регуляризации такого рода. | ||
+ | Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих | ||
+ | признаков. Это более общий процесс, | ||
+ | |||
+ | Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети, | ||
+ | использующей для обработки сложных последовательностей свою внутреннюю память. | ||
+ | |||
+ | Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для | ||
+ | распознавания, | ||
+ | изначально разрабатывалась для обработки распознавания образов. | ||
+ | |||
+ | Скорость обучения – это размер шагов обновления, | ||
+ | время циклов оптимизации, | ||
+ | можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую | ||
+ | точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы | ||
+ | можем уверенно двигаться в направлении отрицательного градиента, | ||
+ | пересчитываем. Низкая скорость обучения является более точной, | ||
+ | отнимает много времени, | ||
+ | сути. | ||
+ | |||
+ | Средство оценки — это спецификация преобразования (преобразование подготовки | ||
+ | данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку | ||
+ | — конвейер преобразований. | ||
+ | * строк и столбцов; | ||
+ | * схем, которые определяют тип, формат и длину каждого столбца; | ||
+ | * средств оценки. | ||
+ | |||
+ | Точность – это соотношение количества правильно классифицированных элементов и общего числа | ||
+ | элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до | ||
+ | 1 (наибольшая точность). Точность является одной из метрик оценки для производительности | ||
+ | модели. | ||
+ | |||
+ | Тензоры — это тип структуры данных, | ||
+ | структуры данных. Их можно использовать для моделирования отношений между нелинейными | ||
+ | или хаотическими переменными. Это делает их идеальными для использования в алгоритмах | ||
+ | машинного обучения. | ||
+ | |||
+ | Тест Тьюринга – это тест, который признается пройденным только в том случае, | ||
+ | общения человек не смог отличить машину от человека. | ||
+ | |||
+ | Тестовый набор данных – это набор данных, | ||
+ | данных, | ||
+ | данных. | ||
+ | |||
+ | Трансформация – это формула, | ||
+ | распределения значений. Некоторые статистические методы требуют, | ||
+ | определенное распределение. Когда распределение поля отличается от требуемого, | ||
+ | преобразование (например, | ||
+ | |||
+ | Тренинговый набор данных – это набор данных, | ||
+ | машинного обучения. | ||
+ | |||
+ | Функции потери — это разница между значениями меток обучения и прогноза, | ||
+ | с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь. | ||
+ | |||
+ | Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны | ||
+ | алгоритмы, | ||
+ | |||
+ | Числовой вектор признака – это вектор признака, | ||
+ | значений. | ||
+ | |||
+ | Числовые переменные — это переменные, | ||
+ | значение. | ||
+ | |||
+ | Шум – это любая нерелевантная информация или случайность в наборе данных, | ||
+ | скрывает лежащий в основе шаблон. | ||
+ | |||
+ | Эвристика – это процесс, | ||
+ | формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее, | ||
+ | но, как правило, | ||
+ | |||
+ | Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных. | ||
+ | Например, | ||
+ | сталкиваемся с проблемами, | ||
+ | обучающих данных. | ||
+ | |||
+ | Эпоха – это количество раз, когда алгоритм просматривает весь набор данных. | ||