Вы находитесь здесь: Full stack разработка веб-приложений » Машинное обучение » Глоссарий

Различия

Показаны различия между двумя версиями страницы.

--- ml:glossary [2024/04/09 06:07]
admin
+++ ml:glossary [2024/04/09 11:58]
admin
@@ Строка 1: / Строка 1: @@
 ====== Глоссарий ======
-**Анализ временных рядов** - методика составления прогноза на основе анализа данных за прошлые периоды, представленных в виде временных рядов. В рамках этой
+CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных data-mining проектах
-методики выделяются сезонная вариация и общий тренд, что помогает проводить прогнозирование динамики ряда в будущем, при условии неизменности лежащих в основе
+независимо от конкретной задачи и индустрии.
-прогноза условий и допущений.
-**Анкета** - набор вопросов, составленных по определенной программе, на которые должны быть получены ответы от респондентов (участников исследования).
+Data mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в
+данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
-**Аномальная вариация** - неестественно большое отклонение временного ряда, влияющие на значение переменной на единичное наблюдение.
+F-мера – это метрика оценки, которая сопоставляет точность и полноту.
-**Временной ряд** - это ряд наблюдений, проводящихся регулярно через равные интервалы времени. Таблица данных, показывающих значения переменной,
+Pipeline – это все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и
-полученные через определенные равные интервалы времени.
+обучения. После обучения конвейер становится моделью.
-**Аксон** - это длинный отросток нервной клетки, по которому нервные импульсы идут от тела клетки к иннервируемым органам и другим нервным клеткам.
+Алгоритм – это метод, функция или серия инструкций, используемых для создания модели машинного обучения. Примеры включают линейную регрессию, деревья принятия решений, машины опорных векторов и нейронные сети.
-**Активационная функция** / **Функция активации** - это функция, определяющая выходной сигнал на основе трансформации входного сигнала: выход = функция активации (вход).
+Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на
+теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.
-**Активация нейрона** - это применение к нему нелинейной функции.
+Ассоциация – это степень, в которой значения одного поля зависят от значений другого поля или предсказываются ими.
-**Архитектура сети** - это совокупность значимых параметров сети, определяющих её назначение и возможности, среди которых: структура и конфигурация слоев нейронной сети а также характер взаимодействия между слоями.
+Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», или сокращенно KDD, относится к широкому процессу поиска знаний в данных, и подчеркивает «высокоуровневое»
+применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, распознавания образов, баз данных, статистики, искусственный интеллекта, получения
+знаний для экспертных систем.
-** Валидационная выборка** – отложенный набор данных, на котором тестируется качество финальной архитектуры сети, после подбора наилучших параметров.
+Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из
+спектра 0-255 в спектр 0-1.
-**Взвешенная сумма** - это сложение величин, предварительно умноженных на некоторое значение (т.н. вес).
+Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно
+обрабатываемых горизонтально масштабируемыми программными инструментами.
-**Высокоуровневый признак** - признак, объединяющий низкоуровневые признаки в группы со схожими свойствами (например, если сеть распознает кошек и собак,
+Бот – это автономная программа, которая может взаимодействовать с компьютерными системами, программами или пользователями. В большинстве случаев находится под прямым или
-то "овал" - низкоуровневый признак, а "ухо" или "лапа" - высокоуровневый.
+косвенным управлением человека.
-**Выход нейронной сети** — это итоговое значение функций активации, применённых к взвешенным суммам нейронной сети.
+Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных.
-**Генеративная нейронная сеть** (генеративно-состязательная сеть) - англ. Generative adversarial network, сокращённо GAN, — алгоритм машинного обучения без учителя,
+Валидация – это необязательный заключительный этап построения модели, на котором уточненная модель, полученная на этапе тестирования, проверяется на соответствие
-построенный на комбинации из двух нейронных сетей, одна из которых (сеть G) генерирует образцы, а другая (сеть D) старается отличить правильные («подлинные») образцы от неправильных.
+дополнительному набору исходных данных. Смотрите также построение модели, тестирование, обучение.
-Так как сети G и D имеют противоположные цели — создать образцы и отбраковать образцы — между ними возникает Антагонистическая игра.
-**Генетический алгоритм** - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и
+Визуализация данных – это процесс представления шаблонов данных в графическом
-вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе.
+формате, включая использование традиционных графиков, а также усовершенствованной
+интерактивной графики. Во многих случаях визуализация выявляет шаблоны, которые было бы
+трудно найти другими методами.
-**Генерация** - это тип задачи, при котором нейронная сеть создает контент самого разного типа, начиная с текстов, изображений и аудио, и заканчивая
+Входные данные — это информация, поступающая в систему из различных источников, для
-"раскрашиванием" черно-белых фильмов и "изменением" сезона в видеороликах.
+обработки или хранения.
-**Дендрит** - разветвлённый отросток нейрона, который получает информацию через химические (или электрические) синапсы от аксонов (или дендритов и сомы) других нейронов и передаёт
+Выброс – это наблюдение, которое значительно отличается от других наблюдений в наборе
-её через электрический сигнал телу нейрона.
+данных.
-**Зашумленные данные** - данные с наличием шума (случайных возмущений) разной степени выраженности, способными негативно повлиять на качество обучения нейронной сети.
+Выходные данные — это результат работы алгоритма после его выполнения. Выходные
-Также под словом "шум" понимают случайные признаки, не отражающие суть изучаемого явления, но которые могут повлиять на работу сети.
+данные могут быть числами, строками, объектами или другими значениями, которые представляют
+результат решения задачи машинного обучения.
-**Интеллектуальная задача** - задача, решение которой происходит не по заранее определенному, точному алгоритму, а благодаря самообучению как свойству обучающейся системы.
+Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно
+привести число деревьев, которые изучаются в лесе решений или размер шага в алгоритме
+градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, и они
+управляют процессом поиска параметров для функции прогнозирования, например точек
+сравнения в дереве принятия решений или весов в модели линейной регрессии.
-**Искусственный нейрон** (математический нейрон Маккаллока — Питтса, формальный нейрон) - узел искусственной нейронной сети, являющийся упрощённой моделью естественного нейрона.
+Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То
-Математически, искусственный нейрон обычно представляют как некоторую нелинейную функцию от единственного аргумента — линейной комбинации всех входных сигналов.
+есть одним компьютером, одной программой переработать столько информации просто
-Данную функцию называют функцией активации или функцией срабатывания, передаточной функцией.
+невозможно. Поэтому используются нейронные сети.
-**Классификация** - тип задачи, при котором нейронная сеть относит тот или иной объект к одному из классов на основе анализа его признаков. Бинарная классификация - классификация с двумя классами. Multilabeling – вид классификации, при котором классифицируемый объект может относится более чем к одному классу одновременно.
+Данные – это центральный элемент любого приложения машинного обучения. Объекты
+представления данных состоят из:
-**Кластеризация** / **Обучение без учителя** - тип задачи, при котором происходит разбиение выборки на группы схожих объектов, при этом испытуемая система спонтанно обучается
+Двоичная классификация – это сценарий классификации, в котором значение метки может
-выполнять поставленную задачу без вмешательства со стороны экспериментатора или среды.
+быть только одним из двух классов.
-**Метод обратного распространения ошибки** (Back Propagation) - модификация метода классического градиентного спуска, метод обновления весов нейронной сети, при котором распространение сигналов ошибки происходит от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы.
+Дерево решений – это древовидный граф, состоящий из узлов и листьев, соединённых
+между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы.
+Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья
+решений подразделяются на два типа: деревья классификации и деревья регрессии.
+Определяющим фактором, от которого зависит тип дерева, является выходное значение,
+непрерывное или категориальное.
-**Нейромедиаторы** - биологически активные химические вещества, посредством которых осуществляется передача электрохимического импульса от нервной клетки через
+Диаграмма рассеяния - график двух переменных, в которых каждая точка определяется по
-синаптическое пространство между нейронами, а также, например, от нейронов к мышечной ткани или железистым клеткам.
+ее координатам (X, Y). Например, высота и вес.
-**Низкоуровневый признак** - наиболее элементарный признак, характеризующий объект (например, если сеть распознает кошек и собак, то "ухо" или "лапа" - это более высокоуровневые признаки, а "овал" - более низкоуровневый.
+Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке.
+Общими мерами вариабельности данных являются дисперсия, стандартное отклонение,
+межквартильный размах.
-**Нормализация данных** - одна из форма предварительной обработки данных, цель которой заключается в том, чтобы привести их к виду, наиболее отвечающему характеру их дальнейшего использования. Типичная нормализация - это "выравнивание" данных для приведения их значений к диапазону от 0 до 1.
+Доверительный интервал – это интервал, вычисленный из выборки, который содержит
+значение определенного параметра совокупности с определенной вероятностью.
-**Обучающая выборка** - данные, на которых происходит обучение нейронной сети.
+Зависимая переменная - переменная (обычно обозначенная как Y), которая предсказана
+независимой переменной в регрессионном анализе, также называется откликом.
-**Обучение с учителем** — один из способов машинного обучения, в ходе которого испытуемая система обучается с помощью примеров «стимул-реакция». Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», называемая обучающей выборкой.
+Интеллектуальный агент – это бот, используемый при решении задач искусственным
+интеллектом.
-**Обучение с подкреплением** (reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система обучается, взаимодействуя с некоторой средой.
+Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей
-Обучение происходит за счет получения/не получения награды от среды в процессе взаимодействия.
+в данных для получения новой информации.
-**Поверхность ошибки** — это геометрическая форма функции потерь, вычисляемая в каждой точке.
+Интерполяция - оценка неизвестного значения, которое лежит между двумя известными
+значениями.
-**Полносвязная нейронная сеть** - это сеть, в которой каждый нейрон связан со всеми остальными нейронами, находящимися в соседних слоях.
+Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и
+технология разработки компьютеров, выполняющих функции, которые до недавнего времени
+считались прерогативой человеческого интеллекта.
-**Последовательная сеть прямого распространения** (FFNN, Feed-Forwarded Neural Net) - нейронная сеть, в которой все связи направлены только от входа сети к ее выходу
+Итерация – это обновление весов после анализа пакета входных записей.
-(без операций распараллеливания или циклов).
-**Предварительная обработка данных** - важный шаг в процессе интеллектуального анализа данных. Результатом предварительной обработки данных является конечный тренировочный набор.
+Калибровка — это процесс сопоставления необработанной оценки на членство в классе для
+двоичной и мультиклассовой классификации.
-**Принцип рецептивных полей** - это биологический принцип, при котором множество сенсорных рецепторов образуют синапсы с единственным нейроном и они совместно формируют рецептивное
+Каталог — это совокупность функций расширения, сгруппированных по общей цели.
-поле этого нейрона.
+Например, каждая задача машинного обучения (двоичная классификация, регрессия,
+ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих).
-**Прогнозирование временных рядов** - это тип задачи, при котором обладая упорядоченным по времени рядом значений, нам нужно понять, какие значения будут идти в нем дальше.
+Категориальные переменные – это переменные с дискретным набором возможных
+значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не
+имеет значения).
-**Регрессия** - задача оценки истинного (числового) значения некоторой независимой переменной (выход нейронной сети) от совокупности зависимых переменных (вход сети).
+Квартили – это значения, которые делят упорядоченные наблюдения на четыре равные
+части. Различают нижний, верхний квартиль, а также медиану выборки.
-**Рекуррентная нейронная сеть** - это сеть с памятью, хранящая информацию о том, что в ней происходило в прошлые итерации обучения. Достигается это благодаря тому, что каждый
+Классификация – это задача контролируемого машинного обучения. Двоичная
-нейрон в такой сети имеет связь с самим собой.
+классификация обозначает прогнозирование только по двум категориям (например, разделение
+изображений на группы "кошки" и "собаки"). Многоклассовая классификация обозначает
+прогнозирование по нескольким категориям (например, разделение изображений на группы
+конкретных пород собак).
-**Сверточная нейронная сеть** - это сеть, работающая по принципу рецептивных полей, суть которого заключается в том, что каждый нейрон последующего следующего слоя "смотрит"
+Кластеризация – это неконтролируемая группировка данных в сегменты.
-на небольшой кусочек (например, 3 на 3 пикселя) предыдущего слоя.
-**Сеть прямого распространения** (Feedforward) - это сеть, в которой все связи направлены строго от входных нейронов к выходным.
+Кластеры данных – это часть высокой концентрации групп данных в наборе данных,
+скопление однотипных объектов, которые близки между собой и отличаются от других объектов
+выборки.
-**Сигмоидальные функции** - функции, входящие в семейство функций класса Сигмоид. Сигмоида - это гладкая монотонная возрастающая нелинейная функция, имеющая форму буквы "S", которая часто применяется для "сглаживания" значений некоторой величины.
+Коллинеарность – это пары независимых переменных в регрессионном анализе высоко
+коррелируют, если их корреляции по модулю близки к единице.
-**Синапс** - место контакта между двумя нейронами или между нейроном и получающей сигнал эффекторной клеткой. Служит для передачи нервного импульса между двумя клетками,
+Компьютерное зрение – это междисциплинарная научная предметная область ИИ и
-причём в ходе синаптической передачи амплитуда и частота сигнала могут регулироваться.
+информатики, посвященная изучению и разработке компьютеров, способных к визуальному
+распознаванию информации на входе.
-**Слой нейронной сети** - группа нейронов, находящихся на одном уровне иерархии, имеющих общий вход/выход и функцию активации.
+Контролируемое машинное обучение – это подкласс машинного обучения, в котором
+нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать
+классификацию, регрессию и структурированный прогноз.
-**Скрытый слой** - слой нейронной сети, находящийся между её входным и выходным слоями.
+Контрольная группа – это термин, применяемый в сравнительных исследованиях,
+например, в клинических испытаниях, для обозначения группы сравнения.
-**Среднеквадратичная ошибка** - вариант наиболее часто используемой функции потерь (особенно в задачах регрессии), вычисляется как квадрат разницы между «истинным» значением
+Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, которая влияет как на зависимую переменную, так и на независимую переменную,
-целевой переменной и предсказанным сетью, усредняется в рамках одного batch_size.
+искажая результаты исследования.
+Корень среднеквадратичной погрешности – это метрика оценки, вычисляемая как
+квадратный корень из среднего значения квадратов погрешностей.
+Корреляция – это статистический показатель связи между двумя числовыми
+полями. Значения варьируются от -1 до +1. Корреляция, равная 0, означает, что между двумя
+полями нет взаимосвязи.
+Коэффициент вариации – это стандартное отклонение, делённое на среднее, часто
+выражено в процентах, является мерой вариабельности данных.
+Коэффициент детерминации – это метрика оценки, которая позволяет понять, насколько
+хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0
+означает, что данные полностью случайны или по другим причинам не могут соответствовать
+модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто
+обозначают как r2, R2 или R-квадрат.
+Линейная регрессия – это метод анализа данных, который предсказывает ценность
+неизвестных данных с помощью другого связанного и известного значения данных.
+Логарифмические потери – это метрика оценки, которая характеризующий точность
+классификатора. Чем меньше логарифмические потери, тем точнее классификатор.
+Логистическая регрессия – это метод анализа данных, который использует математику для
+поиска взаимосвязей между двумя факторами данных.
+Машинное обучение (англ. machine learning, ML) — класс методов искусственного
+интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт
+применения решений множества сходных задач.
+Машинное обучение без учителя – это обучение, которое строится на том, что человеку и
+программе неизвестны правильные ответы заранее, имеется только некий массив данных.
+Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе
+оказываются получены неочевидные и нетривиальные решения.
+Машинное обучение с учителем – это один из способов машинного обучения, в ходе
+которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С
+точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между
+входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но
+она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция»,
+называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость
+(построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить
+алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения
+точности ответов, так же, как и в обучении на примерах, может вводиться функционал качества.
+Метка – это элемент, который прогнозируется с помощью модели машинного обучения.
+Например, порода собаки или будущая цена акций.
+Метод обратного распространения ошибки – это метод обучения нейронных сетей с
+учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он
+способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного
+обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом
+методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый
+выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется
+ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном
+проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов
+нейронов в соответствии с правилом.
+Многоклассовая классификация – это значение метки может быть только одним из трех или
+больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме
+Задачи машинного обучения.
+Моделирование – это параметры для прогнозирующей функции. Например, значения веса
+в модели линейной регрессии или точки разбиения в дереве принятия решений.
+Модель – это структура данных, которая хранит представление набора данных (веса и
+отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных.
+Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для
+экземпляра.
+Набор данных – это записи в виде столбцов (полей) и строк, содержащихся в файле или
+таблице базы данных.
+Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики,
+изучающий проблемы анализа, обработки и представления данных в цифровой форме.
+Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня
+параллелизма, статистические методы, методы интеллектуального анализа данных и приложения
+искусственного интеллекта для работы с данными, а также методы проектирования и разработки
+баз данных.
+Нейронные сети – это математические алгоритмы, смоделированные на основе
+архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в
+данных.
+Неконтролируемое машинное обучение – это подкласс машинного обучения, в котором
+нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами
+можно считать кластеризацию, тематическое моделирование и сокращение размерности.
+Нерафинированная модель – это модель, которая содержит информацию, извлеченную из
+данных, но которая не предназначена непосредственно для генерации прогнозов.
+Нормализация – это ограничение значений весов в регрессии во избежание переобучения
+и повышения скорости вычислений.
+Нормализация — это процесс масштабирования данных с плавающей точкой до значений
+от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных
+входных функций. ML.NET предоставляет ряд преобразований для нормализации.
+Обучение – это процесс поиска модели для заданного набора данных для обучения. Для
+линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает
+определение точек разбиения.
+Относительная абсолютная погрешность – это метрика оценки, представляющая собой
+сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными
+значениями метки и средним значением всех правильных значений метки.
+Относительная квадратичная погрешность – это метрика оценки, представляющая собой
+сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний
+между правильными значениями метки и средним значением всех правильных значений метки.
+Оценка — это процесс применения новых данных к обученной модели машинного обучения
+и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа
+модели оценка может быть необработанным значением, вероятностью или категорией.
+Очистка данных – это обеспечение качества наборов данных. Для нахождения и
+исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно
+проверяются.
+Параметры – это свойства обучающих данных, полученных при обучении модели
+машинного обучения или классификатора. Они настраиваются с использованием алгоритмов
+оптимизации и уникальны для каждого эксперимента.
+Переобучение – это процесс, когда модель слишком хорошо усваивает обучающие данные
+и включает детали и шумы, характерные для вашего набора данных. Вы можете сказать, что модель
+переоснащена, когда она отлично работает с вашим набором для обучения / проверки, но плохо с
+вашим набором тестов (или с новыми реальными данными).
+Переоснащение – это непреднамеренное моделирование случайных изменений в данных,
+приводящее к моделям, которые плохо работают при применении к другим наборам данных.
+Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения
+переобучения. Смотрите также пакетирование, перекрестная проверка.
+Площадь под кривой (AUC) – это метрика оценки, обозначающая площадь под кривой,
+которая соотносит количество истинных положительных результатов (по оси Y) и ложных
+положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1
+(наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений
+правильного и ложного обнаружения).
+Повышение эффективности – это метод моделирования, который создает
+последовательность моделей, а не одну модель, для получения более точных прогнозов. Случаи
+классифицируются путем применения к ним всего набора моделей, а затем объединен ия
+отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты.
+Построение модели – это процесс создания моделей данных с использованием
+алгоритмов. Построение модели обычно состоит из нескольких этапов: обучение, тестирование и
+(необязательно) валидация оценки. Смотрите также тестирование, обучение, валидация.
+Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, связанных
+с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие
+разнообразные дисциплины, как вероятность, статистика, машинное обучение и искусственный
+интеллект, к решению бизнес-задач, чтобы найти наилучшее действие для данной ситуации.
+Проектирование признаков – это процесс, в котором определяется набор признаков и
+разрабатывается программное обеспечение, которое создает векторы признаков на основе
+доступных данных о явлении, то есть извлекает признаки
+Развертывание – это процесс обеспечения широкого использования проекта прогнозной
+аналитики в организации.
+Регрессия – это задача контролируемого машинного обучения, которая выводит реальное
+значение, например в формате двойной точности.
+Регуляризация – это "наказывает" линейную модель за слишком большую сложность.
+Регуляризация использует нули как весовые коэффициенты для незначащих признаков.
+Размер сохраненной модели может уменьшиться после регуляризации такого рода.
+Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих
+признаков. Это более общий процесс, который менее чувствителен к выбросам.
+Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети,
+использующей для обработки сложных последовательностей свою внутреннюю память.
+Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для
+распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей
+изначально разрабатывалась для обработки распознавания образов.
+Скорость обучения – это размер шагов обновления, которые необходимо выполнить во
+время циклов оптимизации, таких как градиентный спуск. При высокой скорости обучения мы
+можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую
+точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы
+можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его
+пересчитываем. Низкая скорость обучения является более точной, но вычисление градиента
+отнимает много времени, поэтому нам потребуется очень много времени, чтобы разобраться в
+сути.
+Средство оценки — это спецификация преобразования (преобразование подготовки
+данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку
+— конвейер преобразований.
+  * строк и столбцов;
+  * схем, которые определяют тип, формат и длину каждого столбца;
+  * средств оценки.
+Точность – это соотношение количества правильно классифицированных элементов и общего числа
+элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до
+(наибольшая точность). Точность является одной из метрик оценки для производительности
+модели.
+Тензоры — это тип структуры данных, который может более точно представлять сложные
+структуры данных. Их можно использовать для моделирования отношений между нелинейными
+или хаотическими переменными. Это делает их идеальными для использования в алгоритмах
+машинного обучения.
+Тест Тьюринга – это тест, который признается пройденным только в том случае, если в ходе
+общения человек не смог отличить машину от человека.
+Тестовый набор данных – это набор данных, который независим от обучающего набора
+данных, но который соответствует такому же распределению вероятностей, как и обучающий набор
+данных.
+Трансформация – это формула, которая применяется к значениям поля для изменения
+распределения значений. Некоторые статистические методы требуют, чтобы поля имели
+определенное распределение. Когда распределение поля отличается от требуемого,
+преобразование (например, получение логарифмов значений) часто может устранить проблему.
+Тренинговый набор данных – это набор данных, используемый для обучения моделей
+машинного обучения.
+Функции потери — это разница между значениями меток обучения и прогноза, сделанного
+с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь.
+Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны
+алгоритмы, содержимое и процессы принятия решений.
+Числовой вектор признака – это вектор признака, который состоит только из числовых
+значений.
+Числовые переменные — это переменные, в которых измерения или числа имеют числовое
+значение.
+Шум – это любая нерелевантная информация или случайность в наборе данных, которая
+скрывает лежащий в основе шаблон.
+Эвристика – это процесс, поиска решения методом проб и шибок в процессе которой
+формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее,
+но, как правило, оптимальный результат достигают при применении классических методов.
+Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных.
+Например, моя собака лает, поэтому все собаки должны лаять. В машинном обучении мы часто
+сталкиваемся с проблемами, когда экстраполируем данные за пределы диапазона наших
+обучающих данных.
+Эпоха – это количество раз, когда алгоритм просматривает весь набор данных.
-**Тестовая выборка** - данные, на которых идет проверка качества работы ранее обученной сети.
 ===== Ссылки =====
-  * [[https://e-edu.rosnou.ru/pluginfile.php/466931/mod_resource/content/0/%D0%93%D0%BB%D0%BE%D1%81%D1%81%D0%B0%D1%80%D0%B8%D0%B9.pdf|Глоссарий.pdf]]
+  * [[https://e-edu.rosnou.ru/pluginfile.php/467007/mod_resource/content/0/%D0%93%D0%BB%D0%BE%D1%81%D1%81%D0%B0%D1%80%D0%B8%D0%B9.pdf|Глоссарий.pdf]]

Вы посетили:

Различия

Поиск

Навигация

Печать/экспорт

Инструменты