Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
ml:glossary [2024/04/09 06:07]
admin
ml:glossary [2024/04/09 11:58]
admin
Строка 1: Строка 1:
 ====== Глоссарий ====== ====== Глоссарий ======
  
-**Анализ временных рядов** - методика составления прогноза на основе анализа данных за прошлые периоды, представленных в виде временных рядов. В рамках этой +CRoss Industry Standard Process for Data Mining (CRISP-DM) – стандарт, описывающий общие процессы и подходы к аналитике данных, используемые в промышленных data-mining проектах 
-методики выделяются сезонная вариация и общий тренд, что помогает проводить прогнозирование динамики ряда в будущем, при условии неизменности лежащих в основе +независимо от конкретной задачи и индустрии.
-прогноза условий и допущений.+
  
-**Анкета** - набор вопросовсоставленных по определенной программена которые должны быть получены ответы от респондентов (участников исследования).+Data mining (рус. добыча данных, интеллектуальный анализ данныхглубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в 
 +данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
  
-**Аномальная вариация** - неестественно большое отклонение временного рядавлияющие на значение переменной на единичное наблюдение.+F-мера – это метрика оценки, которая сопоставляет точность и полноту.
  
-**Временной ряд** - это ряд наблюденийпроводящихся регулярно через равные интервалы времени. Таблица данных, показывающих значения переменной, +Pipeline – это все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и 
-полученные через определенные равные интервалы времени.+обучения. После обучения конвейер становится моделью.
  
-**Аксон** - это длинный отросток нервной клетки, по которому нервные импульсы идут от тела клетки к иннервируемым органам и другим нервным клеткам.+Алгоритм – это метод, функция или серия инструкцийиспользуемых для создания модели машинного обучения. Примеры включают линейную регрессию, деревья принятия решений, машины опорных векторов и нейронные сети.
  
-**Активационная функция** / **Функция активации** - это функцияопределяющая выходной сигнал на основе трансформации входного сигнала: выход = функция активации (вход).+Алгоритм Байеса — это статистический метод, который используется для определения вероятности событий на основе предыдущих знаний об этом событии. Этот метод основан на 
 +теории вероятности, которая позволяет нам оценить вероятность случайного события, на основе его значимости и частоты его возникновения.
  
-**Активация нейрона** - это применение к нему нелинейной функции.+Ассоциация – это степень, в которой значения одного поля зависят от значений другого поля или предсказываются ими.
  
-**Архитектура сети** - это совокупность значимых параметров сети, определяющих её назначение и возможности, среди которых: структура и конфигурация слоев нейронной сети а также характер взаимодействия между слоями.+Бизнес-процесс KDD – это термин «обнаружения знаний в базах данных», или сокращенно KDD, относится к широкому процессу поиска знаний в данных, и подчеркивает «высокоуровневое» 
 +применение конкретных данных. Представляет интерес для исследователей в области машинного обучения, распознавания образов, баз данных, статистики, искусственный интеллекта, получения 
 +знаний для экспертных систем.
  
-** Валидационная выборка** – отложенный набор данныхна котором тестируется качество финальной архитектуры сети, после подбора наилучших параметров.+Бинаризация - процесс преобразования данных в набор нулей и единиц. Примером может служить масштабирование изображения серым цветом путем преобразования изображения из 
 +спектра 0-255 в спектр 0-1.
  
-**Взвешенная сумма** - это сложение величин, предварительно умноженных на некоторое значение (т.н. вес).+Большие данные (англ. big data) — это обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно 
 +обрабатываемых горизонтально масштабируемыми программными инструментами.
  
-**Высокоуровневый признак** - признакобъединяющий низкоуровневые признаки в группы со схожими свойствами (например, если сеть распознает кошек и собак, +Бот – это автономная программа, которая может взаимодействовать с компьютерными системамипрограммами или пользователями. В большинстве случаев находится под прямым или 
-то "овал" - низкоуровневый признак, а "ухоили "лапа"высокоуровневый.+косвенным управлением человека.
  
-**Выход нейронной сети** — это итоговое значение функций активацииприменённых к взвешенным суммам нейронной сети.+Бустинг – это метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе данных.
  
-**Генеративная нейронная сеть** (генеративно-состязательная сеть) - англ. Generative adversarial networkсокращённо GAN, — алгоритм машинного обучения без учителя, +Валидация – это необязательный заключительный этап построения модели, на котором уточненная модель, полученная на этапе тестированияпроверяется на соответствие 
-построенный на комбинации из двух нейронных сетей, одна из которых (сеть G) генерирует образцыа другая еть D) старается отличить правильные подлинные») образцы от неправильных. +дополнительному набору исходных данных. Смотрите также построение модели, тестирование, обучение.
-Так как сети G и D имеют противоположные цели — создать образцы и отбраковать образцы — между ними возникает Антагонистическая игра.+
  
-**Генетический алгоритм** - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и +Визуализация данных – это процесс представления шаблонов данных в графическом 
-вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе.+формате, включая использование традиционных графиков, а также усовершенствованной 
 +интерактивной графики. Во многих случаях визуализация выявляет шаблоны, которые было бы 
 +трудно найти другими методами.
  
-**Генерация** - это тип задачи, при котором нейронная сеть создает контент самого разного типа, начиная с текстов, изображений и аудио, и заканчивая +Входные данные — это информация, поступающая в систему из различных источников, для 
-"раскрашиванием" черно-белых фильмов и "изменением" сезона в видеороликах.+обработки или хранения.
  
-**Дендрит** - разветвлённый отросток нейрона, который получает информацию через химические (или электрические) синапсы от аксонов (или дендритов и сомы) других нейронов и передаёт +Выброс – это наблюдение, которое значительно отличается от других наблюдений в наборе 
-её через электрический сигнал телу нейрона.+данных.
  
-**Зашумленные данные** - данные с наличием шума (случайных возмущений) разной степени выраженности, способными негативно повлиять на качество обучения нейронной сети+Выходные данные — это результат работы алгоритма после его выполнения. Выходные 
-Также под словом "шум" понимают случайные признаки, не отражающие суть изучаемого явления, но которые могут повлиять на работу сети.+данные могут быть числами, строками, объектами или другими значениями, которые представляют 
 +результат решения задачи машинного обучения.
  
-**Интеллектуальная задача** - задача, решение которой происходит не по заранее определенному, точному алгоритмуа благодаря самообучению как свойству обучающейся системы.+Гиперпараметр – это параметр алгоритма машинного обучения. В качестве примера можно 
 +привести число деревьевкоторые изучаются в лесе решений или размер шага в алгоритме 
 +градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели, и они 
 +управляют процессом поиска параметров для функции прогнозирования, например точек 
 +сравнения в дереве принятия решений или весов в модели линейной регрессии.
  
-**Искусственный нейрон** (математический нейрон Маккаллока — Питтса, формальный нейрон) - узел искусственной нейронной сети, являющийся упрощённой моделью естественного нейрона+Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То 
-Математически, искусственный нейрон обычно представляют как некоторую нелинейную функцию от единственного аргумента — линейной комбинации всех входных сигналов. +есть одним компьютером, одной программой переработать столько информации просто 
-Данную функцию называют функцией активации или функцией срабатывания, передаточной функцией.+невозможно. Поэтому используются нейронные сети.
  
-**Классификация** - тип задачи, при котором нейронная сеть относит тот или иной объект к одному из классов на основе анализа его признаков. Бинарная классификация - классификация с двумя классами. Multilabeling – вид классификации, при котором классифицируемый объект может относится более чем к одному классу одновременно.+Данные – это центральный элемент любого приложения машинного обучения. Объекты 
 +представления данных состоят из:
  
-**Кластеризация** / **Обучение без учителя** - тип задачи, при котором происходит разбиение выборки на группы схожих объектов, при этом испытуемая система спонтанно обучается +Двоичная классификация – это сценарий классификации, в котором значение метки может 
-выполнять поставленную задачу без вмешательства со стороны экспериментатора или среды.+быть только одним из двух классов.
  
-**Метод обратного распространения ошибки** (Back Propagation) - модификация метода классического градиентного спуска, метод обновления весов нейронной сети, при котором распространение сигналов ошибки происходит от выходов сети к её входамв направлении, обратном прямому распространению сигналов в обычном режиме работы.+Дерево решений – это древовидный граф, состоящий из узлов и листьев, соединённых 
 +между собой рёбрами. В узлах графа происходит принятие решений, а листья указывают на классы. 
 +Граф дерева решений должен быть ациклический, иначе он перестает быть древовидным. Деревья 
 +решений подразделяются на два типа: деревья классификации и деревья регрессии
 +Определяющим фактором, от которого зависит тип дерева, является выходное значение, 
 +непрерывное или категориальное.
  
-**Нейромедиаторы** биологически активные химические веществапосредством которых осуществляется передача электрохимического импульса от нервной клетки через +Диаграмма рассеяния - график двух переменных, в которых каждая точка определяется по 
-синаптическое пространство между нейронами, а такженапример, от нейронов к мышечной ткани или железистым клеткам.+ее координатам (XY). Например, высота и вес.
  
-**Низкоуровневый признак** - наиболее элементарный признак, характеризующий объект (например, если сеть распознает кошек и собак, то "ухо" или "лапа" - это более высокоуровневые признаки, а "овал" - более низкоуровневый.+Дисперсия – это способ описания рассеяния или вариабельности наблюдений в выборке
 +Общими мерами вариабельности данных являются дисперсия, стандартное отклонение, 
 +межквартильный размах.
  
-**Нормализация данных** - одна из форма предварительной обработки данныхцель которой заключается в том, чтобы привести их к виду, наиболее отвечающему характеру их дальнейшего использования. Типичная нормализация - это "выравнивание" данных для приведения их значений к диапазону от 0 до 1.+Доверительный интервал – это интервал, вычисленный из выборки, который содержит 
 +значение определенного параметра совокупности с определенной вероятностью.
  
-**Обучающая выборка** данныена которых происходит обучение нейронной сети.+Зависимая переменная переменная (обычно обозначенная как Y), которая предсказана 
 +независимой переменной в регрессионном анализетакже называется откликом.
  
-**Обучение с учителем** — один из способов машинного обучения, в ходе которого испытуемая система обучается с помощью примеров «стимул-реакция». Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», называемая обучающей выборкой.+Интеллектуальный агент – это ботиспользуемый при решении задач искусственным 
 +интеллектом.
  
-**Обучение с подкреплением** (reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система обучается, взаимодействуя с некоторой средой. +Интеллектуальный анализ данных – это процесс изучения и обнаружения закономерностей 
-Обучение происходит за счет получения/не получения награды от среды в процессе взаимодействия.+в данных для получения новой информации.
  
-**Поверхность ошибки** — это геометрическая форма функции потерь, вычисляемая в каждой точке.+Интерполяция - оценка неизвестного значения, которое лежит между двумя известными 
 +значениями.
  
-**Полносвязная нейронная сеть** - это сеть, в которой каждый нейрон связан со всеми остальными нейронами, находящимися в соседних слоях.+Искусственный интеллект (ИИ), по определению профессора Эндрю Мура, — это наука и 
 +технология разработки компьютеров, выполняющих функции, которые до недавнего времени 
 +считались прерогативой человеческого интеллекта.
  
-**Последовательная сеть прямого распространения** (FFNN, Feed-Forwarded Neural Net) - нейронная сеть, в которой все связи направлены только от входа сети к ее выходу +Итерация – это обновление весов после анализа пакета входных записей.
-(без операций распараллеливания или циклов).+
  
-**Предварительная обработка данных** - важный шаг в процессе интеллектуального анализа данных. Результатом предварительной обработки данных является конечный тренировочный набор.+Калибровка — это процесс сопоставления необработанной оценки на членство в классе для 
 +двоичной и мультиклассовой классификации.
  
-**Принцип рецептивных полей** - это биологический принцип, при котором множество сенсорных рецепторов образуют синапсы с единственным нейроном и они совместно формируют рецептивное +Каталог — это совокупность функций расширениясгруппированных по общей цели. 
-поле этого нейрона.+Например, каждая задача машинного обучения (двоичная классификация, регрессия, 
 +ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих).
  
-**Прогнозирование временных рядов** - это тип задачи, при котором обладая упорядоченным по времени рядом значений, нам нужно понять, какие значения будут идти в нем дальше.+Категориальные переменные – это переменные с дискретным набором возможных 
 +значений. Могут быть порядковыми (порядок имеет значение) или номинальными (порядок не 
 +имеет значения).
  
-**Регрессия** - задача оценки истинного (числовогозначения некоторой независимой переменной (выход нейронной сети) от совокупности зависимых переменных (вход сети).+Квартили – это значениякоторые делят упорядоченные наблюдения на четыре равные 
 +части. Различают нижний, верхний квартиль, а также медиану выборки.
  
-**Рекуррентная нейронная сеть** - это сеть с памятью, хранящая информацию о том, что в ней происходило в прошлые итерации обучения. Достигается это благодаря тому, что каждый +Классификация – это задача контролируемого машинного обучения. Двоичная 
-нейрон в такой сети имеет связь с самим собой.+классификация обозначает прогнозирование только по двум категориям (например, разделение 
 +изображений на группы "кошки" и "собаки"). Многоклассовая классификация обозначает 
 +прогнозирование по нескольким категориям (например, разделение изображений на группы 
 +конкретных пород собак).
  
-**Сверточная нейронная сеть** - это сеть, работающая по принципу рецептивных полей, суть которого заключается в том, что каждый нейрон последующего следующего слоя "смотрит" +Кластеризация – это неконтролируемая группировка данных в сегменты.
-на небольшой кусочек (например, 3 на 3 пикселя) предыдущего слоя.+
  
-**Сеть прямого распространения** (Feedforward) - это сеть, в которой все связи направлены строго от входных нейронов к выходным.+Кластеры данных – это часть высокой концентрации групп данных в наборе данных, 
 +скопление однотипных объектовкоторые близки между собой и отличаются от других объектов 
 +выборки.
  
-**Сигмоидальные функции** - функции, входящие в семейство функций класса Сигмоид. Сигмоида - это гладкая монотонная возрастающая нелинейная функция, имеющая форму буквы "S", которая часто применяется для "сглаживания" значений некоторой величины.+Коллинеарность – это пары независимых переменных в регрессионном анализе высоко 
 +коррелируют, если их корреляции по модулю близки к единице.
  
-**Синапс** - место контакта между двумя нейронами или между нейроном и получающей сигнал эффекторной клеткой. Служит для передачи нервного импульса между двумя клетками, +Компьютерное зрение – это междисциплинарная научная предметная область ИИ и 
-причём в ходе синаптической передачи амплитуда и частота сигнала могут регулироваться.+информатики, посвященная изучению и разработке компьютеров, способных к визуальному 
 +распознаванию информации на входе.
  
-**Слой нейронной сети** - группа нейронов, находящихся на одном уровне иерархии, имеющих общий вход/выход и функцию активации.+Контролируемое машинное обучение – это подкласс машинного обучения, в котором 
 +нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать 
 +классификацию, регрессию и структурированный прогноз.
  
-**Скрытый слой** - слой нейронной сетинаходящийся между её входным и выходным слоями.+Контрольная группа – это термин, применяемый в сравнительных исследованиях
 +например, в клинических испытанияхдля обозначения группы сравнения.
  
-**Среднеквадратичная ошибка** - вариант наиболее часто используемой функции потерь (особенно в задачах регрессии), вычисляется как квадрат разницы между «истинным» значением +Конфаундинг (также confounding variable, confounding factor, lurking variable) – это переменная, которая влияет как на зависимую переменную, так и на независимую переменную, 
-целевой переменной и предсказанным сетью, усредняется в рамках одного batch_size.+искажая результаты исследования. 
 + 
 +Корень среднеквадратичной погрешности – это метрика оценки, вычисляемая как 
 +квадратный корень из среднего значения квадратов погрешностей. 
 + 
 +Корреляция – это статистический показатель связи между двумя числовыми 
 +полями. Значения варьируются от -1 до +1. Корреляция, равная 0, означает, что между двумя 
 +полями нет взаимосвязи. 
 + 
 +Коэффициент вариации – это стандартное отклонение, делённое на среднее, часто 
 +выражено в процентах, является мерой вариабельности данных. 
 + 
 +Коэффициент детерминации – это метрика оценки, которая позволяет понять, насколько 
 +хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0 
 +означает, что данные полностью случайны или по другим причинам не могут соответствовать 
 +модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто 
 +обозначают как r2, R2 или R-квадрат. 
 + 
 +Линейная регрессия – это метод анализа данных, который предсказывает ценность 
 +неизвестных данных с помощью другого связанного и известного значения данных. 
 + 
 +Логарифмические потери – это метрика оценки, которая характеризующий точность 
 +классификатора. Чем меньше логарифмические потери, тем точнее классификатор. 
 + 
 +Логистическая регрессия – это метод анализа данных, который использует математику для 
 +поиска взаимосвязей между двумя факторами данных. 
 + 
 +Машинное обучение (англ. machine learning, ML) — класс методов искусственного 
 +интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт 
 +применения решений множества сходных задач. 
 + 
 +Машинное обучение без учителя – это обучение, которое строится на том, что человеку и 
 +программе неизвестны правильные ответы заранее, имеется только некий массив данных. 
 +Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе 
 +оказываются получены неочевидные и нетривиальные решения. 
 + 
 +Машинное обучение с учителем – это один из способов машинного обучения, в ходе 
 +которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С 
 +точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между 
 +входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но 
 +она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», 
 +называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость 
 +(построить модель отношений стимул-реакция, пригодных для прогнозирования), то есть построить 
 +алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения 
 +точности ответов, так же, как и в обучении на примерах, может вводиться функционал качества. 
 + 
 +Метка – это элемент, который прогнозируется с помощью модели машинного обучения. 
 +Например, порода собаки или будущая цена акций. 
 + 
 +Метод обратного распространения ошибки – это метод обучения нейронных сетей с 
 +учителем. Цель метода проста – отрегулировать веса пропорционально тому, насколько он 
 +способствует общей ошибке. Является одним из наиболее известных алгоритмов машинного 
 +обучения. На каждой итерации происходит два прохода сети — прямой и обратный. На прямом 
 +методе входной вектор распространяется от входов сети к ее выходам и формирует некоторый 
 +выходной вектор, соответствующий текущему (фактическому) состоянию весов. Затем вычисляется 
 +ошибка нейронной сети как разность между фактическим и целевым значениями. На обратном 
 +проходе эта ошибка распространяется от выхода сети к ее входам, и производится коррекция весов 
 +нейронов в соответствии с правилом. 
 + 
 +Многоклассовая классификация – это значение метки может быть только одним из трех или 
 +больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме 
 +Задачи машинного обучения. 
 + 
 +Моделирование – это параметры для прогнозирующей функции. Например, значения веса 
 +в модели линейной регрессии или точки разбиения в дереве принятия решений. 
 + 
 +Модель – это структура данных, которая хранит представление набора данных (веса и 
 +отклонения). Модели создаются / изучаются при обучении алгоритма на наборе данных. 
 +Наблюдение – это точка, строки или образцов в наборе данных. Другой термин для 
 +экземпляра. 
 + 
 +Набор данных – это записи в виде столбцов (полейи строксодержащихся в файле или 
 +таблице базы данных. 
 + 
 +Наука о данных (англ. data science; иногда даталогия — datalogy) — это раздел информатики, 
 +изучающий проблемы анализа, обработки и представления данных в цифровой форме. 
 +Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня 
 +параллелизма, статистические методы, методы интеллектуального анализа данных и приложения 
 +искусственного интеллекта для работы с данными, а также методы проектирования и разработки 
 +баз данных. 
 + 
 +Нейронные сети – это математические алгоритмы, смоделированные на основе 
 +архитектуры мозга, предназначенные для распознавания закономерностей и взаимосвязей в 
 +данных. 
 + 
 +Неконтролируемое машинное обучение – это подкласс машинного обучения, в котором 
 +нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами 
 +можно считать кластеризацию, тематическое моделирование и сокращение размерности. 
 + 
 +Нерафинированная модель – это модель, которая содержит информацию, извлеченную из 
 +данных, но которая не предназначена непосредственно для генерации прогнозов. 
 +Нормализация – это ограничение значений весов в регрессии во избежание переобучения 
 +и повышения скорости вычислений. 
 + 
 +Нормализация — это процесс масштабирования данных с плавающей точкой до значений 
 +от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных 
 +входных функций. ML.NET предоставляет ряд преобразований для нормализации. 
 + 
 +Обучение – это процесс поиска модели для заданного набора данных для обучения. Для 
 +линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает 
 +определение точек разбиения. 
 + 
 +Относительная абсолютная погрешность – это метрика оценки, представляющая собой 
 +сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными 
 +значениями метки и средним значением всех правильных значений метки. 
 + 
 +Относительная квадратичная погрешность – это метрика оценки, представляющая собой 
 +сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний 
 +между правильными значениями метки и средним значением всех правильных значений метки. 
 + 
 +Оценка — это процесс применения новых данных к обученной модели машинного обучения 
 +и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа 
 +модели оценка может быть необработанным значением, вероятностью или категорией. 
 + 
 +Очистка данных – это обеспечение качества наборов данных. Для нахождения и 
 +исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно 
 +проверяются. 
 + 
 +Параметры – это свойства обучающих данных, полученных при обучении модели 
 +машинного обучения или классификатора. Они настраиваются с использованием алгоритмов 
 +оптимизации и уникальны для каждого эксперимента. 
 + 
 +Переобучение – это процесс, когда модель слишком хорошо усваивает обучающие данные 
 +и включает детали и шумыхарактерные для вашего набора данных. Вы можете сказать, что модель 
 +переоснащена, когда она отлично работает с вашим набором для обучения / проверки, но плохо с 
 +вашим набором тестов (или с новыми реальными данными). 
 + 
 +Переоснащение – это непреднамеренное моделирование случайных изменений в данных, 
 +приводящее к моделям, которые плохо работают при применении к другим наборам данных. 
 + 
 +Пакетирование и перекрестная проверка – это два метода обнаружения или предотвращения 
 +переобучения. Смотрите также пакетирование, перекрестная проверка. 
 + 
 +Площадь под кривой (AUC) – это метрика оценки, обозначающая площадь под кривой, 
 +которая соотносит количество истинных положительных результатов (по оси Y) и ложных 
 +положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1 
 +(наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений 
 +правильного и ложного обнаружения). 
 + 
 +Повышение эффективности – это метод моделирования, который создает 
 +последовательность моделей, а не одну модель, для получения более точных прогнозов. Случаи 
 +классифицируются путем применения к ним всего набора моделей, а затем объединен ия 
 +отдельных прогнозов в один общий прогноз. См. также расфасовка в пакеты. 
 + 
 +Построение модели – это процесс создания моделей данных с использованием 
 +алгоритмов. Построение модели обычно состоит из нескольких этапов: обучение, тестирование и 
 +(необязательно) валидация оценки. Смотрите также тестирование, обучение, валидация. 
 + 
 +Прогнозная аналитика – это бизнес-процесс и набор связанных с ним технологий, связанных 
 +с прогнозированием будущих возможностей и тенденций. Прогнозная аналитика применяет такие 
 +разнообразные дисциплины, как вероятность, статистика, машинное обучение и искусственный 
 +интеллект, к решению бизнес-задач, чтобы найти наилучшее действие для данной ситуации. 
 + 
 +Проектирование признаков – это процесс, в котором определяется набор признаков и 
 +разрабатывается программное обеспечение, которое создает векторы признаков на основе 
 +доступных данных о явлении, то есть извлекает признаки 
 + 
 +Развертывание – это процесс обеспечения широкого использования проекта прогнозной 
 +аналитики в организации. 
 + 
 +Регрессия – это задача контролируемого машинного обучения, которая выводит реальное 
 +значение, например в формате двойной точности. 
 + 
 +Регуляризация – это "наказывает" линейную модель за слишком большую сложность. 
 +Регуляризация использует нули как весовые коэффициенты для незначащих признаков. 
 +Размер сохраненной модели может уменьшиться после регуляризации такого рода. 
 +Регуляризация сводит к минимуму диапазон весовых коэффициентов для незначащих 
 +признаков. Это более общий процесс, который менее чувствителен к выбросам. 
 + 
 +Рекуррентная нейронная сеть – это эффективный и устойчивый к сбоям тип нейронной сети, 
 +использующей для обработки сложных последовательностей свою внутреннюю память. 
 + 
 +Сверточная нейронная сеть (СНС) – это класс глубоких нейронных сетей, используемых для 
 +распознавания, обработки и анализа изображений. Архитектура сверточных нейронных сетей 
 +изначально разрабатывалась для обработки распознавания образов. 
 + 
 +Скорость обучения – это размер шагов обновления, которые необходимо выполнить во 
 +время циклов оптимизации, таких как градиентный спуск. При высокой скорости обучения мы 
 +можем охватывать больше территории на каждом этапе, но мы рискуем превысить самую низкую 
 +точку, поскольку наклон холма постоянно меняется. При очень низкой скорости обучения мы 
 +можем уверенно двигаться в направлении отрицательного градиента, поскольку мы так часто его 
 +пересчитываем. Низкая скорость обучения является более точной, но вычисление градиента 
 +отнимает много времени, поэтому нам потребуется очень много времени, чтобы разобраться в 
 +сути. 
 + 
 +Средство оценки — это спецификация преобразования (преобразование подготовки 
 +данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку 
 +— конвейер преобразований. 
 +  * строк и столбцов; 
 +  * схем, которые определяют тип, формат и длину каждого столбца; 
 +  * средств оценки. 
 + 
 +Точность – это соотношение количества правильно классифицированных элементов и общего числа 
 +элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до 
 +1 (наибольшая точность). Точность является одной из метрик оценки для производительности 
 +модели. 
 + 
 +Тензоры — это тип структуры данных, который может более точно представлять сложные 
 +структуры данных. Их можно использовать для моделирования отношений между нелинейными 
 +или хаотическими переменными. Это делает их идеальными для использования в алгоритмах 
 +машинного обучения. 
 + 
 +Тест Тьюринга – это тест, который признается пройденным только в том случае, если в ходе 
 +общения человек не смог отличить машину от человека. 
 + 
 +Тестовый набор данных – это набор данных, который независим от обучающего набора 
 +данных, но который соответствует такому же распределению вероятностей, как и обучающий набор 
 +данных. 
 + 
 +Трансформация – это формула, которая применяется к значениям поля для изменения 
 +распределения значений. Некоторые статистические методы требуют, чтобы поля имели 
 +определенное распределение. Когда распределение поля отличается от требуемого, 
 +преобразование (например, получение логарифмов значений) часто может устранить проблему. 
 + 
 +Тренинговый набор данных – это набор данных, используемый для обучения моделей 
 +машинного обучения. 
 + 
 +Функции потери — это разница между значениями меток обучения и прогноза, сделанного 
 +с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь. 
 + 
 +Черный ящик – это сложная нейронная сеть, в которой конечному пользователю неизвестны 
 +алгоритмы, содержимое и процессы принятия решений. 
 + 
 +Числовой вектор признака – это вектор признака, который состоит только из числовых 
 +значений. 
 + 
 +Числовые переменные — это переменные, в которых измерения или числа имеют числовое 
 +значение. 
 + 
 +Шум – это любая нерелевантная информация или случайность в наборе данных, которая 
 +скрывает лежащий в основе шаблон. 
 + 
 +Эвристика – это процесс, поиска решения методом проб и шибок в процессе которой 
 +формируется «опыт» - правила. Хотя эвристический подход позволяет получить результат быстрее, 
 +но, как правило, оптимальный результат достигают при применении классических методов. 
 + 
 +Экстраполяция – это выполнение прогнозов за пределами диапазона набора данных. 
 +Например, моя собака лает, поэтому все собаки должны лаять. В машинном обучении мы часто 
 +сталкиваемся с проблемами, когда экстраполируем данные за пределы диапазона наших 
 +обучающих данных. 
 + 
 +Эпоха – это количество раз, когда алгоритм просматривает весь набор данных.
  
-**Тестовая выборка** - данные, на которых идет проверка качества работы ранее обученной сети. 
  
 ===== Ссылки ===== ===== Ссылки =====
  
-  * [[https://e-edu.rosnou.ru/pluginfile.php/466931/mod_resource/content/0/%D0%93%D0%BB%D0%BE%D1%81%D1%81%D0%B0%D1%80%D0%B8%D0%B9.pdf|Глоссарий.pdf]]+  * [[https://e-edu.rosnou.ru/pluginfile.php/467007/mod_resource/content/0/%D0%93%D0%BB%D0%BE%D1%81%D1%81%D0%B0%D1%80%D0%B8%D0%B9.pdf|Глоссарий.pdf]]
Печать/экспорт