Алгоритм формирования контрольного числа номера вагона: Расшифровка номера вагона

Содержание

Расшифровка номера вагона — ЖЕЛЕЗНОДОРОЖНИК.РФ

1-я цифра -род вагона	2-я цифра — осность и основная характеристика вагона	3-я цифра — дополнительная характеристика вагона	4-я цифра	5-я и 6-я цифры	7-я цифра: 0-8 без торм. площ; 9 с торм. площ	Расчетная масса тары,(т)	Условная длина (в14 м вагонах)	№ типа вагона
Крытый 2	0	4-х осн. объем кузова менее 120 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-8 9	22,7 24,2	1,05 1,10	200 201
1-3	4-х осн. объем кузова 120 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-8	23,0	1,05	204
4-7	4-х осн. объем кузова 120 куб. м с ушир.дверн. проемом	0-9	Характеристики не содержит	0-9	0-9	0-8 9	24,0 26,0	1,05 1,10	206 207
8	4-х осн. объем кузова 120 куб. м с ушир. дверн.проемом	0-9	Характеристики не содержит	0-9	0-9	0-8 9	26,0 27,0	1,21 1,26	208 209
Платформа 4	0	4-х осн. с длиной рамы до 13,4 м	0-9	Характеристики не содержит	0-9	0-9	0-8	22,0	1,02	400
1-8	4-х осн. с длиной рамы 13,4 м	0-9	Характеристики не содержит	0-9	0-9	0-9	20,9	1,05	404
Полувагон 6	0-7	4-х осн. с люками в полу	0-9	Характеристики не содержит	0-9	0-9	0-8 9	22,0 24,0	1,00 1,03	600 601
8	4-х осн. с глухим кузовом	0-9	Характеристики не содержит	0-9	0-9	0-8 9	21,1 22,6	1,00 1,03	608 609
9	8-ми осный	0	С люками в полу и торцевыми дверями	0-9	0-9	0-8	44,5	1,45	612
Цистерна 7	0	4-х осная для нефтебитума и вязких нефтепродуктов	0	Для нефтебитума (бункерный полувагон) с облегченной рамой	0-9	0-9	0-8	31,5	1,01	700
1-3	Для нефтебитума (бункерный п/ваг)	0-9	0-9	0-8	36,5	1,05	702
5-6	Для вязких нефтепродуктов	0-9	0-9	0-8	24,2	0,86	704
1	4-х осная для нефти и темных нефтепродуктов, объем котла 50-63 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-8 9	23,2 24,5	0,86 0,88	712 713
2	4-х осная для нефти, темных и светлых нефтепродуктов объем котла 50-63 куб.м (сезонная специлизация)	0-9	Характеристики не содержит	0-9	0-9	0-8 9	23,2 24,5	0,86 0,88	720 721
3-4	4-х осная для светлых нефтепродуктов	0-7	Объем котла 73,1куб.м	0-9	0-9	0-8 9	23,2 23,4	0,86 0,89	730 731
8	Объем котла 75 куб.м	0-9	0-9	0-8	28,0	0,86	748
9	Объем котла 85,6 куб.м	0-9	0-9	0-8	24,7	0,86	732
5	4-х осная для светлых нефтепродуктов	1	Объем котла 85,6 куб.м	0-9	0-9	0-8	24,7	0,86	732
6	4-х осная для химических грузов	0	Для серной к-ты	0-9	0-9	0-8	21,9	0,86	760
1	Для улучшенной серной кислоты	0-9	0-9	0-8	20,4	0,86	762
3	Для меланжа	0-9	0-9	0-8	21,8	0,86	764
4	Для метанола	0-6	0-9	0-8	23,5	0,86	766
5	Для остальных химических грузов	0-9	0-9	0-8	35,3	1,13	750
7-9	Для остальных химических грузов	0-9	0-9	0-8	21,9	0,86	768
7	4-х осная для пищевых продуктов	0	Для спирта	0-6	0-9	0-8	23,2	0,86	770
	Для спирта,объем котла 85,6 куб.м		0-9	0-8	24,7	0,86	770
1	Для молока	0-9	0-9	0-8	23,3 26,0	0,86 0,87	772 773
2	Для растительного масла	0-9	0-9	0-8	23,2	0,86	774
3-4	Для виноматериалов	0-9	0-9	0-8	28,0	0,86	776
5	Для патоки	0-9	0-9	0-8	22,3	0,86	778
8	Для остальных пищевых продуктов	0-9	0-9	0-8	23,3	0,86	780
9	8-ми осная нефтебензиновая	0-1	Для нефти и нефтепродуктов объем котла 159 куб. м габарита ТЦ	0-9	0-9	0-8	51,0	1,34	790
4-5	Для светлых и темных нефтепродуктов объем котла 140 куб.м	0-9	0-9	0-8	48,8	1,51	794
7	Для светлых нефтепродуктов объем котла 161,6 куб. м	0-9	0-9	0-8	51,0	1,52	798
Изотермический 8	0	4-х осный вагон-термос	0-1	Характеристики не содержит	0-9	0-9	0-8	33,5	1,58	800
1	4-х осный вагон-ледник	0	С пристенными карманами	0-9	0-9	0-8	32,0	1,05	806
4	С потолочными баками	0-9	0-9	0-8	37,0	1,15	808
7	Для вина	0-9	0-9	0-8	43,6	1,05	810
3	4-х осный автономный рефрижераторный вагон (АРВ)	0	Со служебным отделением для бригады	0-9	0-9	0-9	52,0	1,44	814
1	Без служебного отделения для бригады, длиной кузова 19 м	0-9	0-9	0-9	44,0	1,44	816
3-4	Без служебного отделения для бригады, длиной кузова 21 м	0-9	0-9	0-9	46,0	1,58	818
4	4-х осный грузовой вагон в составе рефрижераторных поездов	0	21-вагонного поезда	0-9	0-9	0-9	41,0	1,30	824
1	12-вагонного поезда	0-9	0-9	0-9	43,0	1,30	826
5	4-х осный грузовой вагон в составе 6-ти вагонной рефрижераторной секции	0-4	Характеристики не содержит	0-9	0-9	0-9	39,0	1,58	830
7	4-х осный грузовой вагон в составе 5-ти вагонных рефрижераторных секций	0	Для секций без служ. отд. ZA-5	0-9	0-9	0-9	39,0	1,30	836
1	Постр.ГДР со служ.отдел.	0-9	0-9	0-9	50,5	1,30	838
2-6	Для секций постройки БМЗ	0-9	0-9	0-9	39,0	1,58	840
7-9	Для секции ZB-5 постройки ГДР	0-9	0-9	0-9	43,0	1,58	842
9	8-ми осный в составе рефрижераторной секции	0	Характеристики не содержит	0-9	0-9	0-9	67,7	1,77	844
Прочие 9	0	4-х осный для перевозки грузов	0	Для аппатитового концентрата «-» модели 10-402	0	0-9	0-8	26,5	0,83 0,84	900 908
1	Для сырья минеральных удобрений	0-9	0-9	0-8	20,5	0,86	902
2	Зерновоз для перевозки минеральных удобрений	0-9	0-9	0-8	22,0	1,05	901
3-6	Для минеральных удобрений	0-9	0-9	0-8	22,0	0,95	904
7	Для крытых специализированных	0-9	0-9	0-9	26,0	1,10	905
8	Саморазгружающийся полувагон	0-1	0-9	0-8	25,0	0,87	906
1	4-х осный для перевозки грузов	0	Для агломерата (дл. 10 м) и окатышей	0-9	0-9	0-8	24,0	0,72	910
2-4	Для агломерата (дл. 12 м) и окатышей	0-9	0-9	0-8	23,0	0,86	912
5	Платформа для лесоматериалов	0-5	0-9	0-8	33,0	1,66	914
	Платформа для большегрузных контейнеров		0-9	0-8	33,5	1,82	984
6	Для технологической щепы полуваг.	0-3	0-9	0-8	30,0	1,50	916
	Для технологической щепы переоб.крыт.	4-9	0-9	0-8	24,2	1,10	917
8	Крытый, переоб. из рефр. сборно-раздаточный	0—9	0-9	0-8	37,0	1,59	918
		0-9	9	24,9	1,10	919
2	4-х осный для перевозки грузов	0-4	Для среднетоннажных контейнеров на базе полувагона, крытого	0-9	0-9	0-9	23,2	1,10	920
5	Крытый для легковесных грузов (ЦМГВ )	0-9	0-9	0-8	42,0	1,76	924
7	Крытый для автомобилей	0-9	0-9	0-8	42,0	1,76	926
8	2-х ярусная платформа для автомобилей	0-9	0-9	0-8	26,0	1,55	928
9	Цистерна для порошкообразных грузов	0-9	0-9	0-8	24,6	0,86	932
3	4-х осный для перевозки грузов	0-6	Хоппер для цемента	0-9	0-9	0-8 9	22,0	0,85	930 931
7-9	Цистерна для цемента	0-9	0-9	0-8	22,0	0,87	936
4	4-х осная (платформа) для перевозки грузов	0-1	Для большегрузных контей неров (длиной рамы менее 13,4 м)	0-9	0-9	0-8	18,4	1,02	940
2-4	Для большегрузных контейнеров (длиной рамы 13,4 м)	0-9	0-9	0-8	21,0	1,05	942
5-9	Для большегрузных контейнеров (длиной рамы 18,4 м)	0-9	0-9	0-8	22,0	1,40	946
5	4-х осный для перевозки грузов	0-9	Для зерна ( хоппер )	0-9	0-9	0-8	22,0	1,05	950
6	4-х осный для перевозки грузов	0	Для живой рыбы грузовой вагон 2-х вагонной секции	0-9	0-9	0-9	45,0	1,58	956
1	Для живой рыбы одиночный вагон	0-9	0-9	0-9	41,0	1,05	960
2	Для скота повышенной вместимости	0-9	0-9	0-8	32,8	1,77	976
3	Для скота с верхним расположением люков	0-9	0-9	0-8	25,4	1,05	962
4	Для скота 2-х ярусный	0-9	0-9	0-8	25,4	1,05	964
5	Для скота с нижним расположением люков	0-9	0-9	0-8 9	24,3 25,6	1,25 1,29	966 967
6	Платформа для рулонной стали	0-2	0-9	0-8	30,0	1,05	968
7	Для перевозки муки	0-9	0-9	0-8	33,8	1,25	972
8	Цистерна для инертных грузов	0-9	0-9	0-8	25,5	0,86	974
9	Хоппер со снятой крышей	0-9	0-9	0-8	22,0	0,85	982
7	4-х осный для перевозки грузов	0	Цистерна для кальцинированной соды	0-9	0-9	0-8	31,3	1,13	970
1-7	Хоппер для цемента	0-9	0-9	0-8 9	22,0 22,0	0,85 0,87	930 931
8-9	Цистерна для цемента	0-9	0-9	0-8	25,0	0,86	936
Прочие 3	0-1	4-х осный хоппер-дозатор	0-4	Типа ЦНИИ-2, ЦНИИ-3	0-9	0-9	0-8	25,0	0,71	300
5-7	Типа ЦНИИ-ДВ 3М	0-9	0-9	0-8	23,0	0,78	302
8	Модель 55-76	0-9	0-9	0-8	24,0	0,82	304
2	4-х осный думпкар	0	Типа 4ВС-50	0-9	0-9	0-8	30,2	0,83	320
	4-х осный контейнеровоз	1-9	На базе крытого, полувагон	0-9	0-9	9	23,2	1,10	920
3	4-х осный думпкар	0-9	Типа 5ВС-60	0-9	0-9	0-8	29,0	0,84	330
4-5	4-х осный думпкар	0-9	Типа 6ВС-60, 7ВС-60	0-9	0-9	0-8 9	27,5 28,0	0,85 0,89	350 351
6	6-ти осный вагон для перевозки грузов	4	Платформа	0-9	0-9	0-8	40,0	1,80	360
6	Полувагон	0-9	0-9	0-8	32,0	1,18	362
7	Цистерна	0-9	0-9	0-8	85,5	1,40	364
8	3-х вагонной рефрижераторной секции	0-9	0-9	0-9	63,3	1,78	366
9	Остальные вагоны	0-9	0-9	0-8	29,0	1,09	368
7	4-х осные служебно-технические вагоны рефрижераторных поездов и секции не для перевозки грузов, прочие не для перевозки грузов	1	Вагон-машинное отделение, дизель-электростанция 12-ти ваг., секции	0-9	0-9	0-9	64,1	1,30	370
2	Вагон-машинное отделение, вагон-служебное помещение, дизельный вагон 21-ти вагонного поезда	0-9	0-9	0-9	70,7	1,29	372
3	6-ти вагонной секции	0-9	0-9	0-8	62,9	1,29	384
4	5-ти вагонной секции ZB-5 постройки ГДР	0-9	0-9	0-9	69,0	1,29	374
5	5-ти вагонной секции постройки БМЗ	0-9	0-8	0-9	62,9	1,29	376
6	Служебный вагон 2-вагонной секции для живой рыбы	0-9	0-9	0-9	62,9	1,29	378
	Прочие не для перевозки грузов (крытые, платформы)	0-9	0-9	0-8 9	23,87 23,87	1,10 1,10	382 383
7	Служебный вагон 3-вагонной секции, отдельный дизель-служебный вагон	0-9	0-9	0-9	59,5	1,59	380
9	Транспортеры

Проверка

Цифры номера вагона	2	4	5	9	8	6	5	8
Весовой ряд	2	1	2	1	2	1	2	1
Поразрядные произведения	4	4	10	9	16	6	10	8

2438766

Цифры номера вагона	2	4	3	8	7	6	6
Весовой ряд	2	1	2	1	2	1	2
Поразрядные произведения	4	4	6	8	14	6	12

выполняется поразрядное сложение цифр: 4+4+6+8+1+4+6+1+2=36

. полный номер вагона будет 24387664.

проверка

Цифры номера вагона	2	4	3	8	7	6	6	4
Весовой ряд	2	1	2	1	2	1	2	1
Поразрядные произведения	4	4	6	8	14	6	12	4

Блок-схема расчета контрольного знака станции.

Блок-схема алгоритма расчета контрольного знака вагона.

блок-схема проверки правильности считанного номера вагона.

Задача 1.3

Провести расчет (проверку) контрольных знаков кода груза в соответствии с вариантом

17113*

05119*

24138*

36123*

59504*

Коды грузов имеют шесть знаков. Они содержатся в алфавитном списке Тарифного руководства №1 (Прейскурант 10-01). Две цифры кода указывают тарифную группу в тарифном руководстве. Третья цифра – номер позиции в группе. Четвертая и пятая – наименование груза в позиции. Шестой знак – контрольный, который рассчитывается по модулю 11 аналогично коду станции.

решение: 16106

Под цифрами номера станции записывается весовой ряд -1,2,3,4,5.

Цифры номера станции	1	7	1	1	3
Весовой ряд	1	2	3	4	5
Поразрядные произведения	1	14	3	4	15

Умножаем цифры номера груза на соответствующие цифры весового ряда

и получаем поразрядные произведения.

Складываем поразрядные произведения: 1+14+3+4+15=37.

Сумму поразрядных произведений 37 делим на установленный расчетный модуль К=11. Остаток от деления и есть контрольный (кодовый) знак.

37:11=3(4)

Таким образом, кодом груза будет 171134.

решение: 05119

Под цифрами номера станции записывается весовой ряд -1,2,3,4,5.

Цифры номера станции	0	5	1	1	9
Весовой ряд	1	2	3	4	5
Поразрядные произведения	0	10	3	4	45

Умножаем цифры номера груза на соответствующие цифры весового ряда

и получаем поразрядные произведения.

Складываем поразрядные произведения: 0+10+3+4+45=62.

Сумму поразрядных произведений 62 делим на установленный расчетный

модуль К=11. Остаток от деления и есть контрольный (кодовый) знак.

62:11=5(7)

Таким образом, кодом груза будет: 051197

решение: 24138

Под цифрами номера станции записывается весовой ряд -1,2,3,4,5.

Цифры номера станции	2	4	1	3	8
Весовой ряд	1	2	3	4	5
Поразрядные произведения	2	8	3	12	40

Умножаем цифры номера груза на соответствующие цифры весового ряда

и получаем поразрядные произведения.

Складываем поразрядные произведения: 2+8+3+12+40=66.

Сумму поразрядных произведений 66 делим на установленный расчетный модуль К=11. Остаток от деления и есть контрольный (кодовый) знак.

66:11=6(0)

Таким образом, кодом груза будет: 241380

решение: 36123

Под цифрами номера станции записывается весовой ряд -1,2,3,4,5.

Цифры номера станции	3	6	1	2	3
Весовой ряд	1	2	3	4	5
Поразрядные произведения	3	12	3	8	15

Умножаем цифры номера груза на соответствующие цифры весового ряда

и получаем поразрядные произведения.

Складываем поразрядные произведения: 3+12+3+8+15=41.

Сумму поразрядных произведений 41 делим на установленный расчетный модуль К=11. Остаток от деления и есть контрольный (кодовый) знак.

41:11=3(8)

Таким образом, кодом груза будет: 361238

решение: 59504

Под цифрами номера станции записывается весовой ряд -1,2,3,4,5.

Цифры номера станции	5	9	5	0	4
Весовой ряд	1	2	3	4	5
Поразрядные произведения	5	18	15	0	20

Умножаем цифры номера груза на соответствующие цифры весового ряда

и получаем поразрядные произведения.

Складываем поразрядные произведения: 5+18+15+0+20=58.

Сумму поразрядных произведений 59 делим на установленный расчетный модуль К=11. Остаток от деления и есть контрольный (кодовый) знак.

58:11=5(3)

Таким образом, кодом груза будет: 595043.

Задание №2

Задача 2.1

Сформировать натурный лист формы ДУ-1 в соответствии с исходными данными.

Вариант № 12

01 94316270 201 045 03561 00300 0012 0 0 5 0 02/00

02 94252863 201 045 03561 00300 0012 0 0 5 0 02/00

03 90854910 201 053 85038 58111 1980 0 0 0 2 00/00 00000 000 ОХРСРП

04 90837378 201 050 23090 58111 7362 0 0 0 2 00/00 00000 000 ОХРСРП

05 90831215 201 053 83034 58111 4005 0 0 5 2 00/00 00000 000 ОХРСРП

06 90836842 201 053 26123 58111 6109 0 0 5 2 00/00 00000 000 ОХРСРП

07 90850728 201 050 19457 58111 8042 0 0 0 2 00/00 00000 000 ОХРСРП

08 59997494 201 005 26123 00300 0012 3 0 5 0 00/01 00000 000 СКП

09 59997296 201 005 26123 00300 0012 3 0 5 0 00/01 00000 000 СКП

10 59997882 201 005 26123 00300 0012 3 0 5 0 00/01 00000 000 СКП

11 59997270 201 034 26123 00300 0012 3 0 5 0 01/00 00000 000 СКП

12 59997338 201 034 26123 00300 0012 3 0 5 0 01/00 00000 000 СКП

13 59997908 201 043 26123 00300 0012 3 0 5 0 02/00 00000 000 СКП

14 53401162 201 000 26123 42103 3438 9 2 5 0 00/00 00000 000 043

15 59992701 201 048 26123 00300 0012 4 0 5 0 02/00 00000 000 СКП

16 59997395 201 032 26123 00300 0012 4 0 5 0 01/00 00000 000 СКП

17 59997478 201 030 26123 00300 0012 4 0 5 0 01/00 00000 000 СКП

18 59992024 201 031 26123 00300 0012 4 0 5 0 01/00 00000 000 СКП

19 59992784 201 031 26123 00300 0012 4 0 5 0 01/00 00000 000 СКП

20 59997833 201 031 26123 00300 0012 4 0 5 0 01/00 00000 000 СКП

На каждый сформированный поезд станция составляет натурный лист формы.

ДУ-1, являющейся основным технологическим документом, используемым для организации обработки вагонопотоков на станциях.

На станциях формирования натурный лист составляется в трех экземплярах.

Первый экземпляр вкладывается в пакет с перевозочными документами, второй вручается машинисту, третий остается в делах станции и используется для учета работы и передачи информации.

Структурно натурный лист состоит из трех разделов:

— заглавной части ( сведения о поезде в целом),

— сведения о вагонах,

— итоговых данных.

Подписывает его ответственное лицо- дежурный по станции, дежурный по парку отправления или оператор СТЦ по обработке поездной информации. Подпись и фамилия должны быть разборчивыи заверены штемпелем станции.

При заполнении натурного листа следует руководствоваться Инструкцией по заполнению натурного листа ДУ-1.

В заглавной части четырехзначный номер поезда заполняется в соответствии с номером, указанным в журнале движения поездов. В графе « Станция формирования» указываются наименования и первые четыре знака кода ЕСР.

В графе « номер поезда» указывается порядковый номер состава присвоенный поезду на станции формирования.

В графе « станция назначения» указывается наименование станции и первые четыре знака кода станции.

В графе « голова, хвост», если состав списан с головы, проставляется код-1, с хвоста- 2.

В графах « число, месяц, часы, минуты» двухзначными цифрами указывается дата и время отправления поезда со станции формирования.

В графах « условная длина» и « масса поезда» указывают данные, взятые из итогового раздела натурного листа.

В графе « прикрытия» проставляется код наиболее опасного груза,

имеющегося в составе.

В графе « живность» при наличии в составе вагона с живностью

проставляется код-1, а при отсутствии -0.

В графе « индекс негабаритности» проставляется четырехзначный цифровой индекс, включающий коды наибольшей степени нижней, боковой и верхней негабаритности грузов в составе поезда.

Сведения о вагонах.

В бланке натурного листа в графе « №№ п\п типографическим способом отпечатаны порядковые номера вагонов в составе поезда. Если в составе вагонов больше, чем строк используется дополнительный бланк.

В графе « номер вагона» указываются номера вагонов,в соответствии с восьмизначной системой нумерации.

В графе « код собственника» записывают код железнодорожной администрации, которой принадлежат вагоны.

В графе « масса груза в тогннах» масса погруженного в вагон груза указывается тремя цифрами.

В графе « станция назначения» против каждого номера вагона проставляется шестизначный код станции.

В графе « код груза» для каждого груженного вагона проставляется 6-значный код груза и два дополнительных знака.

В графе « код получателя» проставляются 4-значные коды грузополучателей, указанных в накладных.

В графе « особые отметки» в первом знаке « маршрут, нерабочий парк» одной цифрой указывается принадлежность вагона к маршруту ( цифрой 2 ). цифрой 2 проставляется так же против номера вагонов маршрута.

В графе « К оличество ЗПУ ( ПЛОМБ) указывается количество запорно- пломбировочных контейнеров в физических единицах.

В графе « выходная пограничная станция» против каждого номера ывагона, следующие за пределы государства в границах стран СНГ и Балтии, проставляется шести значный код выходнойпограничной станции.

В графе « тара вагона» масса тары вагона проставляется в виде трехзначного кода

Итоговые данные.

Этот раздел натурного листа заполняется на основании данных о вагонах. В строке « количество груженных вагонов по дорогам назначения» запись ведеться буквенный код дороги и число вагонов. В строке « масса поезда в тоннах», указывается масса тары, нетто и брутто в целых числах с

округлением в большую сторону.

В строке « условная длина поезда» длина поезда указывается в целых числах.

см. приложения № 1

Принцип нумерации железнодорожных вагонов, значения цифр

Система нумерации железнодорожных вагонов в восьмизначном номере объединяет уникальный инвентарный номер, присвоенный вагону, основные его характеристики и кодовую защиту достоверности считывания номера.

Первый знак указывает на род подвижного состава:
2 — крытые грузовые вагоны;
4 — платформы;
6 — полувагоны;
7 — цистерны;
8 — изотермические вагоны;
3 и 9 — прочие (специализированные и др.) вагоны
Вторая цифра указывает на количество осей и основные характеристики подвижного состава.
Цифры 0 — 8 обозначают четырехосные, цифра 9 – восьми осные вагоны.
Все шести осные вагоны и транспортеры отнесены к прочим вагонам, номера которых начинаются с цифры 3 (у шести осных вторая цифра номера — 6, у транспортеров вторая цифра номера — 9).

Помимо количества осей вторая цифра определяет:
— у крытых вагонов — объем кузова
— у платформ — длину рамы
— у четырехосных полувагонов — наличие разгрузочных люков и торцовых дверей
— у цистерн — специализацию

Подробная таблица: Нумерация вагонов

Четвертый, пятый и шестой знаки в номере вагона определяют их порядковый номер и характеристик не содержат.
В седьмом знаке цифра 9 свидетельствует о наличии у вагона переходной площадки.

Восьмая цифра — контрольная.
Контрольным числом — является число, дополняющее под разрядную сумму до ближайшего целого десятка. Если, под разрядная сумма кратна 10, то контрольный знак равен 0. В примере контрольным знаком будет 8.
Номер вагона   7   4   8   5   4   6   8
Множитель   2   1   2   1   2   1   2
Произведение   14   4   16   5   8   6   16
Сумма   1 + 4 + 4 + 1 + 6 + 5 + 8 + 6 + 1 + 6 = 42

Крытые вагоны

Полувагоны

Платформы

Система нумерации вагонов

Система нумерации вагонов грузового парка железных дорог колеи 1520 мм.

Нумерация вагонов позволяет по номеру вагона определить род, осность и другую техническую характеристику.
Номер вагона состоит из семи знаков.

Первый знак номера определяет род вагона:
1 Не используется
2 Крытый
3 Не используется
4 Платформа
5 Не используется
6 Полувагон
7 Цистерна
8 Изотермический
9 Прочие
Второй знак номера — осность вагона:
0 Две
1 Две
2 Четыре
3 Четыре
4 Четыре
5 Четыре
6 Четыре
7 Четыре
8 Шесть
9 Более шести

В третьем знаке номера содержатся дополнительные технические данные, которые используются совместно со значением второго знака:
У крытых вагонов цифры 0 и 1 во втором знаке обозначают только двухосный вагон. Цифры 2, 3 и 4 во втором знаке обозначают крытые четырехосные вагоны с объемом кузов до 120 м3 , а цифры 5, 6 и 7 – вагоны с объемом кузова 120 м3.
Цифра 8 во втором знаке обозначает шестиосный вагон, а цифра 9 — восьмиосный;

У платформ 0 и 1 во втором знаке, как и у крытых вагонов, обозначают только двухосный вагон.

Цифра 2 во втором знаке и 0 в третьем обозначают четырехосную специальную платформу для перевозке контейнеров.

Цифра 5 во втором знаке обозначает четырехосную платформу с длиной рамы 13,4 м, а цифры 6 и 7 — с длиной рамы 13,4 м и более. Цифра 8 указывает, что платформа шестиосная и 9 — восьмиосная.

У полувагонов цифры 2 — 6 во втором знаке указывают на наличие деревянного кузова и люков в полу, третий знак в этом случае технической характеристики не содержит. Цифра 7 во втором знаке в сочетании с цифрами 0,1 и 2 в третьем обозначает четырехосный полувагон с деревянным или металлическим кузовом без люков в полу, а с цифрами 3 — 9 с металлическим кузовом и люками в полу.

У цистерн цифра 0 во втором знаке показывает, что они двухосные нефтебензиновые, цифра 1 во втором знаке и 0 в третьем — двухосные спиртовые. 1 во втором знаке и 6, 7 или 8 в третьем — двухосные для остальных наливных грузов.

Цифры 3, 4 и 5 во втором знаке обозначает четырехосные нефтебензиновые цистерны. Третий знак технической характеристики не содержит.

Четырехосные цистерны для перевозки химических грузов во втором и третьем знаках имеют цифры 60, 61, 62, 63 и 64, для перевозки кислотных грузов — 65, 66, 67 и 68.

Четырехосные цистерны для перевозки остальных наливных грузов во втором и третьем знаках имеют цифры: 70 — для перевозки спирта, 71 — для перевозки молока, 72 и 73 — для перевозки вязких грузов, оборудованные отопительными приборами , 74 и 75 — для перевозки битума (бункерные полувагоны), 76, 77, 78 и 79 — для перевозки остальных наливных грузов.

Цифра 8 во втором знаке в сочетании с цифрой 0 или 1 в третьем обозначает шестиосную нефтебензиновую цистерну, а в сочетании с цифрами 6. 7 и 8 — шестиосную для остальных наливных грузов.

Восьмиосные нефтебензиновые цистерны во втором и третьим знаках имеют цифры 90 и 91, а предназначенные для перевозки остальных наливных грузов — цифру 96.

У изотермических вагонов во втором знаке:

Цифра Значение
0 двухосные вагоны с льдосоляным охлаждением и пристенными карманами
5 четырехосные с льдосоляным охлаждением и потолочным оборудованием
6 четырехосные с индивидуальным машинным охлаждением
7 четырехосные в составе рефрижераторных поездов или секций
причем цифра 0 в третьем знаке — в составе поездов, 1 — в составе двенадцативагонных секций и 2 — 4 — в составе пятивагонных секций.

Прочие двухосные вагоны для перевозки грузов имеют во втором знаке цифру 0, не для перевозки грузов — 1. Третий знак технической характеристики не содержит.

Четырехосные полувагоны для перевозки контейнеров во втором и третьем знаках имеют цифры 20 — 28, а четырехосные вагоны для перевозки грузов, переоборудованные из ледников В-41, — 29.

Прочие четырехосные вагоны для перевозки грузов во втором знаке имеют цифры 3-6. Цифры в третьем знаке обозначают: 0 — для перевозки живности, 1 — сборно-раздаточные, 2 — хопперы-дозаторы, 3,4 – для перевозки цемента (полувагоны или цистерны), 5 — 9 — для перевозки остальных грузов.

Четырехосные не для перевозки грузов: технические и служебные рефрижераторных поездов и секций во втором и третьем знаках имеют цифру 70, а служебные или специальные не для перевозки грузов — 71 — 79.

Прочие шестиосные вагоны не для перевозки грузов во втором и третьем знаках содержат цифру 80 и для перевозки грузов — 89; у транспортеров цифры первого и второго знаков 99, а третьего и четвертого обозначают количество осей.

Например, 9904…. — четырехосный, 9906.. — шестиосный и т.д.

Четвертый, пятый, шестой знаки технической характеристики не содержат и вместе с первыми тремя и седьмым знаком образуют порядковый номер вагона.

Седьмой знак указывает на наличие или отсутствие у вагона ручного тормоза (0 или 1).

Последняя, восьмая цифра номера вагона — контрольное число (служит для проверки правильности номера вагона в автоматических системах распознавания).

СИСТЕМА
нумерации вагонов грузового парка железных дорог колеи 1520 мм
( Введена приказом МПС № 22Ц от 15.05.84 г.)

1-я цифра — род вагона	2-я цифра — осность и основная характеристика вагона		3-я цифра — дополнительная характеристика вагона		4-я цифра	5-я и 6-я цифры	7-я цифра: 0-8 без торм. площ; 9 с торм. площ	Расчетная масса тары,(т)	Условная длина (в14 м вагонах)	№ типа вагона
Крытый 2	0	4-х осн. объем кузова менее 120 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-89	22,724,2	1,051,10	200201
	0-5
	1-3	4-х осн. объем кузова 120 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-8	23,0	1,05	204

	4-76-7	4-х осн. объем кузова 120 куб. м с ушир.дверн. проемом	0-9	Характеристики не содержит	0-9	0-9	0-89	24,026,0	1,051,10	206207

	8	4-х осн. объем кузова 120 куб. м с ушир. дверн.проемом	0-9	Характеристики не содержит	0-9	0-9	0-89	26,027,0	1,211,26	208209
Платформа 4	0	4-х осн. с длиной рамы до 13,4 м	0-9	Характеристики не содержит	0-9	0-9	0-8	22,0	1,02	400

	1-8	4-х осн. с длиной рамы 13,4 м	0-9	Характеристики не содержит	0-9	0-9	0-9	20,9	1,05	404
Полувагон 6	0-7	4-х осн. с люками в полу	0-9	Характеристики не содержит	0-9	0-9	0-89	22,024,0	1,001,03	600601
	8	4-х осн. с глухим кузовом	0-9	Характеристики не содержит	0-9	0-9	0-89	21,122,6	1,001,03	608609
	9	8-ми осный	0	С люками в полу и торцевыми дверями	0-9	0-9	0-8	44,5	1,45	612
Цистерна 7	0	4-х осная для нефтебитума и вязких нефтепродуктов	0	Для нефтебитума (бункерный полувагон) с облегченной рамой	0-9	0-9	0-8	31,5	1,01	700
			1-3	Для нефтебитума (бункерный п/ваг)	0-9	0-9	0-8	36,5	1,05	702
			5-6	Для вязких нефтепродуктов	0-9	0-9	0-8	24,2	0,86	704
	1	4-х осная для нефти и темных нефтепродуктов, объем котла 50-63 куб. м	0-9	Характеристики не содержит	0-9	0-9	0-89	23,224,5	0,860,88	712713
	2	4-х осная для нефти, темных и светлых нефтепродуктов объем котла 50-63 куб.м (сезонная специлизация)	0-9	Характеристики не содержит	0-9	0-9	0-89	23,224,5	0,860,88	720721
	3-4	4-х осная для светлых нефтепродуктов	0-7	Объем котла 73,1куб.м	0-9	0-9	0-89	23,223,4	0,860,89	730731
			8	Объем котла 75 куб.м	0-9	0-9	0-8	28,0	0,86	748
			9	Объем котла 85,6 куб.м	0-9	0-9	0-8	24,7	0,86	732
	5	4-х осная для светлых нефтепродуктов	1	Объем котла 85,6 куб.м	0-9	0-9	0-8	24,7	0,86	732
	6	4-х осная для химических грузов	0	Для серной к-ты	0-9	0-9	0-8	21,9	0,86	760
			1	Для улучшенной серной кислоты	0-9	0-9	0-8	20,4	0,86	762

			3	Для меланжа	0-9	0-9	0-8	21,8	0,86	764
			4	Для метанола	0-6	0-9	0-8	23,5	0,86	766
			5	Для остальных химических грузов	0-9	0-9	0-8	35,3	1,13	750

			7-9	Для остальных химических грузов	0-9	0-9	0-8	21,9	0,86	768
	7	4-х осная для пищевых продуктов	0	Для спирта	0-6	0-9	0-8	23,2	0,86	770
				Для спирта,объем котла 85,6 куб.м		0-9	0-8	24,7	0,86	770
			1	Для молока	0-9	0-9	0-8	23,326,0	0,860,87	772773
			2	Для растительного масла	0-9	0-9	0-8	23,2	0,86	774
			3-4	Для виноматериалов	0-9	0-9	0-8	28,0	0,86	776
			5	Для патоки	0-9	0-9	0-8	22,3	0,86	778
			8	Для остальных пищевых продуктов	0-9	0-9	0-8	23,3	0,86	780
	9	8-ми осная нефтебензиновая	0-1	Для нефти и нефтепродуктов объем котла 159 куб. м габарита ТЦ	0-9	0-9	0-8	51,0	1,34	790


			4-5	Для светлых и темных нефтепродуктов объем котла 140 куб.м	0-9	0-9	0-8	48,8	1,51	794
			7	Для светлых нефтепродуктов объем котла 161,6 куб. м	0-9	0-9	0-8	51,0	1,52	798
Изотермический 8	0	4-х осный вагон-термос	0-1	Характеристики не содержит	0-9	0-9	0-8	33,5	1,58	800
	1	4-х осный вагон-ледник	0	С пристенными карманами	0-9	0-9	0-8	32,0	1,05	806
			4	С потолочными баками	0-9	0-9	0-8	37,0	1,15	808
			7	Для вина	0-9	0-9	0-8	43,6	1,05	810
	3	4-х осный автономный рефрижераторный вагон (АРВ)	0	Со служебным отделением для бригады	0-9	0-9	0-9	52,0	1,44	814
			1	Без служебного отделения для бригады, длиной кузова 19 м	0-9	0-9	0-9	44,0	1,44	816
			3-4	Без служебного отделения для бригады, длиной кузова 21 м	0-9	0-9	0-9	46,0	1,58	818
	4	4-х осный грузовой вагон в составе рефрижераторных поездов	0	21-вагонного поезда	0-9	0-9	0-9	41,0	1,30	824
	4	4-х осный грузовой вагон в составе рефрижераторных поездов	1	12-вагонного поезда	0-9	0-9	0-9	43,0	1,30	826
	5	4-х осный грузовой вагон в составе 6-ти вагонной рефрижераторной секции	0-4	Характеристики не содержит	0-9	0-9	0-9	39,0	1,58	830
	7	4-х осный грузовой вагон в составе 5-ти вагонных рефрижераторных секций	0	Для секций без служ. отд. ZA-5	0-9	0-9	0-9	39,0	1,30	836
			1	Постр.ГДР со служ.отдел.	0-9	0-9	0-9	50,5	1,30	838
			2-6	Для секций постройки БМЗ	0-9	0-9	0-9	39,0	1,58	840
			7-9	Для секции ZB-5 постройки ГДР	0-9	0-9	0-9	43,0	1,58	842
	9	8-ми осный в составе рефрижераторной секции	0	Характеристики не содержит	0-9	0-9	0-9	67,7	1,77	844
Прочие 9	0	4-х осный для перевозки грузов	0	Для аппатитового концентрата «-» модели 10-402	0	0-9	0-8	26,5	0,830,84	900908
			1	Для сырья минеральных удобрений	0-9	0-9	0-8	20,5	0,86	902
			2	Зерновоз для перевозки минеральных удобрений	0-9	0-9	0-8	22,0	1,05	901
			3-6	Для минеральных удобрений	0-9	0-9	0-8	22,0	0,95	904
			7	Для крытых специализированных	0-9	0-9	0-9	26,0	1,10	905
			8	Саморазгружающийся полувагон	0-1	0-9	0-8	25,0	0,87	906
	1	4-х осный для перевозки грузов	0	Для агломерата (дл. 10 м) и окатышей	0-9	0-9	0-8	24,0	0,72	910
			2-4	Для агломерата (дл. 12 м) и окатышей	0-9	0-9	0-8	23,0	0,86	912
			5	Платформа для лесоматериалов	0-5	0-9	0-8	33,0	1,66	914
				Платформа для большегрузных контейнеров		0-9	0-8	33,5	1,82	984
			6	Для технологической щепы полуваг.	0-3	0-9	0-8	30,0	1,50	916
				Для технологической щепы переоб.крыт.	4-9	0-9	0-8	24,2	1,10	917
			8	Крытый, переоб. из рефр. сборно-раздаточный	0—9	0-9	0-8	37,0	1,59	918
				Крытый, переоб. из рефр. сборно-раздаточный		0-9	9	24,9	1,10	919
	2	4-х осный для перевозки грузов	0-4	Для среднетоннажных контейнеров на базе полувагона, крытого	0-9	0-9	0-9	23,2	1,10	920
			5	Крытый для легковесных грузов (ЦМГВ )	0-9	0-9	0-8	42,0	1,76	924
			7	Крытый для автомобилей	0-9	0-9	0-8	42,0	1,76	926
			8	2-х ярусная платформа для автомобилей	0-9	0-9	0-8	26,0	1,55	928
			9	Цистерна для порошкообразных грузов	0-9	0-9	0-8	24,6	0,86	932
	3	4-х осный для перевозки грузов	0-6	Хоппер для цемента	0-9	0-9	0-89	22,0	0,85	930931
	3	4-х осный для перевозки грузов	7-9	Цистерна для цемента	0-9	0-9	0-8	22,0	0,87	936
	4	4-х осная (платформа) для перевозки грузов	0-1	Для большегрузных контей неров (длиной рамы менее 13,4 м)	0-9	0-9	0-8	18,4	1,02	940
			2-4	Для большегрузных контейнеров (длиной рамы 13,4 м)	0-9	0-9	0-8	21,0	1,05	942
			5-9	Для большегрузных контейнеров (длиной рамы 18,4 м)	0-9	0-9	0-8	22,0	1,40	946
	5	4-х осный для перевозки грузов	0-9	Для зерна ( хоппер )	0-9	0-9	0-8	22,0	1,05	950
	6	4-х осный для перевозки грузов	0	Для живой рыбы грузовой вагон 2-х вагонной секции	0-9	0-9	0-9	45,0	1,58	956
			1	Для живой рыбы одиночный вагон	0-9	0-9	0-9	41,0	1,05	960
			2	Для скота повышенной вместимости	0-9	0-9	0-8	32,8	1,77	976
			3	Для скота с верхним расположением люков	0-9	0-9	0-8	25,4	1,05	962
			4	Для скота 2-х ярусный	0-9	0-9	0-8	25,4	1,05	964
			5	Для скота с нижним расположением люков	0-9	0-9	0-89	24,325,6	1,251,29	966967
			6	Платформа для рулонной стали	0-2	0-9	0-8	30,0	1,05	968
			7	Для перевозки муки	0-9	0-9	0-8	33,8	1,25	972
			8	Цистерна для инертных грузов	0-9	0-9	0-8	25,5	0,86	974
			9	Хоппер со снятой крышей	0-9	0-9	0-8	22,0	0,85	982
	7	4-х осный для перевозки грузов	0	Цистерна для кальцинированной соды	0-9	0-9	0-8	31,3	1,13	970
			1-7	Хоппер для цемента	0-9	0-9	0-89	22,022,0	0,850,87	930931
			8-9	Цистерна для цемента	0-9	0-9	0-8	25,0	0,86	936
Прочие 3	0-1	4-х осный хоппер-дозатор	0-4	Типа ЦНИИ-2, ЦНИИ-3	0-9	0-9	0-8	25,0	0,71	300
			5-7	Типа ЦНИИ-ДВ 3М	0-9	0-9	0-8	23,0	0,78	302
			8	Модель 55-76	0-9	0-9	0-8	24,0	0,82	304
	2	4-х осный думпкар	0	Типа 4ВС-50	0-9	0-9	0-8	30,2	0,83	320
		4-х осный контейнеровоз	1-9	На базе крытого, полувагон	0-9	0-9	9	23,2	1,10	920
	3	4-х осный думпкар	0-9	Типа 5ВС-60	0-9	0-9	0-8	29,0	0,84	330
	4-5	4-х осный думпкар	0-9	Типа 6ВС-60, 7ВС-60	0-9	0-9	0-89	27,528,0	0,850,89	350351
	6	6-ти осный вагон для перевозки грузов	4	Платформа	0-9	0-9	0-8	40,0	1,80	360
			6	Полувагон	0-9	0-9	0-8	32,0	1,18	362
			7	Цистерна	0-9	0-9	0-8	85,5	1,40	364
			8	3-х вагонной рефрижераторной секции	0-9	0-9	0-9	63,3	1,78	366
			9	Остальные вагоны	0-9	0-9	0-8	29,0	1,09	368
	7	4-х осные служебно-технические вагоны рефрижераторных поездов и секции не для перевозки грузов, прочие не для перевозки грузов	1	Вагон-машинное отделение, дизель-электростанция 12-ти ваг., секции	0-9	0-9	0-9	64,1	1,30	370
			2	Вагон-машинное отделение, вагон-служебное помещение, дизельный вагон 21-ти вагонного поезда	0-9	0-9	0-9	70,7	1,29	372
			3	6-ти вагонной секции	0-9	0-9	0-8	62,9	1,29	384
			4	5-ти вагонной секции ZB-5 постройки ГДР	0-9	0-9	0-9	69,0	1,29	374
			5	5-ти вагонной секции постройки БМЗ	0-9	0-8	0-9	62,9	1,29	376
			6	Служебный вагон 2-вагонной секции для живой рыбы

SDK распознавания номеров вагонов — Intlab Wagon

Типичная вероятность правильного распознавания при считывании в видеопотоке

Качество нанесения номеров	Считывание с одной стороны	Считывание с двух сторон
для чистых номеров, соответствующих документу №632-2011 ПКБ ЦВ	не менее 92%	не менее 97%
загрязненные, малоконтрастные, поврежденные, нестандартные номера	не менее 75%	не менее 92%

Поддерживаемый размер символов

от 10 пикселей, рекомендуется >= 16 пикселей

Скорость движения состава

до 80 км/час *

Поддерживаемые типы вагонов

все типы вагонов и локомотивов, имеющие однострочный восьмизначный номер по стандарту МПС

(все типы локомотивов, полувагонов, хопперов, цистерн, крытых вагонов, платформ, автовагонов, думпкаров, рефрижераторов)

Возможные места считывания номеров

бортовой номер, номер на шасси

Количество камер контроля

1 — 4,

рекомендуется от 2-х, при наличии платформ 4

Ширина зоны контроля камеры

5 — 10 метров

Угол отклонения камеры от горизонтали

<= 20°

Угол отклонения камеры по вертикали

<= 30°

Угол визирования видеокамеры

<= 5°

Высота установки камер

3 — 3.5 метра для считывания бортовых номеров, 1.5 метра для считывания номеров на шасси

Расстояние от видеокамеры до вагона

1,5 — 10 метров (зависит от фокусного расстояния объектива камеры), оптимальное расстояние 5-7 метров

Минимально необходимая освещенность номера

зависит от используемой видеокамеры, типичное значение — 50 люкс

Поддерживаемый тип видеосигнала

отдельное изображение, либо живой видеопоток с аналоговой или цифровой камеры

Среднее время обработки одного кадра при рекомендуемом разрешении

не более 40 миллисекунд

Коррекция перспективы и радиальных оптических искажений объектива

есть

Синтаксический контроль и сверка с контрольной суммой номера вагона по алгоритму ОАО «РЖД»

есть

Определение направления движения вагона по видео

есть

Формирование консолидированного результата распознавания номера на базе видеоряда проезда вагона в зоне контроля

есть

Интеллектуальная оценка достоверности консолидированного результата распознавания на предмет того, что был найден действительно номер вагона и он распознан верно

есть

Система лицензирования

1 лицензия на каждый созданный основной / дополнительный объект распознавателя, USB аппаратный ключ

Поддерживаемые языки программирования

SDK может быть использован в приложениях на C/C++, C#, VB.Net, Java и любых других языках программирования, поддерживающих вызов C функций.

Комплект поставки

дистрибутив SDK, документация, исходные коды примеров использования на C/C++, C#, USB аппаратный ключ защиты ПО

Правила 8-значной системы нумерации вагонов

Система нумерации вагонов

Определение типа подвижного состава осуществляется в соответствии со Справочником 8-мизначная система нумерации грузовых вагонов колеи 1520 мм, утвержденным Комиcсией специалистов по информатизации железнодорожного транспорта (Протокол № 32 от 29 апреля 2005 г.), с изменениями и дополнениями.

Действующая система нумерации предусматривает обозначение вагонов восьмизначным кодом, в котором:

первая цифра – род подвижного состава;

вторая – количество осей и основные характеристики;

третья – дополнительные технические характеристики;

четвертая, пятая и шестая – порядковый номер вагона;

седьмая – сведения о ручном тормозе и наличии переходной площадки;

восьмая – контрольная цифра.

0… Пассажирские вагоны

043… первая цифра 0 – признак пассажирского вагона, вторая и третья – код дороги приписки

0430… мягкий (СВ, вагон габарита РИЦ)

0431… купейный жесткий

0432… некупированный жесткий (плацкартный)

0433… межобластной

0434… почтовый

0435… багажный

0436… ресторан

0437… служебно-технический

0438… спецвагоны других ведомств или компаний

0439… резерв

1… Локомотивы, электропоезда, путевые машины

10… паровоз

11…,12… электровоз

13…,14… вагоны электропоездов

15…,16… тепловоз

17… дизель-поезд

19… путевые машины и механизмы

2… Крытые вагоны

3… Специализированные вагоны

30…,31… хоппер

320…,33…-35… думпкар

39… транспортер

4… Платформы

5… Собственные вагоны

50…,511…-519… цистерна

52… крытый вагон

530…-533… хоппер

54… платформа

55… думпкар

56… полувагон

57… цистерна

5870…-5873… рефрижераторный вагон

6… Полувагоны

7… Цистерны

71…-75… для нефтепродуктов

76… для кислоты и других химических грузов

770… для спирта

771… для молока

772… для растительного масла

773…,774… для виноматериалов

778… для других пищевых продуктов

79… 8-осные цистерны

8… Изотермические вагоны

80…,81… ледник

83… автономный рефрижераторный вагон

84…-87… вагон в составе рефрижераторного поезда (секции)

89… 8-осные рефрижераторные вагоны

9… Специализированные вагоны

901…-906… для минеральных удобрений

920…-924… для среднетоннажных контейнеров на базе крытых вагонов и полувагонов

925… крытый вагон для легковесных грузов

927… крытый вагон для автомобилей

928… двухярусная платформа для автомобилей

93… цементовоз

94… платформа для крупнотоннажных контейнеров

95… хоппер для зерна

960…,961… для живой рыбы

965… для скота

971…-979… цементовоз

Кластеризация K-средних: алгоритм, приложения, методы оценки и недостатки | Имад Даббура

Кластеризация — это один из наиболее распространенных методов исследовательского анализа данных, используемых для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных, при которой точки данных в одной подгруппе (кластере) очень похожи, а точки данных в разных кластерах сильно различаются. Другими словами, мы пытаемся найти однородные подгруппы в данных, чтобы точки данных в каждом кластере были как можно более похожими в соответствии с мерой сходства, например расстоянием на основе евклида или расстоянием на основе корреляции.Решение о том, какую меру подобия использовать, зависит от приложения.

Кластерный анализ может быть выполнен на основе функций, когда мы пытаемся найти подгруппы образцов на основе функций или на основе образцов, где мы пытаемся найти подгруппы функций на основе образцов. Здесь мы рассмотрим кластеризацию на основе функций. Кластеризация используется при сегментации рынка; где мы пытаемся найти клиентов, похожих друг на друга, будь то поведение или атрибуты, сегментация / сжатие изображений; где мы пытаемся группировать похожие регионы вместе, кластеризацию документов по темам и т. д.

В отличие от обучения с учителем, кластеризация считается методом обучения без учителя, поскольку у нас нет достоверной информации для сравнения результатов алгоритма кластеризации с истинными метками для оценки его производительности. Мы только хотим попытаться исследовать структуру данных, сгруппировав точки данных в отдельные подгруппы.

В этом посте мы рассмотрим только Kmeans , который считается одним из наиболее часто используемых алгоритмов кластеризации из-за своей простоты.

Алгоритм Kmeans — это итерационный алгоритм, который пытается разделить набор данных на K заранее определенных отдельных неперекрывающихся подгрупп (кластеров), где каждая точка данных принадлежит только одной группе . Он пытается сделать точки данных внутри кластера как можно более похожими, но при этом сохраняя кластеры как можно более разными (далеко). Он назначает точки данных кластеру таким образом, чтобы сумма квадрата расстояния между точками данных и центроидом кластера (среднее арифметическое всех точек данных, принадлежащих этому кластеру) была минимальной.Чем меньше вариаций внутри кластеров, тем более однородные (похожие) точки данных находятся в одном кластере.

Алгоритм kmeans работает следующим образом:

Укажите количество кластеров K .
Инициализируйте центроиды, сначала перетасовывая набор данных, а затем случайным образом выбирая K точек данных для центроидов без замены.
Продолжайте повторять до тех пор, пока центроиды не останутся без изменений. то есть назначение точек данных кластерам не меняется.

Вычислите сумму квадрата расстояния между точками данных и всеми центроидами.
Назначьте каждую точку данных ближайшему кластеру (центроиду).
Вычислить центроиды для кластеров, взяв среднее значение всех точек данных, принадлежащих каждому кластеру.

Подход kmeans для решения проблемы называется Максимизация ожидания . Шаг E — это присвоение точек данных ближайшему кластеру. M-шаг — это вычисление центроида каждого кластера.Ниже приводится описание того, как мы можем решить это математически (не стесняйтесь его пропустить).

Целевая функция:

, где wik = 1 для точки данных xi, если она принадлежит кластеру k ; в противном случае wik = 0. Кроме того, μk — это центроид кластера xi.

Это задача минимизации из двух частей. Сначала минимизируем J по сравнению с wik и лечить μk исправлено. Затем мы минимизируем J относительно μk и лечить wik исправлено. Технически говоря, мы различаем J w.r.t. сначала wik и обновите назначения кластера ( E-step ).Затем дифференцируем J по μk и повторно вычислить центроиды после присвоения кластеров из предыдущего шага ( M-этап ). Следовательно, E-step:

Другими словами, назначьте точку данных xi ближайшему кластеру, судя по его сумме квадратов расстояния от центроида кластера.

И M-шаг:

Что переводится в пересчет центроида каждого кластера для отражения новых назначений.

Здесь несколько вещей, на которые следует обратить внимание:

Поскольку алгоритмы кластеризации, включая k-среднее, используют измерения на основе расстояния для определения сходства между точками данных, рекомендуется стандартизировать данные, чтобы среднее значение было равно нулю, а стандартное отклонение — единице, поскольку почти всегда объекты в любом наборе данных будут иметь разные единицы измерения, такие как возраст и доход.
Учитывая итеративный характер kmeans и случайную инициализацию центроидов в начале алгоритма, разные инициализации могут привести к разным кластерам, поскольку алгоритм kmeans может застрять в локальном оптимуме и может не сходиться к глобальному оптимуму . Поэтому рекомендуется запускать алгоритм с использованием различных инициализаций центроидов и выбирать результаты прогона, которые дали меньшую сумму квадратов расстояния.
Назначение примеров не меняется — это то же самое, что и отсутствие изменений в вариациях внутри кластера:

Мы будем использовать простую реализацию k-средних здесь, чтобы просто проиллюстрировать некоторые концепции.Затем мы будем использовать реализацию sklearn , которая более эффективно позаботится о многих вещах за нас.

алгоритм kmeans очень популярен и используется в различных приложениях, таких как сегментация рынка, кластеризация документов, сегментация изображений и сжатие изображений и т. Д. Обычно цель кластерного анализа:

Получить значимое интуитивное понимание структура данных, с которыми мы имеем дело.
Кластер, затем спрогнозируйте, где будут построены разные модели для разных подгрупп, если мы полагаем, что поведение разных подгрупп сильно варьируется.Примером этого является объединение пациентов в разные подгруппы и построение модели для каждой подгруппы, чтобы предсказать вероятность риска сердечного приступа.

В этом посте мы применим кластеризацию к двум случаям:

Сегментация извержений гейзера (набор данных 2D).
Сжатие изображения.

Сначала мы реализуем алгоритм kmeans для двухмерного набора данных и посмотрим, как он работает. Набор данных содержит 272 наблюдения и 2 функции. Данные охватывают время ожидания между извержениями и продолжительность извержения гейзера Old Faithful в национальном парке Йеллоустоун, штат Вайоминг, США.Мы попытаемся найти подгруппы K в точках данных и сгруппировать их соответственно. Ниже приводится описание характеристик:

извержений (плавающих): Время извержения в минутах.
ожидание (int): время ожидания до следующего извержения.

Давайте сначала построим график данных:

Мы будем использовать эти данные, потому что их легко построить и визуально определить кластеры, поскольку это двухмерный набор данных. Очевидно, что у нас 2 кластера. Давайте сначала стандартизируем данные и запустим алгоритм kmeans для стандартизованных данных с K = 2.

На приведенном выше графике показана диаграмма разброса данных, окрашенная кластером, к которому они принадлежат. В этом примере мы выбрали K = 2. Символ ‘*‘ — это центроид каждого кластера. Мы можем думать об этих двух кластерах как о гейзере, который ведет себя по-разному при разных сценариях.

Далее мы покажем, что разные инициализации центроидов могут давать разные результаты. Я буду использовать 9 различных random_state , чтобы изменить инициализацию центроидов и построить график результатов.Название каждого графика будет суммой квадратов расстояния каждой инициализации.

В качестве примечания, этот набор данных считается очень простым и сходится менее чем за 10 итераций. Поэтому, чтобы увидеть влияние случайной инициализации на сходимость, я собираюсь использовать 3 итерации, чтобы проиллюстрировать концепцию. Однако в реальных приложениях наборы данных вовсе не такие чистые и красивые!

Как видно из приведенного выше графика, мы получили только два разных способа кластеризации на основе разных инициализаций.Мы выбрали бы тот, у которого наименьшая сумма квадратов расстояния.

В этой части мы реализуем kmeans для сжатия изображения. Изображение, над которым мы будем работать, имеет размер 396 x 396 x 3. Следовательно, для каждого местоположения пикселя у нас будет 3 8-битных целых числа, которые задают значения интенсивности красного, зеленого и синего цветов. Наша цель — уменьшить количество цветов до 30 и представить (сжать) фотографию, используя только эти 30 цветов. Чтобы выбрать, какие цвета использовать, мы будем использовать алгоритм kmeans для изображения и рассматривать каждый пиксель как точку данных.Это означает, что измените форму изображения с высоты x ширины x каналов на (высота * ширина) x канал, т.е. у нас будет 396 x 396 = 156 816 точек данных в 3-мерном пространстве, которые являются интенсивностью RGB. Это позволит нам представить изображение с использованием 30 центроидов для каждого пикселя и значительно уменьшит размер изображения в 6 раз. Исходный размер изображения был 396 x 396 x 24 = 3 763 584 бит; однако новое сжатое изображение будет иметь размер 30 x 24 + 396 x 396 x 4 = 627 984 бит. Огромная разница заключается в том, что мы будем использовать центроиды для поиска цветов пикселей, и это уменьшит размер каждого местоположения пикселя до 4-битного вместо 8-битного.

С этого момента мы будем использовать sklearn реализацию kmeans. Здесь следует отметить несколько моментов:

n_init — это количество запусков kmeans с различной инициализацией центроида. Будет сообщен результат лучшего.
tol — метрика вариации внутри кластера, используемая для объявления сходимости.
По умолчанию init — k-means ++ , что должно давать лучшие результаты, чем просто случайная инициализация центроидов.

Мы видим сравнение исходного изображения со сжатым. Сжатое изображение похоже на исходное, что означает, что мы можем сохранить большинство характеристик исходного изображения. При меньшем количестве кластеров степень сжатия будет выше за счет качества изображения. Кстати, этот метод сжатия изображения называется сжатие данных с потерями , потому что мы не можем восстановить исходное изображение из сжатого изображения.

В отличие от обучения с учителем, при котором у нас есть достоверная информация для оценки производительности модели, кластерный анализ не имеет надежной метрики оценки, которую мы могли бы использовать для оценки результатов различных алгоритмов кластеризации. Более того, поскольку kmeans требует k в качестве входных данных и не извлекает его из данных, нет правильного ответа с точки зрения количества кластеров, которые мы должны иметь в любой проблеме. Иногда знание предметной области и интуиция могут помочь, но обычно это не так.В методологии прогнозирования кластеров мы можем оценить, насколько хорошо модели работают на основе различных кластеров K , поскольку кластеры используются в последующем моделировании.

В этом посте мы рассмотрим две метрики, которые могут дать нам некоторую интуицию о k :

Метод изгиба
Анализ силуэта

Метод изгиба дает нам представление о том, какой хороший номер k кластеров будет основываться на сумме квадратов расстояний (SSE) между точками данных и их центроидами назначенных кластеров.Мы выбираем k в том месте, где SSE начинает расплющиваться и образовывать изгиб. Мы воспользуемся набором данных гейзера и оценим SSE для различных значений k и посмотрим, где кривая может образовывать изгиб и сглаживаться.

График выше показывает, что k = 2 — неплохой выбор. Иногда все еще трудно определить подходящее количество кластеров, потому что кривая монотонно убывает и может не показывать ни одного изгиба или имеет очевидную точку, где кривая начинает сглаживаться.

Анализ силуэта можно использовать для определения степени разделения между кластерами. Для каждого образца:

Вычислите среднее расстояние от всех точек данных в одном кластере (ai).
Вычислить среднее расстояние от всех точек данных в ближайшем кластере (bi).
Вычислить коэффициент:

10 алгоритмов машинного обучения, которые необходимо знать | Автор: Сидат Асири,

Фото: http://hpc-asia.com/wp-content/uploads/2016/02/equations.jpg

Мы живем в начале революционной эпохи благодаря развитию аналитики данных, больших вычислительных мощностей и облачных вычислений. Машинное обучение определенно будет играть здесь огромную роль, а его мозг основан на алгоритмах. В этой статье рассматриваются 10 самых популярных алгоритмов машинного обучения, которые используются в настоящее время.

Эти алгоритмы можно разделить на 3 основные категории.

Контролируемые алгоритмы: Набор обучающих данных имеет входные данные, а также желаемый выход.Во время сеанса обучения модель будет настраивать свои переменные для сопоставления входных данных с соответствующими выходными данными.
Неконтролируемые алгоритмы: В этой категории нет целевого результата. Алгоритмы сгруппируют набор данных по разным группам.
Алгоритмы подкрепления: Эти алгоритмы обучаются принимать решения. Следовательно, на основе этих решений алгоритм будет обучаться в зависимости от успеха / ошибки вывода. В конце концов, по опыту алгоритм сможет давать хорошие прогнозы.

В этой статье будут рассмотрены следующие алгоритмы.

Линейная регрессия
SVM (машина опорных векторов)
KNN (K-ближайших соседей)
Логистическая регрессия
Дерево решений
K-средних
Случайный лес
Наивный Байес
Алгоритмы уменьшения размерности
Алгоритмы повышения градиента

1. Линейная регрессия

Алгоритм линейной регрессии будет использовать точки данных, чтобы найти наиболее подходящую линию для моделирования данных.Линия может быть представлена уравнением y = m * x + c , где y — зависимая переменная, а x — независимая переменная. Применяются базовые теории вычислений, чтобы найти значения для m и c с использованием данного набора данных.

Линейная регрессия имеет 2 типа: Простая линейная регрессия , где используется только 1 независимая переменная, и Множественная линейная регрессия , где определены несколько независимых переменных.

https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/400px-Linear_regression.svg.png

«scikit-learn» — это простой и эффективный инструмент, используемый для машинного обучения на Python. . Ниже приведена реализация линейной регрессии с использованием scikit-learn.

2. SVM (машина опорных векторов)

Это относится к алгоритму типа классификации. Алгоритм разделит точки данных линией. Эта линия выбрана так, чтобы она находилась дальше всего от ближайших точек данных в 2 категориях.

https://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Svm_separating_hyperplanes_%28SVG%29.svg/512px-Svm_separating_hyperplanes_%28SVG%29.svg.png

На схеме выше красная линия поскольку он имеет наибольшее расстояние от ближайших точек. На основании этой линии данные разделены на 2 группы.

3. KNN (K-Nearest Neighbours)

Это простой алгоритм, который предсказывает неизвестную точку данных с ее k ближайшими соседями. Значение k здесь является критическим фактором с точки зрения точности прогноза.Он определяет ближайшее, вычисляя расстояние, используя базовые функции расстояния, такие как евклидово.

https://au.mathworks.com/matlabcentral/mlc-downloads/downloads/submissions/63621/versions/1/screenshot.gif

Однако этот алгоритм требует высокой вычислительной мощности, и нам необходимо сначала нормализовать данные, чтобы привести все данные указывает на тот же диапазон

4. Логистическая регрессия

Логистическая регрессия используется там, где ожидается дискретный результат, такой как возникновение некоторого события (Пример.(b0 + b1 * x))

Выше представлено простое уравнение логистической регрессии, где b0, b1 — константы. При этом обучающие значения для них будут рассчитываться таким образом, чтобы ошибка между предсказанием и фактическим значением стала минимальной.

5. Дерево решений

Этот алгоритм классифицирует совокупность для нескольких наборов на основе некоторых выбранных свойств (независимых переменных) совокупности. Обычно этот алгоритм используется для решения задач классификации. Категоризация выполняется с использованием некоторых методов, таких как Джини, Хи-квадрат, энтропия и т. Д.

Давайте рассмотрим совокупность людей и воспользуемся алгоритмом дерева решений, чтобы определить, кому нравится иметь кредитную карту. Например, считайте возраст и семейное положение свойствами населения. Если возраст> 30 или человек состоит в браке, люди, как правило, все реже предпочитают кредитные карты.

Простое дерево решений

Это дерево решений может быть дополнительно расширено путем определения подходящих свойств для определения дополнительных категорий. В этом примере, если человек женат и ему больше 30 лет, у него с большей вероятностью будет кредитная карта (предпочтение 100%).Данные тестирования используются для создания этого дерева решений.

6. К-средние

Это неконтролируемый алгоритм, который обеспечивает решение проблемы кластеризации. Алгоритм следует процедуре для формирования кластеров, содержащих однородные точки данных.

Значение k является входом для алгоритма. На основании этого алгоритм выбирает k центроидов. Затем соседние данные, указывающие на центроид, объединяются с его центроидом и создают кластер. Позже в каждом кластере создается новый центроид.Затем точки данных рядом с новым центроидом снова объединятся, чтобы расширить кластер. Этот процесс продолжается до тех пор, пока центроиды не изменятся.

Процесс формирования кластера

7. Случайный лес

Случайный лес можно идентифицировать как набор деревьев решений, как следует из его названия. Каждое дерево пытается оценить классификацию, и это называется «голосованием». В идеале мы рассматриваем каждый голос из каждого дерева и выбираем классификацию, получившую наибольшее количество голосов.

https://www.kdnuggets.com/wp-content/uploads/rand-forest-1.jpg

8. Наивный Байес

Этот алгоритм основан на вероятностной теореме Байеса. В связи с этим наивный байесовский метод может применяться только в том случае, если функции независимы друг от друга, поскольку это требование теоремы Байеса. Если мы попытаемся предсказать тип цветка по длине и ширине лепестка, мы можем использовать наивный байесовский подход, поскольку обе эти характеристики независимы.

Уравнение Байеса

Наивный алгоритм Байеса также относится к классификационному типу. Этот алгоритм в основном используется, когда в задаче существует много классов.

9. Алгоритмы уменьшения размеров

Некоторые наборы данных могут содержать много переменных, с которыми может быть сложно работать. Особенно в настоящее время сбор данных в системах происходит на очень детальном уровне из-за наличия более чем достаточных ресурсов. В таких случаях наборы данных могут содержать тысячи переменных, и большинство из них также могут быть ненужными.

В этом случае практически невозможно определить переменные, которые имеют наибольшее влияние на наш прогноз. В подобных ситуациях используются алгоритмы уменьшения размерности.Он использует другие алгоритмы, такие как случайный лес, дерево решений, для определения наиболее важных переменных.

10. Алгоритмы повышения градиента

Алгоритм повышения градиента использует несколько слабых алгоритмов для создания более мощного точного алгоритма. Вместо использования одного оценщика, наличие нескольких позволит создать более стабильный и надежный алгоритм.

Существует несколько алгоритмов повышения градиента.

XGBoost — использует лайнер и древовидные алгоритмы
LightGBM — использует только древовидные алгоритмы

Особенностью алгоритмов повышения градиента является их более высокая точность.Кроме того, такие алгоритмы, как LightGBM, также обладают невероятно высокой производительностью.

Спасибо за внимание.

Ура!

Алгоритмы машинного обучения для бизнес-приложений — полное руководство

С развитием бесплатных инструментов машинного обучения и искусственного интеллекта с открытым исходным кодом, таких как Google TensorFlow и sci-kit learn, а также продуктов «ML-as-a-service» Подобно API-интерфейсу Google Cloud Prediction и платформе машинного обучения Microsoft Azure, компаниям любого размера никогда не было так просто использовать всю мощь данных.Но машинное обучение — это такая обширная и сложная область. С чего вы начнете учиться использовать это в своем бизнесе?

В этой статье мы рассмотрим текущее состояние алгоритмов машинного обучения и объясним, как они работают, предоставим примеры приложений, поделимся тем, как их используют другие компании, и предоставим дополнительные ресурсы для их изучения. Этот обзор для руководства станет первым шагом в изучении того, как применять алгоритмы машинного обучения, чтобы сделать ваш бизнес более эффективным, действенным и прибыльным.

Читая приведенные ниже примеры, вы, возможно, захотите записать бизнес-задачи, аналогичные проблемам, которые могут решить эти алгоритмы — возможно, алгоритм, который прогнозирует возникновение проблем безопасности на угольных шахтах, также может быть использован для прогнозирования того, какие франшиз вашего ресторана подвержены риску несоблюдения санитарных норм. К концу этой статьи у вас будет план действий, в соответствии с которым алгоритмы следует исследовать дальше, и твердое представление об их потенциале по обеспечению конкретных преимуществ для вашей прибыли.

Классификация

Цель: Цель алгоритмов классификации состоит в том, чтобы поместить элементы в определенные категории и ответить на такие вопросы, как: Является ли эта опухоль злокачественной? Это спам по электронной почте? Будет ли этот соискатель кредита объявить дефолт? Что это за категория статьи? К какой демографии относится этот онлайн-клиент?

Байесовский классификатор

Байесовский классификатор — это простой, но очень эффективный алгоритм классификации. Они основаны на теореме Байеса, которая кратко определяет вероятность события при условии, что произошло другое связанное событие.Байесовский классификатор классифицирует данные, отслеживая вероятности того, что конкретные функции — характеристики набора данных, которые, по вашему мнению, могут повлиять на его классификацию, — сопровождают конкретную классификацию.

Хотя байесовские классификаторы можно использовать для любой задачи классификации, они особенно полезны при классификации документов, особенно с фильтрами спама. Например, компьютерный ученый и знаменитый стартап-инвестор Пол Грэм разработал простой байесовский фильтр спама, который уловил более 99.5 процентов его спама без ложных срабатываний (электронные письма, не относящиеся к спаму, ошибочно помечены как спам). Функции, которые использовал Грэм, включали слова в электронных письмах, заголовки электронных писем и наличие встроенного HTML и JavaScript.

Грэм дает хорошую иллюстрацию того, как работает спам-фильтр, извлекая 15 наиболее интересных функций или 15 функций, которые были либо самыми сильными индикаторами спама (вес, близким к 1,0), либо самыми слабыми индикаторами спама (вес близко к 0.0).

В следующей таблице представлены интересные особенности одного из спам-писем Грэхема:

3 очень ценный Спам

Feature	Value	Interpretation
madam		0,99	Спам
республика	0,99	Спам
самый короткий	0.05	Не-спам
обязательно	0,05	Не-спам
стандартизация	0,07	Не-спам
не поддерживается		извините 0,03	0,09	Не-спам
люди	0,09	Не-спам
введите	0,91	Спам
качество 0.89	Спам
организация	0,12	Не-спам
инвестиции	0,86	Спам
очень	0,15	0,15	0,15	Спам

Объединение этих вероятностей с помощью правила Байеса дает вероятность 0,90, что означает, что письмо, скорее всего, является спамом.

Байесовские классификаторы эффективны даже для сложных задач классификации документов.Стэнфордское исследование показало, что наивный байесовский классификатор («наивный» происходит от классификатора, предполагающего, что каждое слово не зависит от появления любого другого слова) был на 85% точен при анализе тональности твитов. Другое исследование Массачусетского технологического института показало, что наивный байесовский классификатор может точно классифицировать статьи в студенческой газете Массачусетского технологического института в 77% случаев. Другие возможные применения включают идентификацию авторства и даже прогнозирование рецидива или прогрессирования опухоли мозга после лечения.

Плюсы:

Часто работают так же хорошо, как и гораздо более сложные алгоритмы, но при этом их легко реализовать. Это делает байесовские классификаторы хорошим алгоритмом машинного обучения первой линии.
Просто интерпретировать. Каждая функция имеет вероятность, поэтому вы можете увидеть, какие из них наиболее сильно связаны с определенными классификациями.
Онлайн-метод , что означает, что он поддерживает постепенное обучение. После обучения байесовского классификатора каждой функции присваивается определенная условная вероятность.Чтобы включить одну новую выборку данных, вы просто обновляете вероятности — нет необходимости повторять исходный набор данных заново.
Очень быстро. Поскольку байесовские классификаторы просто объединяют предварительно рассчитанные вероятности, новые классификации могут быть сделаны очень быстро даже для больших и сложных наборов данных.

Минусы:

Невозможно справиться с результатами, зависящими от комбинации функций. Предполагается, что каждый из них не зависит друг от друга, что иногда снижает точность.Например, слова «онлайн» и «аптека» обычно не могут быть сильным индикатором спама в электронном письме, если эти слова не используются вместе. Байесовский классификатор не сможет уловить эту взаимозависимость этих двух функций.

Классификатор дерева решений

Деревья решений, возможно, являются наиболее интуитивно понятным алгоритмом машинного обучения, поскольку по сути они представляют собой блок-схемы в программной форме. Деревья решений классифицируют элементы, используя серию операторов «если-то», которые в конечном итоге приводят к классификации.

Простой пример. Вы нашли напиток в ресторане и хотите выяснить, что это за напиток. Дерево решений может классифицировать напиток на основе результатов следующих вопросов:

Напиток горячий или холодный?

Холодно.

Это кофеин или без кофеина?

С кофеином.

Это газированная («газированная»)?

Не газированный.

Это было сделано из бобов или листьев?

Изготовлен из листьев.

Окончательная классификация: чай со льдом

Ключом к эффективному дереву решений является наличие утверждений, которые хорошо разделяют набор данных, то есть чем более однородны данные после каждого деления, тем лучше это деление. Существует несколько показателей, которые можно использовать для определения того, как разделить дерево решений. Двумя наиболее распространенными являются энтропия и примесь Джини. Используя алгоритм под названием CART (Деревья классификации и регрессии), каждый уровень дерева разделяется с помощью атрибута, который вызывает наибольшее сокращение выбранной метрики.Этот процесс повторяется до тех пор, пока дальнейшие разбиения не перестанут уменьшать эту метрику, и дерево не будет завершено!

Более существенным применением дерева решений могло бы быть прогнозирование регистрации пользователей. Предположим, вы запускаете службу подписки, и ваша система регистрирует несколько характеристик ваших пользователей, которые подписались на бесплатную пробную версию — пробовали ли они вашу интерактивную демонстрацию, подписались ли они на ваш список рассылки, как они нашли вашу веб-сайт (поисковая система, социальные сети и т. д.) и подписались ли они в конечном итоге на платную версию вашего сервиса.

Дерево решений может не только использовать эти данные, чтобы предсказать, какие новые пользователи бесплатной пробной версии в конечном итоге станут платежеспособными клиентами, но и показать вам точную воронку, которая их туда привела; возможно, это были социальные сети -> список рассылки -> платная подписка, что указывает на то, что ваша демонстрация снижает ваш коэффициент конверсии, в то время как ваше присутствие в социальных сетях привлекает платящих клиентов.

Другие примеры приложений: BP использовала дерево решений для разделения нефти и газа и «заменила созданную вручную систему правил… [дерево решений] превзошло человеческих экспертов и сэкономило BP миллионы.В исследовании Массачусетского технологического института изучалось, как можно использовать деревья решений, чтобы предсказать, получит ли заявитель ссуду и не выполнит ли он свой долг.

Плюсы:

Очень легко интерпретировать и объяснять. Деревья решений отражают процесс принятия решений человеком через свой стиль блок-схемы «если-то», в котором данные разбиваются на части до тех пор, пока данные не будут распределены по категориям.
Может отображаться графически. Дерево решений, по сути, представляет собой схему ветвления (только та, которая алгоритмически настроена для оптимального разделения), а меньшие деревья решений, отображаемые графически, могут быть легко интерпретированы даже нетехническими людьми.
Может легко использовать как категориальные, так и числовые данные; например, эта машина красного цвета работает так же хорошо, как «Диаметр шины автомобиля составляет от шести до восьми дюймов»? В других классификаторах вам нужно будет создать «фиктивную» переменную, чтобы обойти это.
Может иметь дело с взаимодействиями переменных. В примере с «интернет-аптекой», который поставил в тупик байесовский классификатор выше, дерево решений может разбить набор данных о том, содержит ли он мир «онлайн», и разделить результат по тому, содержит ли он «аптеку», обеспечивая »= Спам, в то время как« онлайн »и« аптека »= не спам.

Минусы:

Деревья решений могут быть не такими точными, как другие алгоритмы классификации, поскольку они имеют тенденцию «переоснащать» данные (что означает, что они делают отличные прогнозы в наборе данных, используемом для их обучения, но более плохие прогнозы для поступают новые данные). Тем не менее, существуют различные методы «обрезки» дерева для повышения точности.
Деревья решений — это не метод онлайн , то есть все дерево должно быть воссоздано с нуля, чтобы включить новые данные, поскольку переменные, которые оптимально разделяют данные, могут измениться.
При больших наборах данных количество узлов в дереве решений может стать чрезвычайно большим и сложным, что приведет к медленной классификации.

Машины опорных векторов

Машины опорных векторов (SVM) — это сложный, но мощный метод классификации. Работая с числовыми данными, SVM классифицирует, находя разделительную линию (формально называемую гиперплоскостью с максимальным запасом), которая наиболее четко разделяет данные. Это не всегда очевидно по своей сути, поэтому иногда полиномиальное преобразование (преобразование данных по разным осям — например, вместо построения графика GPA vs.Оценка SAT для прогнозирования поступления студента в определенный университет, вы можете преобразовать данных, построив график в квадрате среднего балла по сравнению с результатом SAT) используется для преобразования данных в другое пространство, где разделительная линия будет более четкой .

Классификация основана на том, на какую сторону разделительной линии попадают новые данные. Это может быть очень сложно даже для технических специалистов, хотя после создания SVM пользоваться ею становится довольно просто. Хотя SVM чаще всего используется для задач классификации, в последние годы они были расширены для задач регрессии.

Пример: SVM часто используются с очень сложными данными для таких приложений, как распознавание почерка, классификация выражений лица и классификация изображений. Например, SVM может распознавать цифры, написанные арабским / персидским шрифтом, с точностью 94%. В этом случае было 10 классов (0, 1, 2, 3… 9), и SVM оперировала цифрой за цифрой, чтобы классифицировать каждую рукописную цифру в один из этих классов. В этом случае SVM была более точной, чем нейронная сеть.

Сложность выбора функций — в этом случае для «извлечения признаков» использовался другой алгоритм, который включал долю белых пикселей в каждом изображении рукописной цифры — делает этот вид задач более подходящим для SVM, чем, скажем, , байесовский классификатор, в котором особенности обычно хорошо идентифицируются заранее.

Плюсы:

Очень быстро при классификации новых данных. Нет необходимости просматривать обучающие данные для новых классификаций.
Может работать со смесью категориальных и числовых данных.
SVM являются «устойчивыми к высокой размерности», что означает, что они могут хорошо работать даже с большим количеством функций.
Высокая точность.

Минусы:

Техника черного ящика. В отличие от байесовских классификаторов и деревьев решений, SVM не предлагают легко усваиваемые данные «изнутри».SVM может быть очень эффективным классификатором, но вы, возможно, не сможете понять , почему он делает эти классификации.
Обычно требуется очень большой набор данных. Другие методы, такие как деревья решений, по-прежнему могут давать интересные результаты для небольших наборов данных; это может быть не в случае с SVM.
SVM не в сети . Их нужно будет обновлять каждый раз, когда будут добавлены новые данные обучения.

Нейронные сети

Нейронные сети делают как числовые (см. Следующий раздел), так и классификационные прогнозы, слабо имитируя способ обработки информации мозгом.

В человеческом мозге нейроны передают информацию, образуя связи с другими нейронами и передавая электрохимические сигналы через эти нейронные сети. Искусственные нейронные сети (также более просто нейронные сети или нейронные сети)

Существует много разных типов нейронных сетей, поэтому для простоты мы рассмотрим только одну, называемую многослойной перцептронной нейронной сетью (MLP NN). MLP NN содержит как минимум три (но часто и больше) слоев нейронов: входной слой, один или несколько скрытых слоев и выходной слой.Входной слой состоит из данных, которые вы используете для создания прогноза. Скрытые слои, названные потому, что они не взаимодействуют напрямую ни с входом, ни с окончательным выходом, работают с данными, переданными им предыдущими слоями, а выходной слой является окончательным прогнозом, созданным алгоритмом.

Эти слои связаны с помощью синапсов (названных в честь соответствующей структуры в реальном мозге, которая позволяет электрохимическим сигналам проходить между нейронами). Эти синапсы имеют веса, которые в сочетании с входными данными определяют, какие нейроны в последующем слое активируются, что, в свою очередь, влияет на то, какие нейроны в следующем слое активируются, и так далее.

Последний слой нейронов передает свои результаты на выходы, и какой из выходных данных является самым сильным (например, классификация, наиболее тесно связанная с входными данными), является предсказанием алгоритма. Работа скрытых слоев может быть особенно загадочной для неподготовленного глаза, и, как объясняется ниже, даже эксперты не могут разработать значимую интерпретацию своих результатов.

Веса синапсов могут быть изначально назначены случайным образом, а затем обучены с помощью метода, известного как обратное распространение .MLP NN получает данные, для которых известен правильный результат, например изображение тигра и классификацию «тигр». Если MLP NN неправильно классифицировал изображение, вес синапсов, которые привели бы к классификации «тигр», немного увеличится, в то время как вес синапсов, которые приводят к другим классификациям, немного уменьшится. При достаточном количестве обучающих данных веса синапсов в конечном итоге сходятся к своим оптимальным значениям, и (в идеале) MLP NN теперь классифицирует изображения тигров с высоким уровнем точности.

В то время как неоспоримо самый сложный алгоритм машинного обучения обсуждается здесь, нейронные сети являются также наиболее интересной и активной областью машинного обучения исследования сегодня. Благодаря значительному увеличению наборов данных и вычислительной мощности, доступным сегодня, Deep Learning , который включает нейронные сети со многими уровнями, может применяться ко многим сложным наборам данных, таким как аудио и изображения.

В приложениях для нейронных сетей нет недостатка, и некоторые из крупнейших игроков отрасли применяют их для создания передовых решений: Amazon использует нейронные сети для выработки рекомендаций по продуктам; Госпиталь Массачусетса использует глубокое обучение для улучшения диагностики и лечения пациентов; Facebook использует глубокие нейронные сети для распознавания лиц; Google поддерживает Google Translate с нейронными сетями.

Плюсы:

Высокая масштабируемость. С массивными наборами данных другие алгоритмы могут (в конечном итоге) выйти на плато в производительности (см. Это изображение из слайд-шоу, представленного доктором Эндрю Нг, главным научным сотрудником Baidu), в то время как производительность нейронной сети может продолжать улучшаться.
онлайн-метод . Нейронные сети можно постепенно обучать с использованием новых данных.
Эффективное использование пространства. Как и байесовские классификаторы, они представлены списком чисел (для байесовских классификаторов этот список представляет вероятности признаков; для нейронных сетей они представляют веса синапсов)

Минусы:

Метод черного ящика.В больших нейронных сетях с тысячами узлов и на порядок больше синапсов сложно, если не невозможно, понять, как алгоритм определил свои выходные данные.
Абсолютный уровень сложности нейронных сетей, продемонстрированный даже в этом очень упрощенном объяснении, означает, что для их правильной реализации требуются высококвалифицированные исследователи и практики ИИ.

Логистическая регрессия

Логистическая регрессия — это алгоритм классификации, который использует свойства логистической функции (иногда также называемой сигмовидной функцией), кривой S-образной формы, типичной для которой являются плато на обоих краях функция и быстрый рост в середине.Веса присваиваются характеристикам, а затем передаются логистической функции, которая выводит число от 0 до 1. Граница решения определяет классификацию. Например, если вы используете логистическую регрессию для прогнозирования мошеннических транзакций по кредитным картам, вы можете определить, что результат ниже 0,5 является законной транзакцией, а результат выше 0,5 — мошеннической. Граница вашего решения — 0,5.

Ключом к логистической регрессии является обучение модели присвоению соответствующих весов всем функциям.Для этого сначала требуется функция стоимости , которая представляет собой просто функцию, определяющую уровень ошибки каждого прогноза по сравнению с обучающим примером.

Самая распространенная функция затрат в логистической регрессии — это сумма квадратов ошибка (также называемая остаточной суммой квадратов). Затем с помощью метода расчета, известного как градиентный спуск, веса постоянно корректируются, пока функция стоимости не будет минимизирована. На этом этапе классификатор логистической регрессии является оптимально точным для прогнозирования результатов в обучающем наборе, и это отправная точка для его использования для прогнозирования классификации новых данных.

Логистическая регрессия может быть расширена до данных с более чем двумя категориями (так называемая полиномиальная логистическая регрессия , ) с помощью модели «один против всех». Чтобы классифицировать, скажем, три типа документов — квитанции, служебные записки, сообщения электронной почты клиента — полиномиальная логистическая регрессия будет выполняться три раза, сначала классифицируя документы как «квитанции или не-квитанции», затем «заметки или не-заметки» и, наконец, «клиент по почте или не по почте », и объединить эти результаты, чтобы сделать прогнозы.

Подобно байесовским классификаторам, логистическая регрессия является хорошим алгоритмом машинного обучения первой линии из-за его относительной простоты и простоты реализации.Несколько примеров приложений включают анализ листового металла, прогнозирование проблем безопасности на угольных шахтах и различные медицинские приложения.

Плюсы:

Легко интерпретировать. Логистическая регрессия выводит число от 0 до 1, которое можно примерно интерпретировать как вероятность (0,312 можно интерпретировать как 31,2% вероятность того, что транзакция по кредитной карте является мошеннической). Веса признаков легко указывают, какие признаки более важны при определении классификации, чем другие.

Минусы:

Склонен к переоснащению . Для логистической регрессии может потребоваться довольно большой обучающий набор, прежде чем он сможет делать точные прогнозы вне обучающего набора.
Не онлайн техника. Включение новых данных требует повторного запуска градиентного спуска.
Есть компромиссы с градиентным спуском. Чем быстрее градиентный спуск определяет окончательные веса объектов, тем больше вероятность пропуска оптимальных весов.Иногда бывает трудно найти компромисс между оптимальной скоростью и точностью, а метод проб и ошибок может занять много времени.
Фиктивные переменные, необходимые для категориальных данных. Поскольку логистическая регрессия дает только результат с действительным знаком, категориальные данные должны быть преобразованы в реальные значения с помощью фиктивной переменной (например, преобразование «красный или не красный» в «1 или 0», где красный = 1, а не красный = 0).

Линейная регрессия

Линейная регрессия — это знакомый алгоритм, который пытается создать линию, наиболее подходящую для набора данных, и использовать эту линию для создания новых прогнозов.Это линейная функция (представьте, что y = mx + b из школьной алгебры, где x — характеристика, а m — вес функции), которая минимизирует ошибку, определяемую функцией стоимости (обычно функцией суммы квадратов ошибок). Простая линейная регрессия использует только одну переменную и, таким образом, ограничена в своем объеме, но многопараметрическая линейная регрессия может справиться с гораздо более сложными проблемами. Как и логистическая регрессия, градиентный спуск часто используется для определения оптимальных весов признаков.

Существует множество возможных приложений для линейной регрессии, таких как прогнозирование цен на недвижимость, оценка заработной платы, прогнозирование производительности финансового портфеля и прогнозирование трафика.В некоторых случаях линейная регрессия используется в сочетании с другими, более сложными методами для получения более точных результатов, чем те, которые дает любой отдельный алгоритм.

Плюсы:

Простота реализации и интерпретации. Линейная регрессия во многом похожа на логистическую регрессию с точки зрения сложности реализации, но линейные уравнения гораздо более интуитивно понятны для людей, чем логистическая функция.

Минусы:

Компромисс градиентного спуска.Как и в случае с логистической регрессией, градиентный спуск требует компромисса между скоростью и точностью, и для его правильного выполнения может потребоваться много итераций методом проб и ошибок.
Не онлайн техника. Включение новых данных требует повторного запуска градиентного спуска.
Фиктивные переменные, необходимые для категориальных данных. Поскольку линейная регрессия дает только результат с действительным знаком, категориальные данные должны быть преобразованы в реальные значения с помощью фиктивной переменной (например, преобразование «красный или не красный» в «1 или 0», где красный = 1, а не красный = 0).

K-ближайших соседей

Предположим, у вас есть довольно редкая бейсбольная карточка, которую вы хотите продать на eBay. Как бы вы определили хорошую продажную цену? Вы можете проверить, за что недавно была продана эта карта (или аналогичные карты), и оценить свою карту в этом диапазоне.

По сути, так работают K-ближайшие соседи. Он сравнивает новый фрагмент данных с данными с аналогичными значениями, а затем усредняет «соседние» элементы, чтобы предсказать значение новых данных. «Расстояние» между точками данных определяется такими показателями, как Евклидово расстояние или Корреляция Пирсона.

«K» в K-ближайших соседях — это значение-заполнитель для количества ближайших значений, усредненных для прогнозирования. Алгоритм также может использовать средневзвешенные значения, где близкие значения имеют больший вес при определении среднего. Переменные могут нуждаться в масштабировании — например, при прогнозировании цен на жилье с использованием количества спален и квадратных футов вы можете использовать квадратные метры и количество спален, умноженные на 1000, чтобы сохранить две переменные в одном масштабе.

K-ближайших соседей можно использовать для прогнозирования цен на жилье (как показано в упрощенном примере выше), цен на товары на рынках (как в примере с бейсбольной карточкой выше), а также для составления рекомендаций по продуктам.

Плюсы:

Онлайн техника. Подобно наивному байесовскому классификатору, метод K-ближайших соседей поддерживает инкрементное обучение.
Может обрабатывать сложные числовые функции, но при этом их легко интерпретировать.Вы можете точно видеть, какие соседи используются для окончательных прогнозов.
Полезно, если сбор данных сложно / дорого. Процесс масштабирования может выявить, какие переменные не важны для прогнозирования и, следовательно, могут быть исключены.

Минусы:

Требуются все данные обучения для прогнозирования. Это означает, что K-ближайшие соседи могут быть очень медленными для больших наборов данных и могут потребовать много места.
Поиск правильных коэффициентов масштабирования может быть утомительным и дорогостоящим с точки зрения вычислений, когда есть миллионы переменных.

Заключение

Теперь, когда вы более знакомы с распространенными алгоритмами машинного обучения и их приложениями, каковы следующие шаги в использовании этих знаний для достижения целей вашего бизнеса?

Сначала определите потребности вашего бизнеса и сопоставьте их с соответствующими задачами машинного обучения. Хотите в режиме реального времени получать данные о том, являются ли сообщения в социальных сетях о вашей компании положительными или отрицательными? Это задача классификации. Хотите предсказать, сколько будет стоить ваша недвижимость в следующем году? Это задача регресса.

Во-вторых, просмотрите приведенные выше алгоритмы и более подробно изучите те, которые имеют отношение к делу. Хотя для оптимизации и совершенствования этих алгоритмов для вашего конкретного случая использования могут потребоваться специалисты, такие как инженеры по машинному обучению, специалисты по данным и исследователи искусственного интеллекта, для начала вам доступны многие стандартные инструменты и продукты, например :

TensorFlow, ИИ-фреймворк Google с открытым исходным кодом
scikit-learn, библиотека машинного обучения Python с открытым исходным кодом
Google Cloud Prediction API, часть облачной платформы Google
Машинное обучение Azure, часть облачных предложений Microsoft
Cloudera, платформа для работы с большими данными со встроенными возможностями управления и обработки данных

Важно отметить, что из-за ограничений объема / объема существует несколько алгоритмов машинного обучения и тем, которые мы здесь не рассмотрели:

Хотите узнать больше о том, как применить машинное обучение в своем бизнесе или отрасли? Следующие руководства и статьи Emerj — хорошее место для начала:

Искусственный интеллект и безопасность: текущие приложения и завтрашние возможности
Как применить машинное обучение к бизнес-задачам
Машинное обучение и финансы — настоящие и будущие приложения
Машинное Learning Healthcare Applications — 2016 и последующие годы
Индустрия машинного обучения Прогнозы: консенсус экспертов
Машинное обучение в робототехнике — 5 современных приложений
Прогностическая аналитика и маркетинг — что возможно и как это работает
Состояние машинного обучения и прогнозной аналитики для Малый бизнес

Изображение предоставлено: Стратегическая трансформация обучения

Самоадаптивный алгоритм нечетких c-средних для определения оптимального количества кластеров

Из-за недостатка нечеткого c -среднего алгоритма (FCM) требуется узнать количество кластеров В этой статье заранее был предложен новый самоадаптивный метод определения оптимального количества кластеров.Во-первых, был предложен алгоритм, основанный на плотности. Алгоритм, в соответствии с характеристиками набора данных, автоматически определил возможное максимальное количество кластеров вместо использования эмпирического правила и получил оптимальные начальные центроиды кластеров, улучшив ограничение FCM, заключающееся в том, что случайно выбранные центроиды кластеров приводят к результату сходимости к локальному минимум. Во-вторых, в этой статье, путем введения штрафной функции, был предложен новый индекс достоверности нечеткой кластеризации, основанный на нечеткой компактности и разделении, который гарантирует, что, когда количество кластеров приближается к количеству объектов в наборе данных, значение индекса достоверности кластеризации не монотонно убывала и была близка к нулю, так что оптимальное количество кластеров потеряло робастность и решающую функцию.Затем, на основе этих исследований, был предложен самоадаптивный алгоритм FCM для оценки оптимального количества кластеров с помощью итеративного процесса проб и ошибок. Наконец, были проведены эксперименты с UCI, KDD Cup 1999 и синтетическими наборами данных, которые показали, что метод не только эффективно определяет оптимальное количество кластеров, но также сокращает итерацию FCM со стабильным результатом кластеризации.

1. Введение

Кластерный анализ имеет долгую историю исследований. Благодаря преимуществу обучения без априорных знаний, он широко применяется в областях распознавания образов, обработки изображений, веб-интеллектуального анализа данных, приложений пространственно-временных баз данных, бизнес-аналитики и т. Д.

Кластеризация часто представляет собой обучение без учителя и направлена на разделение объектов в наборе данных на несколько естественных группировок, а именно на так называемые кластеры, так что объекты внутри кластера имеют тенденцию быть похожими, а объекты, принадлежащие разным кластерам, различны. Как правило, наборы данных из разных областей приложения различаются по функциям, а цели кластеризации разнообразны. Следовательно, лучший метод кластерного анализа зависит от наборов данных и целей использования. Не существует универсальной технологии кластеризации, которая могла бы широко применяться к разнообразным структурам, представленным различными наборами данных [1].По правилам накопления объектов в кластерах и способам применения этих правил алгоритмы кластеризации делятся на множество типов. Однако для большинства алгоритмов кластеризации, включая секционированную кластеризацию и иерархическую кластеризацию, количество кластеров является параметром, который необходимо предварительно установить, с которым тесно связано качество результата кластеризации. В практическом применении он обычно полагается на опыт пользователей или фоновые знания в смежных областях. Но в большинстве случаев количество кластеров пользователям неизвестно.Если номер назначен слишком большим, это может привести к более сложным результатам кластеризации, которые трудно объяснить. Напротив, если он слишком мал, много ценной информации в результате кластеризации может быть потеряно [2]. Таким образом, определение оптимального количества кластеров в наборе данных по-прежнему является фундаментальной проблемой в исследованиях кластерного анализа [3].

Вклады этой статьи следующие. (1) Предлагается алгоритм на основе плотности, который может быстро и лаконично генерировать высококачественные начальные центроиды кластера вместо случайного выбора, чтобы стабилизировать результат кластеризации, а также ускорить сходимость алгоритма кластеризации.Кроме того, этот алгоритм может автоматически оценивать максимальное количество кластеров на основе характеристик набора данных, тем самым определяя диапазон поиска для оценки оптимального количества кластеров и эффективно сокращая количество итераций алгоритма кластеризации. (2) На основе особенностей компактности внутри кластера и разделения между кластерами в этой статье определяется новый индекс достоверности нечеткой кластеризации (CVI), избегая его значения, близкого к нулю, а также количества кластеров, стремящихся к количеству объектов и получение оптимального результата кластеризации.(3) Был предложен самоадаптивный метод, который итеративно использует улучшенный алгоритм FCM для оценки оптимального количества кластеров.

2. Связанные работы

Самый простой метод определения количества кластеров — это визуализация данных. Для набора данных, который может быть эффективно сопоставлен с двумерным евклидовым пространством, количество кластеров может быть интуитивно получено с помощью графа распределения точек данных. Однако для многомерных и сложных данных этот метод непригоден.Родригес и Лайо предложили алгоритм кластеризации, основанный на пиках плотности, заявив, что он может обнаруживать несферические кластеры и автоматически находить истинное количество кластеров [4]. Но на самом деле количество центроидов кластера все же нужно подбирать искусственно в соответствии с графом решений. Далее, ниже приведены соответствующие технологии для определения оптимального количества кластеров.

2.1. Метод на основе индекса достоверности кластеризации

Индекс достоверности кластеризации используется для оценки качества разделов в наборе данных, созданном алгоритмом кластеризации.Это эффективный метод построения соответствующего индекса достоверности кластеризации для определения количества кластеров. Идея состоит в том, чтобы назначить разные значения количества кластеров в определенном диапазоне, затем запустить алгоритм нечеткой кластеризации для набора данных и, наконец, оценить результаты с помощью индекса достоверности кластеризации. Когда значение индекса достоверности кластеризации является максимальным или минимальным, или появляется очевидная точка перегиба, соответствующее значение является оптимальным количеством кластеров.К настоящему времени исследователи предложили множество индексов достоверности нечеткой кластеризации, разделенных на следующие два типа.

(1) Индекс достоверности кластеризации на основе нечеткого разбиения . Эти индексы соответствуют такой точке зрения, что для хорошо разделенного набора данных, чем меньше нечеткость нечеткого разбиения, тем надежнее результат кластеризации. Основываясь на этом, Заде, основатель нечетких множеств, в 1965 г. выдвинул первую степень разделения индекса достоверности кластеризации [5].Но его различающий эффект не идеален. В 1974 г. Бездек выдвинул концепцию коэффициента распределения (PC) [6], который был первой практической универсальной функцией для измерения достоверности нечеткой кластеризации, и впоследствии предложил другую энтропию распределения функции достоверности кластеризации (PE) [7], тесно связанную с Коэффициент распределения. Позже Виндхэм определил показатель пропорции, используя максимальное значение нечеткой функции принадлежности [8]. Ли предложил нечеткий индекс достоверности кластеризации, использующий различимость кластеров, измеренную по близости объектов [9].Основываясь на теории энтропии Шеннона и нечетких вариаций, Чжан и Цзян предложили новый индекс достоверности нечеткой кластеризации, учитывающий геометрическую структуру набора данных [10]. Saha et al. предложили алгоритм, основанный на дифференциальной эволюции для автоматического обнаружения кластеров, который хорошо оценивал достоверность результата кластеризации [11]. Юэ и др. разделил исходное пространство данных на сеточную структуру и предложил меру разделения кластеров на основе расстояний между сетками [12]. Индекс достоверности кластеризации, основанный на нечетком разбиении, связан только с нечеткой степенью членства и имеет преимущества простоты и небольшого количества вычислений.Но он не имеет прямой связи с некоторыми структурными особенностями набора данных.

(2) Индекс достоверности кластеризации на основе геометрической структуры набора данных . Эти индексы основаны на такой точке зрения, что для хорошо разделенного набора данных каждый кластер должен быть компактным и отделенным друг от друга, насколько это возможно. Соотношение компактности и разделения используется в качестве стандарта достоверности кластеризации. К этому типу репрезентативных индексов валидности кластеризации относятся индекс Се-Бени [13], индекс Бенсаида [14] и индекс Квона [15].Sun et al. предложил новый индекс валидности, основанный на линейной комбинации компактности и разделения и вдохновленный валидностью Резаи [16]. Ли и Ю определили новую компактность и разделенность и предложили новую функцию достоверности нечеткой кластеризации [17]. Основываясь на нечеткой грануляции-дегрануляции, Saha и Bandyopadhyay предложили функцию достоверности нечеткой кластеризации [18]. Zhang et al. приняла корреляцию Пирсона для измерения расстояния и предложила функцию достоверности [19]. Kim et al. предложил индекс валидности кластеризации для алгоритма GK, основанный на среднем значении относительных степеней разделения всех возможных пар нечетких кластеров [20].Резаи предложил новый индекс достоверности для алгоритма GK, чтобы преодолеть недостатки индекса Кима [21]. Zhang et al. предложил новый WGLI для определения оптимального числа кластеров, используя глобальное оптимальное членство как глобальное свойство и модульность двудольной сети как локальное независимое свойство [22]. Индекс достоверности кластеризации, основанный на геометрической структуре набора данных, учитывает как нечеткую степень принадлежности, так и геометрическую структуру, но его функция принадлежности довольно сложна и требует больших вычислений.

На основе индекса достоверности кластеризации оптимальное количество кластеров определяется путем исчерпывающего поиска. Для повышения эффективности оценки оптимального количества кластеров необходимо задать диапазон поиска; то есть это максимальное количество кластеров, назначенных для выполнения условия. Большинство исследователей использовали эмпирическое правило, где — количество данных в наборе данных. Для этой проблемы теоретический анализ и проверка примеров были проведены в [23], что показало, что это было разумным в определенном смысле.Однако, видимо, у этого метода есть следующие недостатки. (1) Каждый из них должен быть испытан по очереди, что потребует огромных вычислений. (2) Для каждого нельзя гарантировать, что результат кластеризации является глобально оптимальным решением. (3) При наличии шума и выбросов надежность индекса достоверности кластеризации невысока. (4) Для некоторых наборов данных, таких как FaceImage [24], если, эмпирическое правило будет недействительным. Исследования показали, что из-за разнообразия типов и структур данных универсальный индекс достоверности нечеткой кластеризации не может быть применим ко всем наборам данных.Исследования ведутся и будут срочно продолжаться.

2.2. Эвристический метод

Недавно были последовательно предложены несколько новых алгоритмов кластеризации. Основная идея состоит в том, чтобы использовать некоторые критерии для управления процессом кластеризации с корректировкой количества кластеров. Таким образом, пока кластеризация завершена, может быть также получено соответствующее количество кластеров. Например,

Генетический алгоритм для задачи коммивояжера с модифицированным оператором кроссовера цикла

Генетические алгоритмы — это эволюционные методы, используемые для целей оптимизации в соответствии с выживаемостью наиболее приспособленной идеи.Эти методы не обеспечивают оптимальных решений; однако они обычно дают хорошее приближение по времени. Генетические алгоритмы полезны для NP-сложных задач, особенно для задачи коммивояжера. Генетический алгоритм зависит от критериев отбора, операторов кроссовера и мутации. Чтобы решить проблему коммивояжера с помощью генетических алгоритмов, существуют различные представления, такие как двоичное, путевое, смежное, порядковое и матричное. В этой статье мы предлагаем новый оператор кроссовера для задачи коммивояжера, чтобы минимизировать общее расстояние.Этот подход был связан с представлением пути, которое является наиболее естественным способом представления юридического тура. Также сообщаются результаты вычислений с некоторыми традиционными методами представления пути, такими как частично сопоставленные и упорядоченные пересечения, а также новый оператор пересечения цикла для некоторых тестовых экземпляров TSPLIB и обнаруженные улучшения.

1. Введение

Генетические алгоритмы (ГА) — это стохастический подход без производных, основанный на биологических эволюционных процессах, предложенных Холландом [1].В природе наиболее подходящие особи могут выжить и спариться; следовательно, следующее поколение должно быть более здоровым и крепким, чем предыдущее. Много работы и приложений было сделано по ГА в часто цитируемой книге Гольберга [2]. GA работают с популяцией хромосом, которые представлены некоторыми кодами набора основных параметров.

Задача коммивояжера (TSP) — один из самых известных тестов, значимая, историческая и очень сложная задача комбинаторной оптимизации.TSP был задокументирован Эйлером в 1759 году, который интересовался решением проблемы рыцарского похода [3]. Это фундаментальная проблема в области информатики, инженерии, исследования операций, дискретной математики, теории графов и так далее. TSP можно описать как минимизацию общего пройденного расстояния, совершив поездку по всем городам ровно один раз и вернувшись в город депо. Задачи коммивояжера (TSP) классифицируются на две группы на основе структуры матрицы расстояний: симметричные и асимметричные.TSP является симметричным, если,, где и представляют строку и столбец матрицы расстояний (затрат), соответственно, в противном случае асимметричным. Для городов есть возможные способы найти тур после фиксации начального города для асимметричного и его половины для симметричного TSP. Если у нас всего 10 городов, то существует 362 880 и 181 440 способов для асимметричного и симметричного TSP соответственно. Это причина сказать, что TSP — это NP-сложная проблема. TSP имеет множество приложений, таких как различные задачи маршрутизации и планирования, компьютерная проводка и перемещение людей, рентгеновская кристаллография [4], автоматическое сверление печатных плат и заправка сканирующих ячеек в тестируемом очень большом масштабе. Интегральные (СБИС) схемы [5].

За последние три десятилетия TSP привлекло большое внимание, и были предложены различные подходы для решения проблемы, такие как ветвь и граница [6], плоскости разделения [7], 2-opt [8], рой частиц [9], моделирование отжига [10], колония муравьев [11, 12], нейронная сеть [13], запретный поиск [14] и генетические алгоритмы [3, 15–17]. Некоторые из этих методов являются точными, другие — эвристическими. Комплексное исследование подходов ГА успешно применяется к TSP [18]. Обзор подходов к ГА для TSP был представлен Потвином [17].Новый последовательный конструктивный кроссовер создает качественное решение задачи TSP Ахмеда [19]. Новый генетический алгоритм асимметричного TSP предложен Нагатой и Солером [20]. Три новых варианта кроссовера порядка представлены с улучшениями Deep и Adane [21]. Ghadle и Muley представили модифицированный алгоритм с помощью программирования MATLAB для решения TSP [22]. Пивонска связала генетический алгоритм, основанный на прибыли, с TSP и получила хорошие результаты для тестирования на сетях городов в некоторых воеводствах Польши [23].Kumar et al. представили сравнительный анализ различных операторов кроссовера для TSP и показали, что частично отображенный кроссовер дает кратчайший путь [24]. Простой и чисто генетический алгоритм может быть определен в следующих шагах.

Шаг 1. Создайте начальную популяцию P-хромосом.

Шаг 2. Оцените пригодность каждой хромосомы.

Шаг 3. Выберите родителей P / 2 из текущей популяции с помощью пропорционального отбора.

Шаг 4. Случайным образом выберите двух родителей для создания потомства с помощью оператора кроссовера.

Шаг 5. Примените операторы мутации для незначительных изменений результатов.

Шаг 6. Повторяйте шаги 4 и 5, пока все родители не будут выбраны и повязаны.

Шаг 7. Заменить старую популяцию хромосом на новую.

Шаг 8. Оцените пригодность каждой хромосомы в новой популяции.

Шаг 9. Завершить, если количество поколений соответствует некоторой верхней границе; в противном случае переходите к шагу 3.

Критерии отбора, кроссовер и мутация являются основными операторами, но кроссовер играет жизненно важную роль в ГА. В литературе было предложено множество операторов кроссовера, и все они имеют большое значение. В этой статье мы также предложили новый оператор кроссовера для TSP, который перемещается в пределах двух выбранных родителей как предыдущий оператор кроссовера цикла. В разделе 2 мы представляем операторы кроссовера для TSP и предлагаем новый оператор кроссовера для представления пути в разделе 3; вычислительные эксперименты и обсуждение находятся в разделе 4, а заключение — в разделе 5.

2. Операторы кроссовера для TSP

В литературе существует множество представлений для решения TSP с использованием ГА. Среди этих двоичных представлений важны представления пути, смежности, порядкового номера и матрицы. Дополнительные типы этих представлений приведены в таблице 1. Мы ограничиваем себя только представлением пути, которое является наиболее естественным и законным способом представления тура и пропуска других представлений.

9095 9036 Классический + ремонтный4 1987 910 Matrix 910


Представление	Приводы кроссовера	Предлагаемый год

Двоичный
Частично отображенный кроссовер	1985
Порядок кроссовера	1985
Цикличный кроссовер	1987
Эвристический кроссовер
0 903 кроссовер на базе	1991

Смежность	Альтернативный кроссовер по краю	1985
	Эвристический кроссовер 1	1985

	0364
Эвристический кроссовер 3	1987

Порядковый	Классические приводы	1985

1987

2.1. Представление пути

Самый естественный способ представить юридический тур — это, вероятно, использовать представление пути. Например, тур можно представить просто как (1 4 8 2 5 3 6 7).

Поскольку TSP в комбинаторном представлении пути и классические операторы кроссовера, такие как одноточечный, двухточечный и равномерный переходы, не подходят, мы выбираем только частично отображенные, упорядоченные и циклические операторы кроссовера из представления пути, которые являются в основном используется в литературе, и мы также можем сравнить предложенный нами оператор кроссовера с этими операторами.

2.1.1. Оператор частично отображенного кроссовера

Частично отображенный кроссовер (PMX) был предложен Голдбергом и Линглом [25]. После выбора двух случайных точек отсечения на родителях для создания потомства, часть между точками отсечения, строка одного родителя отображается на строку другого родителя, а оставшаяся информация обменивается. Рассмотрим, например, два родительских обхода со случайным образом одной точкой отсечения между 3-м и 4-м битами и другой точкой отсечения между 6-м и 7-м битами, как показано ниже (две точки отсечения отмечены значком «»): секции отображения находятся между точками отсечения .В этом примере системами отображения являются, и. Теперь два раздела сопоставления копируются друг с другом для создания потомков следующим образом:

Затем мы можем заполнить дополнительные биты (от исходных родителей), для тех, которые не конфликтуют следующим образом:

Следовательно, первый в первом потомке 8, который исходит от первого родителя, но 8 уже находится в этом потомке, поэтому мы проверяем отображение и снова видим 1, существующее в этом потомке, снова проверяем отображение, поэтому 2 занимает сначала ×. Точно так же второе × в первом потомке — 6, которое происходит от первого родителя, но 6 существует в этом потомстве; мы также проверяем отображение, поэтому 7 занимает секунду.Таким образом, потомок 1 является Аналогично, мы завершаем также второе потомство:

2.1.2. Оператор перехода порядка

Пересечение порядка (OX) было предложено Дэвисом [26]. Он строит потомство, выбирая подмаркировку одного родителя и сохраняя относительный порядок битов другого родителя. Рассмотрим, например, два родительских обхода следующим образом (со случайными двумя точками отсечения, отмеченными знаком «»): Потомство производится следующим образом. Сначала биты копируются между разрезами аналогичным образом в потомок, что дает после этого, начиная со второй точки разреза одного родителя, биты из другого родителя копируются в том же порядке, исключая существующие биты.Последовательность битов во втором родительском элементе от второй точки отсечения — «.» После удаления битов 2, 7 и 1, которые уже находятся в первом потомке, новая последовательность будет «.» Эта последовательность помещается в первое потомство, начиная со второй точки отсечения:

Что такое алгоритм?

Алгоритм — это набор четко определенных инструкций, последовательных для решения проблемы.

Качества хорошего алгоритма

Вход и выход должны быть определены точно.
Каждый шаг в алгоритме должен быть четким и однозначным.
Алгоритмы должны быть наиболее эффективными среди множества различных способов решения проблемы.
Алгоритм не должен включать компьютерный код. Вместо этого алгоритм должен быть написан таким образом, чтобы его можно было использовать на разных языках программирования.

Примеры алгоритмов

Алгоритм сложения двух чисел

Алгоритм нахождения наибольшего из трех чисел

Алгоритм нахождения всех корней квадратного уравнения

Алгоритм нахождения факториала

Алгоритм проверки простого числа

Алгоритм серии Фибоначчи

Примеры алгоритмов в программировании

Алгоритм сложения двух чисел, введенных пользователем

Шаг 1. Начать
Шаг 2: Объявите переменные num1, num2 и sum.Шаг 3: Считайте значения num1 и num2.
Шаг 4: сложите num1 и num2 и присвойте результат сумме.
        сумма ← число1 + число2
Шаг 5: Показать сумму
Шаг 6: стоп

Найдите наибольшее число среди трех различных чисел

Шаг 1. Начать
Шаг 2: Объявите переменные a, b и c.
Шаг 3: Считайте переменные a, b и c.
Шаг 4: Если a> b
           Если a> c
              Отобразите максимальное число.
           Еще
              Отображение c - наибольшее число.
        Еще
           Если b> c
              Дисплей b - наибольшее число.Еще
              Дисплей c - наибольшее число.
Шаг 5: Остановить

Корни квадратного уравнения ax ² + bx + c = 0

Шаг 1. Начать
Шаг 2: Объявите переменные a, b, c, D, x1, x2, rp и ip;
Шаг 3: вычислить дискриминант
         D ← b2-4ac
Шаг 4: Если D ≥ 0
              r1 ← (-b + √D) / 2a
              r2 ← (-b-√D) / 2a
              Отобразите r1 и r2 как корни.
        Еще
              Вычислить действительную и мнимую часть
              rp ← -b / 2a
              ip ← √ (-D) / 2a
              Отображение rp + j (ip) и rp-j (ip) как корней
Шаг 5: Остановить

Факториал числа, введенного пользователем.

Шаг 1. Начать
Шаг 2: Объявите переменные n, факториал и i.
Шаг 3: инициализировать переменные
          факториал ← 1
          я ← 1
Шаг 4: Считайте значение n
Шаг 5: повторяйте шаги, пока i = n
     5.1: факториал ← факториал * i
     5.2: я ← я + 1
Шаг 6. Отображение факториала
Шаг 7. Остановить

Проверить, является ли число простым или нет

Шаг 1. Начать
Шаг 2: Объявите переменные n, i, flag.
Шаг 3. Инициализируйте переменные
        флаг ← 1
        я ← 2
Шаг 4: Прочтите n от пользователя.Шаг 5: повторяйте шаги до тех пор, пока i = (n / 2)
     5.1 Если остаток от n ÷ i равен 0
            флаг ← 0
            Перейти к шагу 6
     5.2 я ← я + 1
Шаг 6: Если flag = 0
           Дисплей n не простой
        еще
           Дисплей n простой
Шаг 7. Остановить

Найдите ряд Фибоначчи до члена ≤ 1000.

 Шаг 1. Начать
Шаг 2: Объявите переменные first_term, second_term и temp.
Шаг 3. Инициализируйте переменные first_term ← 0 second_term ← 1
Шаг 4.No related posts.

Алгоритм формирования контрольного числа номера вагона: Расшифровка номера вагона — ЖЕЛЕЗНОДОРОЖНИК.РФ

Расшифровка номера вагона — ЖЕЛЕЗНОДОРОЖНИК.РФ

Проверка

Принцип нумерации железнодорожных вагонов, значения цифр

Система нумерации вагонов

SDK распознавания номеров вагонов — Intlab Wagon

Правила 8-значной системы нумерации вагонов

Система нумерации вагонов

0… Пассажирские вагоны

1… Локомотивы, электропоезда, путевые машины

2… Крытые вагоны

3… Специализированные вагоны

4… Платформы

5… Собственные вагоны

6… Полувагоны

7… Цистерны

8… Изотермические вагоны

9… Специализированные вагоны

Кластеризация K-средних: алгоритм, приложения, методы оценки и недостатки | Имад Даббура

10 алгоритмов машинного обучения, которые необходимо знать | Автор: Сидат Асири,

1. Линейная регрессия

2. SVM (машина опорных векторов)

3. KNN (K-Nearest Neighbours)

4. Логистическая регрессия

5. Дерево решений

6. К-средние

7. Случайный лес

8. Наивный Байес

9. Алгоритмы уменьшения размеров

10. Алгоритмы повышения градиента

Алгоритмы машинного обучения для бизнес-приложений — полное руководство

Классификация

Байесовский классификатор

Классификатор дерева решений

Машины опорных векторов

Нейронные сети

Логистическая регрессия

Линейная регрессия

K-ближайших соседей

Заключение

Самоадаптивный алгоритм нечетких c-средних для определения оптимального количества кластеров

1. Введение

2. Связанные работы

2.1. Метод на основе индекса достоверности кластеризации

2.2. Эвристический метод

Генетический алгоритм для задачи коммивояжера с модифицированным оператором кроссовера цикла

1. Введение

2. Операторы кроссовера для TSP

2.1. Представление пути

2.1.1. Оператор частично отображенного кроссовера

2.1.2. Оператор перехода порядка

Что такое алгоритм?

Качества хорошего алгоритма

Примеры алгоритмов

Примеры алгоритмов в программировании

Добавить комментарий Отменить ответ