dedupe-medium

Какво е дедупликация на данните?

Чрез елиминирането на излишните части информация, компаниите могат да намалят около 90-95%  обема на своя архив (backup).

Дедупликацията (на англ. data deduplication или dedupe) е една от най-големите стъпки в развитието на архива през последните 2 десетилетия. Тя е една от причините да преминем по-бързо от лентов на дисков масив за архив и нейната популярност нараства с всеки изминал ден. Разбирането на различните видове дедупликация е важна за всеки, който се интересува от архив на своята информация.

Какво е дедуплиация на данните?

Дедпупликация е идентифицирането и елиминирането на излишните части информация в един файл. Дедупликацията може да намери излишни части информация м/у файлове в различни директории, разлини типове данни, дори в разлини сървъри на различни локации. Например, дедупликацитяа може да намери уникален тип информация в дадена таблица и да я архивира. Ако ние променим и архивираме тази таблица отново, то дедупликацията ще идентифицира и архивира само променената информация. Ако изпратите тази таблица по мейл на колега, то дедупликацията ще може да я идентифицира като същата таблица в inbox-a на колегата и да не я архивира цялата втори път, а само да запази пътеката до архивираната вече таблица.

Как работи дедупликацията?

Данните обикновено се разбиват на по-малки части (известни още като chunks). Това са една или поредица съседни части информация. Къде и как тези части се делят е обект на много различни начини и разработки. Достатъчно е да кажем, че всеки разбива данните на една поредица части, които всеки следващ път те се сравняват и се нанасят само променените части (chunks). Начинът, по който работи е както работят определени криптографни алгоритми като SHA-1, SHA-2 или SHA-256, които създават hash . Например при SHA-1 криптиране се създава следния hash израз:

„ЛИП Трейд“ ООД е компютърна фирма. е 330055515CEFCB3D3513FD51C2371256F13FB0BD

Ако hash изразите на две парчета информация (chunks) съвпадат, то те се смятат идентични. Дори минимални промени в информацията водят до промяна в hash израза.

„ЛИП Трейд“ ООД е средна компютърна фирма. вече е 14D9B11515A22F27C9BC67B555304DF58E22E937

Ако създадете 160-битов hash алгоритъм за 8МB парче информация (chunk), то тогава печелите почти 8MB място всеки път, когато архивирате същото парче. Ето защо дедупликацията пести доста място и се използва все повече и повече.

Целева дедупликация (target dedupe)

Най-често използваната техника днес е целевата дедупликация. Вие купувате някакво устройство за архив със цел да изпращате архивираната вече информация по мрежата на него. Цялата дедупликация (разбиването на части и сравняването им) се прави на самото целево устройство. Това позволява дедупликацията да работи без да сменятe софтуера, който ползвате за архив. Това позлволи на много компании да преминат от лентов на дисков носител за архивиране на информацията. Някои компании с по-голям бюджет използват да направят копие на своя архив и на други места. Една добра система на дедупликация може да намали размера на един обикновен файл с 99% , a размера на архива до 90%.

Клиентска дедупликация (source dedupe)

Както от името произлиза, то тази дедупилкация се прави при клиента (при източника на архив). Самото разбиване на архива става при клиента и след това hash израза се изпраща към сървъра за архив, който прави сравнението. Ако този сървър каже, че това парче информация е уникално, то тогава то е допуснато да се запише на диска като архив. Ако не е униклано, не се записва. Така се пести трафик и пространство. Проблемът е, че при клиента, където става дедупликацията се изсиква много процесорно време. Този метод обаче е предпочитан поради факта, че се пести много трафик при него. И е подходящ за отдалечен архив. Всяко устройства, компютър, лаптоп, телефон си прави дедупликацията на място.

Делът на целевата дедупликация е много по-голям от този на клиентската дедупликация. Има няколко причини за това. Една от тях е по-дългото време, при което се ползва целевата дедупликация и има повече продукти базирани на нея. Но най-голямата причина е, че вие можете да си ползвате организираната система за архив и да сменяте само целевите устройства, на които да се изпраща архвираната информация, докато въвеждането на клиентска дедупликация изисква подмяна на цялата инфраструктура за архив, вкл. софтуера и начина, покойто се прави архива.

Предимства/недостатъци на 2та вида дедупликация

Основното предимство на целевата дедупилкация е, че тя може да работи с всеки софтуер за архив. Недостатък е, че се нуждаете от устройства навсякъде, където трябва да архивирате дори на виртуално устройство. Голямото предимство на клиентската дедупликация е точно обратното. Тя може да се прави отвскъде. Тази нейна гъвкавост може да създаде ситуация, бързо сте архвирали информацията, но по-бавно да я възстановите при нужда. За това имайте това предвид.

Още по темата,

ПРЕПОРЪКИ ЗА ДОБЪР АРХИВ (BACKUP) НА ИНФОРМАЦИЯТА

 

При нужда от повече информация,

Обадете се или направете запитване.

От екип на „ЛИП Трейд“ ООД