image_pdfimage_print

데이터 절감(중복제거+압축)은 데이터를 저장하는데 필요한 Raw Capacity를 감소시켜 주기 때문에 올플래시 어레이의 총소유비용(TCO)에 막대한 영향을 미칩니다. 이는 초기 투자 비용을 감소시켜 주며 동시에 미래 비용을 절감해줍니다. 평균 5:1의 데이터 절감률이 퓨어스토리지 플래시어레이(FlashArray)에서 얼마나 비용을 절감해주는지 예를 들자면, 100TB의 유효 용량을 확보하기 위해 단지 35TB의 플래시만 구매하면 됩니다.

 

이와 대조적으로 데이터 절감 기능이 없는 레거시 어레이에서는 125TB의 Raw Capacity가 필요합니다.

이는 100TB 마다 90TB를 절약할 수 있다는 말과 같습니다. 초기 도입비용과 운영 비용(전력 소비/냉각/상면)을 획기적으로 절감하고 최고 성능을 요구하는 워크로드뿐만 아니라 일반적인 워크로드에도 부담 없이 올플래시 어레이를 사용할 수 있습니다. 퓨어스토리지는 올플래시 어레이에 반드시 필요한 데이터 절감 기술을 선도하고 있습니다.

 

그리고 퓨어스토리지의 데이터 절감은 단순하면서 상시 구동됩니다.

모든 고객이 성능에 미치는 영향이나 튜닝 작업 없이 효율적인 절감 혜택을 누릴 수 있습니다. 퓨어스토리지가 이러한 성과를 위해 많은 노력을 기울였기 때문에 고객은 스토리지를 관리할 필요도 없고 관리에 대해 생각할 필요도 없습니다. 아무런 타협 없이 그저 혜택을 누리기만 하면 됩니다.

지난 몇 년간, NetApp, Dell-EMC 및 HPE는 데이터 절감에 대한 다양한 접근방식을 취해왔습니다. 이 기업들은 중복 제거, 압축 또는 이 두 가지 기능을 수십 년 된 구형 레트로핏(Retrofit) 올플래시 스토리지에 추가적인 기능으로 넣었습니다. 중요한 차이는 데이터 절감이 상시 구동되는 것이 아니라 스위치를 수동으로 켜야 실행된다는 것입니다. 레거시 공급업체들은 이러한 On/Off 데이터 절감이 더 큰 유연성과 효율성을 제공한다고 주장합니다. 과연 그럴까요? 아니면 방대한 복잡성을 추가하여 고객들이 성능과 효율성 사이에서 선택하도록 강요하기 위한 것에 불과할까요?

이 블로그에서는 후자라는 주장을 뒷받침해드리도록 하겠습니다. NetApp 스토리지가 좋은 예입니다. 모든 레트로핏 올플래시 어레이에는 본질적으로 성능 vs. 효율성 vs. 단순함 간의 동등한 타협이 존재합니다. 이러한 타협은 고객이 데이터 감소를 설정하거나 혹은 비핵심적인 워크로드의 사용에만 그치도록 합니다. 그러므로 데이터 절감으로 인한 혜택은 전부 또는 거의 대부분 사라지게 됩니다.

반면, 퓨어스토리지의 고객들은 클라우드 시대를 위한 플래시 어레이에 내장된 업계 선도적인 상시 데이터 절감 기능으로 보통 2배 이상의 데이터 절감 혜택을 얻을 수 있습니다. 더 자세한 정보를 원하시면 계속 읽어주십시오.

 

데이터 절감이 상시 구동되지 않는 이유는 무엇일까요?                           

클라우드 시대에, 기능 선택버튼과 튜닝을 최소화(및 제거)해서 얻을 수 있는 간단함은 자동화와 민첩성을 가능하게 하는데 핵심적인 역할을 합니다. 데이터 절감이 성능에 전혀 영향을 미치지 않는다면, 항상 구동하는 것이 좋습니다. 레트로핏 올플래시 어레이의 경우에는 해당되지 않는 얘기입니다.

NetApp의 OnTap9 문서를 자세히 살펴보면 데이터 절감이 성능에 영향을 미친다는 사실을 눈치 챌 수 있습니다.

“시스템에 랜덤 읽기 볼륨이 많은 경우나 더 높은 성능이 요구되는 경우, adaptive compression을 권장합니다. 데이터가 순차적으로 쓰여지는 경우와 더 높은 압축 절감이 요구되는 경우 secondary compression을 권장합니다.”

추가적인 압축기능이 설정된 상태에서 시간이 지남에 따라서 랜덤 읽기의 양이 급격히 증가하면 어떤 일이 발생할까요? 그러나 그러한 일이 발생하기 전에, 고객은 자사의 워크로드 특징을 먼저 파악해야만 합니다. 클라우드 시대에 이러한 일은 시간과 노력의 낭비입니다. 자세히 설명해드리겠습니다.

혼란을 가중시키는 사실은, 레트로핏 올플래시 어레이의 성능 사양에는 데이터 절감이 포함되어 있지 않으며, 공급업체가 이 기능을 크게 선전하지도 않는다는 겁니다. 때문에 데이터 절감 기능이 켜진 후 이러한 스토리지의 ‘실제’ 성능이 과연 어떨지 전혀 알 수가 없습니다.

퓨어스토리지의 플래시어레이(FlashArra)y와 플래시블레이드(FlashBlade)의 데이터 절감 기능은 상시 구동됩니다. 성능 사양에도 데이터 절감의 혜택이 포함되어 있습니다. 결과적으로 고객은 애플리케이션에 필요한 성능과 기대치를 충족하는 스토리지라는 확신을 가질 수 있습니다.

 

중복제거, 압축 또는 이 두 기능을 켜야 하는지 사전에 어떻게 알 수 있을까요?

물론 간단한 방법이 있긴 합니다. 중복 제거는 가상 서버와 가상 데스크탑에서 가장 효과적이고, 압축은 데이터베이스에서 효과적입니다. 그러나 이는 적용이 좀 까다로울 수 있습니다. 다음 예를 고려해보십시오. 고객이 어떤 워크로드를 구현할지 알지 못하는 클라우드 서비스 공급업체나 대기업에게 이는 어떤 의미가 있을까요? 압축이 대개 데이터베이스에 효과적이지만, 중복제거 또한 절감 혜택을 제공합니다. 동일한 데이터베이스의 여러 복사본이 존재하는 경우가 종종 있기 때문입니다. 이를 파악할 수 있는 실질적인 방법은 중복제거와 압축을 실행해 보는 것입니다.

감수해야 하는 내재적 위험이 존재합니다. 데이터 절감 기능을 켜면 성능이 영향을 받을 수도 있다는 사실을 알면서 운영 워크로드를 걸고 위험을 감수할 관리자가 몇이나 될까요? 지금까지의 경험에 비춰보면, 가장 합리적인 관리자들은 애플리케이션에 영향을 줄 수 있는 성능상의 위험을 추가하느니 효율성에 따르는 혜택을 희생하는 쪽을 택합니다. 이해할만한 일입니다. 그러나 바람직한 일은 아닙니다.

 

이러한 위험을 배가시키는 것은 데이터 절감 기능을 실행해서 성능이 허용할 수 없는 수준으로 떨어지면, 다시 그냥 기능을 끄고 즉시 데이터 절감 상태 이전으로 돌이킬 수가 없다는 사실입니다. 중복제거/압축된 상태의 데이터를 원래의 상태로 복원해야 하기 때문입니다. 이는 추가적인 성능 오버헤드/패널티가 생긴다는 말입니다. 이외에도 데이터 절감 기능을 끔으로써 (더 위험한) 결과가 발생할 수 있습니다. 절감되지 않은 데이터를 저장하려면 볼륨에 충분한 가용 공간이 있어야 하기 때문입니다.  저장공간 부족은 절대 피해야 할 상황입니다. NetApp의 OnTap9 문서에 기술 지원을 먼저 요청하라고 적혀 있는 것도 아마 그러한 이유 중 하나일 것입니다.

“볼륨에서 스토리지 효율성 관련 기능을 중지하여서 공간 절감을 사용하지 않을 수 있습니다. 볼륨의 공간 절감 기능을 제거 또는 취소하기 전에 반드시 기술 지원팀에 연락하십시오.”

상시 구동되는 데이터 절감기능은 워크로드별로 데이터 절감 관련 설정을 사전 설정하거나 벤더로부터의 기술지원이 요구되는 복잡한 설정을 하지 않고도 자동으로 중복제거/ 압축의 혜택을 누릴 수 있게 해줍니다.

 

중복제거, 압축 또는 이 둘 모두를 수동으로 관리하는 것이 얼마나 복잡할까요?

간단하게 말씀 드리면, 대단히 복잡합니다! NetApp AFF A-Series에서 데이터 절감을 관리하는 것과 관련된 잠재적인 단계들을 알려드리겠습니다. 이는 NetApp 제품 문서에 대한 검토에 기반한 것입니다.

전체적으로 약 12가지 단계를 거칩니다.

NetApp에서 데이터 절감을 설정하는 과정은 메타데이터의 중복제거를 위한 충분한 공간이 있는지 Aggregate 및 FlexVol 레벨에서 확인하는 것에서 시작됩니다. 실시간 중복제거와 압축이 AFF A-Series에서 ON으로 기본 설정되어 있지만, 그대로 둘지 아니면 OFF 상태로 바꿀지를 결정해야 합니다. 그리고 앞서 말씀 드린 상황에 따라 Adaptive나 Secondary로 압축을 설정해야 합니다.

이러한 결정을 내린 후에는 스케줄 유형을 설정하고, 최대 8회의 중복제거 또는 압축 작업이 노드 당 동시적으로 실행되도록 스케줄을 조율해야 합니다.  데이터 보호를 위해서 스냅샷을 사용하는 경우, 스냅된 데이터에서는 중복제거가 되지 않는 점에 유의해야 합니다. 그렇기 때문에 스냅샷을 생성하기 전에 백그라운드 중복제거 작업이 정기적으로 수행되도록 해야 합니다.

 

마지막으로 메타데이터의 중복제거를 위해 충분한 여유 공간이 남아 있는지 지속적으로 확인해야 합니다.

이 기능들에 대한 세부 설정은 이를 한층 더 복잡하게 만듭니다. 중복제거와 압축이 Aggregate와 FlexVol 레벨에서 구동되기 때문에, 잠재적으로 수백 개의 Aggregate과 FlexVol에서 이 단계들을 반복해야 합니다. 그리고 시간이 지나 워크로드의 특성이 변경되거나 새로운 워크로드가 추가되면 이 과정을 다시 확인해야 합니다. 복잡성을 기꺼이 감수한다고 해도, 대규모로 이러한 수준의 복잡성을 관리하다 보면 오류가 발생하기 마련이고 이는 시간이 지나면서 더 복잡해져 의도하지 않은 결과로 연결될 수 있습니다.

절대 즐거운 시나리오는 아닙니다. 퓨어스토리지도 같은 생각입니다. 다행스럽게도, 퓨어스토리지의 상시 구동되는 데이터 절감 기능으로 이러한 복잡성을 완전히 피할 수 있습니다.

 

On/Off 데이터 절감은 전체적으로 어떠한 영향을 미칠까요?

알려지지 않은 성능 타협과 복잡성은 확보할 수 있는 유효 용량과 스토리지 구매의 총소유비용(TCO)에 직접적인 영향을 미칩니다. 어레이에서 데이터 절감기능을 아예 꺼버리거나 비핵심적인 워크로드를 지원하는 볼륨들에만 사용되도록 제한할 수 있습니다. 이로 인해 데이터 절감으로 얻어지는 대부분의 효율성 절감 혜택, 아니 모든 절감 혜택을 포기하게 될 수 있습니다. 이로 인해 TCO가 증가될 뿐만 아니라, 원하지 않은 결과 즉, 유효 용량 부족이 발생합니다. 견적서에 포함된 유효 용량은 데이터 절감의 혜택을 가정했을 것입니다. 그리고 데이터 절감이 없는 실제 유효 용량은 훨씬 적을 수 있습니다. 물론 레거시 공급업체와 협상해 이러한 단점을 보완하도록 무료 용량을 포함해 줄 것을 요구할 수 있습니다. 그러나 공급업체는 십중팔구 첫 번째 단계로 데이터 절감을 활성화하라고 권할 것입니다. 처음부터 피하고자 했던 성능과 효율성 간의 타협 딜레마를 언급하면서 말입니다.

 

공급업체들에게 어떤 질문을 해야 할까요?

시중에서 올플래시 어레이를 발견하면 어레이에서의 On/Off 데이터 절감 접근방식이 어떠한 영향을 미치는지 보다 명확해지도록 몇 가지 질문을 할 필요가 있습니다.

1)    왜 중복제거/압축이 상시 구동되지 않습니까?

2)    (대규모에서) 중복제거/압축을 구동하면 성능에 어떤 영향이 있습니까?

3)    중복제거/압축을 끄면 성능에 어떤 영향이나 손실이 있습니까?

4)    중복제거/압축을 켜고 끄려면 어떤 단계를 거쳐야 합니까?

5)    특정 워크로드가 중복제거나 압축 또는 둘 모두로 혜택을 얻을지 사전에 어떻게 알 수 있습니까?

6)    어레이의 워크로드를 위한 중복제거/압축을 언제 재계산할  필요가 있는지 어떻게 알 수 있습니까?

7)   중복제거/압축 스케줄과 스냅샷 스케줄 간에는 (어떤) 종속관계가 있습니까?

8)   얼마나 많은 중복제거/압축 작업을 병렬적으로 수행할 수 있습니까?

9)    중복제거/압축을 켜고 끄면 플래시메모리가 쉽게 마모되지 않습니까?

 

요점

데이터 절감기능은 스토리지를 효율적으로 활용할 수 있도록 하여 줍니다. 이는 초기 비용을 감소시키고 향후 비용 지출을 최소화하여 줍니다. 레트로핏 올플래시 어레이를 공급하는 업체들은 데이터 절감 기능을 켜고 끌 수 있다는 것을 “유연성”이라고 선전하지만, 이는 고객들이 성능, 효율성, 그리고 간단함 사이에 선택하도록 강요하는 것이나 다름 없습니다. 퓨어스토리지의 클라우드 시대를 위한 플래시 어레이가 제공하는 상시 구동되는 데이터 절감기능은 아무런 타협 없이 이 세 가지 혜택을 누릴 수 있도록 지원합니다.