본문 바로가기

코딩 테스트(Coding test)/Lv. 2

[프로그래머스/C++] 문자열 압축

미숙한 블로그 주인이 코딩테스트 문제를 풀어가는 과정을 담은 글입니다. 이 풀이가 효율적인 풀이가 아닐 수 있으며, 부정확한 정보가 많이 있을 수 있습니다. 보완해야할 점이 있다면 댓글로 남겨주세요!

 

문자열 압축

https://programmers.co.kr/learn/courses/30/lessons/60057

 

코딩테스트 연습 - 문자열 압축

데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문

programmers.co.kr

문제

데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.
간단한 예로 "aabbaccc"의 경우 "2a2ba3c"(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다. 예를 들면, "abcabcdede"와 같은 문자열은 전혀 압축되지 않습니다. "어피치"는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.

예를 들어, "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다. 다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.

다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.

압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.

 

제한사항

s의 길이는 1 이상 1,000 이하입니다.
s는 알파벳 소문자로만 이루어져 있습니다.

 

풀이

입출력 예시

s result
"aabbaccc" 7
"ababcdcdababcdcd" 9
"abcabcdede" 8
"abcabcabcabcdededededede" 14
"xababcdcdababcdcd" 17

 

풀이

먼저 문자열을 어떻게 자를지를 생각해보자. 문자열은 처음부터 정해진 길이만큼 잘라야한다. 처음에는 하나씩, 다음으로는 두개씩, 점점 늘려가면서 말이다. 그렇게 잘라낸 문자열을, 다음 문자열과 비교해서 중복되는 만큼 수를 세어보자.

#include <string>

using namespace std;

int solution(string s) {
    int answer = 0;
    int count = 1; // 잘려진 문자열이 몇개 있는지 세아릴 변수
    string str; // 잘려진 문자열을 저장할 변수
    
    for (int i = 1; i <= s.length() / 2; i++) { // 문자열의 절반 이상을 자르게 되면 압축의 의미가 없다.
        str = s.substr(0, i);
        for (int j = i; j <= s.length(); j += i) {
            if (s.substr(j, i).compare(str) == 0) {
                count++;
            }
        }
    }
    
    return answer;
}

s.lengh() 는 문자열 s의 길이를 반환한다.

s.substr(j, i) 의 의미는 문자열 s의 j번째 인덱스부터 i개 만큼 잘라서 반환하라는 뜻이다.

s.compare(str) 은 str과 s를 비교하라는 의미다. 0이 반환된다면 문자열 s와 str이 같다는 뜻이다.

count를 1부터 시작하는 이유는, 2번째 for문에서 다음 덩어리부터 조사하기 때문에, 이미 잘려진 문자열을 세어주기 위해서다.

 

이제 압축된 문자열의 길이를 구해줘야한다. 이를 위해서 압축된 문자열을 구해보자. 압축된 문자열은, 잘려진 문자열의 수 + 잘려진 문자열의 형태로 표현된다. 단, 1은 생략한다. (ex, "aabbbc" → "2a3bc") 이를 코드에 반영시켜보자.

#include <string>

using namespace std;

int solution(string s) {
    int answer = 99999;
    int count = 1; // 잘려진 문자열이 몇개 있는지 세아릴 변수
    string str; // 잘려진 문자열을 저장할 변수
    string tmp = ""; // 압축된 문자열을 저장할 변수
    
    if (s.length() == 1) {
        return 1;
    }
    
    for (int i = 1; i <= s.length() / 2; i++) { // 문자열의 절반 이상을 자르게 되면 압축의 의미가 없다.
        str = s.substr(0, i);
        for (int j = i; j <= s.length(); j += i) {
            if (s.substr(j, i).compare(str) == 0) {
                count++;
            }
            else { // 다음 문자열이 같지 않으면 압축된 문자열을 저장시켜준다.
                if (count > 1) {
                    tmp += to_string(count) + str;
                    str = s.substr(j, i);
                }
                else { // count가 1이면 표기해줄 필요가 없다.
                    tmp += str;
                    str = s.substr(j, i);
                }
                count = 1;
            }
        }
        if (answer > tmp.length()) answer = tmp.length();
        tmp.clear();
    }
    
    return answer;
}

압축된 문자열을 구했으니, answer에 압축된 문자열의 길이와 answer의 값 둘 중 더 작은 값을 넣어주자. tmp는 잘리는 문자열의 길이에 따라 바뀔 것이므로 초기화해주는 과정을 추가시켜주자. 길이가 1인 문자열이 들어올 것을 대비해서 1을 반환하는 코드도 짜주었다. 끝났겠지 라는 생각으로 코드 실행을 눌러 결과를 확인해 보았다.

 

5개 중 3개의 값이 다르게 나왔다.

어디서 크게 잘못된 것 같다. 첫번째 테스트 케이스를 가지고 i의 값이 변할 때 마다 tmp의 값을 하나하나 확인해봤다.

실제출력
tmp : 2a2ba3c    tmp 길이 : 7
tmp : aabbaccc   tmp 길이 : 8
tmp : aabbac     tmp 길이 : 6
tmp : aabbaccc   tmp 길이 : 8

그러자, i가 3일때의 값이 기댓값 aabbaccc, 8과 다름을 알 수 있었다. s.substr(6, 3) 의 값이 s의 범위를 초과해서 생기는 것인가 싶어서 직접 확인해봤지만 결과는 정상적으로 나왔다.

s.substr(6, 3)의 출력
cc

그렇다면, tmp += str 이 작동하지 않았다는 말이 된다. 왜 그런지 생각해보니 너무 간단한 문제였다. j의 값이 9가 되어버려 s.length()의 값을 초과해 이하 코드들이 작동하지 않았기 때문이었다. (...) 나는 이 어이없는 실수를 뒤로하고, for문이 끝났을 때 남아있는 str의 값을 추가해주는 문구를 넣어주었다.

#include <string>

using namespace std;

int solution(string s) {
    int answer = 99999;
    int count = 1; // 잘려진 문자열이 몇개 있는지 세아릴 변수
    string str; // 잘려진 문자열을 저장할 변수
    string tmp = ""; // 압축된 문자열을 저장할 변수
    
    if (s.length() == 1) {
        return 1;
    }
    
    for (int i = 1; i <= s.length() / 2; i++) { // 문자열의 절반 이상을 자르게 되면 압축의 의미가 없다.
        str = s.substr(0, i);
        for (int j = i; j <= s.length(); j += i) {
            if (s.substr(j, i).compare(str) == 0) {
                count++;
            }
            else { // 다음 문자열이 같지 않으면 압축된 문자열을 저장시켜준다.
                if (count > 1) {
                    tmp += to_string(count) + str;
                    str = s.substr(j, i);
                }
                else { // count가 1이면 표기해줄 필요가 없다.
                    tmp += str;
                    str = s.substr(j, i);
                }
                count = 1;
            }
        }
        tmp += str; // 미처 추가되지 못한 잘린 문자열을 추가시켜준다.
        if (answer > tmp.length()) answer = tmp.length();
        tmp.clear();
    }
    
    return answer;
}

 

 

결과