[Baekjoon] 15829 Hashing

백엔드개발/Baekjoon

[Baekjoon] 15829 Hashing - JAVA

aaahyunseo 2024. 11. 16. 23:23

문제

APC에 온 것을 환영한다. 만약 여러분이 학교에서 자료구조를 수강했다면 해시 함수에 대해 배웠을 것이다. 해시 함수란 임의의 길이의 입력을 받아서 고정된 길이의 출력을 내보내는 함수로 정의한다. 해시 함수는 무궁무진한 응용 분야를 갖는데, 대표적으로 자료의 저장과 탐색에 쓰인다.

이 문제에서는 여러분이 앞으로 유용하게 쓸 수 있는 해시 함수를 하나 가르쳐주고자 한다. 먼저, 편의상 입력으로 들어오는 문자열에는 영문 소문자(a, b, ..., z)로만 구성되어있다고 가정하자. 영어에는 총 26개의 알파벳이 존재하므로 a에는 1, b에는 2, c에는 3, ..., z에는 26으로 고유한 번호를 부여할 수 있다. 결과적으로 우리는 하나의 문자열을 수열로 변환할 수 있다. 예를 들어서 문자열 "abba"은 수열 1, 2, 2, 1로 나타낼 수 있다.

해시 값을 계산하기 위해서 우리는 문자열 혹은 수열을 하나의 정수로 치환하려고 한다. 간단하게는 수열의 값을 모두 더할 수도 있다. 해시 함수의 정의에서 유한한 범위의 출력을 가져야 한다고 했으니까 적당히 큰 수 M으로 나눠주자. 짜잔! 해시 함수가 완성되었다. 이를 수식으로 표현하면 아래와 같다.

해시 함수의 입력으로 들어올 수 있는 문자열의 종류는 무한하지만 출력 범위는 정해져있다. 다들 비둘기 집의 원리에 대해서는 한 번쯤 들어봤을 것이다. 그 원리에 의하면 서로 다른 문자열이더라도 동일한 해시 값을 가질 수 있다. 이를 해시 충돌이라고 하는데, 좋은 해시 함수는 최대한 충돌이 적게 일어나야 한다. 위에서 정의한 해시 함수는 알파벳의 순서만 바꿔도 충돌이 일어나기 때문에 나쁜 해시 함수이다. 그러니까 조금 더 개선해보자.

어떻게 하면 순서가 달라졌을때 출력값도 달라지게 할 수 있을까? 머리를 굴리면 수열의 각 항마다 고유한 계수를 부여하면 된다는 아이디어를 생각해볼 수 있다. 가장 대표적인 방법은 항의 번호에 해당하는 만큼 특정한 숫자를 거듭제곱해서 곱해준 다음 더하는 것이 있다. 이를 수식으로 표현하면 아래와 같다.

보통 r과 M은 서로소인 숫자로 정하는 것이 일반적이다. 우리가 직접 정하라고 하면 힘들테니까 r의 값은 26보다 큰 소수인 31로 하고 M의 값은 1234567891(놀랍게도 소수이다!!)로 하자.

이제 여러분이 할 일은 위 식을 통해 주어진 문자열의 해시 값을 계산하는 것이다. 그리고 이 함수는 간단해 보여도 자주 쓰이니까 기억해뒀다가 잘 써먹도록 하자.

입력

첫 줄에는 문자열의 길이 L이 들어온다. 둘째 줄에는 영문 소문자로만 이루어진 문자열이 들어온다.

입력으로 주어지는 문자열은 모두 알파벳 소문자로만 구성되어 있다.

출력

문제에서 주어진 해시함수와 입력으로 주어진 문자열을 사용해 계산한 해시 값을 정수로 출력한다.

Small (50점)

1 ≤ L ≤ 5

Large (50점)

1 ≤ L ≤ 50

예제 입력 1

5
abcde

예제 출력 1

예제 입력 2

3
zzz

예제 출력 2

예제 입력 3

1
i

예제 출력 3

힌트

예제 1: abcde의 해시 값은 1 × 310 + 2 × 311 + 3 × 312 + 4 × 313 + 5 × 314 = 1 + 62 + 2883 + 119164 + 4617605 = 4739715이다.

예제 2: zzz의 해시 값은 26 × 310 + 26 × 311 + 26 × 312 = 26 + 806 + 24986 = 25818이다.

✏️ 제출 답안

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

public class Main {
    public static void main(String[] args) throws IOException {
        BufferedReader br = new BufferedReader(new InputStreamReader(System.in));

        final int R = 31;           // 해시값 계산 시 기준 값
        final int M = 123456891;    // 나눗셈에서 사용할 모듈 값(해시 값이 너무 커지지 않도록 특정 범위 내로 유지)

        int n = Integer.parseInt(br.readLine());
        String str = br.readLine();
        String[] strArr = str.split("");

        long res = 0;
        long powValue = (long) Math.pow(R, 0);

        int index;
        for (int i = 0; i < n; i++) {
            index = (int) (strArr[i].charAt(0))-96; // 알파벳 번호
            res += index * powValue % M;
            powValue = (powValue * R) % M;  // M으로 나눠 해시값 범위 내로 들어오도록 유지
        }

        res = res % M;  // mod M 수행
        System.out.println(res);
    }
}

R은 해시를 계산할 때 각 문자의 위치에 대해 곱해질 상수값.

M은 해시값이 너무 커지지 않도록 각 단계에서 나눌 모듈러 값.

R과 M은 기본적으로 상수로 지정해주었다.

첫 번째로 문자열의 길이인 n을 입력받고, 이어서 문자열 str을 입력받아 strArr 배열에 문자를 하나씩 쪼개어 저장한다.

res는 최종 해시값을 저장할 변수로 반복문을 실행하면서 값이 계속 더해질 것이므로 초기값을 0으로 설정한다.

powValue는 각 문자에 곱해질 R의 거듭제곱 값으로 초기 값은 R^0 = 1로 설정된다.

루프를 살펴보면, 각 문자를 알파벳 순서대로 1~26까지 숫자로 변환하여 index에 저장한다. 이때 원래 아스키코드 알파벳은 a가 97부터 시작하기 때문에 96씩 빼주는 것이다. index*powValue%M 은 문자의 값에 위치에 따른 가중치를 곱하고, M으로 나눈 값으로 연산 후 res에 더해준다. powValue는 매번 R을 곱해 업데이트되고, M으로 나눠서 계산 범위를 유지한다. 모든 문자를 처리한 후 res는 최종적으로 mod M 즉 M으로 나눈 나머지를 결과로 저장하고 출력한다.

이번 문제는 서브태스크 문제로 반만 성공했는데, Large 부분 조건을 만족하지 못한 것 같다. 이후에 조금 더 고민해본 후 구글링을 더 해보면서 조건을 완성시켜야겠다.

'백엔드개발 > Baekjoon' 카테고리의 다른 글

[Baekjoon] 1676 팩토리얼 0의 개수 - JAVA (0)	2024.11.18
[Baekjoon] 1874 스택 수열 - JAVA (0)	2024.11.17
[Baekjoon] 30802 웰컴 키트 - JAVA (7)	2024.11.15
[Baekjoon] 11866 요세푸스 문제0 - JAVA (4)	2024.11.14
[Baekjoon] 2164 카드2 - JAVA (0)	2024.11.13

현재글[Baekjoon] 15829 Hashing - JAVA

새싹's tistoryʕ•ᴥ•ʔ

https://github.com/aaahyunseo

dp, 티스토리챌린지, RStudio, R통계분석, db, 백준, inflearn, 데이터베이스, mysql, 딥러닝, BFS, 오블완, Kotlin, R, spring, DFS, Android Studio, DataScience, java, Baekjoon,

Today :
Yesterday :

새싹's tistoryʕ•ᴥ•ʔ