반응형

사회과학 데이터 분석 및 해석론

(The Logic of Analysis and Interpretation in Social Inquiry)


[Part 1] 분석의 전제: 쓰레기 데이터 걸러내기 (Data Cleaning)

목표: 분석 기법보다 더 중요한 '데이터 전처리'의 엄밀성을 배운다. "Garbage In, Garbage Out (GIGO)" 원칙.

1. 결측치(Missing Data)의 처리 전략

  • 단순히 빠진 데이터를 삭제(Listwise Deletion)하는 것이 능사가 아니다. 결측의 패턴을 봐야 한다.
    • MCAR (Missing Completely At Random): 완전 무작위 결측. 삭제해도 무방.
    • MAR (Missing At Random): 다른 변수와 관련이 있는 결측. (예: 여성일수록 몸무게 응답을 안 함 성별로 보정 가능).
    • MNAR (Missing Not At Random): 결측 자체가 정보인 경우. (예: 소득이 아주 높거나 낮은 사람이 응답 거부 삭제 시 편향 발생).
    • 대안: 평균 대체법(Mean Imputation)보다는 **다중 대체법(Multiple Imputation)**이 현대적 표준이다.

2. 이상치(Outlier)와 정규성 검토

  • 이상치: 단순 오타인가, 아니면 의미 있는 극단값인가? (예: 연봉 100억)
    • 연구자의 판단 하에 윈저라이징(Winsorizing)하거나 별도 분석 수행.
  • 통계적 가정: 회귀분석 등을 위한 정규성, 등분산성, 선형성 전제 조건 확인.

[Part 2] 양적 자료의 분석: 통계적 추론의 함정 탈출

목표: p-value의 노예가 되지 않고, 실질적인 의미(Substantive Significance)를 찾는다.

1. 기술 통계와 추론 통계

  • 기술(Descriptive): 데이터의 생김새(평균, 표준편차, 왜도, 첨도)를 설명.
  • 추론(Inferential): 표본을 통해 모집단의 모수를 추정하고 가설을 검증.

2. 변수 관계의 해부 (Elaboration Model) - Lazarsfeld

단순히 "X와 Y가 관계있다"는 것만으로는 부족하다. 제3의 변수(Z)를 투입하여 관계의 본질을 파헤쳐야 한다.

  • 허위 관계 (Spuriousness): Z를 통제했더니 X → Y 관계가 사라짐. (가짜 관계)
  • 매개 관계 (Mediation): X → Z → Y의 경로 확인. (Why & How 설명)
  • 조절 관계 (Moderation): Z의 수준에 따라 X → Y의 강도가 달라짐. (Condition 설명)
  • 억제 관계 (Suppression): Z를 통제했더니 안 보이던 X → Y 관계가 나타남.

3. 통계적 유의성(Statistical Significance) vs. 효과 크기(Effect Size)

  • N수가 커지면 별로 중요하지 않은 차이도 p < .05가 나온다.
  • p-value는 "우연이 아닐 확률"일 뿐, "효과가 크다"는 뜻이 아니다.
  • 반드시 **효과 크기 (Cohen's d, R², η²)**를 함께 보고해야 한다.

[Part 3] 질적 자료의 분석: 코딩과 범주화

목표: 텍스트에서 패턴을 발견하고 이론을 구성하는 귀납적 논리를 익힌다.

1. 질적 분석의 핵심: 코딩(Coding)

  • 개방 코딩 (Open Coding): 데이터를 줄 단위로 읽으며 개념(Concept)을 명명. (분해)
  • 축 코딩 (Axial Coding): 개념들을 하위 범주와 상위 범주로 연결. (재조립)
  • 선택 코딩 (Selective Coding): 핵심 범주(Core Category)를 중심으로 전체 스토리를 통합. (이론화)

2. 해석의 타당성 확보 (Trustworthiness) - Lincoln & Guba

  • 양적 연구의 타당도/신뢰도에 대응하는 개념.
    • 신빙성 (Credibility): 연구 참여자가 연구 결과에 동의하는가? (Member Checking)
    • 전이가능성 (Transferability): 독자가 자신의 상황에 적용할 수 있는가? (Thick Description)
    • 의존성 (Dependability): 연구 과정이 일관적인가? (Audit Trail)
    • 확증성 (Confirmability): 연구자의 편견이 배제되었는가? (Triangulation)

[Part 4] 자료의 해석(Interpretation): 데이터에 입히는 스토리

목표: "분석 결과표"를 "지식"으로 변환하는 논문 작성(Discussion) 능력을 기른다.

1. 결과(Results) vs. 논의(Discussion)

  • 결과: "표 3을 보면 X의 회귀계수가 0.45 (p < .01)로 나타났다." (Fact 나열)
  • 논의: "이 결과는 X가 Y의 주요 예측 요인이라는 기존 A의 이론을 지지한다. 반면, Z변수의 조절 효과가 나타나지 않은 것은 한국 사회의 특수한 맥락 때문으로 해석된다." (Meaning 부여)

2. 해석의 3단계 확장

  1. 내적 해석: 가설이 지지되었는가? 기각되었다면 그 기술적/논리적 이유는 무엇인가?
  2. 외적 해석 (Contextualization): 선행 연구들과 비교했을 때 일치하는가, 충돌하는가? 충돌한다면 왜인가?
  3. 이론적/실천적 함의: 그래서 이 결과가 학계에 어떤 기여를 하는가? 정책적으로 무엇을 시사하는가?

3. 연구의 한계(Limitations) 기술법

  • 비굴하게 사과하는 것이 아니라, **'연구의 범위(Scope)'**를 명확히 하는 것이다.
  • "표본이 작다"에서 끝내지 말고, "따라서 이 결과를 전국 단위로 일반화하는 데는 주의가 필요하며, 후속 연구에서는 층화 표집이 권장된다"와 같이 미래 연구 방향으로 연결해야 한다.

[Part 5] 연구 윤리와 데이터의 정치학

목표: 데이터를 입맛대로 해석하는 유혹을 경계한다.

  1. p-Hacking (피해킹): 유의미한 결과(p < .05)가 나올 때까지 변수를 넣었다 뺐다 하며 분석 모델을 조작하는 행위 금지.
  2. HARKing (Hypothesizing After Results are Known): 결과를 보고 나서 원래 그런 가설을 세웠던 것처럼 사후에 가설을 수정하는 행위 금지.
  3. 체리 피킹 (Cherry Picking): 내 주장에 유리한 데이터만 골라서 보고하는 행위 금지.

[실습 과제]

  1. 양적 연구: 제공된 SPSS/R 출력 결과(Output)를 보고, 단순한 수치 읽기를 넘어 '사회과학적 함의'를 한 문단으로 작성하시오.
  2. 질적 연구: 제공된 인터뷰 녹취록 2페이지를 읽고, '개방 코딩'을 수행하여 핵심 개념 3가지를 도출하시오.

[추천 참고 문헌]

  • Hair, J. F., et al., Multivariate Data Analysis. (다변량 분석의 바이블)
  • Strauss, A., & Corbin, J., Basics of Qualitative Research. (근거이론의 정석)
  • American Psychological Association (APA), Reporting Statistics in Psychology. (통계 결과 보고 방식 표준)
반응형

+ Recent posts