대학원
사회과학 연구방법론-10 사회과학 데이터 분석 및 해석론
#Rhymbro
2026. 4. 8. 23:00
반응형
사회과학 데이터 분석 및 해석론
(The Logic of Analysis and Interpretation in Social Inquiry)
[Part 1] 분석의 전제: 쓰레기 데이터 걸러내기 (Data Cleaning)
목표: 분석 기법보다 더 중요한 '데이터 전처리'의 엄밀성을 배운다. "Garbage In, Garbage Out (GIGO)" 원칙.
1. 결측치(Missing Data)의 처리 전략
- 단순히 빠진 데이터를 삭제(Listwise Deletion)하는 것이 능사가 아니다. 결측의 패턴을 봐야 한다.
- MCAR (Missing Completely At Random): 완전 무작위 결측. 삭제해도 무방.
- MAR (Missing At Random): 다른 변수와 관련이 있는 결측. (예: 여성일수록 몸무게 응답을 안 함 → 성별로 보정 가능).
- MNAR (Missing Not At Random): 결측 자체가 정보인 경우. (예: 소득이 아주 높거나 낮은 사람이 응답 거부 → 삭제 시 편향 발생).
- 대안: 평균 대체법(Mean Imputation)보다는 **다중 대체법(Multiple Imputation)**이 현대적 표준이다.
2. 이상치(Outlier)와 정규성 검토
- 이상치: 단순 오타인가, 아니면 의미 있는 극단값인가? (예: 연봉 100억)
- 연구자의 판단 하에 윈저라이징(Winsorizing)하거나 별도 분석 수행.
- 통계적 가정: 회귀분석 등을 위한 정규성, 등분산성, 선형성 전제 조건 확인.
[Part 2] 양적 자료의 분석: 통계적 추론의 함정 탈출
목표: p-value의 노예가 되지 않고, 실질적인 의미(Substantive Significance)를 찾는다.
1. 기술 통계와 추론 통계
- 기술(Descriptive): 데이터의 생김새(평균, 표준편차, 왜도, 첨도)를 설명.
- 추론(Inferential): 표본을 통해 모집단의 모수를 추정하고 가설을 검증.
2. 변수 관계의 해부 (Elaboration Model) - Lazarsfeld
단순히 "X와 Y가 관계있다"는 것만으로는 부족하다. 제3의 변수(Z)를 투입하여 관계의 본질을 파헤쳐야 한다.
- 허위 관계 (Spuriousness): Z를 통제했더니 X → Y 관계가 사라짐. (가짜 관계)
- 매개 관계 (Mediation): X → Z → Y의 경로 확인. (Why & How 설명)
- 조절 관계 (Moderation): Z의 수준에 따라 X → Y의 강도가 달라짐. (Condition 설명)
- 억제 관계 (Suppression): Z를 통제했더니 안 보이던 X → Y 관계가 나타남.
3. 통계적 유의성(Statistical Significance) vs. 효과 크기(Effect Size)
- N수가 커지면 별로 중요하지 않은 차이도 p < .05가 나온다.
- p-value는 "우연이 아닐 확률"일 뿐, "효과가 크다"는 뜻이 아니다.
- 반드시 **효과 크기 (Cohen's d, R², η²)**를 함께 보고해야 한다.
[Part 3] 질적 자료의 분석: 코딩과 범주화
목표: 텍스트에서 패턴을 발견하고 이론을 구성하는 귀납적 논리를 익힌다.
1. 질적 분석의 핵심: 코딩(Coding)
- 개방 코딩 (Open Coding): 데이터를 줄 단위로 읽으며 개념(Concept)을 명명. (분해)
- 축 코딩 (Axial Coding): 개념들을 하위 범주와 상위 범주로 연결. (재조립)
- 선택 코딩 (Selective Coding): 핵심 범주(Core Category)를 중심으로 전체 스토리를 통합. (이론화)
2. 해석의 타당성 확보 (Trustworthiness) - Lincoln & Guba
- 양적 연구의 타당도/신뢰도에 대응하는 개념.
- 신빙성 (Credibility): 연구 참여자가 연구 결과에 동의하는가? (Member Checking)
- 전이가능성 (Transferability): 독자가 자신의 상황에 적용할 수 있는가? (Thick Description)
- 의존성 (Dependability): 연구 과정이 일관적인가? (Audit Trail)
- 확증성 (Confirmability): 연구자의 편견이 배제되었는가? (Triangulation)
[Part 4] 자료의 해석(Interpretation): 데이터에 입히는 스토리
목표: "분석 결과표"를 "지식"으로 변환하는 논문 작성(Discussion) 능력을 기른다.
1. 결과(Results) vs. 논의(Discussion)
- 결과: "표 3을 보면 X의 회귀계수가 0.45 (p < .01)로 나타났다." (Fact 나열)
- 논의: "이 결과는 X가 Y의 주요 예측 요인이라는 기존 A의 이론을 지지한다. 반면, Z변수의 조절 효과가 나타나지 않은 것은 한국 사회의 특수한 맥락 때문으로 해석된다." (Meaning 부여)
2. 해석의 3단계 확장
- 내적 해석: 가설이 지지되었는가? 기각되었다면 그 기술적/논리적 이유는 무엇인가?
- 외적 해석 (Contextualization): 선행 연구들과 비교했을 때 일치하는가, 충돌하는가? 충돌한다면 왜인가?
- 이론적/실천적 함의: 그래서 이 결과가 학계에 어떤 기여를 하는가? 정책적으로 무엇을 시사하는가?
3. 연구의 한계(Limitations) 기술법
- 비굴하게 사과하는 것이 아니라, **'연구의 범위(Scope)'**를 명확히 하는 것이다.
- "표본이 작다"에서 끝내지 말고, "따라서 이 결과를 전국 단위로 일반화하는 데는 주의가 필요하며, 후속 연구에서는 층화 표집이 권장된다"와 같이 미래 연구 방향으로 연결해야 한다.
[Part 5] 연구 윤리와 데이터의 정치학
목표: 데이터를 입맛대로 해석하는 유혹을 경계한다.
- p-Hacking (피해킹): 유의미한 결과(p < .05)가 나올 때까지 변수를 넣었다 뺐다 하며 분석 모델을 조작하는 행위 금지.
- HARKing (Hypothesizing After Results are Known): 결과를 보고 나서 원래 그런 가설을 세웠던 것처럼 사후에 가설을 수정하는 행위 금지.
- 체리 피킹 (Cherry Picking): 내 주장에 유리한 데이터만 골라서 보고하는 행위 금지.
[실습 과제]
- 양적 연구: 제공된 SPSS/R 출력 결과(Output)를 보고, 단순한 수치 읽기를 넘어 '사회과학적 함의'를 한 문단으로 작성하시오.
- 질적 연구: 제공된 인터뷰 녹취록 2페이지를 읽고, '개방 코딩'을 수행하여 핵심 개념 3가지를 도출하시오.
[추천 참고 문헌]
- Hair, J. F., et al., Multivariate Data Analysis. (다변량 분석의 바이블)
- Strauss, A., & Corbin, J., Basics of Qualitative Research. (근거이론의 정석)
- American Psychological Association (APA), Reporting Statistics in Psychology. (통계 결과 보고 방식 표준)
반응형