- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date 16/04/05 19:19:04
Name   April_fool
Link #1   http://redtea.kr/pb/pb.php?id=free&no=2543
Subject   100점 이상의 단어를 찾아서.

새벽에 올렸던 [100점짜리 단어를 찾아서.](https://kongcha.net/pb/pb.php?id=free&no=2543)의 호응이 예상외로 대단히 좋은 것을 보고, 애프터서비스(?)로 후속 글을 써보기로 하였습니다.

먼저, 프로그램을 조금 수정하였습니다. 두 개로 나뉘어 있던 프로그램을 하나로 합치고, 단어 중 중복해서 나타나는 것이 사라지도록 하고, 커맨드라인에서의 리다이렉션 명령없이 바로 결과 파일(result.tsv)이 나타나도록 바뀌었습니다. 한 마디로, 그냥 실행만 하면 결과 파일이 튀어나오게끔 바꿨습니다.

#!/usr/bin/python3


import re, string

def score(text):
	a = list(text)
	b = 0
	for i in a:
		if i in string.ascii_letters:
			b = b + (ord(i.lower()) - 96)
	return b

ent = re.compile("<ent>.*</ent>")
dic = set([])

for a in string.ascii_uppercase:
	cide = "CIDE." + a
	with open(cide, mode="r", encoding="latin-1") as f0:
		f1 = f0.readlines()
	for b in f1:
		b = ent.findall(b)
		if b != []:
			c = b[0][5:-6]
			dic.add(c.lower())

t1 = list(dic)
t1.sort()

f2 = open("result.tsv", mode="w")
for i in t1:
	f2.write(i + "\t" + str(score(i)) + "\n")
f2.close()

이렇게 해서 중복을 없애고 보니, 총 단어 수가 11만 4766개로 줄었습니다. 그 중 100점짜리 단어는 총 1210개. 이게 진짜 제대로 된 결과값이라 할 수 있겠습니다. 참고로 모든 단어들의 평균 점수는 약 102.399점, 점수들의 중앙값은 딱 100점이었습니다.

그러면, 이 11만 개의 단어 중에서 가장 점수가 높은 건 뭐냐 하는 질문이 나올 겁니다. 예상할 수 있다시피, 글자 개수가 많으면 점수도 팍팍 올라갑니다. 제가 사용한 GCIDE 사전 파일에서 가장 높은 점수를 낸 표제어는 바로 “self-contained underwater breathing apparatus”(453점)라는 단어였습니다. 이게 뭐냐구요? 바로 스쿠바(SCUBA)입니다. 여러 단어를 줄인 줄임말을 풀어서 쓴 것이죠.

고득점을 올린 다른 단어들도 사정은 마찬가지였습니다. 점수 최상위 10개 표제어 중 단 1가지를 빼놓고 나머지는 모두 여러 개의 단어를 합친 것이었습니다. 근데 딱 하나, “methylenedioxymethamphetamine”(335점)이라는 무쟈게 긴 단어는 예외였습니다. 이거야말로 진정한 1등(!)이라고 할 수 있겠죠. 근데 이게 뭐냐고요?

https://www.google.com/search?q=methylenedioxymethamphetamine

MDMA


3,4-메틸렌디옥시메탐페타민 또는 일명 엑스터시로 더 잘 알려져 있는 향정신성 물질이다. 뇌 속에 세로토닌·도파민·노르아드레날린의 분비를 촉진시켜 환각을 일으킨다. 복용 후 30분에서 1시간 사이 서서히 작용하며 6시간~10시간 지속적이다. 이것은 헤어나오기 힘든 강한 마약 중 하나이다. 엑스터시를 복용한 상태에서는 갈증을 느끼지 못하기 때문에 심각한 탈수 증세를 일으킬 수 있다. 위키백과

히이이이이이이익!!!

…그러합니다. 뭐, “cardiopulmonary resuscitation”(358점)처럼 뭔가 좀 더 도움되는 단어도 있기는 합니다만…

여기에 고득점을 올린 상위 30개 표제어의 목록을 올려 둡니다.

  1. self-contained underwater breathing apparatus (453점)
  2. young women's christian association (397점)
  3. three-torque system of control (371점)
  4. woman's christian temperance union (359점)
  5. young men's christian association (359점)
  6. cardiopulmonary resuscitation (358점)
  7. federal national mortgage association (348점)
  8. vickers-maxim automatic machine gun (345점)
  9. interstate commerce commission (335점)
  10. methylenedioxymethamphetamine (335점)
  11. conditioned emotional response (327점)
  12. melamine-fromaldehyde methanal resin (327점)
  13. cretaceous-tertiary boundary (326점)
  14. american protective association (322점)
  15. mohorovicic discontinuity (312점)
  16. antidisestablishmentarianism (307점)
  17. pseudo-monocotyledonous (305점)
  18. extrasensory perception (304점)
  19. natural product chemistry (304점)
  20. transmission dynamometer (303점)
  21. relativistic mass equation (301점)
  22. switching power supply (298점)
  23. global positioning system (297점)
  24. continental pronunciation (296점)
  25. manic-depressive psychosis (295점)
  26. malopterurus electricus (294점)
  27. percussion instrument (292점)
  28. dow-jones industrial average (291점)
  29. hospitalisation insurance (291점)
  30. central nervous system (288점)

p.s.
이걸 직접 해보고 싶으신 분을 위해, 압축된 사전 파일의 링크를 걸어 둡니다. 위의 코드는 압축을 푼 사전 파일이 있는 디렉토리에 집어넣고 실행하면 됩니다. tsv 파일은 엑셀 등의 스프레드시트 프로그램으로 열 수 있습니다.




4
  • 이과 망했으면


기아트윈스
뿅가는 단어네요.

하지만 그 무엇도 efoooooooooooooooooooooooort로 이겨낼 수 있습니다.
April_fool
“efoooooooooooooooooooooooort”는 409점이네요. 스쿠바만 못합니다.
기아트윈스
노오력을 조금만 더 할걸 ㅜㅜ
관대한 개장수
이과는 망하는데 우리 정글러는 뭐하냐.
April_fool
다들 왜 저보고 이과라 그러시나요 저 취업 안되는 문돌이입니다 T_T
목록
번호 제목 이름 날짜 조회 추천
2851 IT/컴퓨터마이크로소프트, 브라우저 점유율 3위로 추락 19 Leeka 16/05/21 4834 0
2848 IT/컴퓨터안드로이드 N, 끊김없는 업데이트 기능 도입 16 Leeka 16/05/20 4133 0
2812 IT/컴퓨터한 달 만에 앱 개발을 마쳤습니다. 49 F.Nietzsche 16/05/15 6030 5
2768 IT/컴퓨터미국 IT 기업의 3년차 이하 연봉 조사 결과 7 Leeka 16/05/09 4501 1
2733 IT/컴퓨터주파수 경매가 끝났습니다. 7 Leeka 16/05/02 4779 0
2709 IT/컴퓨터요즘 게임에서 어뷰저를 걸러내는 방법 4 April_fool 16/04/28 5582 1
2652 IT/컴퓨터[불판] Tmax OS 발표회 33 뒷짐진강아지 16/04/20 5650 0
2651 IT/컴퓨터아이폰 SE 한국 가격이 공개되었습니다. 10 Leeka 16/04/20 5218 1
2561 IT/컴퓨터카멜 FMA-2 모니터암 간단 사용기 4 탄야 16/04/07 8939 0
2550 IT/컴퓨터100점 이상의 단어를 찾아서. 8 April_fool 16/04/05 7842 4
2543 IT/컴퓨터100점짜리 단어를 찾아서. 29 April_fool 16/04/05 14544 11
2509 IT/컴퓨터스마트워치 I5 Plus 간단 사용기 1 탄야 16/03/31 6957 0
2507 IT/컴퓨터마이크로소프트의 충격적인 발표 21 Azurespace 16/03/31 8443 2
2497 IT/컴퓨터최초의 웹브라우저 Mosaic 이야기 22 블랙자몽 16/03/30 5328 4
2475 IT/컴퓨터한국 지도 데이터가 해외로 반출이 가능해질것 같습니다. 4 Leeka 16/03/26 5045 0
2470 IT/컴퓨터인공지능 테이가 하루만에 오프라인이 된 사연 12 April_fool 16/03/25 6458 2
2466 IT/컴퓨터최근 국내 PC 웹브라우저 점유율의 변화 35 Toby 16/03/24 15777 3
2451 IT/컴퓨터데스크톱에서 여자친구 사진을 개선하는 신경망 5 April_fool 16/03/22 7105 1
2445 IT/컴퓨터얼굴 표정을 실시간으로 대역처리하기 5 Toby 16/03/21 5226 3
2438 IT/컴퓨터맥 사용한지 약 1년이 지난 후기 26 Leeka 16/03/21 7838 1
2426 IT/컴퓨터여자친구의 사진도 개선하는 신경망 22 Toby 16/03/18 8895 0
2407 IT/컴퓨터독일언론에서 긁어오기 - 알파고(4) 1 표절작곡가 16/03/15 6482 3
2397 IT/컴퓨터알파고의 약점이란 31 Azurespace 16/03/13 20822 8
2392 IT/컴퓨터독일언론에서 긁어오기 - 알파고(3) 3 표절작곡가 16/03/12 6690 1
2389 IT/컴퓨터알파고가 이겼군요. 35 Azurespace 16/03/11 8197 10
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글