Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

In value[[3L]](cond) : can't processing #54

Open
jisu1223 opened this issue Apr 18, 2018 · 20 comments
Open

In value[[3L]](cond) : can't processing #54

jisu1223 opened this issue Apr 18, 2018 · 20 comments

Comments

@jisu1223
Copy link

data = extractNoun('울고싶다 왜 안되는지 정말 모르겠다')
java.lang.StringIndexOutOfBoundsException: String index out of range: -1
at java.lang.String.substring(String.java:1967)
at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
at kr.pe.freesearch.jhannanum.comm.HannanumInterface.extractNoun(HannanumInterface.java:141)
Warning message:
In value[3L] :
can't processing '울고싶다 왜 안되는지 정말 모르겠다'.

@yerimlim
Copy link

저도 같은 오류로 고생중입니다. 왜 안 되는걸까요

@hyohyo-yoo
Copy link

해결방법이 없나요..아무리 해도 안되네요

@seonghobae
Copy link

Java 버전에 따라 동작하지 않을 수 있습니다. Java 8 버전에서 시도해 보셨는지 궁금합니다.

@shrewdact
Copy link

https://gumu.kr/blog/1010/r-konlp%ED%8C%A8%ED%82%A4%EC%A7%80-%EC%84%A4%EC%B9%98-%EC%98%A4%EB%A5%98fail-to-install-scala-library-2-11-8-jar/
이 글을 참고하세요. Maven Repo 정책 때문에 scala.....jar 파일이 없는 문제가 생길 수 있습니다.

@seonghobae
Copy link

흠, 그 문제군요. 그렇다면 CRAN 관리자가 2월 1일에는 CRAN에서 걷어 낼 겁니다. 문제는 개발자님께서 2월 중순까지 손을 못 대신대요.

@hyohyo-yoo
Copy link

hyohyo-yoo commented Jan 31, 2020

shrewdact 님이 올려주신 링크로 폴더 덮어씌웠는데도 여전히 문제가 발생하네요.. 제경우엔 처음에 패키지 설치 오류 문제가 발생하다, 폴더 재설치후에는 해결했는데 여전히 아래와 같은 문제가 발생합니다.

sentence <- "명사인지 제발 판명해줘"
extractNoun(sentence)
[1] "명사인지 제발 판명해줘"
Warning message:
In value[3L] : can't processing '명사인지 제발 판명해줘'.

sapply(c("R은 free 소프트웨어이고, [완전하게 무보증]입니다.", "일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다."), extractNoun,USE.NAMES = F)
[1] "R은 free 소프트웨어이고, [완전하게 무보증]입니다."
[2] "일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다."
Warning messages:
1: In value[3L] :
can't processing 'R은 free 소프트웨어이고, [완전하게 무보증]입니다.'.
2: In value[3L] :
can't processing '일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다.'.

아예 명사만 추출하는 함수 자체가 먹히질 않는 것 같습니다
참고로 Java 버전은 8.231 입니다.

@shrewdact
Copy link

shrewdact commented Jan 31, 2020

Sysenv 로 JAVA_HOME을 R 프로세스가 알수 있도록 잡아주시고
rJava 패키지를 설치한후
해보세요

주의할 점은 수동으로 scala....jar 파일을 복사한 후에는 다시 install.pacakge('KoNLP')를 실행시키면 안됩니다,
왜냐면 다시 scala....jar 파일이 없어지는 상태가 되기 때문입니다.

@hyohyo-yoo
Copy link

네.. 안그래도 자바문제가 항상 있었어서 Sys.setenv(JAVA_HOME="C:\Program Files\Java\jre1.8.0_231") 를 매번 해주는데도 문제가 생기네요
해보고 안되면 다른 pc로도 시도해봐야겠습니다. 감사합니다.

@shrewdact
Copy link

shrewdact commented Jan 31, 2020

Sys.setenv(JAVA_HOME="C:\Program Files\Java\jre1.8.0_231") # 이렇게 하시면 안됩니다. 
 Sys.setenv(JAVA_HOME="C:\\Program Files\\Java\\jre1.8.0_231")  #역슬래쉬를 두개 해야해요. 이건 프로그래밍 적인 것이니까 Escape Character 로 구글링해보세요.

@hyohyo-yoo
Copy link

역슬래쉬 두개입니다 ! 여기로 복붙하니 슬래시하나가 지워지네요

C:\Program Files\Java\jre1.8.0_231

@shrewdact
Copy link

알고 계시군요 ^^

@seonghobae
Copy link

사실은... 슬래시 (/) 하나만 쓰셔도 됩니다.

@shrewdact
Copy link

그런가요? ㅎㅎㅎ 전 안되는데요

@JihyeLee-kr
Copy link

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다.
지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다.
데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

@seyong
Copy link
Contributor

seyong commented Oct 8, 2020

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다.
지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다.
데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

@JihyeLee-kr
Copy link

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다.
지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다.
데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다.
네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다.

In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜
그 이후에 내용이 공백으로 들어가는 것 같습니다.

java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)

@seyong
Copy link
Contributor

seyong commented Oct 12, 2020

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다.
지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다.
데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다.
네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다.

In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜
그 이후에 내용이 공백으로 들어가는 것 같습니다.

java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)

간단하게 50000건의 NSMC테스트데이터로 살펴봤습니다. 특정케이스 하나에서 에러가 발생했습니다. SentenceSegment가 제대로 이루어지지 않아 에러가 발생했고, 에러를 야기시킨 값이 버퍼에 지워지지않고 남아있어 그 뒤로 모든 문장들이 같은 에러를 일으킵니다. KoNLP가 아닌 HanNanum-Analyzer쪽에서 처리해야하므로 현재로서 최선의 방법은 에러를 발생시킨 케이스를 찾아 전처리를 해주셔야합니다. 제가 찾은 케이스는 "{문장} . . .;;;" 입니다. 풀스탑뒤에 이어지는 세미콜론들로 인해 SentenceSegment가 제대로 이루어지지 않았습니다. 풀스탑사이에있는 공백값들을 지워주시면 아마 해결될것으로 생각됩니다.

@JihyeLee-kr
Copy link

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다.
지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다.
데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다.
네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다.
In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜
그 이후에 내용이 공백으로 들어가는 것 같습니다.

java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)

간단하게 50000건의 NSMC테스트데이터로 살펴봤습니다. 특정케이스 하나에서 에러가 발생했습니다. SentenceSegment가 제대로 이루어지지 않아 에러가 발생했고, 에러를 야기시킨 값이 버퍼에 지워지지않고 남아있어 그 뒤로 모든 문장들이 같은 에러를 일으킵니다. KoNLP가 아닌 HanNanum-Analyzer쪽에서 처리해야하므로 현재로서 최선의 방법은 에러를 발생시킨 케이스를 찾아 전처리를 해주셔야합니다. 제가 찾은 케이스는 "{문장} . . .;;;" 입니다. 풀스탑뒤에 이어지는 세미콜론들로 인해 SentenceSegment가 제대로 이루어지지 않았습니다. 풀스탑사이에있는 공백값들을 지워주시면 아마 해결될것으로 생각됩니다.

넵 답변 감사드립니다!

@daeunni
Copy link

daeunni commented Nov 29, 2021

안녕하세요, 혹시 Mac-M1 유저분들 중에서 위와 같은 error를 해결하신 분이 계실까요? 방법을 공유 받고 싶습니다 !

 > extractNoun(s)
 [1] "아버지가 방에 스르륵 들어가신다"
 경고메시지(들): 
 value[[3L]](cond)에서: can't processing '아버지가 방에 스르륵 들어가신다'.

@seyong
Copy link
Contributor

seyong commented Nov 29, 2021

안녕하세요, 혹시 Mac-M1 유저분들 중에서 위와 같은 error를 해결하신 분이 계실까요? 방법을 공유 받고 싶습니다 !

 > extractNoun(s)
 [1] "아버지가 방에 스르륵 들어가신다"
 경고메시지(들): 
 value[[3L]](cond)에서: can't processing '아버지가 방에 스르륵 들어가신다'.

M1의 문제인지 아니면 다른 문제인지 확인이 필요하니, 더 많은 정보를 제공해주시면 한번 살펴보도록 하겠습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

8 participants